Image default
ArtículosFeaturedNoticiasSoftwareTarjetas de VideoTecnología

AMD Radeon RX 7900 Series: Detalles de su Arquitectura y Nuevas Tecnologías

Hoy, AMD revela mas detalles de sus próximas tarjetas gráficas Radeon RX 7900 XTX y Radeon RX 7900 XT. Tuvimos algunos detalles con el anuncio del 3 de noviembre, pero AMD quería mantener algunos datos adicionales hasta hoy, justo antes del lanzamiento de Nvidia RTX 4080.

Estas nuevas GPU de AMD están preparadas para competir con las mejores tarjetas gráficas, y esperamos que ambas lleguen el 13 de diciembre, para saber que tanto mejoraron respecto de su generación anterior, y frente a la competencia. También les presentamos una inmersión profunda en la arquitectura AMD RDNA 3, una mirada a las relaciones de juegos e ISV de AMD, y algunos detalles sobre el ecosistema de software y plataforma. Comencemos con las especificaciones en bruto.

Radeon RX 7900 XTXRadeon RX 7900 XTRadeon RX 6950 XT
ArquitecturaRDNA 3RDNA 3RDNA 2
GPUNavi 31 "XTX"Navi 31 "XT"Navi 21 "XTX"
ProcesoTSMC N5 + N6TSMC N5 + N6TSMC N7
Transistores58.000 Millones58.000 Millones26.800 Millones
Tamaño Die300 + 222 mm2 300 + 222 mm2519 mm2
CUs / SMs968480
SPs / Cores (Shaders)6144 (12288)5376 (10752)5120
ROPs192192128
TMUs384336320
RT Cores968480
L2 / Infinity Cache6MB / 96 MB6MB / 80 MB4MB / 128 MB
Base Clock (MHz)1900 MHz1500 MHz1860 MHz
Game Clock (MHz)2300 MHz2000 MHz2100 MHz
Shader Clock (MHz)2300 MHz2000 MHz2310 MHz
Boost Clock (MHz)2500 MHz2400 MHz2310 MHz
VRAM TypeGDDR6GDDR6GDDR6
VRAM Speed (Gbps)20 Gbps20 Gbps18 Gbps
VRAM GB24 GB20 GB 16 GB
VRAM Bus384-bit320-bit256-bit
VRAM Bandwidth960 GB/s800 GB/s576.0 GB/s
TBP (Watts)355 W300 W335 W
Conector Power2x 8-pines2x 8-pines2x 8-pines
Salidas1x HDMI 2.1a
2x DisplayPort 2.1
1x USB-C (DP2.1)
1x HDMI 2.1a
2x DisplayPort 2.1
1x USB-C (DP2.1)
1x HDMI 2.1
2x DisplayPort 1.4a
InterfacePCIe 4.0 x16PCIe 4.0 x16PCIe 4.0 x16
Precio Lanzamiento MSRP$999$899$1099

Hay muchos cambios en comparación con RDNA 2, pero fundamentalmente la RX 7900 XTX incluye un 20 % más de unidades de cómputo (CU), con el doble de funcionalidad computacional FP32 (coma flotante de 32 bits) por CU. AMD todavía usa 64 procesadores de transmisión (SP) por CU, aunque, en muchos sentidos, es más como el doble de esa cifra.

Navi 21 (izquierda) – Navi 31 (derecha)

Los tamaños de die son relativamente comparables a la generación anterior Navi 21, excepto que ahora hay un solo chiplet GCD (Graphics Compute Die) y hasta seis chiplets MCD (Memory Cache Die). La RX 7900 XTX tiene el GCD completamente habilitado y seis chips MCD, mientras que la RX 7900 XT tiene un GCD parcialmente habilitado con 84 CU y cinco chips MCD: la sexta ranura de MCD aún estará ocupada, ya sea con una pieza ficticia de silicio o una no funcional.

NOTA: MCD no funcional porque está apagado, aunque puede o no estar defectuoso.

El diseño central de las tarjetas de referencia de AMD es similar al que vimos con las RX 6900 XT y RX 6800 XT. Obtienes tres ventiladores y una tarjeta de 2.5 slots. Debajo del capó, sin embargo, hay muchas actualizaciones. AMD dice que centró sus propios diseños en ofrecer un mayor rendimiento por watt y eficiencia, en contraste con la RTX 4090, que parece haber ido más allá del punto óptimo en busca de un mayor rendimiento potencial.

AMD utilizará una PCB de 14 capas en la tarjeta RX 7900 XTX, con un subsistema de suministro de energía de 20 etapas. Las tarjetas XTX y XT también tendrán dos salidas DisplayPort 2.1, un solo HDMI 2.1a y un solo conector USB tipo C que también admite DP2.1.

En la RX 7900 XTX, AMD utilizará una cámara de vapor un 10 % más grande (en comparación con el diseño de referencia de la RX 6900 XT), y parece que la cubierta y otros materiales tendrán una calidad ligeramente superior a la anterior. Tuvimos algo de tiempo con las dos tarjetas, y ambas se sintieron sólidas y bien construídas.

Un cambio interesante con la tarjeta RX 7900 XTX será la adición de un sensor de temperatura de admisión, ubicado debajo del ventilador más alejado de los puertos IO. No está claro si esto es solo con fines informativos o si la temperatura del aire que ingresa al ventilador se usará para ayudar a modular las velocidades del ventilador, ya sea desde los software de AMD, o de si otro software también quisieran poder usar el sensor si lo desean. Ambas tarjetas también tienen iluminación RGB.

RDNA 3: Bienvenido a los Chiplets en las GPU

La arquitectura RDNA 3 de AMD cambia fundamentalmente varios de los elementos de diseño clave para las GPU, gracias al uso de chiplets. Y ese es un buen lugar para comenzar como cualquier otro.

Navi 31 consta de dos piezas principales, el Graphics Compute Die (GCD) y los Memory Cache Dies (MCD). Hay similitudes con lo que ha hecho AMD con sus CPU Zen 2/3/4, pero todo se ha adaptado para satisfacer las necesidades del mundo gráfico.

Para las CPU Zen 2 y posteriores, AMD utiliza un die de entrada/salida (IOD) que se conecta a la memoria del sistema y proporciona toda la funcionalidad necesaria para elementos como la interfaz PCIe Express, los puertos USB y, más recientemente, gráficos y video (Zen 4). Luego, el IOD se conecta a uno o más Core Compute Dies (CCD, alternativamente «Core Complex Dies», según el día de la semana) a través del Infinity Fabric de AMD, y los CCD contienen los núcleos de la CPU, el caché y otros elementos.

Las GPU tienen requisitos muy diferentes. Los cachés grandes pueden ayudar, pero a las GPU también les gusta tener mucho ancho de banda de memoria para alimentar todos los núcleos de la GPU. Por ejemplo, incluso el bestial EPYC 9654 con una configuración DDR5 de 12 canales «solo» ofrece hasta 460.8 GB/s de ancho de banda. Las tarjetas gráficas más rápidas como la RTX 4090 pueden fácilmente duplicar eso.

En otras palabras, AMD necesitaba hacer algo diferente para que los chipsets GPU funcionaran de manera efectiva. La solución termina siendo casi la inversa de los chipsets de CPU, con los controladores de memoria y la memoria caché colocados en varios chips más pequeños, mientras que la funcionalidad de cómputo principal reside en el chip GCD central.

El Graphic Compute Die (GCD) alberga todas las unidades de cómputo (CU) junto con otras funciones principales, como hardware de códec de video, interfaces de pantalla y la conexión PCIe. El GCD de Navi 31 tiene hasta 96 CU, que es donde ocurre el procesamiento de gráficos típico. Pero también tiene un enlace Infinity Fabric a lo largo de los bordes superior e inferior (conectado a través de algún tipo de bus al resto del chip) que luego se conecta a los MCD.

Los MCD, como su nombre lo indica (Memory Cache Dies), contienen principalmente los grandes bloques de caché L3 (Infinity Cache), además de la interfaz de memoria física GDDR6. También deben contener enlaces de Infinity Fabric para conectarse al GCD, que puede ver en la toma del die a lo largo del borde central de los MCD.

Los GCD utilizan el nodo N5 de TSMC y empaquetará 45.700 millones de transistores en una matriz de 300 mm2. Mientras tanto, los MCD están construidos en el nodo N6 de TSMC, cada uno con 2.050 millones de transistores en un chip de solo 37 mm2 de tamaño. El caché y las interfaces externas son algunos de los elementos de los procesadores modernos que escalan peor, y podemos ver que, en general, el GCD tiene un promedio de 152,3 millones de transistores por mm2, mientras que los MCD solo promedian 55,4 millones de transistores por mm2.

Interconectando los MCD con el GCD

Una posible preocupación con un enfoque de chiplet en las GPU es la cantidad de energía que requieren todos los enlaces de Infinity Fabric: los chips externos casi siempre usan más energía. Como ejemplo, las CPU Zen tienen un intercalador de sustrato orgánico que es relativamente barato de fabricar, pero consume 1,5 pJ/b (Picojulios por bit). Ampliar eso a una interfaz de 384 bits habría consumido una gran cantidad de energía, por lo que AMD trabajó para refinar la interfaz con Navi 31.

El resultado es lo que AMD llama la interconexión fanout de alto rendimiento. La imagen de arriba no explica las cosas con claridad, pero la interfaz más grande a la izquierda es la interconexión de sustrato orgánico que se usa en las CPU Zen. A la derecha está el puente fanout de alto rendimiento utilizado en Navi 31, «aproximadamente a escala».

Se puede ver claramente los 25 cables utilizados para las CPU, mientras que los 50 cables utilizados en el equivalente de la GPU están empaquetados en un área mucho más pequeña, por lo que ni siquiera puede ver los cables individuales. Tiene aproximadamente 1/8 de la altura y el ancho para el mismo propósito, lo que significa aproximadamente 1/64 del área total.

Eso, a su vez, reduce drásticamente los requisitos de energía, y AMD dice que todos los enlaces Infinity Fanout combinados brindan 3,5 TB/s de ancho de banda efectivo y solo representan menos del 5 % del consumo total de energía de la GPU.

Mejoras en la Arquitectura

Aahora veamos los cambios de arquitectura en las distintas partes de la GPU. Estos se pueden dividir ampliamente en cuatro áreas: cambios generales en el diseño del chip, mejoras en los sombreadores de GPU (procesadores de flujo), actualizaciones para mejorar el rendimiento del trazado de rayos y mejoras en el hardware de operación de matriz.

Mirando las especificaciones sin procesar, puede que no parezca que AMD haya aumentado tanto la velocidad del reloj, pero anteriormente solo teníamos las cifras del Game Clock. Ahora podemos decir que los relojes de impulso son más altos y, en general, esperamos que las GPU RDNA 3 de AMD superen incluso los relojes de impulso oficiales; en otras palabras, son impulsos conservadores.

AMD dice que RDNA 3 ha sido diseñado para alcanzar velocidades de 3 GHz. Los relojes boost oficiales de la referencia 7900 XTX/XT están muy por debajo de esa marca, pero también creemos que los diseños de referencia de AMD se centraron más en maximizar la eficiencia. Las tarjetas AIB de terceros podrían aumentar bastante los límites de potencia, los voltajes y las velocidades de reloj. ¿Veremos overclocks fuera de fábrica de 3 GHz? Tal vez, así que esperaremos y veremos.

Según AMD, las GPU RDNA 3 pueden alcanzar la misma frecuencia que las GPU RDNA 2 mientras usan la mitad de la potencia, o pueden alcanzar 1,3 veces la frecuencia mientras usan la misma potencia. Por supuesto, en última instancia, AMD quiere equilibrar la frecuencia y la potencia para ofrecer la mejor experiencia general. Aún así, dado que vemos límites de potencia más altos en el 7900 XTX, también deberíamos esperar que eso suponga un aumento decente en la velocidad del reloj y el rendimiento.

Otro punto que destaca AMD es que ha mejorado la utilización del silicio en aproximadamente un 20 %. En otras palabras, había unidades funcionales en las GPU RDNA 2 en las que partes del chip permanecían inactivas con frecuencia, incluso cuando la tarjeta estaba a plena carga. Desafortunadamente, no tenemos una buena manera de medir esto directamente, por lo que tomaremos la palabra de AMD al respecto, pero en última instancia, esto debería resultar en un mayor rendimiento.

Mejoras en las Unidades de Cómputo (CU)

Fuera de las cosas del chiplet, muchos de los cambios más grandes ocurren dentro de las Unidades de cómputo (CU) y los Procesadores de grupo de trabajo (WGP). Estos incluyen actualizaciones de los tamaños de caché L0/L1/L2, más registros SIMD32 para FP32 y cargas de trabajo de matriz, e interfaces más amplias y rápidas entre algunos elementos.

Mike Mantor de AMD presentó la diapositiva anterior y siguientes, ¡que son densas! Básicamente habló sin parar durante la mayor parte de una hora, tratando de cubrir todo lo que se ha hecho con la arquitectura RDNA 3, y eso no fue suficiente tiempo. La diapositiva anterior cubre el panorama general, pero veamos algunos de los detalles.

RDNA 3 viene con un par de unidades de cómputo mejoradas: las CU dobles que se convirtieron en el componente principal de los chips RDNA. Una mirada superficial a lo anterior puede no parecer tan diferente de RDNA 2, pero luego observen que el primer bloque para el Scheduler y Vector GPR (registros de propósito general) dice «Float / INT / Matrix SIMD32» seguido de un segundo bloque que dice «Float / Matrix SIMD32». Ese segundo bloque es nuevo para RDNA 3 y básicamente significa duplicar el rendimiento de punto flotante.

Pueden elegir ver las cosas de una de dos maneras: cada CU ahora tiene 128 Stream Processors (SP o GPU shaders), y se obtienen 12.288 shaders ALU (Unidades Aritméticas Lógicas) en total, o podemos verlo como 64 SPs «completos» que resultan tener el doble de rendimiento de FP32 en comparación con las CU de RDNA 2 de la generación anterior.

Junto con el cálculo adicional de punto flotante de 32 bits, AMD también duplicó el rendimiento de la matriz (IA) ya que los aceleradores de matriz AI parecen compartir, al menos parcialmente, algunos de los recursos de ejecución. Las nuevas unidades de IA son compatibles con BF16 (brain-float de 16 bits), así como con instrucciones INT4 WMMA Dot4 (Wave Matrix Multiply Accumulate) y, al igual que con el rendimiento de FP32, hay un aumento general de 2.7 veces en la velocidad de operación de la matriz.

Ese 2.7x parece provenir del aumento general del 17.4% en el rendimiento reloj por reloj, más un 20% más de CU y el doble de unidades SIM32 por CU.

Mejoras en la Caché

Los cachés y las interfaces entre los cachés y el resto del sistema han recibido actualizaciones. Por ejemplo, el caché L0 ahora es de 32 KB (doble RDNA 2) y los cachés L1 son de 256 KB (doble RDNA 2 nuevamente), mientras que el caché L2 aumentó a 6 MB (1,5 veces más grande que RDNA 2).

El enlace entre las unidades de procesamiento principales y la memoria caché L1 ahora es 1,5 veces más ancho, con un rendimiento de 6144 bytes por reloj. Asimismo, el enlace entre la caché L1 y L2 también es 1.5 veces más ancho (3072 bytes por reloj).

El caché L3, también llamado Infinity Cache, se redujo en relación con Navi 21. Ahora es de 96 MB frente a 128 MB. Sin embargo, el enlace L3 a L2 ahora es 2,25 veces más ancho (2304 bytes por reloj), por lo que el rendimiento total es mucho mayor. De hecho, AMD da una cifra de 5,3 TB/s — 2304 B/clk a una velocidad de 2.3 GHz. La Radeon RX 6950 XT solo tenía un enlace de 1024 B/clk a su Infinity Cache (máximo), y RDNA 3 ofrece hasta 2.7 veces el ancho de banda máximo de la interfaz.

Tengamos en cuenta que estas cifras son solo para la solución Navi 31 completamente configurada en la RX 7900 XTX. La RX 7900 XT tiene 5 MCD, descendiendo a una interfaz GDDR6 de 320 bits y enlaces de 1920 B/clk a los 80 MB combinados de Infinity Cache. Es probable que veamos partes de RDNA 3 de nivel inferior que reduzcan aún más el ancho y el rendimiento de la interfaz, naturalmente.

Finalmente, ahora hay hasta seis interfaces GDDR6 de 64 bits para un enlace combinado de 384 bits a la memoria GDDR6. La VRAM también funciona a 20 Gbps (frente a 18 Gbps en las tarjetas 6×50 posteriores y 16 Gbps en los chips RDNA 2 originales) para un ancho de banda total de 960 GB/s.

2da Generación de unidades de Raytracing

El ray tracing en la arquitectura RDNA 2 siempre se sintió como una ocurrencia tardía, algo agregado para cumplir con la lista de verificación de características requeridas para DirectX 12 Ultimate. Las GPU RDNA 2 de AMD carecen de hardware transversal BVH dedicado, optando por hacer parte de ese trabajo a través de otras unidades compartidas, y eso es, al menos en parte, el culpable de su bajo rendimiento.

Los aceleradores de rayos RDNA 2 podrían hacer hasta cuatro intersecciones de rayos/cajas por reloj, o una intersección de rayos/triángulos. Por el contrario, Arc Alchemist de Intel puede hacer hasta 12 intersecciones de rayos/cajas por RTU por reloj, mientras que Nvidia no proporciona un número específico, pero tiene hasta dos intersecciones de rayos/triángulos por núcleo RT en Ampere y hasta cuatro intersecciones de rayos. /intersecciones de triángulos por reloj en Ada Lovelace.

No está claro si RDNA 3 realmente mejora esas cifras directamente o si AMD se ha centrado en otras mejoras para reducir la cantidad de intersecciones de rayos/cajas realizadas. Quizás ambos. Lo que sí sabemos es que RDNA 3 tendrá un recorrido BVH (Bounding Volume Hierarchy) mejorado que aumentará el rendimiento del trazado de rayos.

RDNA 3 también tiene VGPR 1.5 veces más grandes, lo que significa 1.5 veces más rayos en vuelo. Hay otras optimizaciones de pila para reducir la cantidad de instrucciones necesarias para el recorrido de BVH, y se pueden usar algoritmos de clasificación de cajas especializados (más cercano primero, más grande primero, punto medio más cercano) para extraer una mayor eficiencia.

RDNA 3 debería ofrecer un aumento de rendimiento de hasta 1.8 veces para Ray Tracing en comparación con RDNA 2

En general, gracias a las nuevas funciones, la mayor frecuencia y el mayor número de aceleradores de rayos, AMD dice que RDNA 3 debería ofrecer un aumento de rendimiento de hasta 1.8 veces para Ray Tracing en comparación con RDNA 2. Eso debería reducir la brecha entre AMD y Nvidia Ampere. Aún así, Nvidia también parece haber duplicado su hardware de ray tracing para Ada Lovelace, por lo que no contaríamos con que AMD ofrezca un rendimiento equivalente al de las GPU de la serie RTX 40.

Mejoras en el Procesador de Comandos, Pixel Pipe y Geometría

Finalmente, RDNA 3 ha ajustado otros elementos de la arquitectura relacionados con el procesador de comandos, la geometría y las canalizaciones de píxeles. También hay un nuevo Dual Media Engine con soporte para codificación/descodificación AV1, decodificación de video mejorada por IA y el nuevo Radiance Display Engine.

Las actualizaciones del procesador de comandos (CP) deberían mejorar el rendimiento para ciertas cargas de trabajo al tiempo que reducen los cuellos de botella de la CPU en el lado del controlador y la API. El rendimiento de selección basado en hardware también es un 50% más rápido en el lado de la geometría, y hay un aumento del 50% en los píxeles rasterizados máximos por reloj.

Eso último parece ser el resultado de aumentar la cantidad de ROP (salidas de procesamiento) de 128 en el resultado de Navi 21 a 192 en Navi 31. Eso tiene sentido, ya que también hay un aumento del 50% en los canales de memoria, y AMD querría escalar otros elementos en sintonía con eso.

El Dual Media Engine debería llevar a AMD a la par con Nvidia e Intel en el lado del video, aunque tendremos que probar para ver cómo se comparan la calidad y el rendimiento. Sabemos por nuestras pruebas de codificación de video Arc A380 que Intel generalmente entregó el mejor rendimiento y calidad, Nvidia no se quedó atrás y AMD fue un tercero relativamente distante en el frente de calidad. Desafortunadamente, aún no hemos podido probar la compatibilidad con AV1 de Nvidia, pero estamos ansiosos por ver las nuevas implementaciones de AMD y Nvidia AV1.

AMD FidelityFX Super Resolution (FSR) 2.2 y el Nuevo FSR 3.0

Después de poco más de un año desde que FSR 1.0 estuvo disponible por primera vez, y unos seis meses desde que llegó FSR 2.0, AMD dice que FSR ahora está en 218 juegos, con más por venir. Tiene un sitio web que rastrea la lista de juegos habilitados para FSR (tenga en cuenta que querrá hacer clic en Súper Resolución, ya que la lista también rastrea juegos con otras funciones de FidelityFX). Aparentemente, la lista no está completa, ya que solo conté 106 juegos mientras escribía esto, y tampoco incluye la compatibilidad con FSR 2.1 para Cyberpunk 2077, que acaba de llegar, o la compatibilidad con FSR 2.2 recientemente lanzada de Forza Horizon 5.

AMD también señaló cómo FSR ha estado ganando terreno en DLSS, pero debemos tener en cuenta que la integración de FSR 1.0 es mucho más fácil ya que utiliza la ampliación espacial, y tampoco se ve tan bien como FSR 2. Casi todos los Los juegos habilitados para DLSS ahora usan DLSS 2 o posterior, que es la verdadera competencia para AMD, lo que significa que en la actualidad hay aproximadamente diez veces más juegos con DLSS 2 (o DLSS 3) que títulos habilitados para FSR 2.

Nuevo en la fiesta es FSR 2.2, que ofrece un mayor ajuste del algoritmo FSR 2 para ayudar a eliminar las imágenes fantasma en objetos que se mueven rápidamente. Forza Horizon 5 obtuvo soporte público oficial para FSR 2.2 el 8 de noviembre y, en pruebas limitadas en una GPU, las cosas no parecían funcionar correctamente. En noticias relacionadas, el mismo parche también agregó compatibilidad con DLSS 2, lo cual es excelente y tiene mucho sentido, ya que FSR 2 y DLSS 2 toman las mismas entradas principales: z-buffer, vectores de movimiento, cuadro actual y cuadros anteriores.

Con Nvidia ahora promocionando la función Frame Generation de DLSS 3, AMD también busca responder con FSR 3 en algún momento del próximo año. Utilizará «Fluid Motion Frames» para generar un fotograma adicional y, al igual que DLSS 3, potencialmente agregará (al menos) un fotograma de latencia mientras aumenta la velocidad de fotogramas. Todavía no se ha anunciado ningún juego compatible con FSR 3, pero lo estaremos vigilando en los próximos meses.

También tenemos curiosidad por ver si AMD mantendrá su enfoque de «funciona en todas partes», como hemos visto con FSR 1 y FSR 2. Cuando conversamos con Frank Azor, y le preguntamos sobre si FSR3 sería algo exclusivo de RDNA 3, nos mencionó que dada la filosofía de FSR, están tomandose el tiempo para que  FSR 3 pueda funcionar en RDNA 2 (Radeon RX 6000) y RDNA (Radeon RX 5000), que esa es la idea.

Soporte para DirectStorage 1.1

AMD también habló sobre su compatibilidad con DirectStorage 1.1, que debería estar disponible pronto y debería ejecutarse en todas las tarjetas gráficas RDNA 2 y RDNA 3. También funcionará con tarjetas Nvidia RTX y GPU Intel Arc. Ahora, todo lo que realmente necesitamos es el lanzamiento público de juegos que realmente admitan la función.

Y AMD también habló sobre trabajar con varias compañías para que su tecnología sea adoptada en los motores de juegos. Obviamente, eso también sucede con Nvidia e Intel, pero en última instancia, la prueba está en terreno, y cuanto mayor sea su porción del mercado de tarjetas gráficas, más fácil será lograr que los ISV usen sus funciones.

Es una de las grandes ventajas que sigue teniendo Nvidia, ya que sus GPU representan entre el 75 y el 80 por ciento del mercado de juegos, según la Encuesta de hardware de Steam.

Posts relacionados

AMD ROCm 6.0 amplía el soporte para el desarrollo de ML a otras GPU Radeon y anuncia soporte para ONNX Runtime

Mario Rübke

Review AMD Ryzen 7 8700G y Ryzen 5 8600G

Mario Rübke

CES2024: Se anuncia la nueva ROG Zephyrus G16 y Zephyrus G14 con un diseño ultradelgado y pantalla OLED con 240Hz

Mario Rübke