En CES 2025, NVIDIA nos ofreció un análisis profundo de su arquitectura de GPU Blackwell de próxima generación para GPU de juegos RTX 50 y cómo mejora respecto a su anterior arquitectura Ada Lovelace.
La arquitectura NVIDIA Blackwell o RTX Blackwell, está diseñada específicamente para jugadores y creadores de contenido. Esta arquitectura se ofrecerá primero en las tarjetas gráficas RTX 50 que se lanzarán a finales de este mes.
Lo que sabemos hasta ahora sobre las GPU NVIDIA RTX Blackwell Gaming es que están basadas en el nodo de proceso de 4 nm de TSMC, cuentan con hasta 92 mil millones de transistores con 4000 AI TOPS, 380 RT TFLOPs, 125 TFLOPS de cómputo FP32, la interfaz de memoria GDDR7 más rápida con hasta 1.8 TB/s de ancho de banda y vienen con un nuevo diseño Founders Edition.
Otras incorporaciones notables a la arquitectura de la GPU RTX Blackwell incluyen DisplayPort 2.1 (UHBR20), compatibilidad con PCIe Gen5 y NVDEC/NVENC 4K con colores 4:2:2.
Con Blackwell, NVIDIA tenía en mente algunos objetivos de diseño para acelerar las capacidades gráficas para la próxima generación de juegos. La arquitectura debía diseñarse y optimizarse en torno a nuevas capacidades neuronales y cargas de trabajo. Su objetivo es reducir el consumo de memoria general, también se centra en gran medida en la eficiencia energética y, al mismo tiempo, agrega nuevas capacidades de calidad de servicio.
Entonces, Blackwell tuvo que introducir muchos cambios y los principales incluyen la incorporación de núcleos Tensor de quinta generación, que ofrecen FP4 de alta velocidad, cómputo y hasta 4000 TOPS de IA de rendimiento, núcleos RT (Ray Tracing) de cuarta generación con hasta 360 RT TFLOPs y diseñados para Mega Geometry, un procesador de gestión de IA de última generación que permite ejecutar modelos de IA y cargas de trabajo gráficas simultáneas, un nuevo Blackwell SM con 125 TFLOPS de cómputo FP32 máximo y la incorporación de memoria GDDR7 que ofrece las velocidades de memoria más rápidas del mundo de hasta 30 Gbps (en el RTX 5080).
Al analizar Blackwell SM, primero lo comparamos con Ada SM, que se optimizó principalmente para sombreadores tradicionales y la mayoría de sus núcleos Tensor se usaron para DLSS o aplicaciones de creación de contenido. Ada también dividió los núcleos FP32 en dos bloques, uno que podía ejecutar FP32 únicamente y otro que podía ejecutar formatos FP32 e INT32. Con Blackwell, NVIDIA ha duplicado el rendimiento de su GPU INT32, lo que puede ayudar a acelerar cargas de trabajo como Gráficos de trabajo y Ejecución de sombreadores, y los núcleos Tensor de quinta generación también ofrecen el mencionado rendimiento duplicado. También hicieron que los núcleos Tensor sean accesibles desde los sombreadores, mediante el uso de la nueva API de vectores cooperativos de DirectX (DirectX Cooperative Vectors).
Otros cambios de microarquitectura permiten ejecutar múltiples cargas de trabajo de manera eficiente. Blackwell también mejora SER (Shader Execution Reordering) al doble, al reordenar los modelos neuronales y los modelos de sombreado estándar, y juntar el mismo trabajo de manera organizada. Luego, estos modelos pasan a través de núcleos tensor (si son modelos ML) o núcleos de texturas (si son modelos de sombreado) para su ejecución final.
El uso de memorias GDDR7 también supone una mejora muy necesaria respecto de la memoria GDDR6/X, ya que ofrece el doble de ancho de banda y velocidad de datos que la memoria G6 con una mayor frecuencia y un menor vataje. La GDDR7 también es compatible con la señalización PAM4 y los materiales de PCB utilizados en las GPU RTX 50 son de primera línea desde un punto de vista de ingeniería.
transmitirá más datos por segundo, a pesar de transferir menos datos por ciclo de reloj
GDDR7 pasa a la señalización PAM3, que utiliza tres niveles de lógica en lugar de cuatro. Este cambio da como resultado un ojo de datos más grande, lo que permite frecuencias más altas y un mejor rendimiento. PAM3 puede funcionar a mayor velocidad que PAM4, lo que significa que transmitirá más datos por segundo, a pesar de transferir menos datos por ciclo de reloj.
Esta es la primera arquitectura completa para PC de escritorio que utiliza materiales GDDR7 y PCIe 5.0 en conjunto. La nueva interfaz de memoria también ofrece el doble de eficiencia que la GDDR6 en términos de PJ/bit. Esto será muy útil en diseños de movilidad «Max-Q» donde la eficiencia es lo más importante.
Pasando a las mejoras de Ray Tracing, los núcleos RT de cuarta generación introducen varias capacidades nuevas, como un motor de intersección de clústeres de triángulos que reemplaza al motor de intersección de triángulos anterior, que está optimizado para megageometría y puede manejar clústeres de megageometría y geometría estándar de manera mucho más eficiente.
El motor Mega Geometry también tiene un nuevo formato Triangle Cluster Compression que se puede descomprimir utilizando el motor integrado de Blackwell. Por último, está el nuevo bloque Linerar Swept Spheres que acelera la representación de RTX Hair and Fur. En resumen, los nuevos núcleos RT ofrecen una tasa de intersección de triángulos de rayos de 8x y reducen el consumo de memoria un 75%.
Los núcleos Tensor de Blackwell son compatibles con INT4 y FP4, lo que significa que las operaciones RT pueden ejecutarse en estos formatos de datos más pequeños y de menor precisión, lo que no solo hace que se ejecuten el doble de rápido, sino que también utilizan la mitad de la memoria. El inconveniente es que se pierde algo de precisión, lo que probablemente no sea un gran problema para los gráficos interactivos en tiempo real en los juegos.
Elste formato FP4 introducido en los núcleos Tensor de quinta generación de Blackwell, ofrecerá un rendimiento hasta 32 veces superior al de la generación Pascal y el doble al de la generación Ada de GPU. Estos nuevos núcleos aprovecharán al máximo las técnicas de sombreado y renderizado neuronal que se incluyen en los títulos AAA de próxima generación.
Esto también nos lleva al siguiente tema, que trata sobre la programación de Blackwell y cómo procesa varias cargas de trabajo.
La integración de modelos de IA en los juegos presenta nuevos desafíos para mantener una experiencia fluida y con capacidad de respuesta. La programación se vuelve fundamental, ya que tanto la representación del juego como las tareas de IA, como los modelos de lenguaje extensos (LLM) para avatares digitales, compiten por los recursos. Los retrasos en las respuestas de la IA, conocidos como «tiempo hasta la primera respuesta», pueden interrumpir la inmersión, mientras que las interrupciones en el ritmo de los fotogramas del juego pueden provocar interrupciones.
En Blackwell, NVIDIA presenta un nuevo coprocesador programable conocido como AMP, que se ubica en la parte frontal de la GPU, e interactúa de manera diferente con los diferentes núcleos de la GPU, al tiempo que comprende lo que se está ejecutando en ellos, lo que se está haciendo en ellos y programa con precisión la carga de trabajo específica para el núcleo correcto.
AMP gestiona con precisión la programación de tareas, garantizando que los procesos de IA, como la generación de diálogos, no interfieran con la representación del juego, optimizando tanto la fluidez como la capacidad de respuesta para una experiencia de usuario perfecta.
NVIDIA también habló sobre los nuevos modos Power Gating de Blackwell. En Blackwell, se puede desactivar todo el árbol de reloj incluso cuando la GPU está activa. Por lo tanto, si el sistema de memoria o partes del sistema de memoria están inactivos, se puede lograr un ahorro de energía de esta manera.
Otra forma de ahorrar energía es desactivar la lógica y la SRAM cuando los motores completos están inactivos. Blackwell también introduce un riel secundario que separa el núcleo y el sistema de memoria, haciéndolos funcionar a diferentes voltajes y, para diferentes cargas de trabajo, captura más rendimiento dentro de un presupuesto de energía.
También permite una reducción de 15 veces en el tiempo que lleva desde la compuerta del riel hasta el núcleo. El nuevo sistema de compuerta del riel es particularmente útil en computadoras portátiles, ya que reduce las fugas en un margen importante.
Un aspecto nuevo de Blackwell es también su capacidad de cambio de frecuencia acelerada, que mejora la capacidad de respuesta del reloj en 1000 veces. Por ejemplo, una carga de trabajo como la física que no utiliza todo el ancho de la GPU puede cambiar a una frecuencia más alta, mientras que una carga de trabajo de núcleo tensor que puede utilizar todo el ancho de la GPU puede pasar a una frecuencia más baja. Pero cuando la CPU no ha alimentado a la GPU con ningún trabajo, Blackwell puede reducir la frecuencia rápidamente y esto se hace porque Blackwell puede volver a cambiar a una frecuencia más rápida más rápido.
En términos de aumento de frecuencia de reloj, Blackwell logra una frecuencia 300 MHz más alta en estado activo en comparación con las GPU Ada.
Por último, tenemos las capacidades de visualización y video de Blackwell. La nueva compatibilidad con Blackwell incluye compatibilidad con DisplayPort 2.1b (UHBR20) con medición de volteo de hardware de alta velocidad que mejora el ritmo de los cuadros mediante DLSS 4. También está el codificador de novena generación y el decodificador de sexta generación, que ofrecen capacidades de decodificación AV1 UHQ y 2x H.264, mientras que MV-HEVC y la codificación/decodificación 4.2.2 también están incluidas en el bloque de motor de video RTX Blackwell.
Por todo lo anterior, es que la arquitectura NVIDIA Blackwell está mas que optimizada para DLSS4 y Multi Frame Generation, principalmente gracias al mejorado Flip Metering.
Todo lo relacionado con DLSS 4, lo abordaremos en un artículo especial.