Google acelera Gemma 4 con MTP: hasta 3x más velocidad en inferencia sin perder calidad

Google anunció una mejora clave para su familia de modelos abiertos Gemma 4, incorporando Multi-Token Prediction (MTP) drafters, una técnica que permite acelerar la inferencia hasta 3 veces sin comprometer la calidad de las respuestas.

La innovación se basa en el uso de decodificación especulativa, una arquitectura que separa la generación de tokens de su verificación. En lugar de producir texto de forma secuencial —token por token—, el sistema combina un modelo principal con uno más liviano que “predice” múltiples tokens en paralelo, los cuales luego son validados por el modelo principal.

Este enfoque permite reducir uno de los principales cuellos de botella de los modelos de lenguaje: la dependencia del ancho de banda de memoria, que limita la velocidad de inferencia, especialmente en hardware de consumo.

En la práctica, esto se traduce en mejoras concretas para desarrolladores y usuarios:

Menor latencia, ideal para aplicaciones en tiempo real como chat, voz o agentes autónomos
Mejor rendimiento en equipos locales, incluyendo PCs y GPUs de consumo
Optimización en dispositivos edge, reduciendo consumo energético y mejorando autonomía
Sin pérdida de calidad, ya que el modelo principal mantiene el control final de la salida

La implementación de MTP también introduce optimizaciones a nivel de arquitectura, como el uso compartido de KV cache entre modelos y mejoras en el procesamiento de embeddings, lo que reduce cálculos redundantes y acelera aún más la generación.

Además, Google destaca que estas mejoras permiten ejecutar modelos como Gemma 4 en configuraciones locales con un rendimiento significativamente superior, habilitando nuevos casos de uso en desarrollo offline, aplicaciones móviles y entornos edge.

Los MTP drafters ya están disponibles bajo licencia open source Apache 2.0, y pueden utilizarse a través de plataformas como Hugging Face, Kaggle y frameworks como Transformers, vLLM y MLX.

Fuente: Google

Review Sonos Play: el equilibrio perfecto entre sonido,…

Review Noctua NH-D15 G2 chromax.black [Air-Cooling]

Review AMD Radeon RX 9070 GRE: RDNA 4…

Review: LEGO Batman: Legacy of the Dark Knight…

007 First Light impresiona con DLSS 4.5, Multi…

Leviatán hace historia en Valorant: conquista el Masters…

HONOR confirma la llegada de la serie HONOR…

Microsoft presenta DirectX Dump Files y AMD se…

AMD lleva FSR 4.1 a las Radeon RX…

Valve abre las reservas de Steam Machine, pero…

48 años del Intel 8086: el procesador que…

Chile quiere liderar la revolución de la IA,…

IA agéntica: cinco formas en que las empresas…

Kingston KCP432SD8/16: cómo un segundo módulo DDR4 transformó…

Las PyMEs no tienen un problema de acceso…

Google acelera Gemma 4 con MTP: hasta 3x más velocidad en inferencia sin perder calidad

Leviatán hace historia en Valorant: conquista el Masters London 2026 con el...

HONOR confirma la llegada de la serie HONOR 600 a Chile con...

Microsoft presenta DirectX Dump Files y AMD se convierte en el primer...

Google acelera Gemma 4 con MTP: hasta 3x más velocidad en inferencia sin perder calidad

Posts relacionados