Google anunció una mejora clave para su familia de modelos abiertos Gemma 4, incorporando Multi-Token Prediction (MTP) drafters, una técnica que permite acelerar la inferencia hasta 3 veces sin comprometer la calidad de las respuestas.
La innovación se basa en el uso de decodificación especulativa, una arquitectura que separa la generación de tokens de su verificación. En lugar de producir texto de forma secuencial —token por token—, el sistema combina un modelo principal con uno más liviano que “predice” múltiples tokens en paralelo, los cuales luego son validados por el modelo principal.
Este enfoque permite reducir uno de los principales cuellos de botella de los modelos de lenguaje: la dependencia del ancho de banda de memoria, que limita la velocidad de inferencia, especialmente en hardware de consumo.

En la práctica, esto se traduce en mejoras concretas para desarrolladores y usuarios:
- Menor latencia, ideal para aplicaciones en tiempo real como chat, voz o agentes autónomos
- Mejor rendimiento en equipos locales, incluyendo PCs y GPUs de consumo
- Optimización en dispositivos edge, reduciendo consumo energético y mejorando autonomía
- Sin pérdida de calidad, ya que el modelo principal mantiene el control final de la salida
La implementación de MTP también introduce optimizaciones a nivel de arquitectura, como el uso compartido de KV cache entre modelos y mejoras en el procesamiento de embeddings, lo que reduce cálculos redundantes y acelera aún más la generación.
Además, Google destaca que estas mejoras permiten ejecutar modelos como Gemma 4 en configuraciones locales con un rendimiento significativamente superior, habilitando nuevos casos de uso en desarrollo offline, aplicaciones móviles y entornos edge.
Los MTP drafters ya están disponibles bajo licencia open source Apache 2.0, y pueden utilizarse a través de plataformas como Hugging Face, Kaggle y frameworks como Transformers, vLLM y MLX.
Fuente: Google

