Image default
AIGoogleNoticiasSoftwareTecnología

Google acelera Gemma 4 con MTP: hasta 3x más velocidad en inferencia sin perder calidad

Google anunció una mejora clave para su familia de modelos abiertos Gemma 4, incorporando Multi-Token Prediction (MTP) drafters, una técnica que permite acelerar la inferencia hasta 3 veces sin comprometer la calidad de las respuestas.

La innovación se basa en el uso de decodificación especulativa, una arquitectura que separa la generación de tokens de su verificación. En lugar de producir texto de forma secuencial —token por token—, el sistema combina un modelo principal con uno más liviano que “predice” múltiples tokens en paralelo, los cuales luego son validados por el modelo principal.

Este enfoque permite reducir uno de los principales cuellos de botella de los modelos de lenguaje: la dependencia del ancho de banda de memoria, que limita la velocidad de inferencia, especialmente en hardware de consumo.

En la práctica, esto se traduce en mejoras concretas para desarrolladores y usuarios:

  • Menor latencia, ideal para aplicaciones en tiempo real como chat, voz o agentes autónomos
  • Mejor rendimiento en equipos locales, incluyendo PCs y GPUs de consumo
  • Optimización en dispositivos edge, reduciendo consumo energético y mejorando autonomía
  • Sin pérdida de calidad, ya que el modelo principal mantiene el control final de la salida

La implementación de MTP también introduce optimizaciones a nivel de arquitectura, como el uso compartido de KV cache entre modelos y mejoras en el procesamiento de embeddings, lo que reduce cálculos redundantes y acelera aún más la generación.

Además, Google destaca que estas mejoras permiten ejecutar modelos como Gemma 4 en configuraciones locales con un rendimiento significativamente superior, habilitando nuevos casos de uso en desarrollo offline, aplicaciones móviles y entornos edge.

Los MTP drafters ya están disponibles bajo licencia open source Apache 2.0, y pueden utilizarse a través de plataformas como Hugging Face, Kaggle y frameworks como Transformers, vLLM y MLX.

Fuente: Google

Posts relacionados

HONOR confirma la llegada de la serie HONOR 600 a Chile con IA avanzada y fotografía de 200 MP

Mario Rübke

AMD lleva FSR 4.1 a las Radeon RX 7000 y prepara soporte para APUs RDNA 3 y RDNA 3.5

Mario Rübke

Review Sonos Play: el equilibrio perfecto entre sonido, portabilidad e inteligencia acústica

Mario Rübke
Cargando.....