Primeros resultados REALES de Penryn @ MADBOXPC

Este es otro reporte desde Beijing. Pero no es un reporte cualquiera. Aún cuando la prensa ha estado presente en casi todos los keynotes y en varias mesas redondas (donde hemos tenido la oportunidad de discutir en una sala cerrada acerca de las tendencias y el futuro del hardware junto a los altos ejecutivos de Intel) donde ya la asistencia de los medios era más selectiva, hoy anduvimos de suerte.


Y de mucha suerte, pues por una de esas cosas del destino, logramos benchear un par de Penryn (para los que vienen saliendo del coma que los tuvo un año inconscientes, es la nueva familia de procesadores de Intel que viene a refrescar la serie Core 2 Duo y que está fabricada bajo proceso de 45nm) junto a los especialistas de Intel y ahora les mostramos de manera privilegiada (nos gusta regalonear a nuestros lectores con notas exclusivas para que no tengan que ir a leer a sitios en inglés la información) que tal rinden los primeros samples funcionales de los procesadores fabricados bajo proceso de 45nm.

Bueno, no todo fue perfecto, ya que la sesión de benchmarking estaba bastante controlada (no nos dejaron meterle mano 100% a los equipos, jejeje, ni mi mejor sonrisa ni mi cara de sudaca bien intencionado lo lograron), pero lo que vimos y fotografiamos no deja de ser muy relevante.

Para enterarse de las novedades que incluye este refresco de arquitectura, los invito a pasar a la próxima página.

Detalles técnicos. Novedades en la arquitectura.

Para los que piensan que Penryn es solo un die-shrink de Conroe y sus hermanos (es decir, una versión miniaturizada de lo mismo), les debo aclarar que la cosa no es tan simple. Además de ser los primeros procesadores en el mundo fabricados en 45nm, tienen varias características adicionales que los diferencian de los Core 2 Duo que conocemos hasta el día de hoy, y que les enumero a continuación:

  • Cache L2: En primer lugar, el cache L2 de los procesadores Penryn es de mayor tamaño que el de los Core 2 Duo (en el caso de los Dual Core sumamos 2 a los 4MB de los Core 2 Duo para obtener un total de 6MB, y en el caso de los Quad Core, como podríamos esperar, tenemos el doble de eso, es decir 12MB). Esto se justifica debido a que el die del procesador, al estar fabricado bajo proceso de 45nm es mas pequeño y permite utilizando una cantidad similar de silicio incluir un cache de segundo nivel más grande. Aún cuando vemos que el cache de L2 no tiene una relevancia crítica en la performance (depende mucho de la aplicación; hay pruebas que muestran que la diferencia entre 4MB y 2MB es casi inexistente, excepto en juegos y aplicaciones donde hay una baja tasa de predictibilidad (alto nivel de branching) por lo que hay un acceso mayor a cache, y aun así la diferencia es de un 5% a un 8%), nunca está demás adjuntar un par más de megas por lo que probablemente el rendimiento mejore un poquito debido a este factor, sumado a que además el cache tiene una latencia 1 ciclo menor (confirmado por los especialistas de la firma azul).
  • Frecuencia: Si la frecuencia de los modelos Extreme de Intel hasta el momento era de 2.93Ghz (en el caso del X6800 y del recién aparecido QX6800), en este caso los probables topes de línea correrán a 3.33ghz, en ambas versiones, Dual y Quad, por lo que ya por si mismo veremos un aumento en el rendimiento de la mano de la escalada natural producto del aumento de frecuencia.
  • FSB: Aún cuando el impacto de la frecuencia del FSB es bastante poco, ahora nos encontramos con que estos procesadores corren a un FSB de 1333Mhz, a diferencia de los Core 2 Duo y Core 2 Quad que corren a 1066Mhz.Inclusión del juego de instrucciones SSE4: Core 2 Duo incluía hasta el momento los juegos de instrucciones SSE, SSE2, SSE3 y SSSE3. Ahora se añaden 47 nuevas instrucciones que vienen a simplificar muchas de las tareas multimedia, haciendo que tareas que antes requerían de una compleja serie de instrucciones, como por ejemplo la identificación de video en movimiento, ahora se pueden resolver en solo una instrucción, ganando ciclos de reloj que antes se desperdiciaban. Esto inmediatamente promete ser un gran avance para cuando los desarrolladores de software empiecen a programar aplicaciones sacándole el jugo a SSE4.
  • Soporte mejorado para VT: Con esto el rendimiento de las máquinas virtuales será un poco mejor, ya que se eliminan un par de latencias en los procesos de creación y eliminación de maquinas virtuales. Profundizaremos mas en este tema en artículos posteriores (cuando llegue a Chile tendré bastante tiempo para escribirles de esto).
  • Divisor Radix-16 y Super Shuffle Engine: al igual que del soporte mejorado para VT, ya nos extenderemos todo lo necesario en la explicación de estas nuevas tecnologías cuando tengamos mas antecedentes que respalden nuestras palabras; por ahora lo que podemos contarles es que se trata de una mejora sustancial al ejecutar ciertas operaciones de división.
  • Manejo energético mejorado: Además del estado C4, ahora se estrena el nuevo estado de «Deep Power Down», donde literalmente se pone a dormir a 100%  a el o los núcleos que estén inactivos. Como «despertar» a los núcleos tarda un par de milisegundos, el procesador va a decidir en que momentos es conveniente o no es conveniente mandar a estado C5 (porque hay veces en que la inactividad es por un tiempo muy breve y no convendría mandar a ese estado pues las latencias harían merma en el rendimiento).
  • Tecnología de Aceleración Dinámica mejorada: Lo que hace acá el procesador (que ya explicamos en esta nota) es, aprovechando que uno de los núcleos está inactivo, (y por ende a un voltaje bajísimo y generando un calor mucho menor), entregarle algo de ese voltaje no utilizado al otro núcleo, con lo que se podría alcanzar de manera estable una mayor frecuencia. Lógicamente esta mayor frecuencia y voltaje implicaría una mayor generación de calor, pero esto está calculado para compensar la baja de consumo y generación de calor del núcleo inactivo de manera de nunca sobrepasar el TDP del producto (esperemos que no :P).

Ya que ya conocemos a grandes rasgos las novedades que nos trae Penryn, veamos en que plataforma testeamos a estos monstruos y que software fue utilizado para comparar.

Plataforma de pruebas. Metodologia de Testeo.

La plataforma de pruebas fue provista en un 100% por la gente de Intel y constó de lo siguiente:

Hardware

CPU:

Intel Core 2 Extreme QX6800 (2.93 GHz, 8MB Cache L2, 1066 MHz FSB)

Intel Engineering Sample Penryn 45nm Quad Core (3.33 GHz, 12MB Cache L2, 1333 MHz FSB)

Intel Engineering Sample Penryn 45 nm Dual Core (3.33 GHz, 6MB Cache L2, 1333 MHz FSB)

Motherboard: Intel Bad Axe 2 DX975XBX2 (rev 505) Engineering Sample

Bios: Engineering Preproduction BIOS

VGA: NVIDIA GeForce 8800GTX

RAM: 2×1024 Corsair Twin2X2048-8500C5, corriendo a DDR2 800, 5-5-5-15

HDD: Seagate Barracuda 320GB 7200.10

PSU: Antec True Power Trio 650W


La placa madre utilizada es un ES debido a que ya es sabido que Penryn requerirá de que cambiemos de placa madre (por el famoso tema de los VRM, en este caso pasa lo mismo que al pasar de Presler a Conroe), a una con chipset P35, y en este caso, Intel proveyó de una Bad Axe 2 con VRM modificados para que el cambio de chipset no fuera a influir en los resultados.

Software

Windows Vista Ultimate 32 bit Edition

NVIDIA Forceware 100.65

3DMark06 1.1.0

Half Life 2: Lost Coast

Cinebench 9.5

Cinebench 10 Beta

Encodeador Mainconcept H.264

Codec DivX 6.6 Alpha (soporte SSE4) ejecutado bajo VirtualDubMod 1.7.1

Metodología de pruebas

3DMark06: Se corrió con sus ajustes por defecto, a 1280×1024, y se consideraron los puntajes totales y el obtenido solamente en las prue
bas de CPU.

Half Life 2: Lost Coast: Se corrió el Stress Test incorporado en el software, con todos los ajustes seteados en auto detección.

Cinebench 9.5: Se corrió la prueba X CPU.

Cinebench 10 Beta: Se corrió la prueba X CPU

Encodeador Mainconcept H.264: Se comprimió una muestra de un minuto de duración a este formato.

VirtualDubMod 1.7.1, usando DivX codec 6.6 Alpha: Se comprimió una muestra de video en modo Fast Recompress, utilizando el codec ajustado para multithreading, y con soporte para SSE4 activado.

Pasemos ahora a la sección de pruebas donde podremos ver las gráficas que le pondrán punto final a la discusión.

Resultados

            

Lo que podemos ver es que lógicamente el equipo que obtiene menor puntaje es el basado en un procesador Dual Core. La diferencia entre el Penryn corriendo a 3.33Ghz con respecto al QX6800 es de un 6.8%, teniendo en cuenta que la diferencia en frecuencia es de un 13.65% más. Veamos en las siguientes pruebas si es que es sólo el aumento de frecuencia el que logra estos resultados o hay algo más detrás de todo esto.

            

Recordemos, el Penryn de 4 núcleos tiene una frecuencia un 13.65% más alta. Sin embargo, los resultados en la prueba de CPU nos indican que obtiene un 22.78% más de puntos. El sentido común nos diría que el aumento de frecuencia no tiene una relación 1:1 con el aumento en rendimiento, pero en este caso el resultado desafía el sentido común y pareciera que la mejora es más que solamente el aumento en MHz. Veamos en pruebas reales que tanto mejora a Kentsfield el cuadrunúcleo Penryn.

            

Esto es confuso. No sé muy bien que opinar, puesto que los resultados son francamente arrolladores.  Al comparar el resultado del Penryn Dual Core vs Penryn Quad Core, tenemos algo bastante coherente; HL2 no sabe sacar provecho de los cuatro núcleos y es por eso que la diferencia entre dos y cuatro cerebros es virtualmente nula. Pero, al comparar contra el QX6800 nos caemos de espaldas: Ambos Penryn rinden cerca de un 38.41% más que el hasta el momento más poderoso procesador del mercado. Cómo explicamos esto, si el aumento en frecuencia es de solamente un 13.65%? Según la gente de Intel, HL2 hace un uso extensivo de divisores (de hecho es bien sabido que este juego está más limitado por CPU que por VGA, por lo menos a settings normales) por lo que se ve muy beneficiado del nuevo divisor Fast Radix-16. Sigamos con las pruebas.

            

Lógicamente los procesadores de cuatro núcleos se imponen sobre los Dual Core en la prueba X CPU. Los dos Penryn, que corren a la misma frecuencia, nos muestran que el escalamiento de performance al duplicar el numero de núcleos es de un 71.24%, bastante aceptable y muy comparable con lo que hemos obtenidos en nuestros reviews realizados de manera independiente (de hecho es un 1% menos de lo que obtuvimos en este review). Pero además de eso, podemos ver que entre los dos procesadores de cuatro núcleos, el Penryn rinde un 24.84% mas que el QX6800. Nuevamente, bastante más que lo que un aumento 1:1 con el aumento de frecuencia nos entregaría. Si nos vamos a revisar nuestro propio review de Kentsfield vemos que en esta misma prueba la escalabilidad de rendimiento vs aumento de frecuencia estaba muy ligeramente por debajo del 1:1, por lo que en este caso la única explicación que tenemos es que las mejoras en la arquitectura que trae Penryn son bastante notables.

            

El nuevo Cinebench nos muestra escalas distintas de puntaje a las de la versión 9.5. Según lo que nos explicó la gente de Intel, esta nueva versión (que esta en etapa Beta), está programada para poder sacarle más provecho a múltiples núcleos. Esto se nota inmediatamente ya que vemos que aún cuando la escalabilidad entre dos y cuatro núcleos a la misma frecuencia salta a un 85.52% (lo que indica que saca mejor partido de tener más núcleos disponibles), al comparar entre el Penryn Quad Core y el QX6800 la mejora se queda en un 25.46%, estando dentro de los mismos márgenes que en la versión 9.5. De todas maneras, muy notable y completamente fuera de lo que uno podría esperar de un mero aumento de frecuencia.

            

Ahora probamos el codec DivX, el cual se supone que es una versión Alpha la que está especialmente preparada para sacar provecho de las instrucciones SSE4. Aquí, como se podría esperar por lo que hemos probado antes de DivX, vemos que la escalabilidad entre dos y cuatro núcleos no es demasiada, estamos hablando de un 22%, algo más alto al 14.22% que obtuvimos en nuestro review, ya que DivX aún cuando saca buen partido de dos núcleos con respecto a sólo uno, al pasar a 4 no mejora de manera tan drástica.

Y aquí hice punto aparte por una razón muy simple: El QX6800 se demora un 111% más. El procesador más rápido del planeta se demora un 111% más que estos samples. Que podemos decir. La explicación que nos da la iglesia azul es que las nuevas instrucciones SSE4 son realmente poderosas. Si esto es realmente así, y el día en que nosotros podamos poner nuestras manos en nuestro propio sample de Penryn los resultados son similares, no nos quedaría más que felicitar al equipo de desarrolladores de esta tecnología. Sobresaliente. Nada más que decir. (Y esto confirma la idea de que la manera correcta de trabajar siempre es que desarrolladores de hardware y software vayan de la mano buscando las mejores optimizaciones posibles para sacarle hasta la ultima gota de rendimiento al hardware).

            

Los resultados entre 2 y 4 núcleos son coherentes, demorando un 63.01% más el Dual Core. Al comparar entre el Penryn Quad y el QX6800, que recordemos que corre a un 88% de la frecuencia del ES, tenemos que el QX6800 demora un 21.92% mas en realizar el encodeo. Se sigue confirmando lo que hemos visto durante todo este breve análisis, y al parecer Penryn es aún más eficiente Mhz a Mhz que Conroe o Kentsfield.

Conclusiones. Comentarios finales

Bueno, los números han hablado por si solos. De todas maneras, debido a que este mini análisis fue realizado bajo las reglas y tutela de Intel (que en todo caso no nos merece objeción alguna; realizamos todo el set de pruebas con ellos al lado y se veía todo en orden) no vamos a darle una calificación final a este refresco de arquitectura (que nos reservaremos cuando nos hagamos por ahí de algún sample perdido que caiga en nuestros laboratorios secretos), lo único que podemos decir es que, en base a lo que vimos durante la tarde de hoy (que ha sido de locos, pasamos un par de horas bencheando y ahora no me he parado de la silla para poderles escribir este  breve texto para tenérselos listo a la hora del desayuno en Chile y el resto de América), Penryn promete, y mucho.

Si Conroe significó que a muchos de los entusiastas hardwaristicos se les revolucionaran las hormonas tech, esto podría perfectamente volver a significar otra minirevolución. Es agradable para nosotros, como observadores del incesante desarrollo tecnológico ver como los fabricantes no duermen para poder entregar productos más poderosos, y que lo logran con creces. Esperamos que a la hora de poder realizar nuestro análisis independiente los resultados sean los mismos, pues ahí seremos los primeros en pararnos de la silla y decir BRAVO!

Por ahora, hemos quedado con expectativas muy muy altas, aun cuando debido a lo corto del tiempo de pruebas no pudimos ver nada de TDPs ni consumo energético, Penryn puede ser un gran producto, y si AMD con su refresco de K9 no tiene un as MUY bueno bajo la manga, será muy difícil que vuelva a tomar el trono del rey de los procesadores (que ganó con honores en la época de K8 vs Prescott y perdió con la aparición en julio de 2006 de la Core Microarchitecture).

Sigamos a la espera, que la temporada de hardware se viene buena. Muy buena. La lucha por el mejor rendimiento, y la posterior lucha por quien bota más los precios y conquista a los consumidores más reticentes va a estar de lujo. Hurra por el hardware.

Related posts

Los desafíos de la computación cuántica y su impacto en Chile

Review Asus Zenbook Duo 2024 (UX8406M)

Review ASUS TUF RTX 4070 Super OC 12GB