Preview: Intel Penryn

Preview: Intel Penryn

por

Ya les mostramos un adelanto de la próxima arquitectura de AMD, comandado por su producto para servidores, Barcelona. Hoy haremos lo mismo con Penryn y Yorkfield, los procesadores de Intel que tendrán que encarar al silicio con nombre de puerto español.

Desde hace meses que venimos escuchando de la futura llegada de la encarnación en 45 nm de la arquitectura Core bajo el nombre de Penryn en sus sabores dual y quad core para servidores, desktops y notebooks. La fecha para su lanzamiento se estima para finales del 2007 en algunos casos puntuales, pero el grueso de los nuevos procesadores sólo verá la luz en el 2008.

Aunque el mejor proceso de manufactura no trae mejoras intrínsecas de por sí, Intel ha conseguido mejorar su arquitectura en esta generación agregando capacidades nuevas a sus productos, que justifican en gran medida los resultados de las pruebas preliminares que veremos en este mismo artículo.

El “tick-tack” de un Intel renovado

Desde el momento en que la microarquitectura Core fue lanzada oficialmente en la segunda mitad del 2006 Intel parece estar en una carrera frenética consigo mismo para compensar por todos los años perdidos en su investigación y desarrollo de NetBurst, que aunque trajo consigo resultados interesantes, como por ejemplo la tecnología HT y avances considerables en branch-prediction (predicción de ramificaciones), significó para muchos un estancamiento en el mercado de procesadores con un AMD confiado –quizás en demasía- con su K8.

El despertar de Intel viene acompañado de un programa ambicioso, un reloj imaginario que avanza año a año con un “Tick tock” que debería durar por lo menos hasta el 2010, en donde cada “tick” representa una nueva microarquitectura y cada “tock” una mejora en su sistema de manufactura, el 2006 fue el año “tick” con la introducción de Core y el presente representará un “tock” con su evolución a Penryn, el 2008 será un nuevo “tick” con el lanzamiento de Nehalem, seguida de su evolución a 32 nm Westmere (2009) para terminar con la arquitectura Sandy Bridge el 2010.

Inicialmente la familia Penryn contará con siete miembros principales, en el sector desktop encontraremos a Wolfdale (dual core, 6 MB caché L2) y Yorkfield (dos Wolfdales unidos, quad core, 12 MB de caché L2) mientras que en servidores tendremos a Wolfdale DP y Harpertown DP (homólogo de Yorkfield para servidores) para las configuraciones de doble procesador y a Dunnington en versiones DP y MP, este último es un procesador quad-core y sucesor de Tigerton. Finalmente en el área móvil nos encontraremos con Penryn, procesador dual-core que lleva el mismo nombre que la familia.

El primero en salir –según los últimos roadmaps de Intel- será Yorkfield a finales del 2007, siendo seguido por Wolfdale en la primera mitad del 2008. Las ofertas en 45 nm de Intel tendrán una cuota estimada de mercado del 3%, pero no se especifica a que plazo.

En el segmento portátil Penryn (versión notebook) debería aparecer durante el 2008 con una penetración del 2%, valor que debería aumentar a 5% cuando Intel introduzca su nueva plataforma Centrino, Montevina, el segundo trimestre del año.

Las fábricas precursoras de esta renovación, D1D en Oregon, Fab 32 en Arizona y Fab 28 en Israel empezarán a funcionar a toda capacidad a finales del 2007 o en la primera mitad del 2008.

Nehalem y más allá

En una mirada rápida a lo que se viene luego del lanzamiento de Penryn nos encontramos con Nehalem, la nueva arquitectura que hará resucitar el hasta ahora difunto Hyper-Threading en una versión completamente renovada y un núcleo gráfico integrado para hacer frente a Fusion de AMD. Siguiendo a Nehalem aparece Westmere, su reducción a 32 nm con nuevas tecnologías de fabricación como tri-gate transistors y strained silicon technology además de los materiales high-K que son usados en la fabricación de Penryn. Finalmente tenemos la nueva arquitectura “Sandy Bridge” en el 2010, de la cual no se sabe virtualmente nada. 

Una mirada de cerca a las mejoras de Penryn

El proceso de manufactura más pequeño le abrió las puertas a Intel para aprovechar el nuevo espacio físico disponible además de proponer la introducción de mejoras intrínsecamente estructurales. Intel ha decidido jugar todas estas cartas (al contrario de lo que ocurrió con AMD y Brisbane) aprovechando el nuevo espacio disponible con mayores cantidades de caché L2, aumentando los 4 MB originales de Conroe a 6 MB en Penryn.

En las nuevas técnicas de manufactura veremos el uso de transistores que aprovechen el proceso High K y Metal Gate del que ya hablamos extensamente pero que vale la pena recordar por sus beneficios:

  • Mejora al doble la densidad de transistores posibles, permite mayor cantidad de transistores o mayor miniaturización

  • Una reducción del 30% del consumo en el cambio encendido/apagado por transistor

  • Reduce en 5 veces la perdida eléctrica en el paso de la fuente al drenaje en el transistor (Source to Drain)

  • Reduce en 10 veces el escape de energía en la Puerta Dieléctrica del transistor.

Las mejoras más intrínsecas al Conroe original han justificado que Intel tenga un nuevo nombre para esta encarnación: Enhaced Core Microarchitecture, que incluye características como las siguientes.

Mejoras implícitas

En un campo más profundo podemos encontrar lo siguiente:

Nuevas instrucciones – SSE4

Penryn incluirá un nuevo set de instrucciones bajo el nombre de SSE4, que no debe ser confundido con las SSSE3 que podemos encontrar en Conroe. Se tratará de 47 nuevas instrucciones y representarán uno de los mayores avances en este campo sólo detrás de la tecnología IA64 lanzada el 2001 (usada en Itanium y radicalmente distinta de x86-64 propulsada por AMD64 el 2003).

El potencial de SSE4 yace en su promesa de unificar el procesamiento gráficos y codificación de video además de imágenes tridimensionales y aplicaciones como juegos, los detalles aún son poco claros pero las mejoras prometen ser sustanciales.

Las instrucciones van desde optimizaciones al trabajo en gráficos vectoriales pasando por aceleración de juegos 3D hasta codificación de video. SSE4 será lanzado en dos versiones (4.1 y 4.2), Penryn será equipado con la primera edición y sus 47 instrucciones correspondientes.

Fast Radix-16 Divider

No hay mucho que decir, Penryn efectivamente divide más rápido, pero esta pequeña operación aritmética es fundamental en software científico y más importante aún (para nosotros), los juegos están fuertemente basados en operaciones de extracción de raíz, cuyas aproximaciones requieren de divisiones extremadamente rápidas.

Super Shuffle Engine

La arquitectura Core ya es capaz de procesar una instrucción SSE por ciclo, pero Penryn aumenta esa eficiencia aún más optimizando los tiempos de ejecución de las tareas propiamente tales de estas instrucciones. El efecto debiera ser visto en los programas que aprovechen estas librerías, especialmente aquellos de tipo multimedia.

Split Load Cache Enhancement

Improved Store Forwarding (store – and-forward)

Faster OS Primitive Support (high-speed synchronization primitive operating system support)

Enhanced Intel Virtualization Technology

Penryn mejora notablemente la tecnología de virtualización ya presente en Conroe, reduciendo sus latencias de operación entre 25% y 75% según Intel.

Deep Power Down Technology

La microarquitectura Core “mejorada” introduce un nuevo estado de bajo consumo para sus procesadores móviles bajo el nombre de C6 “Deep Power Down”, que apaga toda la memoria del procesador (caché L1 y L2), reduce el voltaje en un 50% y el consumo en un 75% en comparación con el actual estado más profundo de funcionamiento, C5.
 

Enhanced Dynamic Acceleration Technology

Penryn aprendió un truco que ya podemos ver en los procesadores basados en la nueva plataforma Centrino “Santa Rosa” (Merom Socket P), que son capaces de detectar cuando se está trabajando en ambientes de un sólo hilo para reducir uno de sus núcleos a estado de energía C3 y aprovechar su menor disipación de calor para aumentar la frecuencia del otro núcleo subiendo el multiplicador del procesador ligeramente, una configuración Merom (800 MHz FSB) con multiplicador natural 12 (2,4 GHz) puede aumentar este valor a 13 para alcanzar una frecuencia final de 2,6 GHz.

Las mejoras combinadas de estos agregados es impresionante según Stephen Fischer (ingeniero de Intel), 15% de mejoras en aplicaciones gráficas, 20% en codificación de videos, 25% en trabajos en 3D y hasta un 40% en juegos.

 

El desempeño de Penryn en fríos números

Para saber si toda esta charla de mejoras estructurales a Penryn se reflejará en el mundo real ya se han realizados pruebas concretas sobre estos nuevos procesadores, en particular aquellos para desktop en versión dual core (Wolfdale).

En el chip podemos ver la línea “80570PJ0536M”, donde “80570” representa al núcleo Wolfdale, “P” aduce al mercado desktop medio, “J” sus 1333 MHz de FSB, “053” la velocidad nativa del procesador, en este caso 2,33 GHz, y “6M” sus 6 MB de caché L2.

Cuenta con las clásicas tecnologías MMX, SSE, SSE2, SSE3, SSSE3, Intel TXT (Trusted Execution Technology) y XD Disable Bit además de las recién discutidas SSE4.1. Su número de transistores asciende a cerca de 410 millones -cuyo aumento sobre Conroe (291 millones) se debe más que nada al fuerte aumento de caché L2- mientras que su tamaño se reduce a 103 mm^2 en comparación con los 143mm^2 de la primera camada Core.

Se comparó con el modelo basado en Conroe lo más similar posible, el Core 2 Duo E6550 (2,33 GHz / 1333 MHz FSB / 4 MB caché L2), ambos basados en la siguiente plataforma:

Placa madre:

Gigabyte GA-P35T-DQ6 (P35 + ICH9R + DDR3)

Gigabyte GA-G33-DS3R (G33 + ICH9R)

Memoria RAM: 2 x 1 GB ADATA DDR3-1066 CL 6-6-6-18

Tarjeta de video: GeForce 8800 Ultra

Fuente de poder: Gigabyte ODIT 800 W.

Disco Duro: Maxtor DiamondMax 10 160GB 7200rpm SATA II

Sistema operativo: Windows Vista Ultimate (32-bit) 

 

 

Los resultados hablan por sí mismos y nos limitaremos a hacer las acotaciones más importantes, como la que vemos en la prueba de codificación DivX aprovechando SSE4, en la que Wolfdale supera a su contraparte por un increíble 115%, probablemente debido a las nuevas instrucciones, pues en otra prueba de codificación de video (sin soporte SSE4) la ventaja disminuye a un 12,49%. La otra sorpresa vino del otrora exigente juego Half-Life 2, en la que la diferencia es de un 31,12% favoreciendo a Penryn con los otros juegos mostrando beneficios entre el 10 y 15% aproximadamente, estos valores más altos que el promedio de las ventajas pueden deberse a la mayor cantidad de caché L2, pero las mejoras a Radix-16 también pudieron haber tenido un efecto notable de forma independiente.

Las otras pruebas arrojan resultados siempre favorables a Penryn pero en distinto grado.

Finalmente tenemos las pruebas de consumo eléctrico y disipación de calor, donde los beneficios del proceso High K y Metal Gate son notables, 18 W de diferencia en estado idle, que aumentan
a 24 W en modo normal, todo esto sin hacer un MHz de overclock.

La diferencia de temperaturas es igual de sorprendente, del orden de 10 – 12 ºC y hacen prever que el overclock será simplemente impresionante en los nuevos procesadores de Intel.

Palabras al cierre

Las miniaturizaciones de núcleos de por sí no le dan nuevas facultades al procesador, ya lo vimos con el Brisbane de AMD, que era casi idéntico a Windsor en desempeño con pequeñas desventajas debido a una mayor latencia de su caché L2 (para tener más campo y aumentar las frecuencias de fábrica). Intel no quiso pasar por lo mismo -especialmente luego de su poco glorioso paso a los 65 nm durante la era NetBurst- y ha incorporado muchas características que podrían haber sido parte de Nehalem, lo que da cuenta de su renovado espíritu de carrera contra un AMD a punto de lanzar Barcelona con la promesa de superar al actual Kentsfield de Intel MHz por MHz.

Fuente: HKEPC

Comente este artículo