domingo, 18 de abril de 2010

Intel Sandy Bridge. Introducción – ProfessionalSAT

Sandy Bridge es el nombre en clave de la próxima microarquitectura de Intel. Será el sustituto de Nehalem, que nos acompaña desde 2008, y estará fabricado en el nodo de 32 nm.

He publicado algunos datos adicionales en un artículo de LowLevelHardware: Intel Sandy Bridge versus Westmere die – LowLevelHardware. En este breve artículo solo esbozaré algunas características generales para servir de guía a otros futuros en los que entraré más a fondo en los detalles.

La microarquitectura será una importante evolución del diseño ya conocido en Bloomfield y recientemente en Gulftown (la versión hexacore de 32 nm de Nehalem). Por fín incorporará en el die la GPU integrada que será una derivativa de las actualmente integradas en los actuales Core i3 e i5 de 32 nm.

tick tockEl próximo Tock de Intel: Sandy Bridge.

Los cores de Sandy Bridge

Los motores de proceso de Sandy Bridge incorporan principalmente nuevas FPU capaces de trabajar con datos de 256 bit de precisión gracias al nuevo juego de instrucciones AVX. Igualmente contarán con un Turbo Boost mejorado e HyperThreading.

Die del quad core Sandy Bridge. Fuente: canardpc.com

Por otro lado, y como Intel acostumbra, habrá refinamientos en multitud de características como Branch Prediction, reducción de latencias cachés L1, L2 y L3…

El Uncore de Sandy Bridge

Intel ahora lo llama System Agent, pero identifica toda la superficie del die que no comprende los cores o núcleos de ejecución con sus L1 y L2 privadas.

larrabeeAlgunos datos preliminares en una Intel secret slide.

La clave reside en la implementación de un ring bus de 256 bytes ciclo para comunicación de los diferentes componentes del die.

El System Agent o Uncore de Sandy Bridge comprende lo siguiente:

  • Hasta cuatro controladoras de memoria DDR3 de 64 bit.
  • La caché L3 compartida por los cores y también por la GPU integrada.
  • El bus PCIe 3.0 con 8 GT/s (el doble del actual PCIe 2.0).
  • Para conexión con el chipset P6X (serie 6) el bus DMI de 2 GB/s junto con 4 lanes PCIe 3.0.

Los voltajes del Uncore serán muy inferiores a Nehalem 45nm (1.2 V) y a Lynnfield 45 nm (1.1 V), se barajan valores de 0.85 V lo que paralelamente implicará frecuencias limitadas.

IMG0026987_1Sandy Bridge estará fabricado con transistores de 32 nm.

Como vemos se deja de utilizar rapidísimo bus QPI de 6.4 GT/s que equipan los Core i7 y Xeon de triple channel DDR3 ya que no es necesario por haber integrado totalmente el North Bridge en el die de 32 nm.

El chip, encapsulado y TDP

Obviamente y por el uso de 4 canales de memoria de 64 bit, será necesario un número de pads elevado (superior a 2000, en concreto 2011 pads) para conectar el procesador con la placa base. Seguiremos con el habitual formato LGA.

El TDP máximo se mantendrá con gran seguridad en los 130W de los procesadores de alta gama actuales.

lunes, 12 de abril de 2010

AMD Turbo CORE en AMD Phenom II X6 - ProfessionalSAT

Hace un par de meses escribí varios artículos sobre la próxima microarquitectura de AMD en LowLevelHardware. En el primero de ellos comenté la necesidad de que AMD integrase un “turbo Boost” para incrementar la frecuencia de los cores cuando están en uso un número limitado de ellos.

big_slide-1 AMD Turbo CORE.

Extraído de Microarquitectura AMD Bulldozer 2011. Actualizado – LowLevelHardware, publicado el 21 de febrero de 2010 en mi blog de microarquitectura: LowLevelHardware:

Especulación 7, AMD necesita urgentemente “Turbo Boost”:

Una característica diferenciadora de los actuales procesadores Intel es su capacidad para aumentar la frecuencia de los cores activos siempre que haya margen hasta el TDP (Thermal Design Power).

La Ley de Amdahl estipula que la aceleración obtenida por un sistema multiprocesador siempre estará limitada por los fragmentos de código secuencial o no paralelizable (single-threaded).

648px-AmdahlsLaw_svg Aumento de velocidad con el número de cores y según el porcentaje de código paralelizable.

AMD planea integrar algo similar en todos sus futuros procesadores, pues aunque resulte incómodo reconocerlo, el proceso single-thread domina la velocidad y responsividad de una máquina en los sistemas operativos actuales.

TurboMode Turbo Boost en Core i7 serie 800 Lynnfield quad core.

Por ejemplo, un Core i7 870 de 3.06 GHz nominales puede, mientras mantiene 3 cores a 1.2 GHz y un voltaje inferior a 1V (sobre 0.80 V) y en estado power-gated (con un consumo virtualmente cero), tener uno de sus núcleos procesando al 100% de carga a 3.6 GHz efectivos. E incluso, con dos núcleos activos en cálculo al 100% de carga, mantiene en ellos frecuencias de proceso de 3.46 GHz.

AMD necesita urgentemente algo similar y parece ser que así será. En próximos procesadores integrará capacidades de power gating por core para deshabilitar y cerrar el suministro de corriente a los cores inactivos reservando TDP.

Este margen se utilizará para el proceso de los núcleos que lo demanden por su carga de trabajo. De este modo podrá así aumentar su frecuencia y su voltaje sin superar el TDP estipulado por el diseño.

A día de hoy ya hay información definitiva del modo en que AMD implementará tal tecnología. Siendo sincero le es en la actualidad absolutamente necesario para competir con Intel en el mercado sistemas de sobremesa y espero que en breve lo aplique a sus series Opteron para servidores.

Especialmente en los Magny Cours de 12 cores serie 6000 para socket G34 donde podría demostrar un potencial altísimo.

magny_cours_die AMD Magny Cours 12 cores. Un MCM compuesto de dos dies Istambul.

Funcionamiento de AMD Turbo CORE:

En principio esta tecnología se va a aplicar a la nueva serie Phenom II serie T:

GamaAMD_2010 La nueva gama Phenom II con Turbo CORE.

Como vemos todos los modelos son hexacore nativos con 6 MB de L3 excepto un quad. Los procesadores de 6 núcleos de AMD son novedad en el mercado de sobremesa aunque ya hace tiempo que se comercializan sus versiones Opteron.

AMD ha previsto incrementos de frecuencia de hasta 500 MHz con tres cores activos (de los seis totales) en los modelos hexacore y 400 MHz en los quadcore

Istambul_ShanghaiAMD Istambul 6 cores (izquierda) frente a Shanghai 4 cores (a escala).

untitled

La tecnología Turbo CORE solo necesitará de una actualización de BIOS y en principio todas las placas AM3 serán compatibles con esta nueva tecnología.

untitled2 Detalles de AMD Turbo CORE.

La entrada del procesador en los estados Turbo CORE, es decir en frecuencias superiores a la nominal, vendrá marcado por dos consideraciones:

  • La carga de trabajo se aplique como máximo a tres cores.
  • Estar por debajo del TDP (Thermal Design Power) en W.
  • Mantener una temperatura moderada.

Crípticamente AMD lo explica en la siguiente presentación:

big_slide-2 Modo de actuación de AMD Turbo CORE.

Si un número superior a tres cores se encuentra con una carga de procesamiento elevada, la frecuencia máxima disponible será la nominal: Turbo CORE permanecerá inactivo.

big_slide-1AMD Turbo CORE se aplica a un máximo de tres cores.

Siendo crítico y sabiendo de las preferencias del software actual por las potencias de dos en cuanto a multithreading (uso de 2, 4, u 8 cores) habría preferido que Turbo CORE tuviese un segundo escalón para un modo Turbo de cuatro cores. Recordando la tabla anterior:

GamaAMD_2010

Por ejemplo, en el modelo superior Phenom II X6 1090T con una frecuencia nominal de 3.2 GHz con carga de 6 cores y 3.6 GHz con 1, 2 ó 3 cores activos sería deseable un segundo grado de Turbo CORE de 3.4 GHz con 4 cores activos.

Conclusiones:

En resumen, un eficaz y oportuno movimiento en la dirección correcta de AMD; una compañía que bajo la dirección de Dirk Meyer ha sabido siempre tomar las mejores decisiones para competir eficazmente con su poderosísimo rival: Intel corp.

No podía ser de otro modo tratándose del arquitecto jefe del proyecto AMD Athlon