domingo, 20 de junio de 2010

Micrografía detallada de Intel Sandy Bridge – ProfessionalSAT

Ya estamos a mediados de Junio y tras unos meses de poquísima actividad en mis Blogs voy a hacer una pequeña introducción comentada de algunos detalles de Sandy Bridge.

La razón del “relativo abandono” de mis Blogs:

Ciertamente este año 2010 y el final de 2009 para mí han sido de una actividad profesional frenética, en lo que va de año he diseñado o actualizado a las últimas especificaciones 38 Sistemas de Altas Prestaciones, la gran mayoría de ellos destinados al cálculo intensivo en simulaciones numéricas con sistemas de ecuaciones no lineales.

8threads_12hCálculo continuo de 8 threads, tiempo de ejecución: unos 21 días por ciclo.

Todos estas máquinas han estado basadas alrededor de procesadores Intel Core i7 de la serie 900 con triple channel DDR3 y capacidades de memoria de 6 a 12 GB según los requerimientos del cliente. Sus frecuencias de salida han sido de 3.8 GHz hasta los 4.2 GHz en cores. En el Uncore las frecuencias han ido desde los 3.266 GHz hasta los 3.6 GHz de los diseños más extremos.

Es debido a esta excepcional carga de trabajo que me ha sido imposible ser más fiel a la redacción de artículos para éste y otros de mis Blogs pese a que es algo que me llena y me causa gran satisfacción personal.

En cualquier caso, por fin llegan las vacaciones, y pienso aprovecharlas. Gracias a mis clientes y a los cientos de horas de trabajo que he dedicado a sus máquinas este año puedo permitirme algunos lujos extra dentro de la cautela que exige la situación económico-financiera global. Bien, pasemos al tema:

Fotografía del die de Sandy Bridge:

Hace unas semanas circula por la red una imagen de gran detalle del próximo diseño de Intel, su nueva microarquitectura prevista para finales de 2010: Sandy Bridge.

SB_4C_630p Sandy Bridge quad core.

Los núcleos de ejecución:

Sandy Bridge contará con cores derivados de los presentes en los actuales procesadores Core i7 Bloomfield quad core de 45 nm y en los más modernos i7 980X Westmere hexa core de 32 nm.

SB_4C_630p_coresLos 4 cores de Sandy Bridge.

Como Intel nos tiene acostumbrados con cada nueva arquitectura, habrá avances en todos los aspectos destinados a aumentar el rendimiento por ciclo (IPC), pero lo más destacado será el proceso FPU de 256 bit gracias a las nuevas unidades de ejecución AVX.

Core El núcleo de ejecución incluyendo las L1d y L1i y la caché L2 de 256 KB.

Las cachés L1 y L2 permaneces con tamaños invariados (32 + 32 KB L1 y 256 KB en L2) por core, en cambio la caché L3 sufre cambios importantes derivados de la inclusión en el die de una GPU completa (a la izquierda de la imagen).

La GPU Integrada:

Intel ha incluido en el die una GPU completa derivada de la actual serie Intel Graphics HD conocida en los actuales Core i3 y Core i5 dual core Westmere. La diferencia estriba en la cantidad de unidades funcionales y en la frecuencia de funcionamiento permitida por el flamante proceso de fabricación de 32 nm.

SB_4C_630p_GPU El núcleo gráfico ocupar un área considerable en el nuevo diseño.

Las frecuencia estimadas rondan los 1.4 GHz efectivos en Shaders, lo que prácticamente duplica las actuales y asegura un rendimiento muy elevado tratándose de una arquitectura integrada.

Las prestaciones estimadas duplican con creces a las actuales GPUs integradas en los Core i5 661, lo que no está nada mal. Recordemos que tras la cancelación de Larrabee, Intel ha puesto muchos más recursos en su división de GPUs integradas, tanto a nivel de diseño como en el terreno del software y drivers.

GPU Detalle de la GPU y la circuitería colateral.

Se rumorea y parece absolutamente lógico y probable que la cahé L3 de Sandy Bridge reserva una partición, estimada en 2 MB de los 8 MB totales para uso exclusivo de la GPU integrada.

Una última reflexión: con este movimiento Intel expulsa literalmente a nVidia del mundo de los chipsets gráficos integrados, y parece que será un movimiento definitivo.

La caché L3 unificada de 8 MB de Sandy Bridge:

Sandy Bridge incorpora cuatro bancos de 2 MB para un total de 8 MB de L3, esta caché está conectada a un ring bus de 256 bit desde el cual envía y recibe datos de los cores y la GPU integrada. Según las últimas informaciones tres de los bancos (&MB) están dedicados a los núcleos y un banco de 2 MB a la GPU

SB_4C_630p_L3 Cuatro bancos de L3 compartida.

Hay algo que llama la atención al examinar el die de Sandy Bridge quad core y es el análisis de los bloques de lógica de control de los bancos de L3, como he comentado hay 4 bancos de 2 MB pero como vemos debajo hay 5 (!) bloques de control.

SB_4C_630p_L3_ControlCinco bloques de control para 4cuatro bancos de L3.

Este hecho sugiere que hay un bloque por cada core más uno adicional para la GPU integrada, ello hace pensar que hay una cantidad de L3 reservada para tareas gráficas y parece que serán 2 MB.

L3 Los cuatro bancos de L3.

En este caso los 4 cores de proceso se contentan con 6 MB comunes de L3, habrá que ver si Intel implementa un reparto de L3 estático (6 + 2 MB) o uno dinámico en función de la demanda (más eficiente pero mucho más complejo).

La interfaz de memoria y conclusiones:

Sandy Bridge contará con dos canales DDR3 1600 es sus versiones de sobremesa y portátiles. En gama alta seguirá con los tres canales DDR3 y modelos de 6 cores nativos sin GPU integrada (lógico en gamas altas).

Prestacionalmente Sandy Bridge supondrá un avance leve en proceso de enteros, también leve en frecuencia máxima y muy importante en coma flotante. Los consumos y TDPs se mantendrán invariados respecto a los actuales, eso sí con mayores prestaciones para los mismos watt.

En resumen, una arquitectura evolucionaria de Intel basada en los excelentísimos núcleos y microarquitectura que inauguró Bloomfield en 2008: Nehalem. Realmente Intel no necesita más…