jueves, 30 de septiembre de 2010

Recopilatorio: Sistemas de Altas Prestaciones - ProfessionalSAT

Como mis lectores más asiduos saben, una de mis principales ocupaciones consiste en el diseño, montaje y validación de Sistemas de Altas Prestaciones.

Son actualmente, hasta que haya disponible alguna arquitectura superior, equipos basados en procesadores Intel Core i7 (normalmente 920 / 930 / 950 / 960) configurados fuera de especificación.

Ci7_Nov2008 Desde Noviembre de 2008 migré todos mis sistemas a la arquitectura Nehalem.

Todos ellos son versiones para socket LGA 1366 con triple channel DDR3 por dos importantes razones:

  • Mayor margen y flexibilidad en frecuencia fuera de especificación..
  • Mayor capacidad de memoria al haber disponibles seis slots físicos para DDR3 en placa.

Las frecuencias a las que quedan configuradas estas máquinas con procesadores (todas ellas) basados en stepping D0 son las siguientes:

  • En cores desde los 3.6 GHz hasta los 4.2 GHz en función del nivel de exigencia del cliente y de la calidad de los componentes. El incremento máximo es de un 58 %.
  • En Uncore (caché L3 de 8 MB, controladoras de memoria) de los 3.2 a los 3.6 GHz desde los 2.13 GHz nominales con mejoras en frecuencia de hasta un 69%.

PIC03259Algunos de estos sistemas recurren a soluciones “imaginativas”.

Estos incrementos de frecuencia tan radicales aseguran unas velocidades de calculo inalcanzables para sistemas “de serie” y además, y ahí reside el “secreto” de mi trabajo, con absoluta estabilidad para un funcionamiento continuo y sin interrupción alguna.

P95_BlendPrime95 Blend, T máxima  82ºC, excelente a 4.2 GHz por aire.

Pensad que el grueso de estos sistemas (sobre un 55%) van destinados a cálculo intensivo. Se trata de cálculos en coma flotante compilados específicamente para la máquina con los últimos compiladores de Intel Fortran para arquitectura Nehalem.

Sinus8X8 threads de cálculo intensivo e ininterrumpido.

Son procesos de cálculo que se lanzan afinitizados por thread (ocho por CPU en Core i7 con HT activado) y tardan aproximadamente unos 20 días en finalizar. Por supuesto es inadmisible cualquier fallo de precisión en el cálculo o problema con el sistema.

Por este motivo, después de las fases de diseño y montaje de la máquina en cuestión (lo que me lleva de 5 a 10 días) procedo con las dos semanas de validación ininterrumpida.

PIC03858 Validación de un sistema con cuatro monitores.

Son pruebas y tests de stress destinados a explorar el límite de cada componente y a asegurar (dentro de los razonable) una ausencia de fallos posterior. El proceso me lleva sobre unas dos semanas ( a veces tres) y normalmente proceso varias máquinas en paralelo.

Mi filosofía de trabajo es sencilla: calidad extrema, perfeccionamiento continuo y máxima atención al detalle.

Entre los tests incluyo:

  • Tests single threaded de memoria en 64 bit.
  • Test multithreaded (8 hilos) de memoria 64 bit en entorno Windows 7 X64.
  • Tests de cálculo matemático en coma flotante X87.
  • Tests de cálculo matemático vectorizado SSE SIMD.
  • Tests gráficos DX9, DX10 y DX11.
  • Tests de stress de los VRM de la SVGA.
  • Tests de stress de la fuente de alimentación (variando rápidamente la carga máxima en distintas fases de la misma) con consumos pico en cada fase (12 V, 5 V, etc.)
  • Tests de temperatura máxima en cores y en cada uno de los sensores.

Durante estos días, en dos ocasiones desmonto en radiador de CPU y compruebo la huella de interfaz térmica sobre el heat spreader del procesador.

DSCF0258 Huella de pasta térmica de un Core i7 LGA1366.

Para más información de parte del software utilizado en la validación de estas máquinas recomiendo mi Blog SATSoftware.

PIC03737 reparado para empezar con los tests de memoria preliminares.

Es crítico conseguir los voltajes mínimos estables 100% en cada área (cores, uncore, QPI, DDR3, PPL, …). Solamente esta parte del proceso lleva fácilmente 3 o 4 días. Con ello se consiguen consumos y temperaturas mínimas en funcionamiento a la frecuencia objetivo, siempre con una estabilidad garantizada en cualquier escenario.

Si consideras útil el contenido de este Blog, ayuda a mantenerlo ojeando algunas de las ofertas que consideres interesantes de nuestros anunciantes.

martes, 24 de agosto de 2010

AMD Bulldozer – ProfessionalSAT

Parece que AMD ha desvelado por fin algunos detalles arquitecturales de su nuevo diseño destinado a servidores y sobremesas de gama alta: AMD Bulldozer.

Modulo2Uno de los módulos de AMD Orochi, el primer integrante de la familia Bulldozer.

He publicado un artículo ampliado sobre el concepto de diseño de Bulldozer en LowLevelHardware:

Y un segundo escrito profundizando más en su novedosa microarquitectura:

Hasta ahora nos movíamos más en el terreno de la especulación que en el de los hechos, finalmente podemos hablar con fundamento real de este avanzado procesador que estará a la venta a mediados de 2011.

8core El gran esquema de Bulldozer.

En varios artículos pasados de algunos de mis Blogs he analizado esta microarquitectura, en algunos de ellos en bastante detalle incluso estimando sus prestaciones:

La próxima generación del core de AMD está despertando una gran excitación entre los profesionales de la arquitectura de procesadores, e incluso entre los propios ingenieros en Intel. Tal como ahora la conocemos será un rotundo éxito si es llevada a buen puerto como apuntan los numerosos rumores y las escuetas informaciones del fabricante.

Bulldoxer_4module_8int_cores_L3shared_630 AMD Bulldozer Zambezi 8 cores: 4 módulos y 8 threads con 8 INT cores.

La composición de módulos Bulldozer de arriba creó controversia en su día pues se afirmaba que las cachés L2 eran también compartidas por todos los cores, algo para mí absurdo. La única caché globalmente compartida es la L3 o LLC (Last Level Cache).

AMD ha diseñado y tiene ya finalizado el floorplan del nuevo procesador que en 2011 inaugurará una nueva microarquitectura. Un concepto revolucionario en muchos aspectos que no por ello deja de suscitarme algunas dudas acerca de su rendimiento single thread.

Será fabricado para AMD por Global Foundries en el proceso de 32 nm SOI  high-k metal gate ya que AMD se deshizo de sus fábricas de semiconductores (wafers).

Los orígenes de Bulldozer:

Cluster_multithreading Captura de una presentación de AMD en 2005.

En el tercero de esta serie de artículos dedicados a la próxima microarquitectura de AMD voy a aventurar mis previsiones sobre su nivel prestacional. Además lo compararé con los diseños actuales y con su muy evolucionado y perfeccionado futuro competidor, Intel Sandy Bridge.

Bulldozer_server AMD Bulldozer, la próxima microarquitectura.

Cada día salen a la luz algunas nuevas informaciones sobre los nuevos procesadores destinados a servidores y la gama alta de sobremesa y estaciones de trabajo, los nuevos Bulldozer.

Como sabréis, Bulldozer supone un cambio importante para AMD y en general para el mundo X86, una verdadera revolución en el diseño dado que se comparten entre cores algunas estructuras de procesamiento, en este caso la unidad FPU y el FP scheduler.

bulldozerUn módulo Bulldozer consta de dos cores de enteros.

Debido a estos artículos y por la opiniones que en ellos he expresado (todas basadas en hechos físicos experimentales y conocimientos sobre microarquitectura) me he metido en algunas “discusiones” microarquitecturales con algunos integrantes de ciertos foros que suponían que Bulldozer iba a ser una arquitectura absolutamente superior a todo lo conocido.

Extraído de Microarquitectura AMD Bulldozer 2011. Actualizado – LowLevelHardware   21 Febrero 2010

Hipótesis 1: Si AMD utiliza 4 pipelines para cálculo entero y simultáneamente como AGUs (Address Generation Units) o 2 pipelines de enteros y dos AGUs, la potencia de proceso descendería drásticamente en algunos algoritmos… incluso respecto al actual Shanghai 45 nm (Phenom II) core for core y clock for clock.

He leído a algunos ingenieros de AMD e incluso a alguien de su Staff directivo alabar las cualidades de proceso multi thread de Bulldozer y eludir comentarios sobre potencia de cálculo single thread. Sinceramente, espero haber entendido mal sus comentarios…

En este caso, a igualdad de reloj y en procesos single threaded sería más rápido un Phenom II actual que este hipotético Bulldozer aunque tuviese muchos más cores disponibles para ejecutar más threads.

Por supuesto, en este caso Intel no tendría competencia en software single threaded. Pensad que para entonces Intel comercializará Sandy Bridge, su próxima microarquitectura.

Especulación 5, prestaciones en enteros de Bulldozer:

Estimo unas débiles prestaciones single threaded en enteros para Bulldozer respecto a Intel Sandy Bridge y también respecto a Westmere. Sin duda, en el terreno multi thread su potencia representará un gran avance para AMD en enteros y en cálculo matemático en coma flotante (FPU) y probablemente luchará en igualdad con Intel en FP y quizás en enteros.

Según los ingenieros de AMD (espero que sea así y no hable el departamento de marketing) se espera una mejora de un 80% en enteros gracias al segundo core integrado. Como vemos subrayan el aspecto multi thread pero nadie habla sobre su velocidad en cálculo con un solo hilo de ejecución.

Como podéis inferir, me inclino por la segunda opción en la  anterior Hipótesis 1.

Según la interpretación mayoritaria Bulldozer iba a disponer de cuatro pipelines de enteros (ALUs) por core (8 por cada módulo de dos INT cores). Ahora que conocemos la realidad, la lógica y el sentido común se han impuesto y AMD no ha producido un mega procesador de 600 mm2 para contentar a algunos fans exacerbados…

AMD Bulldozer 32nm:

En su lugar AMD ha hecho lo más lógico, ha asumido la brutal maestría de Intel en el terreno del procesamiento de enteros (gracias sobretodo a lo aprendido sobre branch prediction en la era NetBurst) y ha decidido acercarse lo máximo posible en rendimiento pero dentro de los límites económicos y de work force (capacidad de ingeniería, man hours) a su disposición.

AMD ha diseñado un eficiente procesador en el que se comparten algunos componentes para, por un lado reducir la superficie del chip y bajar costes y por otro lado poder integrar más cores (de menor superficie) en un chip monolítico.

INT_core Cada INT core solo aumenta la superficie del módulo en un 12 %.

En mi opinión, la FPU compartida en un módulo (con dos INT cores) y con capacidad SMT de ejecutar dos threads simultáneos es un movimiento súmamente elegante de ahorro de recursos y optimización de rendimiento.

Las etapas de fetch:

Fecth significa la carga de instrucciones desde la caché L1i (de instrucciones) en este caso de 64 KB y 2 vías (preservando el ya arcaico diseño Athlon).

Por fin AMD ha diseñado un fetch 4 issued, es decir carga 4 streams de instrucciones / ciclo dirigidos a los 4 decoders posteriores. Muy probablemente en bloques totales de 32 bytes / ciclo como Shanghai (Phenom II) y Barcelona.

El decoder de Bulldozer:

El encargado en las CPUs X86 de traducir las farragosas e irregulares instrucciones X86 a un formato manejable por un procesador moderno es el decoder. Este las transforma en cadenas de operaciones simples de estilo RISC.

La etapa de decodificación ha sido ampliada a 4 vías desde Phenom II y sus antecesores (3 vías), con ello iguala a Core 2 y Nehalem.

Los schedulers:

Hay tres schedulers discretos en un módulo Bulldozer:

  1. Scheduler del INT core 0
  2. Scheduler del INT core 0
  3. Scheduler de la FPU de 256 bit

Los schedulers de enteros son unificados a diferencia de los anteriores diseños de MD en que se utilizaban schedulers diferentes para las ALUs y las AGUs.

Cada INT scheduler tiene 4 puertos que sirven a las 2 ALUs y las 2 AGUs de cada INT core.

El FP scheduler  también cuenta con 4 puertos que alimentan a la gran FPU de 256 bit, pudiendo contener instrucciones de dos threads diferentes, podemos decir que es una FPU con SMT de 2 vías.

Los INT cores de Bulldozer:

AMD ha reducido el ancho de las unidades de ejecución de enteros de Bulldozer respecto a los anteriores K10.5 (Phenom II 45 nm), K10 (Barcelona 65 nm), K8 90 nm – 130 nm y K7 Athlon 130 – 180 –250 nm.

BDZ_module Hablando de servidores.

Desde el venerable AMD K6 ninguna CPU de AMD ofrecía solamente dos pipelines de enteros ALU por thread. Esta es en mi opinión la mayor falla del diseño.

Bulldozer integra en cada INT core lo siguiente (el doble en cada módulo):

  1. Scheduler de enteros
  2. 2 ALUs
  3. 2 AGUs
  4. Caché L1d de 16 KB - 4 way (vías de asociatividad)

Para el lector poco avezado parece un desastre respecto a un Phenom II:

  1. Schedulers de enteros y AGUs separados
  2. 3 ALUs
  3. 3 AGUs
  4. Caché L1d de 64 KB - 2 way (vías de asociatividad)

Vemos un 50% menos de unidades de proceso en Bulldozer (de 3 a 2).

Realmente y en la práctica AMD arrastraba limitaciones importantes relacionadas con la extrema rigidez de proceso de los 3 pipelines de enteros y un scheduling realmente primitivo respecto al contemporáneo de Intel. En Bulldozer se han corregido brillantemente estos problemas.

El scheduler es común para las 2 ALUs y las 2 AGUs dando mayor flexibilidad para procesar las instrucciones en uno u otro pipe y permitiendo más libertad de posicionamiento a las instrucciones aumentando la ocupación de las unidades de ejecución y con ello el rendimiento.

Espero velocidades de proceso single threaded de enteros comparables entre Bulldozer y Phenom II clock for clock y core for core, lo que es todo un logro teniendo en cuenta la reducción drástica de hardware.

En proceso multithread la mejora será importante, habrá un 33% más de INT cores por chip (pasaremos de 6 a 8 cores) y gracias a otras mejoras es muy lógico pensar en un incremento de un 50% global en velocidad.

La FPU unificada de 256 bit:

La FPU contiene las siguiente unidades:

  • Dos FMACs de 128 bit (SSE y AVX)
  • Dos unidades de 128 bit de proceso Packed INT (SSE)

Es capaz de procesar desde antiguo código X87 de 80 bit pasando por SSE de 64 y 128 bit hasta AVX de 256 bit, en este caso en paralelo con las dos FMACs de 128 bit.

Además puede ejecutar instrucciones de dos threads distintos, dándole capacidad SMT.

Las cachés L1 de Bulldozer:

Todavía con datos preliminares, AMD las ha diseñado de este modo:

  • L1d (datos) discreta por core. 16 KB y 4 vías
  • L1i (instrucciones) compartida por los dos INT cores. 64 KB y 2 solo vías

El tamaño de L1d es bajo, muy bajo. Lo compensa algo su asociatividad de 4 vías (algunos hablan de 8 vías). En cualquier caso su hit rate será claramente menor que las L1 de Nehalem o Westmere, sobre 0.70 veces inferior.

Esto provocará una mayor “presión” sobre la L2 de gran tamaño (además, compartida por cada pareja de INT cores). Espero (más bien deseo) que la L1d sea de 8 vías...

La L2 de Bulldozer:

La L2 de Bulldozer es un verdadero equilibrio de diseño:

  • Desde el punto de vista de los INT cores sería mejor un diseño con dos L2 discretas de bajísima latencia (como en Intel Nehalem).
  • Visto desde la FPU compartida en el módulo es imperativo que solo haya una L2 y claro debe ser de mayor tamaño, sobre 1 o 2 MB. Aunque esto forzará latencias altas, lógicamente de más de 15 ciclos.

El diseño final parece que será una L2 compartida por 2 INT cores y la FPU de un tamaño de 1 o 2 MB y 16 vías de asociatividad. Así se ahorra área y transistores creando un diseño económicamente más eficiente.

Conclusiones:

Me remito a lo que escribí a principios de 2010:

Espero, por el bien de la sana competencia, que AMD sea capaz de llevar al mercado en 2011 esta nueva arquitectura. El proceso de 32 nm SOI  high-k metal gate de Global Foundries parece bien planteado sobre el papel y ya hay algunas muestras funcionales que incitan al optimismo.

El único pero que yo veo al diseño es en algoritmos single thread que todavía (y por bastantes años) pueblan el ecosistema software de nuestros días. La mera instalación de un programa o una suite de ofimática, la navegación por internet y numerosas tareas del sistema operativo son todavía single threaded y así persistirán por largo tiempo dadas las grandes dificultades para su paralelización.

Sencillamente hay ciertos procesos que no son paralelizables y para ellos necesitamos anchos procesadores con múltiples y cortos pipelines y grandes motores de ejecución fuera de orden (OOO Execution, Out Of Order Execution) funcionando a altas frecuencias.

Para más información os remito a los artículos citados en el principio y a próximas ampliaciones.

Si consideras útil el contenido de este Blog, ayuda a mantenerlo ojeando algunas de las ofertas que consideres interesantes de nuestros anunciantes.

Etiquetas de Technorati: ,,,,

viernes, 20 de agosto de 2010

Intel prepara los nuevos X25M G3 – ProfessionalSAT

Intel ya tiene preparados y en producción los dies que usará en sus chips de memoria flash de 2 bit por celda. Serán los integrantes de su tercera generación de discos SSD, los G3.

25-nm-die Los 25nm permiten 8 GB de memoria flash en 167 mm2.

Los chips flash tienen la peculiaridad de almacenar los datos aún estando sin alimentación, es un tipo de memoria no volátil.

Intel los produce en colaboración con Micron y permiten hasta 8 GB de capacidad por chip, lo que hará necesarios solo 20 chips para un SSD de 160 GB, bajando con ello el coste de producción.

Intel_SSD_G2 Los excelentes Intel SSD G2.

Debido a este salto tecnológico, se espera una bajada de precios de hasta la mitad por GB respecto a los actuales G2 de 34 nm lo que propiciará la entrada de los SSD en el mercado mainstream. Si Intel logra dejar en modelo de 160 GB en los alrededores de los 250  a 300 € será todo un éxito de ventas.

Los SSD derivados de estos chips los veremos a la venta en los próximos meses, probablemente a finales de este año.

Etiquetas de Technorati: ,,,,,

martes, 10 de agosto de 2010

Algunos datos extra sobre AMD Bulldozer. Actualizado – ProfessionalSAT

Cada día salen a la luz algunas nuevas informaciones sobre los nuevos procesadores destinados a servidores y la gama alta de sobremesa y estaciones de trabajo, los nuevos Bulldozer.

Como sabréis, Bulldozer supone un cambio importante para AMD y en general para el mundo X86, una verdadera revolución en el diseño dado que se comparten entre cores algunas estructuras de procesamiento, en este caso la unidad FPU y el FP scheduler.

bulldozerUn módulo Bulldozer consta de dos cores de enteros.

Bulldozer module:

Cada módulo de Bulldozer se compone de dos cores de enteros con sus:

  • Schedulers de enteros
  • ALUs
  • AGUs
  • Caché L1d

En cambio la FPU es compartida por cada dos cores de enteros junto con su propio scheduler. También parece que la caché L1i (instrucciones) será compartida entre los dos cores dentro de cada módulo.

La FPU tiene capacidad de 256 bit por ciclo o 2 operaciones de 128 bit por ciclo, estas dos operaciones de 128 bit pueden ser de dos threads diferentes (ejecutados cada uno por uno de los INT cores del módulo) o de un solo thread ejecutado por uno de los INT cores.

Las cachés L2 son unificadas (datos e instrucciones) y son compartidas cada dos INT cores y la FPU (una L2 por módulo). No creo que sean de gran tamaño, sería más beneficiosa una muy baja latencia sobre los 10 ciclos y sobre 512 KB o 1 MB. Aunque siguiendo la tradición de AMD es probable que se decanten por un diseño de 2 MB y alta latencia (rondando los 15 ciclos).

Como pegas a un tamaño tan grande (2 MB) veo la dificultad en compaginarlo con una arquitectura de caché exclusiva con la L3, que forzaría un tamaño de L3 mayor de 8 MB.

La caché L3 es compartida por todo el procesador y su tamaño debe de ser importante, veo lógico como mínimo 8 MB en el proceso de 32 nm y 8 INT cores, aunque lo deseable serían unos 12 MB y lo óptimo 16 (2 MB por INT core).

Claro es que con tamaños de caché tan elevados, se iría la superficie de die a terrenos peligrosos en lo económico y también para conseguir buenos yields de fabricación.

AMD 32 nm vs 45 nm Una notable reducción del consumo en 32 nm permitirá a AMD modos Turbo más agresivos.

Según las ideas actuales AMD integrará en Bulldozer modos Turbo mucho más agresivos para acelerar las prestaciones single thread. Con este dato en mente es posible que logre superar a los cores Phenom II de 32 nm que aparecerán la APU Llano en 2011 en este aspecto IPC por core

AMD en 2011, Bulldozer para el mercado de sobremesa:

AMD lanzará dos versiones para sobremesa de Bulldozer, un quad core y un octal core, ambos contarán con dos controladoras DDR3 de 64 bit y hasta 1866 MHz.

Bulldoxer_4module_8int_cores_L3shared_630 AMD octal core Zambezi 32 nm SOI.

Según los directivos de marketing de AMD en declaraciones del día 8 de Agosto, clock for clock y core for core, Bulldozer superará a Phenom II (45 nm) en un 10% en IPC.

En proceso single thread aseguran que la diferencia será mayor gracias a modos Turbo mucho más optimizados (más frecuencia con menor voltaje).

Y el rendimiento por socket aumentará más notablemente gracias a:

  • Un 33 % más de cores por socket (8 vs. 6 cores)
  • Un 10 % más de velocidad por core y por clock.

Esperan mejoras del 50% sobre un AMD Thuban hexacore a la misma frecuencia en proceso multithread de saturación (100% de carga).

Por último puntualizar que el 24 de este mes AMD hará pública la microarquitectura Bulldozer con motivo del Hot Chips 22.

HC22 De 5:00 a 6:30 h por fin conoceremos los nuevos Bulldozer.

También ese mismo día se hablará de los nuevos cores Bobcat de bajo consumo. Os mantendré informados de todos los detalles.

domingo, 20 de junio de 2010

Micrografía detallada de Intel Sandy Bridge – ProfessionalSAT

Ya estamos a mediados de Junio y tras unos meses de poquísima actividad en mis Blogs voy a hacer una pequeña introducción comentada de algunos detalles de Sandy Bridge.

La razón del “relativo abandono” de mis Blogs:

Ciertamente este año 2010 y el final de 2009 para mí han sido de una actividad profesional frenética, en lo que va de año he diseñado o actualizado a las últimas especificaciones 38 Sistemas de Altas Prestaciones, la gran mayoría de ellos destinados al cálculo intensivo en simulaciones numéricas con sistemas de ecuaciones no lineales.

8threads_12hCálculo continuo de 8 threads, tiempo de ejecución: unos 21 días por ciclo.

Todos estas máquinas han estado basadas alrededor de procesadores Intel Core i7 de la serie 900 con triple channel DDR3 y capacidades de memoria de 6 a 12 GB según los requerimientos del cliente. Sus frecuencias de salida han sido de 3.8 GHz hasta los 4.2 GHz en cores. En el Uncore las frecuencias han ido desde los 3.266 GHz hasta los 3.6 GHz de los diseños más extremos.

Es debido a esta excepcional carga de trabajo que me ha sido imposible ser más fiel a la redacción de artículos para éste y otros de mis Blogs pese a que es algo que me llena y me causa gran satisfacción personal.

En cualquier caso, por fin llegan las vacaciones, y pienso aprovecharlas. Gracias a mis clientes y a los cientos de horas de trabajo que he dedicado a sus máquinas este año puedo permitirme algunos lujos extra dentro de la cautela que exige la situación económico-financiera global. Bien, pasemos al tema:

Fotografía del die de Sandy Bridge:

Hace unas semanas circula por la red una imagen de gran detalle del próximo diseño de Intel, su nueva microarquitectura prevista para finales de 2010: Sandy Bridge.

SB_4C_630p Sandy Bridge quad core.

Los núcleos de ejecución:

Sandy Bridge contará con cores derivados de los presentes en los actuales procesadores Core i7 Bloomfield quad core de 45 nm y en los más modernos i7 980X Westmere hexa core de 32 nm.

SB_4C_630p_coresLos 4 cores de Sandy Bridge.

Como Intel nos tiene acostumbrados con cada nueva arquitectura, habrá avances en todos los aspectos destinados a aumentar el rendimiento por ciclo (IPC), pero lo más destacado será el proceso FPU de 256 bit gracias a las nuevas unidades de ejecución AVX.

Core El núcleo de ejecución incluyendo las L1d y L1i y la caché L2 de 256 KB.

Las cachés L1 y L2 permaneces con tamaños invariados (32 + 32 KB L1 y 256 KB en L2) por core, en cambio la caché L3 sufre cambios importantes derivados de la inclusión en el die de una GPU completa (a la izquierda de la imagen).

La GPU Integrada:

Intel ha incluido en el die una GPU completa derivada de la actual serie Intel Graphics HD conocida en los actuales Core i3 y Core i5 dual core Westmere. La diferencia estriba en la cantidad de unidades funcionales y en la frecuencia de funcionamiento permitida por el flamante proceso de fabricación de 32 nm.

SB_4C_630p_GPU El núcleo gráfico ocupar un área considerable en el nuevo diseño.

Las frecuencia estimadas rondan los 1.4 GHz efectivos en Shaders, lo que prácticamente duplica las actuales y asegura un rendimiento muy elevado tratándose de una arquitectura integrada.

Las prestaciones estimadas duplican con creces a las actuales GPUs integradas en los Core i5 661, lo que no está nada mal. Recordemos que tras la cancelación de Larrabee, Intel ha puesto muchos más recursos en su división de GPUs integradas, tanto a nivel de diseño como en el terreno del software y drivers.

GPU Detalle de la GPU y la circuitería colateral.

Se rumorea y parece absolutamente lógico y probable que la cahé L3 de Sandy Bridge reserva una partición, estimada en 2 MB de los 8 MB totales para uso exclusivo de la GPU integrada.

Una última reflexión: con este movimiento Intel expulsa literalmente a nVidia del mundo de los chipsets gráficos integrados, y parece que será un movimiento definitivo.

La caché L3 unificada de 8 MB de Sandy Bridge:

Sandy Bridge incorpora cuatro bancos de 2 MB para un total de 8 MB de L3, esta caché está conectada a un ring bus de 256 bit desde el cual envía y recibe datos de los cores y la GPU integrada. Según las últimas informaciones tres de los bancos (&MB) están dedicados a los núcleos y un banco de 2 MB a la GPU

SB_4C_630p_L3 Cuatro bancos de L3 compartida.

Hay algo que llama la atención al examinar el die de Sandy Bridge quad core y es el análisis de los bloques de lógica de control de los bancos de L3, como he comentado hay 4 bancos de 2 MB pero como vemos debajo hay 5 (!) bloques de control.

SB_4C_630p_L3_ControlCinco bloques de control para 4cuatro bancos de L3.

Este hecho sugiere que hay un bloque por cada core más uno adicional para la GPU integrada, ello hace pensar que hay una cantidad de L3 reservada para tareas gráficas y parece que serán 2 MB.

L3 Los cuatro bancos de L3.

En este caso los 4 cores de proceso se contentan con 6 MB comunes de L3, habrá que ver si Intel implementa un reparto de L3 estático (6 + 2 MB) o uno dinámico en función de la demanda (más eficiente pero mucho más complejo).

La interfaz de memoria y conclusiones:

Sandy Bridge contará con dos canales DDR3 1600 es sus versiones de sobremesa y portátiles. En gama alta seguirá con los tres canales DDR3 y modelos de 6 cores nativos sin GPU integrada (lógico en gamas altas).

Prestacionalmente Sandy Bridge supondrá un avance leve en proceso de enteros, también leve en frecuencia máxima y muy importante en coma flotante. Los consumos y TDPs se mantendrán invariados respecto a los actuales, eso sí con mayores prestaciones para los mismos watt.

En resumen, una arquitectura evolucionaria de Intel basada en los excelentísimos núcleos y microarquitectura que inauguró Bloomfield en 2008: Nehalem. Realmente Intel no necesita más…