Mostrando entradas con la etiqueta Phenom II. Mostrar todas las entradas
Mostrando entradas con la etiqueta Phenom II. Mostrar todas las entradas

lunes, 12 de abril de 2010

AMD Turbo CORE en AMD Phenom II X6 - ProfessionalSAT

Hace un par de meses escribí varios artículos sobre la próxima microarquitectura de AMD en LowLevelHardware. En el primero de ellos comenté la necesidad de que AMD integrase un “turbo Boost” para incrementar la frecuencia de los cores cuando están en uso un número limitado de ellos.

big_slide-1 AMD Turbo CORE.

Extraído de Microarquitectura AMD Bulldozer 2011. Actualizado – LowLevelHardware, publicado el 21 de febrero de 2010 en mi blog de microarquitectura: LowLevelHardware:

Especulación 7, AMD necesita urgentemente “Turbo Boost”:

Una característica diferenciadora de los actuales procesadores Intel es su capacidad para aumentar la frecuencia de los cores activos siempre que haya margen hasta el TDP (Thermal Design Power).

La Ley de Amdahl estipula que la aceleración obtenida por un sistema multiprocesador siempre estará limitada por los fragmentos de código secuencial o no paralelizable (single-threaded).

648px-AmdahlsLaw_svg Aumento de velocidad con el número de cores y según el porcentaje de código paralelizable.

AMD planea integrar algo similar en todos sus futuros procesadores, pues aunque resulte incómodo reconocerlo, el proceso single-thread domina la velocidad y responsividad de una máquina en los sistemas operativos actuales.

TurboMode Turbo Boost en Core i7 serie 800 Lynnfield quad core.

Por ejemplo, un Core i7 870 de 3.06 GHz nominales puede, mientras mantiene 3 cores a 1.2 GHz y un voltaje inferior a 1V (sobre 0.80 V) y en estado power-gated (con un consumo virtualmente cero), tener uno de sus núcleos procesando al 100% de carga a 3.6 GHz efectivos. E incluso, con dos núcleos activos en cálculo al 100% de carga, mantiene en ellos frecuencias de proceso de 3.46 GHz.

AMD necesita urgentemente algo similar y parece ser que así será. En próximos procesadores integrará capacidades de power gating por core para deshabilitar y cerrar el suministro de corriente a los cores inactivos reservando TDP.

Este margen se utilizará para el proceso de los núcleos que lo demanden por su carga de trabajo. De este modo podrá así aumentar su frecuencia y su voltaje sin superar el TDP estipulado por el diseño.

A día de hoy ya hay información definitiva del modo en que AMD implementará tal tecnología. Siendo sincero le es en la actualidad absolutamente necesario para competir con Intel en el mercado sistemas de sobremesa y espero que en breve lo aplique a sus series Opteron para servidores.

Especialmente en los Magny Cours de 12 cores serie 6000 para socket G34 donde podría demostrar un potencial altísimo.

magny_cours_die AMD Magny Cours 12 cores. Un MCM compuesto de dos dies Istambul.

Funcionamiento de AMD Turbo CORE:

En principio esta tecnología se va a aplicar a la nueva serie Phenom II serie T:

GamaAMD_2010 La nueva gama Phenom II con Turbo CORE.

Como vemos todos los modelos son hexacore nativos con 6 MB de L3 excepto un quad. Los procesadores de 6 núcleos de AMD son novedad en el mercado de sobremesa aunque ya hace tiempo que se comercializan sus versiones Opteron.

AMD ha previsto incrementos de frecuencia de hasta 500 MHz con tres cores activos (de los seis totales) en los modelos hexacore y 400 MHz en los quadcore

Istambul_ShanghaiAMD Istambul 6 cores (izquierda) frente a Shanghai 4 cores (a escala).

untitled

La tecnología Turbo CORE solo necesitará de una actualización de BIOS y en principio todas las placas AM3 serán compatibles con esta nueva tecnología.

untitled2 Detalles de AMD Turbo CORE.

La entrada del procesador en los estados Turbo CORE, es decir en frecuencias superiores a la nominal, vendrá marcado por dos consideraciones:

  • La carga de trabajo se aplique como máximo a tres cores.
  • Estar por debajo del TDP (Thermal Design Power) en W.
  • Mantener una temperatura moderada.

Crípticamente AMD lo explica en la siguiente presentación:

big_slide-2 Modo de actuación de AMD Turbo CORE.

Si un número superior a tres cores se encuentra con una carga de procesamiento elevada, la frecuencia máxima disponible será la nominal: Turbo CORE permanecerá inactivo.

big_slide-1AMD Turbo CORE se aplica a un máximo de tres cores.

Siendo crítico y sabiendo de las preferencias del software actual por las potencias de dos en cuanto a multithreading (uso de 2, 4, u 8 cores) habría preferido que Turbo CORE tuviese un segundo escalón para un modo Turbo de cuatro cores. Recordando la tabla anterior:

GamaAMD_2010

Por ejemplo, en el modelo superior Phenom II X6 1090T con una frecuencia nominal de 3.2 GHz con carga de 6 cores y 3.6 GHz con 1, 2 ó 3 cores activos sería deseable un segundo grado de Turbo CORE de 3.4 GHz con 4 cores activos.

Conclusiones:

En resumen, un eficaz y oportuno movimiento en la dirección correcta de AMD; una compañía que bajo la dirección de Dirk Meyer ha sabido siempre tomar las mejores decisiones para competir eficazmente con su poderosísimo rival: Intel corp.

No podía ser de otro modo tratándose del arquitecto jefe del proyecto AMD Athlon

domingo, 1 de marzo de 2009

Phenom II X4 940 BE: Overclock 3.6 GHz. Ampliado - ProfessionalSAT

En el artículo anterior de LowLevelHardware y en otro de este mismo blog traté sobre el tema del fácil overclock del nuevo procesador Phenom II de AMD basado en el proceso de 45nm SOI DSL. Una peculiaridad notable de este proceso es su amplio margen para incrementar el voltaje unido a su menor disipación térmica.

PIC02062

Con los nuevos Phenom II podemos llegar a los 1,50 V (e incluso 1.55 V) sin problemas con un buen conjunto refrigerador-ventilador por aire. En este caso no ha sido necesario ir más allá de los 1.425 V pues el objetivo eran los 3.6 GHz.

Además para llegar a los 3.8 GHz es necesario aumentar la alimentación hasta los 1.525 – 1,550 V. A mi modo de ver excesivo para solamente 200 MHz más, no merece la pena …

PIC01990

Para estas pruebas he escogido un Artic Cooling Freezer64, un modelo ya clásico pero con un rendimiento excepcional dada la gran calidad de las soldaduras en su base y el uso de la pasta Artic Cooling MX2 ya pre aplicada.

MX2

Le excelente pasta MX2 de Artic Cooling.

Para un análisis micro-arquitectural en profundidad de este sistema en overclock recomiendo el artículo que publicaré próximamente en LowLevelHardware.

PIC01991

La base del Artic Cooling Freezer64.

Configuración del sistema:

El procesador AMD Phenom (igualmente el Phenom II y el Core i7) es un diseño asíncrono. Diferentes partes del chip funcionan a distintas frecuencias relacionadas según unos multiplicadores fraccionarios.

PIC02058

El procesador usado en las pruebas, un stepping RB-C2.

Un procesador de última generación como el AMD Phenom II o el Intel Core i7 se divide principalmente en dos secciones funcionales distintas y asíncronas:

  • Los núcleos de ejecución
  • El Uncore o “todo lo que no son los núcleos” que incluye a su vez:
    • La caché L3
    • Las controladoras de memoria (DDR2 o DDR3)
    • Los buses de comunicaciones (HT o QPI)

Shanghai_ANÁLISIS

AMD Phenom II, mapa funcional del die.

En el caso que nos ocupa, el Phenom II X4 940 BE, las frecuencias nominales son las siguientes:

  • Los cuatro núcleos de ejecución funcionan a 3.0 GHz
  • El Uncore a 1.8 GHz (incluyendo la caché L3 de 6 MB y las dos controladoras de memoria DDR2)
  • Los buses de comunicaciones HyperTransport a 3.6 GHz

Para aumentar las prestaciones, he modificado las frecuencias del siguiente modo:

  • Los núcleos de ejecución funcionan a 3.6 GHz @ 1.425V (+20 %)
  • El Uncore a 2.4 GHz (+33%) (incluye la L3 de 6 MB y las dos controladoras de memoria DDR2)
  • Los buses de comunicaciones HyperTransport a 3.6 GHz (sin cambios)

Image2b Phenom II X4 940 BE @ 3.6 GHz, 2.4 GHz IMC/L3 y HT 3.6 GHz.

Image5

Dual channel DDR2 1066 unganged 5-5-5-18 2T 2.2 V.

Con este conservador overclock obtenemos prestaciones sobresalientes, nos interesa más una total estabilidad para una utilización continua y un consumo y disipación térmica controlados:

PIC01987

Phenom II X4 940 BE 3.6 GHz: unos excelentes 11 GB/s en Memtest86+ 2.11

Image4 

2703 KB/s en WinRAR multithreaded.

En Fritz Chess benchmark ha obtenido 8853 Knodos (18.44X) y en wPrime 10.672s para 32 M. Debajo podemos observar como ha mejorado el rendimiento del sistema gracias al overclock:

Phenom II X4 940 3.0 / 1.8 / Dual 1066 MHz

Phenom II X4 940 3.6 / 2.4 / Dual 1066 MHz

Diferencia %

Fritz Chess

7356 KN

8853 KN

+ 20.35 %

wPrime 32M

13.202 s

10.672 s

- 23.71 %

 
Un overclock del 20 % obteniendo una mejora en cálculos de un 20 a un 24 % es un resultado inmejorable y es debido a que hemos atacado el cuello de botella principal de la arquitectura Phenom: la frecuencia del uncore (aumentándola a 2.4 GHz).
 
cpuid

A 800 MHz Cool’n’Quiet con solo 1.000 V

 Image6

De este modo no hemos perdido los beneficios de bajo consumo y temperaturas sobre los 25 – 28 ºC en los cores debido a que mantenemos activo el Cool’n’Quiet y los estados de ahorro de energía C states. Más información en las capturas de configuración de BIOS próximamente en LowLevelHardware.

cachemem

En Everest el sistema ha obtenido unos excelentes resultados, con una latencia de memoria de 49.8 ns (179.3 ciclos a 3.6 GHz) y un ancho de banda de 8639 MB/s lastrado por el bus de 64 bit entre las IMC (controladoras de memoria), la L3 y las L2 de cada uno de los  núcleos.

Quiero recalcar que el bus al que me refiero es individual para cada core:

Uno de los cores de un AMD Phenom tiene a su disposición 64 bits/ciclo a frecuencia del uncore (1.8 GHz nominales o 14.4 GB/s), lo que es insuficiente para un dual channel DDR2 1066 (17 GB/s).

Esta es una limitación de la microarquitectura y no podemos hacer nada para solucionarlo, excepto incrementar el reloj IMC/L3 (por esta razón he incrementado porcentualmente más esta frecuencia que la de los núcleos).

rmma_20090227_145808_0078

Phenom II X4 @ 3.6 cores / 2.4 GHz uncore en RMMA 3.80. Acceso single core.

Como vemos, en acceso single core, el ancho de banda en la zona de la caché L3 (de 640 KB a 6.5 MB en el gráfico) corresponde a unos 11.5 a 12 GB/s o unos 3.2 a 3.4 bytes/ciclo. Una transferencia insuficiente para hacer frente a un dual channel DDR2 1066 con una transferencia pico de 17 GB/s.

Recordemos que son datos en condiciones reales (transferencia real sostenida, no un pico esporádico máximo) y en acceso de un solo núcleo con los otros tres en estado idle (reposo).

En modo de acceso multithreaded estas velocidades mejoran mucho, como podéis ver al final del artículo en LowLevelHardware dedicado a este sistema en RMMT  , llegando a un 86% del límite teórico.

Image1

Dado los voltajes conservadores y la cuidada preparación previa el sistema ha pasado sin problemas todos los tests de estabilidad con unas temperaturas en carga máxima de 61ºC a las 6h de Prime95 Blend.

PIC01988

Para un análisis pormenorizado de este sistema visita próximamente LowLevelHardware.

jueves, 4 de diciembre de 2008

AMD Phenom II Shanghai. Perspectivas - ProfessionalSAT

AMD ya comercializa los nuevos procesadores quadcore basados en el nuevo núcleo Shanghai de 45 nm. En este artículo hablaré sobre las diferencias con el AMD Barcelona de 65 nm y haré una estimación de sus prestaciones así como de sus frecuencias esperadas.

amd_01[1]

Fotografía del die de AMD Shanghai 45nm

Cambios microarquitecturales

Respecto al AMD Barcelona, utilizado en los Phenom y Opteron quadcore de 65 nm, Shanghai aporta algunas mejoras importantes y algunos otros trucos para incrementar el rendimiento.

Shanghai estará fabricado en el nodo de 45 nm (por las actuales fábricas de AMD en Alemania) con una superficie total estimada de 258 mm2 (frente a los 283 mm2 de Barcelona) contando con unos 758 M de transistores (frente a los 483 MT de Barcelona).

Block_Diagram_for_Socket_F1207White_Background_375W[1]

Esquema de Shanghai

Caché L3 de 6 MB

En primer lugar Shanghai aumenta el tamaño de la caché L3 de 2 a 6 MB siendo una cantidad más acorde al diseño del procesador y acercándole a las cachés de sus rivales de Intel (Core 2 y Core i7).

La arquitectura de caché queda del siguiente modo:

  • L1 de 64 KB + 64 KB (Datos e instrucciones)
  • L2 de 512 KB por núcleo
  • L3 común para los cuatro núcleos de 6 MB (6144 KB)

Un amplio espectro del software actual se beneficiará significativamente del nuevo tamaño de la caché L3, ya que 2 MB para cuatro procesadores se antojaba claramente insuficiente, recordemos el gráfico siguiente:

rmma_20080512_214303_0609

Latencias de L1, L2, L3 y RAM en un Phenom 9600 BE stepping B2 sin TLB Patch

Podemos ver que la zona de L3 es exigua y gran parte del código actual no se ajusta a esas dimensiones y más pensando en entornos reales multitarea, en los que se ejecutan concurrentemente diferentes programas con ubicaciones y datos diferentes en memoria y con sets de trabajo globales superiores a los 2 MB.

Latencia y frecuencia de L3

Además la L3 de Shanghai no solo mejora su capacidad sino también en velocidad. Su frecuencia aumenta (en los primeros modelos) a 2.2 GHz desde el máximo de 2 GHz de Barcelona.

L3_Cache_Architecture[1]

Arquitectura de caché exclusiva de Shanghai. Fuente AMD Developer Blogs

Se ha rediseñado su esquema de acceso, reduciendo de manera drástica su latencia (latencia efectiva medida) de 53 ciclos en Barcelona a solo 43 en Shanghai (igualando de este modo a Core i7 en su latencia L3). Este es un punto muy importante y en innumerables ocasiones he criticado (a veces duramente) este aspecto de la arquitectura K10. Esta mejora en latencia L3, aportará por sí misma una buen plus en prestaciones.

Extraído de AMD Developer Blogs, Larger L3 in Shanghai. Part I:

" Latency reduction in the new L3 cache:

Within the processor the L3 cache is part of the north bridge subsystem and runs at the North Bridge (NB) frequency. Hence the L3 hit latency is also dependent on the NB frequency.

"Shanghai" has a best case latency of 29 CPU clocks, whereas "Barcelona" had a best case latency of 34 CPU clocks. So the lower latency to data stored in L3 cache should also help to significantly boost performance. "

Hardware Prefetch

Los arquitectos de AMD han trabajado también en el rediseño y mejora del mecanismo de Hardware Prefetch, que funciona precargando en caché los datos e instrucciones que el algoritmo estima serán necesitados posteriormente por el programa reduciendo así la latencia efectiva de la memoria y acelerando la ejecución.

Optimizaciones caché probing

AMD ha doblado el ancho de banda de test de L2 y L1 de cada núcleo para probar la coherencia de los datos (Probe Bandwidth). Recordar que AMD utiliza arquitecturas de caché exclusivas que fuerzan un alto tráfico de coherencia de cachés para comprobar que los datos en ellas son correctos y solo existe la "última versión" en todos los niveles de caché y en memoria principal.

Optimizaciones energéticas y de consumo

Shanhai se fabrica en 45 nm y cuenta con un ACP de 75 W en sus versiones Opteron de 2.3 a 2.7 GHz. Las versiones Phenom II de sobremesa probablemente llegarán a los 105W ACP a 3 GHz. La reducción de consumo y disipación térmica es muy importante destacando que un Opteron Shanghai a 2.7 GHz disipa bastante menos que un Barcelona a 2.3 GHz.

Shanhai_die_top

AMD ha dotado a Shanghai con un sistema que permite "dormir" a un núcleo "sin trabajo" totalmente moviendo sus contenidos de L1 y L2 a la L3 compartida permitiendo así parar el reloj de los cores no utilizados. En cualquier caso, este núcleo con el reloj detenido sigue consumiendo debido al Leakage. AMD ha llamado a esta tecnología Smart Fetch.

Para una excelente y divertida discusión sobre Leakage recomiendo la siguiente lectura de ArsTechnica:

The future of Prescott: when Moore gives you lemons...

Conclusiones:

En resumen, esperemos a verlos en acción en el terreno sobremesa. AMD parece que ha encontrado con Shanghai la senda del éxito y puede lanzar productos competitivos en la gama baja y media quadcore. Parece ser que inicialmente los nuevos Phenom II llegarán a los 3 GHz con el modelo 940 BE.

Probablemente un AMD Shanghai sea equivalente o ligeramente inferior en prestaciones a un Core2Quad a la misma frecuencia, lo que para AMD es un gran paso adelante.

Si el proceso de 45 nm evoluciona favorablemente para AMD y puede producir versiones superiores a los 3 GHz a lo largo de 2009 Shanghai será todo un éxito, pero no nos llevemos a engaño, Core i7 está a otro nivel, en prestaciones y ... en precio.