jueves, 2 de febrero de 2017

La arquitectura AMD Zen – Actualizado - ProfessionalSAT

AMD quiere lanzar en 2016 su nueva micro arquitectura Zen en el proceso de manufactura FinFET de 14 nm. Como siempre en AMD, la fabricación con alta probabilidad será confiada a Global Foundries.

amd_client_platform_roadmap 640

La teoría es que en Octubre de 2016 llegará Zen 8 cores, será un AMD FX de alta gama sin GPU. En 2017 llegarán las APUs con cores Zen Y GPU.

AMD 2016 Zen

Se ha hecho eterno pero AMD, al fin, rompe con la línea de cores Bulldozer 32 nm y sus sucesivas derivativas Piledriver 32 nm, Steamroller 28 nm y Excavator 28 nm.

Todos ellos basadas en una micro arquitectura interna poco paralela y de alta frecuencia con algunos puntos débiles muy obvios:

Solamente 2 ALUs por INT core.

1 FPU compartida para 2 cores de enteros (INT cores).

Subsistema de caché lento y de alta latencia con tamaños L1 y L2 poco lógicos.

Elevada disipación térmica.

Baja eficiencia IPC.

Zen 14 nm pretende volver a la senda de diseños alto IPC (instrucciones procesadas por ciclo) y para ello ensanchará el core pasando de 2 a 3 ALUs, un diseño reminiscente de sus anteriores y exitosos cores Athlon, Athlon XP, Athlon 64 y Phenom X4 y X6.

AMD Zen core

2016 AMD Zen 8 core 14 nm SMT 16 threads

El plan inicial de AMD es ofrecer en 2016 una CPU FX dotada de 8 cores Zen sin GPU integrada que procesará 16 threads simultáneos, dos por core.

image

La FPU contendrá 3 pipelines, igual que la de la serie Bulldozer, pero en este caso doblarán su ancho a 256 bit. Habrá el doble de unidades FPU, por cada core. Potencialmente esto significa en pico 4 veces más potencia FPU al lado de un FX8350 por core.

AMD Zen quad core

Ni la caché L2 y ni la FPU serán compartidas como en Bulldozer con otros INT cores lo que las hará más eficientes por thread.

El tamaño L2 regresa a unos más racionales 512KB por core para un total de 4 MB L2 para el chip completo octa core. Al ser la L2 única para cada core reducirá mucho su latencia y aumentará notablemente la tasa de aciertos. Debemos recordar que cada L2 servirá a dos threads debido al SMT.

El tamaño L3 será presumiblemente de 8 MB y mejorará notablemente su latencia respecto a Bulldozer, sobretodo debido a ahorrar muchos ciclos en el L2 miss.

AMD Zen IPC

AMD anuncia un incremento de un 40% en IPC respecto a la actual microarquitectura Excavator 28nm, sería un logro excelente que avivaría la añorada competencia con el gigante de los microprocesadores, Intel.

Por último mencionar la inclusión en el core Zen SMT (2 threads/core), una primicia en AMD, al estilo del Hyper Threading de Intel. Veremos como gestiona AMD la gran complejidad de implementar y validar SMT en uno de sus cores.

Zen soportará desde un inicio RAM DDR4 en socket AM4 y habrán APUs basadas en cores Zen, de hecho, AMD pretende, en un futuro próximo eliminar su línea de cores CAT de bajo consumo y hacer homogéneas todas sus plataformas bajo una microarquitectura común: Zen 14 nm.

Con Zen, todo apunta a una exitosa arquitectura, si es así AMD saldrá de sus problemas financieros y podrá centrarse en su core business, el diseño de procesadores X86 de alto rendimiento y dejarse de experimentos de rentabilidad imposible en el ultracompetitivo mercado de cores ARM.

Conclusiones preliminares

Verdaderamente la serie Bulldozer no ha sido adecuada al momento que atravesaba la industria de semiconductores, me refiero específicamente a los nodos de 32 nm y 28 nm donde AMD se ha visto bloqueada hasta el día de hoy (y estamos casi en Agosto de 2015).

En este punto, la densidad de transistores por mm2 llegaba ya a un punto en el que había que vigilar la disipación térmica por core y por unidad de superficie con mucha más atención que en el nodo de 45 nm, en cambio AMD apostó al contrario.

Bulldozer 32nmAMD Bulldozer 4 módulos 32 nm.

Diseñó Bulldozer para frecuencias sobre los 5 GHz, fue un gran fallo estratégico. (Ya en esa época lo apunté en muchos artículos). Apostaron por un diseño que era imposible hacer competitivo con las alternativas Intel...

Zen, parece que será la alternativa razonable. Buscar alto IPC no resulta sencillo pero tiene mucho más sentido que hacer cores poco eficientes en consumo y en IPC y esperar que a base de frecuencias absurdamente elevadas puedas alcanzar a los cores de la competencia, una competencia, Intel, que quizás tenga 100 veces más presupuesto de i+d y de ingenieros dedicados.

Otro asunto destacable es el uso de memoria HBM en CPUs. Lo más probable es utilizarla en APUs, estoy convencido de que será cuestión de un año o año y medio.

AMD-Carrizo-APU-Stacked-Memory 640AMD, memoria HBM RAM en APUs.

Otra cuestión es su uso en CPUs de alta gama. no lo veo probable, pues es mejor aumentar el número de cores que integrar HBM por tema de superficie.

Tengo esperanzas con AMD Zen, cosa que no pude decir de Bulldozer. Esperemos que sí llegue al mercado en 2016, AMD lo necesita y también la sana competencia.

Si consideras útil el contenido de este Blog, ayuda a mantenerlo ojeando algunas de las ofertas que consideres interesantes de nuestros anunciantes. Gracias de antemano.

El que tenga dudas o aportaciones tiene para ello la sección de comentarios, intentaré responder a todos y con la máxima claridad. Los Blogs deben de ser lugares de intercambio y agradezco vuestro feedback.

Carlos Yus Valero – informaticapremium      informaticapremium-logo-150px[3]

17 comentarios:

  1. Lo primero decirte lo que me alegro de que vuelvas a escribir en el blog. Se echaban de menos tus artículos.

    Me alegra ver que AMD vuelve a sacar un producto en condiciones. He sido cliente de sus productos desde hace mucho tiempo (el último un phenom II) pero últimamente solo sacaba procesadores muy malos.

    A ver si dentro de poco sacan procesadores con memorias HBM. ¿Como ves la posibilidad de hacer procesadores de varios nucleos en 3D?

    ResponderEliminar
  2. Anónimo,

    Gracias por tus comentarios, voy a intentar escribir más asiduamente.

    Te respondo en el artículo, en las conclusiones.

    Un saludo,

    Carlos Yus Valero.

    ResponderEliminar
  3. Hola Carlos,

    Que refrescante volver a leer unos de tus artículos.

    En otro blog especializado leí también algo similar, que este año (2016) es decisivo para AMD; en el sentido que si no sale con algo nuevo y deja de depender de su rama de tarjetas de vídeo (Radeon).

    Yo personalmente veo con buenos ojos que AMD haga este lanzamiento, espero que vuelva a levantarse y, como tu dices, se centre nuevamente en su Core business. Desde hace ya varios años que AMD viene dejando que Intel le saque cada vez más terreno. Pero bueno, esperemos como sale todo esto.

    Saludos y no dejes de escribir, siempre cae bien regresar a este blog por nuevo contenido.

    Israel Valle.-

    ResponderEliminar
  4. El IPC teórico de athlon II, Phenom II, era de unos 3. El de los procesadores Intel actuales, es de 4+1 ¿Cuál será el de los Zen?. Creo que falta mucho para la salida de esta nueva arquitectura y deberían apurarse. Para cuándo será un SMT de 4, 8 ó 3 (en lugar de 2), con cores "más anchos" e IPC, más altos aún, por hilo único. SIEMPRE, va a ser necesario en algún momento (en el inicio de los S.O. es habitual), fuerza bruta en un único hilo.

    ResponderEliminar
  5. Anónimo,
    Zen es la pieza angular de futuro para AMD, sería muy interesante comercialmente que estuviese disponible para finales de 2016, en la campaña de navidad.
    Sobre el SMT te remito a mi nuevo artículo.
    Los Athlon, Phenom tenían un IPC pico en enteros de 3 instrucciones / ciclo. Un Ci3, Ci5 o Ci7 llega a 5 máximo y un Bulldozer a 2.
    De todos modos esto son picos teóricos. Un Phenom II no llega a las 3 instrucciones / ciclo en casi ninguna carga de trabajo debido a sus pobres algoritmos de Branch Prediction.
    Un Bulldozer se acerca mucho más a sus 2 IPC.
    Los Core de Intel actuales de 14 nm llegan en cargas reales a las 3 e incluso 4 IPC, un resultado increíble.
    Un saludo,
    Carlos Yus Valero.

    ResponderEliminar
  6. y algún indicio mas o menos seguro de qué cantidad de instrucciones podrá procesar la arquitectura zen. Aún no hay un bench de ningún tipo, puesto que aún no hay ningún "engeniering sample", lo que es una pena (para los ansiosos). En principio el valor teórico que la arquitectura puede dar y luego la real según trabajen, cachés (L1, L2 y micro-ops), predicción de instrucciones, etc. Intel utiliza una caché que guarda varias micro - ops (instrucciones x86 preferentemente una compleja ya resueltas), de llegar una instrucción cualquiera x86 de este tipo la resuelve en 1 ciclo. Aún con 4 "pipes" puede llegar a 5 o más exactamente 4+1. Esto que nació con el Conroe y fue el primero en superar a los athlon FX (k8). No se entiende porque en ese momento, AMD, no creó una arquitectura K10 más ancha, con más ALU's, AGU's y FPU más potentes, siendo las modicaciones insuficientes para lograr un aumento real y tangible en la performance.

    ResponderEliminar
  7. Muy probablemente los mejorados algoritmos de Branch Prediction Excavator, ayudarán. Espero que todo sirva de experiencia. Escavator en 14 nanómetros andaría mucho mejor, pero nunca va a superar en monotarea a la arquitectura intel (ni a Phenom o Athlon II). Lo buena de Bulldozer - steamroller - excavator, un módulo rinde casi como un doble núcleo un 70% pero depende de la aplicación y de lo optimizada que esté para esta peculiar arquitectura. Es por eso que un doble núcleo real, lo supera como el pentium g2030 a 3Ghertz. Aunque esperaba que lo superara por más. El pentium también supera, pero por menos a un Athlon II 270 (doble núcleo arq. k10.5 2MB de caché L2 y 3.4Ghertz 45n) este athlon a 4gh y unos 22n superaría al pentium, cuya arquitectura es la misma con faltantes para abaratar el producto (en general piezas no todo funcionales de modelos superiores) ...

    ResponderEliminar
  8. El ancho de banda en proceso de enteros de AMD Zen está limitado por sus 3 pipes (pepelines) ALU. Yo creo que será un 50% más rápido por ciclo y por core que Excavator (el Bulldozer más avanzado).

    Los antiguos Phenom II tenían ese mismo ancho de banda ALU teórico pero su algoritmo de Branch Prediction era muy primitivo dando un % inasumible de branch misses. En la práctica era un 30 - 40 % más lento a igualdad de frecuencia que un Core2 a iguandad de cores y frecuencia.

    Zen no llegará a la velocidad de proceso por ciclo y por core de un Core i3 o Core i7 con HT pero se acercará mucho más. Si el déficit ronda el 15% yo estaría muy satisfecho pues Intel es una compañía mucho mayor y con casi ilimitados recursos de ingeniería.

    Un saludo,

    Carlos Yus Valero.

    ResponderEliminar
  9. Estoy de acuerdo en que AMD no puede competir con Intel por tamaño de las empresas, pero por eso AMD debe de investigar en nuevas direcciones como ha hecho con las memorias HBM.
    Debería de aprovechar su experiencia en tarjetas gráficas para integrar la GPGU dentro del procesador como se hizo hace años con el coprocesador matemático.

    ResponderEliminar
  10. Sobre la memoria HBM, tampoco es la panacea... anchísimo bus, bajísima frecuencia:

    Comprueba las prestaciones de la nueva AMD Radeon FuryX equipada con HBM con las de la nVidia GF GTX980Ti con memoria convencional GDDR5 a alta frecuencia.

    Sobre integrar GPGPU, ya está integrado desde la primera APU AMD Llano basada en cores Phenom de 32 nm y los Intel Sandy Bridge de 32 nm: cada vez se va refinando más su integración, pero:

    Hay dos problemas, el soporte hardware y la falta de precisión en cálculo del hardware GPU (o trabaja a baja precisión [24 o 32 bit] o es muy lento por tener muy pocas unidades de cálculo FPU de 64 bit).

    Un saludo,

    Carlos Yus Valero.

    ResponderEliminar
  11. Se me ocurre que la arquitectura ZEN, será la continuidad del K10.5 con esteroides, en una frecuencia mayor, mejores cachés y algoritmos de predicción de rama también mejorados ... Un phenom II a 4Ghertz, tal como está, no se alejaría tanto de un I5 como lo hizo Bulldozer. Y para hacer más o menos justa la comparación con 3 módulos 6 "semi" núcleos para el Bulldozer ... No se debe apostar nunca a la mayor frecuencia posible. Esta en la realidad, resultará ser inferior y en la práctica un camino directo a un bajo rendimiento. A frecuencias de 6 GHertz, suceden cosas extrañas con los circuitos electrónicos. Ocurren muchos fenómenos la mayoría absolutamente comunes y muy conocidos, pero otros no tanto ... Se diseñan procesadores para correr a 5Ghertz y lo hacen a 3 ¿y por qué? ...

    ResponderEliminar
  12. Hola,se te echaba de menos,me alegro que estés de vuelta.
    He leído que Zen integrará el northbridge en el DIE.¿Sabes algo al respecto?
    http://wccftech.com/amd-zen-featured-summit-ridge-family-14nm-processors-rumored-feature-fm3-socket-support-ddr4-memory-compatiblity/

    ResponderEliminar
  13. Anónimo (1),

    No vas nada mal encaminado en ver a Zen como una continuidad sobre los cores de la serie Athlon / Phenom puestos al día y cierto es que el IPC de un core de una CPU Phenom X6 es superior al de un Bulldozer de primera generación.
    Bulldozer va actualmente por la 4ª generación y ha ido resolviendo muchos de sus "fallos" de diseño. Me gustan mucho sobretodo los cambios introducidos en la 3ª y 4ª generación orientados a un mayor IPC y menor superficie del die en mm2.
    AMD va actualmente por el buen camino, veremos si Bulldozer responde a las expectativas.
    Sobre CPUs a 5 y 6 GHz te recomiendo la lectura de un artículo mío de 2008:

    http://lowlevelhardware.blogspot.com.es/2008/03/nehalem-intel-despliega-su-poder.html

    Echa un vistazo a la parte sobre Netburst.
    Preguntas por qué CPUs pensadas para 5 GHz solo llegan a los 3 - 3-5 GHz... Por exceso de optimismo del management, los ingenieros saben ya al principio aprox. a que frecuencias funcionará un nuevo diseño.

    Anónimo (2),

    Zen, como todas las CPUs hace tiempo, integrará el NB, lo que no creo es que integre el South Bridge.

    Un saludo,

    Carlos Yus Valero.

    ResponderEliminar
  14. Intel hace uso de una caché (que ya utilizaba el P4) de micro-ops. Todo lo referente a los algoritmos de predicción de rama y esta caché de micro-ops, disminuiría los "caches miss" (debiendo vaciar totalmente el "pipeline") a valores muy buenos. Bulldozer y su respectivas evoluciones han mejorado este aspecto, sin embargo, nunca dijo AMD que utilizaría una caché de micro-ops, lo que le resultaría muy útil (tanto en Steamroller, Escavator o Zen) y es una gran duda que tengo. De su correcta implementación de esta vieja y simple idea, quizás dependa el éxito o fracaso de una arquitectura ... Si alguien tiene alguna información al respecto que compartir ....

    ResponderEliminar
  15. Anónimo.

    La gigantesca y poco eficiente Trace Caché de Willamette 180 nm, Northwood 130 nm y Prescott 90 nm (unos 80 KB, pero con tasas de acierto equivalentes a una L1i de 16 KB) contrasta con la elegante y efectiva micro op caché de SandyBridge 32 nm, IvyBridge 22 nm, Haswell 22 nm, Broadwell 14 nm y SkyLake 14 nm.

    Recordemos que la Trace Caché sustituye a la caché L1i (L1 de instrucciones) y se apoyaba en un solo decoder (!!) que cargaba instrucciones de la lejana (en ciclos) caché L2 de la aruitectura Netburst.

    La micro op caché "moderna" complementa a la L1i como un buffer que permite desconectar los decoders ahorrando energía, aumentando el ancho de banda de micro ops y reduciendo la latencia en caso de fallo de predicción Branch.

    ¿Zen tendrá algo similar? Es posible.

    Saludos,

    Carlos Yus Valero.

    ResponderEliminar
  16. Soy Anónimo 2 del 5/10.Efectivamente se trata del SB ,en la microarquitectura Soc "Merlin Falcon"
    ...La nuova serie R integra nello stesso die dell'APU le funzioni di archiviazione finora gestite esternamente dal southbridge. In questo modo AMD non solo riduce i consumi - il chipset è realizzato con lo stesso processo dell'APU - ma permette anche maggiori economie di scala, rendendo la propria piattaforma adeguata a implementazioni SFF (Small Form Factor). ...
    http://www.tomshw.it/news/chip-amd-con-supporto-alla-memoria-ddr4-la-magia-di-merlin-falcon-71171

    ResponderEliminar
  17. Anónimo (2).

    Si AMD integra la circuitería del South Bridge en el SoC Zen para mí será un despilfarro de transistores y de superficie del die, sabiendo que los SB no se pueden miniaturizar tanto como las CPUs, las cachés o las GPUs al transicionar a procesos de fabricación menores.

    De todos modos si logra fabricar un octal core en 14 nm con una buena cantidad de LLC (L3) de 8 MB en una superficie razonable quizás consideren integrar el SB.

    Saludos.

    Carlos Yus Valero.

    ResponderEliminar

Nota: solo los miembros de este blog pueden publicar comentarios.