jueves, 2 de febrero de 2017

Bulldozer 32 nm AMD FX. Parte 2. Actualizado – ProfessionalSAT

AMD FX ha llegado al mercado con una mezcla de sensaciones, en el lado positivo está teniendo unas ventas superiores a lo esperado y por otro lado, las prestaciones no han sido las esperadas para la prensa especulativa.

En primer lugar, teniendo en cuenta el diseño de los cores de procesamiento hay que ser muy ingenuo o poco ducho en cores de enteros para esperar unas altas prestaciones por ciclo (IPC) de Bulldozer respecto a un core Sandy Bridge de Intel e incluso comparándolo con un K10.5 de un Phenom II. No es este el objetivo de diseño de Bulldozer.

Core_wL2_640El módulo Bulldozer 32 nm, unos 210 M de transistores.

Las armas de Bulldozer son otras, pretende frecuencias superiores a todo lo conocido. Tengamos en cuenta que el proceso HKMG de 32 nm de Global Foundries está en sus inicios, claramente inmaduro y poco probado y con unos yields (tasa de CPUs defectuosas)  pobres siendo suaves…

Si hacemos memoria, AMD siempre ha tenido estos “problemas de juventud” al introducir un nuevo nodo de fabricación; incluso siendo justos, esta transición de los 45 a los 32 nm no ha sido de las peores… la verdaderamente horrible ocurrió con los 65 nm y AMD Barcelona, el antiguo Phenom de 2 MB de L3.

Conociendo todos estos hechos espero para Bulldozer una mejora importante con el paso de los meses y la maduración del proceso de 32 nm. A lo largo de 2012 veremos reducirse el TDP de las CPUs y incrementar su frecuencia paulatinamente.

En Q3 2012 está previsto el lanzamiento de las nuevas CPUs basadas en Piledriver, la segunda generación de Bulldozer. En principio, y según AMD, con un 10-15% de incremento IPC clock for clock respecto a Bulldozer y obviamente frecuencias superiores.

Core_woL2El módulo Bulldozer sin su L2 dedicada de 2 MB y 16 vías.

AMD ha elegido un camino con el diseño de Bulldozer, un camino valiente y arriesgado,  supongo que tendrán sus razones pensando en el futuro. Con los cores K8 – K10 de los Athlon64 hasta los Phenom II tenía una clara ventaja respecto a Intel y no era en  prestaciones sino en superficie por core.

Un core de 32 nm de un AMD Llano (AMD A8 APU) ocupa unos insignificantes 9.69 mm2 sin su L2 de 1024 KB, sería realmente fácil integrar ocho de ellos con cachés L2 de 512 KB en un procesador octal core, un Phenom III X8 de 32 nm.

Junto a los ocho cores se integrarían los 4 buses HT3, el North Bridge, las dos controladoras DDR3 y una cantidad de L3 de 8 a 12 MB. Sin duda alguna tendría un gran rendimiento (superior a Bulldozer) y ocuparía una superficie netamente inferior a los 315 mm2 de Zambezi con su abultado budget de transistores (1200M) y 16 MB de caché combinada.

BulldozerCore_vs_LlanoCore_640Un módulo Bulldozer es gigantesco al lado de un core Llano 32 nm.

Los problemas de Bulldozer

Una clave que apoya el hecho del diseño “apresurado” de AMD FX 32 nm es la cantidad de espacio vacío de lógica en el die entre los cores, las cachés y el resto de componentes. Es espacio dedicado a interconexiones entre cores, cachés, North Bridge, controladoras DDR3 y buses HT3.

Y con apresurado no me refiero a falta de tiempo, recordemos que AMD no lanza una nueva micro arquitectura desde 2003 con el Athlon64 (AMD Barcelona 65 nm y Shanghai 45 nm han sido dos actualizaciones de dicho diseño).

Hay que tener en cuenta que AMD pensó y diseñó un K9 (el siguiente paso al K8 Athlon64) pero quedó en nada, fue cancelado. Era un diseño de alta frecuencia (muy alta) al estilo Intel Netburst (familia Pentium 4), se canceló y empezó la era multicore con los Athlon64 X2.

AMD no tenía un sustituto claro del exitoso Hammer Athlon64 y no tenía un plan B (como Intel con su Banias de 130 nm, el Pentium mobile, base de la plataforma Centrino, del que derivó el diseño original del excelente Conroe Core2 Duo 65 nm).

En ese momento se apostó por la arquitectura CMT y nació en las mesas de diseño el plan general de Bulldozer.

El problema fue sencillo: AMD había gastado demasiados recursos en proyectos cancelados y ni siquiera sus Opteron ya no vendían como años atrás, AMD Barcelona había sido una verdadera decepción en frecuencia y no había ventas (dinero contante y sonante) para apoyar a los departamentos de diseño…

1200 M transistores y 315 mm2 en 32 nm

En mi opinión, con mayores medios humanos y materiales, su superficie podría haber sido reducida en un 20% aterrizando en unos más discretos 260 mm2 simplemente (entre comillas) optimizando el enrutado de interconexión por otras capas metálicas en lugar de compartirla con la lógica.

Algo que una mega compañía como Intel hace en todos sus diseños, prefiere mayores costes de desarrollo a cambio de posteriores ahorros en costes de producción (menor superficie de silicio, más chips por wafer).

Conclusiones

Mi opinión personal para AMD habría sido mucho más conservadora: un Phenom III X8 basado en estos pequeños cores de 32 nm habría sido un diseño barato en todos los sentidos y rápido de llevar al mercado, habría dado a AMD el oxígeno que necesita para ultimar el diseño de Bulldozer y rediseñar desde el principio su extraña y anómala arquitectura de cachés.

Por otro lado su rendimiento habría sido superior a Bulldozer con la misma disipación térmica y a frecuencias inferiores y hablo de cualquier carga de trabajo.

Ahora solo cabe esperar que el plan Bulldozer funcione y escale en frecuencia de un modo notable y que sus derivativas de 2012 cumplan su promesa de incremento IPC de hasta el 15%, si se dan estas condiciones AMD tiene ante sí un brillante futuro y unas finanzas que le permitirán diseñar sus futuros productos con mayores garantías.

Si consideras útil el contenido de este Blog, ayuda a mantenerlo ojeando algunas de las ofertas que consideres interesantes de nuestros anunciantes.

En múltiples entregas de LowLevelHardware y ProfessionalSAT he analizado en detalle el diseño interno de AMD FX Orochi 32 nm. Cito los más destacables:

AMD Bulldozer. Mi opinión personal. Parte 1. Actualizado – ProfessionalSAT

AMD Bulldozer. Frecuencias finales. Actualizado – LowLevelHardware

AMD Bulldozer- HotChips23 – LowLevelHardware

AMD Bulldozer. Perspectivas – LowLevelHardware

La L3 cache multibanco en AMD Bulldozer. Actualizado – LowLevelHardware

AMD AGLUs, Bulldozer INT cores. Actualizado – LowLevelHardware

AMD Bulldozer. Primeros benchmarks. Actualizado – LowLevelHardware

AMD Bulldozer – ProfessionalSAT

La micro arquitectura de AMD Bulldozer. Actualizado – LowLevelHardware

Novedades y expectativas 2010. Actualizado – LowLevelHardware

AMD Bulldozer. Prestaciones estimadas – LowLevelHardware

Micro arquitectura AMD Bulldozer 2011. Actualizado – LowLevelHardware

Previo AMD Bulldozer. Actualizado – LowLevelHardware

Si consideras útil el contenido de este Blog, ayuda a mantenerlo ojeando algunas de las ofertas que consideres interesantes de nuestros anunciantes.

Carlos Yus Valero – informaticapremium      informaticapremium-logo-150px[3]