Comments on ProfessionalSAT: AMD Bulldozer – ProfessionalSAT

JBCH, La potencia de proceso por core de Sandy Br...

2010-11-15T17:53:56.532+01:00

JBCH,

La potencia de proceso por core de Sandy Bridge es muy superior a la de Bulldozer, no hay duda.

Si hablamos por módulo como conjunto de 2 INT cores y una FPU FMAC doble de 128 bit con 2 pipes MMX 128 bit llegamos a lo siguiente:

1 módulo Bulldozer:
- 4 ALUs 64 bit
- 4 AGUs 64 bit
- 2 MMX INT ALUs128 bit
- 2 FPUs FMAC 128 bit

Lo que se compara más favorablemente con Sandy Bridge a nivel excepto en el terreno FPU con instrucciones AVX:

1 core Sandy Bridge tendrá el DOBLE de potencia de cálculo AVX 256 bit que un módulo Bulldozer.

En código SSE FPU (código actual, sin recompilación) de 128 bit ambos diseños están igualados teóricamente.

Un saludo,

Carlos Yus.

Hola, mientras Bulldozer tiene 2 ALU + 2 AGU por I...

2010-11-14T05:26:20.235+01:00

Hola, mientras Bulldozer tiene 2 ALU + 2 AGU por INT core, y una FPU de 128 bits que acompaña a cada core (16 ALU + 16 AGU y 8 FPU de 128 bits o 4 FPU de 256 bits en un octocore), Sandy Bridge tiene 4 ALU + 4 AGU por INT core y una FPU de 256 bits que los apoya (32 ALU + 32 AGU y 8 FPU de 256 bits en un octocore); lo cual me lleva a pensar que aunque Sandy Bridge lleve una gran capacidad de rendimiento en comparación con Bulldozer, su precio será mucho mayor que el producto de AMD (claro que estoy dejando de lado la implicancia en el rendimiento/costo de fabricacion de los elementos ubicados en el "uncore"). Algun comentario sobre esto???'

Si hablamos de Buldozer por core, tenemos lo sigui...

2010-11-01T18:44:36.805+01:00

Si hablamos de Buldozer por core, tenemos lo siguiente:

- 2 ALUs de 64 bit (INT core)
- 2 AGUs (INT core)
- 2 FPUs FMAC de 128 bit (en la FPU compartida)
- 2 SIMD INT de 128 bit (MMX) (también en la FPU compartida)

La FPU compartida puede ser utilizada al 100% por un thread ejecutado en un solo INT core si el otro INT core no requiere sus servicios (por estar en reposo o usar codigo puro ALU / AGU).

Saludos,

Carlos Yus.

GABY, estás equivocado en los datos que das: En p...

2010-11-01T18:42:02.471+01:00

GABY, estás equivocado en los datos que das:

En primer lugar, los AMD K7, K8, barcelona y Shanghai (Phenom II) ejecutan en pico 3 macro ops ALU y disponen de una AGU junto a cada ALU. En total 3 ALUs + 3 AGUs.

Hablando de AMD Bulldozer 32 nm, cuenta con 2 ALUs y 2 AGUs por INT core + 2 SIMD INT y 2 FPU FMACs.

En total y por módulo:

- 4 ALUs de 64 bit (2 en cada INT core)
- 4 AGUs (2 en cada INT core)
- 2 FPUs FMAC de 128 bit (en la FPU compartida)
- 2 SIMD INT de 128 bit (MMX) (también en la FPU compartida)

Sobre el rendimiento final me remito a mis artículos,

Un saludo,

Carlos Yus.

Bulldozer dispone de 4 vías, compartidas entre 2 A...

2010-10-31T22:51:35.216+01:00

Bulldozer dispone de 4 vías, compartidas entre 2 AGU's y 2 ALU's.
Algunos compiladores de software indican que podrá 4 instrucciones de enteros y 4 de punto flotante. Los int core de un módulo bulldozer, no pueden compartirse un hilo.
Versiones anteriores, como Deneb, disponene de 3 vías (siempre fueron 3, luego del viejo K6). En el caso de enteros 1.5 ALU's y 1.5 AGU's. Bulldozer con sus planificadores mejorados, debería superar ampliamente a los K10.5

La versión más alta para desktop contará con 4 mód...

2010-08-25T20:08:11.089+02:00

La versión más alta para desktop contará con 4 módulos y 8 INT cores, será el sucesos de los Phenom II X6.

En sefvidores habrá un MCM (dos dies en un chip) para socket G34 con quad channel DDR3. Contará con 8 módulos y 16 INT cores.

Saludos,

Carlos Yus.

Ahhh, ya Ahora entiendo, gracias. Entonces supo...

2010-08-25T07:30:23.515+02:00

Ahhh, ya

Ahora entiendo, gracias.

Entonces supongo para Desktop nos toca una version con 2 modulos?

Saludos

No, en la versión mayor de Bulldozer habrá 4 módul...

2010-08-25T07:12:29.832+02:00

No, en la versión mayor de Bulldozer habrá 4 módulos con 2 INT cores y 1 FPU cada uno:
En total 8 INT cores con 2 ALUs cada uno y 4 FPUs.

En Nehalem/Westmere/Sandy Bridge hay 4 INT ALUs por core. De este modo un quad como Core i7 tiene 16 INT ALUs. Un hexa core como i7 970 tiene 24 ALUs.

Si hay versión octalcore de SB tendrá 32 ALUs.

Un saludo,

Carlos Yus.

Hola. Si, yo sé y hay mil variables que tomar en ...

2010-08-25T07:01:45.296+02:00

Hola.

Si, yo sé y hay mil variables que tomar en cuenta en alto y bajo nivel.

Lo que no me queda claro es cuantas unidades de enteros tiene Sandy, pues aqui por modulo se tienen 4 no?... y son 4 modulos, serian 16 pipes solo para operaciones de enteros no?

Saludos

Para aclarar algunos conceptos: Pienso que en sof...

2010-08-25T06:51:35.548+02:00

Para aclarar algunos conceptos:

Pienso que en software single threaded de enteros Bulldozer será débil comparado con Sandy Bridge, tendrá la mitad de ALUs por core y además el proceso de enteros es el fuerte de Intel gracias a su muy avanzado Branch Prediction.

Sobre Phenom II y Bulldozer, creo que serán comparables en este sentido (por core y misma frcuencia), lo que niega que Bulldozer sea en este sentido un gran avance (caso single thread).

La razón estriba en la reducción de 3 a 2 INT ALUs por core no en los schedulers.

Los schedulers de enteros son discretos por core (hay dos por módulo) y es un punto fuerte del diseño.

Sobre los procesos single threaded, te sugiero que repases la Ley de Amdahl y otras generalizaciones verás el porqué afectan tanto al rendimiento aunque haya otros procesos concurrentes.

Saludos,

Carlos Yus.

Hola de nuevo (soy el del anterior comentario del ...

2010-08-25T06:03:25.703+02:00

Hola de nuevo (soy el del anterior comentario del 25 de agosto)

En tu respuesta que das al otro usuario, estoy de acuerdo en que por mas cores que tengas y por mas ejecución fuera de orden, hay procesos que debido a dependencias y bla bla bla, no se pueden paralelizar.

Pero hay que recordar que ni en un micro mono-core (y mono-hilo) esta metida la misma aplicación todo el tiempo... también el OS tiene planificadores para asignar tiempo de exec a todos los procesos que están "despiertos" y cargados a la memoria al mismo tiempo (y muchos, incluso del Kernel, si están programados para multi-thread).

Por esto, si tienes como ejemplo ejecutándose 30 procesos en tu OS, aunque sean mono-hilo, se les asignara mas tiempo de ejecución a cada uno si el planificador del OS los reparte entre todos tus cores (y entre procesos no hay dependencias a nivel de uInstrucciones, por lo que se pueden correr en paralelo)

Saludos

eniakers

Hola Amigo. Te he seguido desde el 1er articulo (...

2010-08-25T05:50:22.677+02:00

Hola Amigo.

Te he seguido desde el 1er articulo (de los 3 primeros) sobre el Bulldozer, muy buenos todos.

Si te entendí bien, parece que al ser el planificador de cada modulo compartido entre los 2 int cores (2ALU y 2AGU por core), tenemos ni mas ni menos que 4 posibles ALU's y 4 AGU's para mandar instrucciones en cada modulo (los cuales son 4 modulos).

Supongo que cuando decías en los anteriores artículos que Bulldozer tendría menos rendimiento single thread en comparación a PhII, era por que no tenias en cuenta que el planificador seria compartido entre los 2 cores de cada modulo.

Saludos

Anónimo, Creo que en el texto he presentado a gro...

2010-08-24T23:50:14.573+02:00

Anónimo,

Creo que en el texto he presentado a groso modo que creo que puede mejorarse en la microarquitectura de Bulldozer.

Sobretodo pongo énfasis en las prestaciones single thread. Hay muchos procesos que son inherentemente single threaded y limitan las prestaciones en arquitecturas multicores.

Yo creo que el futuro paa por ir perfeccionando en lo posible el IPC de cada core, no solamente aumentar su número indefinidamente.

Para ello es crítico un Branch Prediction muy avanzado y eficiente.

Saludos,

Carlos Yus.

Dentro de su analisis que me parece muy interesant...

2010-08-24T23:17:55.321+02:00

Dentro de su analisis que me parece muy interesante, a su juicio en qué (teóricamente) estaría fallando esta arquitectura nueva de AMD. Es decir que lo limitaría en poder de procesamiento a comparación de la arquitectura de Intel.
Y viendo la informacion presentada que podría mejorar AMD en Bulldozer