miércoles 12 de enero de 2011

Sandy Bridge fuera de especificación 4.0, 4.4 y 4.6 GHz. Actualizado. – ProfessionalSAT

En este artículo os ofrezco las prestaciones en CineBench R11.5 (Descarga la última versión) de tres Sistemas de Altas Prestaciones fuera de especificación. El primero un Core i7 930 D0 con un triple channel DDR3, el segundo un AMD Phenom II X6 a 4 GHz y por último el novísimo procesador Sandy Bridge Core i7 2600K. Estas dos últimas máquinas cuentan con un más convencional dual channel DDR3.

CBR11.5CineBench R11.5.

Para un análisis en profundidad de la microarquitectura subyacente en estos nuevos procesadores os recomiendo varios de mis artículos en LowLevelHardware, mi Blog más técnico:

- Microarquitectura Intel Sandy Bridge. Parte 1. Actualizado – LowLevelHardware
- Previo Intel Sandy Bridge. Actualizado – LowLevelHardware
- Intel Sandy Bridge versus Westmere die. Actualizado – LowLevelHardware
- Micrografía detallada de Intel Sandy Bridge – ProfessionalSAT
- Intel Sandy Bridge. Introducción – ProfessionalSAT

Actualización 19 de Enero 2011: Adición de resultados CineBench R11.5 multithreaded del AMD Phenom II X6 fuera de especificación a 4 GHz con NorthBridge y caché L3 de 6 MB ajustados a 2.82 GHz.

Actualización 21 de Enero 2011: Adición de la sección de escalado multithread y comentarios generales sobre microarquitectura del AMD Phenom II y futuras mejoras en AMD. Corrección de algunos errores gráficos.

Sistema Nehalem Core i7 930 D0 Quadcore

Sobre este procesador y sus hermanos de gama he basado durante ya más de dos años mis Sistemas de Altas prestaciones. Se trata de CPUs que desde los primeros steppings han mostrado un rendimiento IPC excelente además de un extremo potencial en frecuencia, llegando en los samples más afortunados a los ajustes que aquí se detallan.

El primer sistema consta de 3 módulos de 2 GB DDR3 configurados en triple channel a una frecuencia efectiva de 1451 MHz con latencias 7-7-7-14-1N.

SandyB_Nehalem_WestmereNehalem (izquierda) vs. Sandy Bridge (derecha).

La frecuencia de los cores es de 4 GHz con máxima carga de 8 threads y de hasta 4.2 GHz con carga de 1 thread (ambas frecuencias son sostenidas y estables en carga 100%).

Por su parte, el uncore (controladoras de memoria y otros buses internos) y la caché L3 de 8 MB están fijados a 3.439 GHz.

Sistema AMD Phenom II X6 Hexacore

El procesador Phenom II X6 está configurado a una frecuencia constante de 4 GHz (desde los 2.8 GHz nominales) mediante un bus de 282 MHz y un multiplicador X14. El Turbo Core permanece deshabilitado.

El North Bridge (que comprende la caché L3 de 6 MB y 48 vías y los buses y controladoras de memoria) está ajustado a 2.82 GHz (desde los 2 GHz nominales) mediante un multiplicador X10.

La memoria de esta máquina consta de 2 DIMM DDR3 1600 para un total de 8 GB ajustados a 1503 MHz con latencias 7-7-7-21 1T.

Sistema Sandy Bridge Core i7 2600K Quadcore HT

El subsistema de memoria consta de 2 DIMM de 4 GB DDR3 configurados a 1600 MHz con latencias 9-9-9-24 (nominales).

SB_Die_630Sandy Bridge quad core.

La frecuencia de los cores está fijada respectivamente a 4.0,  4.4 y 4.6 GHz. La caché LLC de 8 MB es síncrona a los cores, funciona a su misma frecuencia y está dividida en cuatro bancos de 2 MB y 16 vías de asociatividad.

Refrigeración de los procesadores

Debido a que utilizo los voltajes más bajos dentro de lo posible (siempre garantizando una total estabilidad de los equipos) la disipación térmica está realmente controlada.

Esto no supone un grave problema para los conjuntos ventilador – radiador utilizados, se trata de los famosos Scythe Mugen 2 B configurados con dos ventiladores Slip Stream de 12 cm en configuración push – pull.

Resultados CineBench R11.5

Designación Frecuencia 1 thread Multithreaded SpeedUp
Intel Core i7 2600K 3,4 / 3,8 GHz 3,4 / 3,8 GHz 1,55 6,96 4,49 X
Intel Core i7 2600K 4,0 GHz 4,0 GHz 1,62 7,82 4,82 X
Intel Core i7 2600K 4,4 GHz 4,4 GHz 1,76 8,61 4,89 X
Intel Core i7 2600K 4,6 GHz 4,6 GHz 1,86 8,91 4,83 X
Intel Core i7 930 D0 4,0 / 4,2 GHz 4,0 / 4.2 GHz 1,45 6,88 4,74 X
AMD Phenom II X6 1090T 4 GHz 4,0 GHz 1,25 7,07 5,66 X
Nehalem, Thuban y Sandy Bridge fuera de especificación.

Sobran los comentarios, el nuevo procesador Sandy Bridge supera en modo nominal al flamante Core i7 930 configurado fuera de especificación a 4 / 4.2 GHz (su límite práctico en frecuencia a voltajes pensados para utilización 24h).

El Phenom II X6 se defiende agresivamente gracias a sus 6 cores físicos y da un excelente resultado multithreaded que supera al Core i7 930 a 4 GHz con Hyper Threading y al nuevo Core i7 2600K “de serie” aunque se mantiene a una distancia respetable de los inalcanzables procesadores Sandy Bridge fuera de especificación.

imageCineBench R11.5. Resultados gráficos.

Tened en cuenta que el sistema i7 930 es ya de por sí sumamente rápido pero sin duda Sandy Bridge marca un hito prestacional y eclipsa definitivamente a Nehalem pese a contar solamente con un dual channel DDR3 1600 frente al triple channel 1451 MHz de Nehalem.

Además Nehalem cuenta en esta prueba con una frecuencia en su Uncore y caché L3 aumentada a 3.44 GHz desde los 2.66 nominales, lo que le ayuda en gran medida.

Escalado multicore / multithread

En esta sección analizo el incremento de velocidad de cálculo aumentando el número de threads desde 1 al máximo soportado por el procesador.

El AMD Phenom II X6 soporta seis threads, uno por core.

Tanto los Core i7 930 como los nuevos Core i7 2600K soportan 8 threads, dos threads por cada core físico (4 cores, 4 threads).

imageEscalado prestacional multihilo en CineBench R11.5.

Empezando por el procesador AMD Phenom II X6 constato un excelente escalado acercándose mucho al valor máximo teórico de 6X, quedando en 5.66X lo que dice mucho del excelente trabajo realizado por los ingenieros de AMD respecto al acceso concurrente de todos los cores hacia la caché L3 y los dos canales DDR3.

Sin duda AMD, con un SMT al estilo de Intel, superaría un factor de 6X y estaríamos rondando el 7.5X para un score multithreaded sobre los 9 puntos, rondando o superando la velocidad de cálculo del Core i7 2600K a 4.6 GHz.

De todos modos donde AMD debería poner énfasis es en su IPC por core, muy inferior al de Intel (sobre un 20 – 30 %) y especialmente en refinar su Branch Prediction y aumentar la asociatividad de sus cachés L1.

Respecto a los dos procesadores de Intel, señalar que gracias a Hyper Threading (el SMT de dos vías implementado en ellos) consiguen superar el factor de 4X (factor máximo para un quad core) y acercarse prácticamente a un escalado de 5X. También un remarcable resultado.

Poco más puede decir… se acabó la era Nehalem…

Si consideras útil el contenido de este Blog, ayuda a mantenerlo ojeando algunas de las ofertas que consideres interesantes de nuestros anunciantes.

viernes 7 de enero de 2011

Intel Sandy Bridge. Escalado multithread en CineBench R10. Actualizado – ProfessionalSAT

De todos es conocida la inminente aparición en el mercado de la nueva generación de procesadores Sandy Bridge de Intel, se trata de chips dual y quad core fabricados con tecnología de 32 nm y todos ellos cuentan con una competente GPU integrada.

SB_4C_630p_coresIntel Sandy Bridge quad core 32 nm.

Debo resaltar el hecho de que se trata de una nueva micro arquitectura y por ello presentan algunos cambios fundamentales comparándolos con sus antecesores: Nehalem 45 nm (2008) , Lynnfield 45 nm (2009) y Westmere 32 nm (2010).

Neh_Lynn_WestNehalem 45 nm / Lynnfield 45 nm / Westmere 32 nm.

En este artículo voy a analizar su velocidad de cálculo en coma flotante en cargas de trabajo single y full threaded con el conocido software CINEBENCH de Maxon en su versión R10 y compararé estos datos con los obtenidos de una buena representación de los procesadores actuales.

He utilizado la versión R10 en lugar de la nueva R11.5 porque tengo resultados de CPUs anteriores con la antigua versión y no son comparables a los de la versión R11.5. Por otro lado, la versión R11.5 solamente aporta un ligeramente mejor escalado con el número de threads por su mejor algoritmo de asignación de trabajo a los cores inactivos.

El software: CineBench R 10

CineBench es un test muy sencillo de ejecutar, no precisa de instalación alguna y viene en un archivo ZIP con los ejecutables de 32 y 64 bit.

CB_R10_01Descargar CineBench R10.

Literalmente tomado de la página del fabricante:

“ ¿Qué es CINEBENCH de MAXON?

CINEBENCH es una herramienta de pruebas multiplataforma que evalúa las capacidades de funcionamiento de su ordenador. CINEBENCH está basado en el software ganador de premios de animación CINEMA 4D, muy usado en estudios y productoras de todo el mundo para la creación de contenidos 3D. El software de MAXON ha sido utilizado en películas con gran éxito de taquilla como Spiderman, Star Wars, Las crónicas de Narnia y muchas más.

CINEBENCH es la herramienta perfecta para comparar el rendimiento de la CPU y de los gráficos a través de varios sistemas y plataformas, incluido Windows y Mac OS X. Y lo mejor de todo: es completamente gratis.

CineBench está formado por dos test, uno de CPU y el segundo para la GPU. En este artículo solamente me referiré al test de CPU en sus dos versiones single y multi threaded.

Procesadores evaluados en este artículo:

He tomado de mis bases de datos de benchmarks una representación de algunos procesadores actuales representativos:

CB_R10_02Tabla de procesadores comparados.

Resultados de los tests de velocidad:

CB_R10_04Tabla de resultados.

Como vemos, en el terreno single threaded (utilizando un solo core el cálculo) tenemos un nuevo rey de la velocidad, el nuevo Core i7 2600K supera con creces a los más rápidos Core i7 en socket 1366 y triple channel DDR3 1333 7-7-7-21 1T.

Los AMD se defienden dignamente con unos resultados muy competentes sobretodo teniendo en cuanta sus preciso muy competitivos.

CB_R10_03Intel Sandy Bridge Core i7 2600K en CineBench R10.

Cuando pasamos al test multithreaded, es decir, utilizando la potencia conjunta de todos los cores y también el SMT de dos vías implementado en los procesadores de la serie Core i7.

El reparto de threads por procesador quedan del siguiente modo:

Core i7 2600K, Core i7 965X y Core i7 860: 4 cores y 8 threads.

Core i5 750: 4 cores y 4 threads.

Phenom II X6 1090T: 6 cores y 6 threads.

Phenom II X4 955 y Athlon II X4: 4 cores y 4 threads.

Escalado prestacional con el número de cores y threads:

CB_R10_05Escalado multithread, CineBench R10.

Observo una clara contención en los buses de memoria de varios de los procesadores en esta prueba, en concreto me refiero al nuevo Core i7 2600K, al Core i7 860 y al Phenom II X6 1090T.

En el caso del Phenom II X6 es sencillo llegar a la conclusión (avalada por los datos experimentales) de que seis cores piden demasiado a dos canales de DDR3 limitando su escalado con seis threads al 100%. Debo decir por otro lado que la limitación no es severa:

Del teórico factor 6X en escalado a seis threads nos quedamos en un 4.64X. Con un triple o quad channel DDR3 estaríamos probablemente sobre 5X.

En el caso de los dos procesadores Core i7 dotados de dual channel DDR3 se da el mismo fenómeno pero más agravado que en el caso del anterior Phenom II X6.

Tengamos en cuenta que se trata de quad cores con Hyper Threading, es decir, ejecutan 8 threads concurrentemente, lo que motiva un agresivo uso del subsistema de memoria.

De hecho, el excelente resultado del Core i7 de la serie 900, 4.64X (4 cores, 8 threads), nos da que pensar ya que está dotado de un triple channel DDR3 1333 y por ello mucho menos lastrado en el test multithreaded. Sin duda un Sandy Bridge en la misma plataforma rondaría o superaría un factor de 5X.

Conclusiones:

Intel ha llevado a cabo con Sandy Bridge un excelente trabajo, ha hecho de él un digno sucesor de los excelente procesadores de la serie Nehalem. Ha progresado de un modo excepcional en IPC, en rendimiento por ciclo, y lo ha hecho sin renunciar a nada.

Su rendimiento en enteros es absolutamente excepcional, superando al líder absoluto hasta ahora, el Core i7 de la serie 900 gracias a su muy mejorado esquema de Branch Prediction.

En coma flotante aumenta su rendimiento gracias a los dobles puertos de lectura y escritura simultánea por core y más lo hará en cuanto haya software que utilice AVX de 256 bit, espero una mejora del 200% (!!). SB puede ejecutar dos lecturas de 128 bit por ciclo mientras que Nehalem, Lynnfield y Westmere se conforman con una.

SB

Resumiendo: Es, sin comparación posible, el mejor procesador de la historia en rendimiento single threaded y escala notablemente con el número de threads. Cierto es que los “antiguos” Core i7 de la serie 900 con 3 canales DDR3 gozan de un escalado netamente mejor, superando con creces el factor 4X utilizando Hyper Threading (más de 4.50X).

Sin duda habrá que esperar a las brutales versiones hexa y octa core para socket 2011 para verle desplegar su verdadera potencia con 12 y 16 threads ayudados por 4 canales de DDR3 a 2133 MHz. Será sin duda interesante…

Si consideras útil el contenido de este Blog, ayuda a mantenerlo ojeando algunas de las ofertas que consideres interesantes de nuestros anunciantes.

Etiquetas de Technorati: ,,,,