jueves, 2 de febrero de 2017

Intel Sandy Bridge. Escalado multithread en CineBench R10. Actualizado – ProfessionalSAT

De todos es conocida la inminente aparición en el mercado de la nueva generación de procesadores Sandy Bridge de Intel, se trata de chips dual y quad core fabricados con tecnología de 32 nm y todos ellos cuentan con una competente GPU integrada.

SB_4C_630p_coresIntel Sandy Bridge quad core 32 nm.

Debo resaltar el hecho de que se trata de una nueva micro arquitectura y por ello presentan algunos cambios fundamentales comparándolos con sus antecesores: Nehalem 45 nm (2008) , Lynnfield 45 nm (2009) y Westmere 32 nm (2010).

Neh_Lynn_WestNehalem 45 nm / Lynnfield 45 nm / Westmere 32 nm.

En este artículo voy a analizar su velocidad de cálculo en coma flotante en cargas de trabajo single y full threaded con el conocido software CINEBENCH de Maxon en su versión R10 y compararé estos datos con los obtenidos de una buena representación de los procesadores actuales.

He utilizado la versión R10 en lugar de la nueva R11.5 porque tengo resultados de CPUs anteriores con la antigua versión y no son comparables a los de la versión R11.5. Por otro lado, la versión R11.5 solamente aporta un ligeramente mejor escalado con el número de threads por su mejor algoritmo de asignación de trabajo a los cores inactivos.

El software: CineBench R 10

CineBench es un test muy sencillo de ejecutar, no precisa de instalación alguna y viene en un archivo ZIP con los ejecutables de 32 y 64 bit.

CB_R10_01Descargar CineBench R10.

Literalmente tomado de la página del fabricante:

“ ¿Qué es CINEBENCH de MAXON?

CINEBENCH es una herramienta de pruebas multiplataforma que evalúa las capacidades de funcionamiento de su ordenador. CINEBENCH está basado en el software ganador de premios de animación CINEMA 4D, muy usado en estudios y productoras de todo el mundo para la creación de contenidos 3D. El software de MAXON ha sido utilizado en películas con gran éxito de taquilla como Spiderman, Star Wars, Las crónicas de Narnia y muchas más.

CINEBENCH es la herramienta perfecta para comparar el rendimiento de la CPU y de los gráficos a través de varios sistemas y plataformas, incluido Windows y Mac OS X. Y lo mejor de todo: es completamente gratis.

CineBench está formado por dos test, uno de CPU y el segundo para la GPU. En este artículo solamente me referiré al test de CPU en sus dos versiones single y multi threaded.

Procesadores evaluados en este artículo:

He tomado de mis bases de datos de benchmarks una representación de algunos procesadores actuales representativos:

CB_R10_02Tabla de procesadores comparados.

Resultados de los tests de velocidad:

CB_R10_04Tabla de resultados.

Como vemos, en el terreno single threaded (utilizando un solo core el cálculo) tenemos un nuevo rey de la velocidad, el nuevo Core i7 2600K supera con creces a los más rápidos Core i7 en socket 1366 y triple channel DDR3 1333 7-7-7-21 1T.

Los AMD se defienden dignamente con unos resultados muy competentes sobretodo teniendo en cuanta sus preciso muy competitivos.

CB_R10_03Intel Sandy Bridge Core i7 2600K en CineBench R10.

Cuando pasamos al test multithreaded, es decir, utilizando la potencia conjunta de todos los cores y también el SMT de dos vías implementado en los procesadores de la serie Core i7.

El reparto de threads por procesador quedan del siguiente modo:

Core i7 2600K, Core i7 965X y Core i7 860: 4 cores y 8 threads.

Core i5 750: 4 cores y 4 threads.

Phenom II X6 1090T: 6 cores y 6 threads.

Phenom II X4 955 y Athlon II X4: 4 cores y 4 threads.

Escalado prestacional con el número de cores y threads:

CB_R10_05Escalado multithread, CineBench R10.

Observo una clara contención en los buses de memoria de varios de los procesadores en esta prueba, en concreto me refiero al nuevo Core i7 2600K, al Core i7 860 y al Phenom II X6 1090T.

En el caso del Phenom II X6 es sencillo llegar a la conclusión (avalada por los datos experimentales) de que seis cores piden demasiado a dos canales de DDR3 limitando su escalado con seis threads al 100%. Debo decir por otro lado que la limitación no es severa:

Del teórico factor 6X en escalado a seis threads nos quedamos en un 4.64X. Con un triple o quad channel DDR3 estaríamos probablemente sobre 5X.

En el caso de los dos procesadores Core i7 dotados de dual channel DDR3 se da el mismo fenómeno pero más agravado que en el caso del anterior Phenom II X6.

Tengamos en cuenta que se trata de quad cores con Hyper Threading, es decir, ejecutan 8 threads concurrentemente, lo que motiva un agresivo uso del subsistema de memoria.

De hecho, el excelente resultado del Core i7 de la serie 900, 4.64X (4 cores, 8 threads), nos da que pensar ya que está dotado de un triple channel DDR3 1333 y por ello mucho menos lastrado en el test multithreaded. Sin duda un Sandy Bridge en la misma plataforma rondaría o superaría un factor de 5X.

Conclusiones:

Intel ha llevado a cabo con Sandy Bridge un excelente trabajo, ha hecho de él un digno sucesor de los excelente procesadores de la serie Nehalem. Ha progresado de un modo excepcional en IPC, en rendimiento por ciclo, y lo ha hecho sin renunciar a nada.

Su rendimiento en enteros es absolutamente excepcional, superando al líder absoluto hasta ahora, el Core i7 de la serie 900 gracias a su muy mejorado esquema de Branch Prediction.

En coma flotante aumenta su rendimiento gracias a los dobles puertos de lectura y escritura simultánea por core y más lo hará en cuanto haya software que utilice AVX de 256 bit, espero una mejora del 200% (!!). SB puede ejecutar dos lecturas de 128 bit por ciclo mientras que Nehalem, Lynnfield y Westmere se conforman con una.

SB

Resumiendo: Es, sin comparación posible, el mejor procesador de la historia en rendimiento single threaded y escala notablemente con el número de threads. Cierto es que los “antiguos” Core i7 de la serie 900 con 3 canales DDR3 gozan de un escalado netamente mejor, superando con creces el factor 4X utilizando Hyper Threading (más de 4.50X).

Sin duda habrá que esperar a las brutales versiones hexa y octa core para socket 2011 para verle desplegar su verdadera potencia con 12 y 16 threads ayudados por 4 canales de DDR3 a 2133 MHz. Será sin duda interesante…

Si consideras útil el contenido de este Blog, ayuda a mantenerlo ojeando algunas de las ofertas que consideres interesantes de nuestros anunciantes.

Carlos Yus Valero – informaticapremium informaticapremium-logo-150px[3]