Mostrando entradas con la etiqueta trabajo. Mostrar todas las entradas
Mostrando entradas con la etiqueta trabajo. Mostrar todas las entradas

jueves, 2 de febrero de 2017

Degradación física de la memoria DDR3 en cargas de trabajo de saturación – ProfessionalSAT

En mi vida profesional mi dedicación principal consiste en garantizar la estabilidad y exactitud en cálculo de las máquinas que diseño: mis Sistemas de Altas Prestaciones.

Por ello siempre me encuentro en una constante búsqueda de mejores y más perfectos métodos de validación de sistemas (de lo que hablo en SATSoftware) y en el estudio de todos los procesos que influyen en su tasa de fallos, entre ellos la electromigración.

Una gran parte de los errores de cálculo que aparecen en un sistema tras un largo periodo de uso intensivo se deben a la degradación eléctrica de los chips de DRAM DDR3 de los módulos DIMM de la máquina.

Samsung_DDR3 (2)Uno de los chips DDR3, un  Samsung, presente en alguno de mis sistemas.

En mis Sistemas de Altas Prestaciones suelo utilizar módulos de 2 GB y 4 GB de DDR3 1333 o 1600 normalmente de marca Kingston (módulos Kingston, los chips son de varios fabricantes: Elpida, Hynix, Samsung, Kinston…)

Valoro especialmente un voltaje de operación bajo, normalmente 1.50V, por encima de timings extraordinarios (por su limitadísimo efecto sobre el tiempo de cálculo).

3DIMM_4GB_DDR3_1333_thumb[1]12 GB de DDR3 Kingston a 1333 MHz.

En todas mis máquinas utilizo 6 o 12 GB en triple channel DDR3 a frecuencias que oscilan entre los 1450 y los 1600 MHz con latencias típicas de 8-8-8-24-1N y como he comentado a 1.50V.

Parámetros que influyen en la degradación de los chips DRAM DDR3

Son varios los aspectos que marcan la velocidad de deterioro de las constantes eléctricas de los semiconductores, para alargar su vida en lo posible hay que tenerlos en cuenta y trabajar sobre cada uno de ellos para limitar los daños.

Primer factor: El voltaje. Cuanto más bajo es el voltaje menor degradación eléctrica se producirá en los chips DDR3 debido al proceso de electromigración.

Los electrones golpean (literalmente) a los átomos metálicos de cobre o aluminio y los desplazan de sus posiciones originales, degradando las características eléctricas de los data paths (aumentando la resistencia de los conductores eléctricos, así como la disipación térmica y produciendo errores de datos).

Además, a mayor voltaje, mayor consumo y disipación térmica lo que causa un aumento de temperatura.

Segundo factor: La temperatura. A menor temperatura menor degeneración física de los chips DDR3. Se produce menos leakage en los transistores y menor disipación térmica y consumo eléctrico. En todos mis sistemas intento conseguir temperaturas sobre los 30ºC en los DIMM en carga 100% sostenida.

A mayor temperatura, más vibraciones de los átomos metálicos de los conductores en las celdas DRAM y con ello mayor intensidad de electromigración.

Tercer factor: La carga de trabajo. Partamos de la base de un software de cálculo matemático FPU que utilice al 100% los todos los threads disponibles en la máquina, es decir, cargas de saturación 100% en CPU.

Lógicamente no será lo mismo un software de cálculo que acceda a la RAM, digamos cada cien millones de ciclos de CPU porque obtenga tasas de aciertos de caché L1, L2 y L3 combinadas del 99.999% (por ejemplo) que otro algoritmo de cálculo que por su set de trabajo enorme de tasas de fallo de cachés de un 15%.

Sinus_8X_2min_2_thumb[3]Carga de trabajo de saturación conjunta CPU y DRAM DDR3.

Este último caso presentará tasas de acceso a RAM que saturarán todas las controladoras DDR3 presentes y con ello una muy intensa carga en los DIMM DDR3. Ningún problema si no fuese porque estas cargas, yo y muchos de mis clientes, las aplicamos durante años seguidos (sin pausas ni reinicios) sobre nuestras máquinas, mis ya habituales Sistemas de Altas Prestaciones.

Mis observaciones

En un conjunto formado por 36 máquinas Core i7 de la serie 900 pertenecientes al stepping D0 de Nehalem 45 nm configuradas todas ellas con 3 módulos DDR3 de 2 GB (total 6 GB) o de 4 GB (total 12 GB) he observado lo siguiente:

En ocho de estos sistemas han fallado simultáneamente 15 módulos DDR3 de 2 GB y 4 GB tras unos tiempos de cálculo acumulados de 12 a 21 meses (cálculo continuo sin pausas ni reinicios, estos sistemas sólo se apagan para tareas de mantenimiento cuando hay algún fallo hardware).

De estos 36 equipos únicamente dos de ellos se han apagado para sustituir dos discos duros averiados (de los 72 discos totales) y dos más por avería en la fuente de alimentación.

Para la limpieza periódica de radiadores y ventiladores se mantienen los sistemas encendidos en cálculo y se efectúa el mantenimiento con aire comprimido, normalmente cada mes.

En resumen, tras una media de 11500 horas de cálculo continuo han dado errores de cálculo 8 de las 36 máquinas.

Tras exhaustivos tests, que han durado 3 semanas, se ha localizado la avería limitada a 15 DIMMs DDR3. Ningún otro componentes de las máquinas ha sufrido daños.

Uno de ellos, el que daba el error más grave, fallaba Memtest en el test 0, no duraba ni un segundo.

P95B2048_Fallo_18h30A las 7:35AM falló esta máquina tras 18h 30 min de tests.

El que daba el error más rebelde falló en Prime 95 tras 18h de test Blend con set de trabajo de 2048 MB y Round off checking y SUM(INPUTS) error checking activados.

P95X64

En todos ellos he sustituido los 3 DIMMs por nuevos (24 DIMMs en total) y tras 120h de testeo se han incorporado de nuevo a sus tareas de cálculo sin presentar nuevos fallos.

P95B2048_121h42minPrime95: 121h y 42 minutos de test. 2832 tests por thread sin errores.

Tras unos 20000 tests de cálculo por sistema en Prime 95 X64 ejecutados en unas 120 horas por equipo he dado por estables las máquinas y ya están de nuevo desempeñando su trabajo.

Conclusiones

En las próximas semanas o meses preveo el fallo de más DIMMs DDR3 hasta llegar al total de la población de estos sistemas (108 DIMMs, 3 DIMMs por 36 máquinas).

Consulta mi nuevo artículo sobre electromigración en LowLevelHardware.

Si consideras útil el contenido de este Blog, ayuda a mantenerlo ojeando algunas de las ofertas que consideres interesantes de nuestros anunciantes. Gracias de antemano.

El que tenga dudas o aportaciones tiene para ello la sección de comentarios, intentaré responder a todos y con la máxima claridad. Los Blogs deben de ser lugares de intercambio y agradezco vuestro feedback.

Carlos Yus Valero – informaticapremium      informaticapremium-logo-150px[3]

AMD 6990 CrossFire Parte 2. Sistemas de Altas Prestaciones – ProfessionalSAT

Entre ayer y hoy he completado el montaje de una máquina absolutamente excepcional, se trata de uno de mis Sistemas de Altas Prestaciones pero, en este caso, debo reconocer que he tenido que echar el resto en el diseño del sistema de refrigeración.

Está dirigida a un cliente que la va a dedicar a cálculos OpenCL acelerado por las 4 GPUs Cayman con 2 GB cada una. El procesador es un Core i5 2500K Sandy Bridge de 32 nm configurado a 4.2 GHz. Su uso, como de costumbre en mis Sistemas de Altas Prestaciones va a ser continuo e ininterrumpido, aunque en este caso creo que van a haber frecuentes paradas técnicas para limpiar las tarjetas AMD 6990.

DSCF2327El diseño de la refrigeración de esta máquina ha representado un reto extremo.

1100 W de consumo continuo

Ciertamente de un equipo que cuenta con dos AMD 6990 no puede esperarse una gran economía eléctrica en su utilización y menos si se va a utilizar para proceso OpenCL en carga 100% continua e ininterrumpida.

DSCF2287Más de 800 W de consumo y disipación térmica entre las dos AMD 6990.

He llegado a medir 1100 W de consumo en el enchufe a 220 V… lo realmente difícil es extraer todo este calor de la torre y no solo hacerlo sino hacerlo rápidamente y consiguiendo que el calor que genera un componente no afecte a los demás.

Y hay únicamente una manera, extraer ese aire caliente de cada componente por separado por rutas independientes directamente al exterior de la gigantesca torre NOX Hummer.

Para lograr refrigerar dos AMD 6990 en CrossFire he tenido que invertir el giro de los dos ventiladores que vienen de serie en la Hummer, el trasero ha quedado metiendo aire y el delantero de 25 cm extrayéndolo hacia el panel frontal.

Además he añadido cuatro ventiladores de 12 cm a unas 1300 rpm:

  • Dos en el panel frontal extrayendo el aire proveniente de las GPUs 2 y 4 directamente al exterior por el panel frontal.

DSCF2312Los dos ventiladores frontales de 12 cm extraen el aire proveniente de las GPUs 2 y 4.

  • Dos en la parte superior inyectando aire fresco sobre la zona del procesador y memoria DDR3.

DSCF2321Los ventiladores superiores introducen aire para crear exceso de presión interna.

Exclusivamente para refrigerar  las 4 GPUs Cayman he destinado además tres ventiladores Scythe Slip Stream de 12 cm de alto flujo de aire y regulables por el usuario. Sus rpm máximas rondan las 3000, se trata de una serie especial que no se haya a la venta:

  • Dos de ellos están sobre las AMD 6990 inyectando aire frío sobre ellas y en el espacio por el que toma aire la turbina de la primera tarjeta. Con esta adición he reducido en 25 ºC la temperatura de la primera tarjeta AMD 6990.

DSCF2298

  • El tercero se sitúa en la salida de aire frontal de ambas AMD 6990 y dirige el flujo de salida de las GPUs 2 y 4 hacia los dos ventiladores frontales superiores que rápidamente lo expulsan de la torre.

La torre, la enorme NOX Hummer:

Viendo como queda una placa base ATX en el interior de la Hummer nos hacemos una idea de su tamaño:

DSCF2288Parece que sobra espacio por todos lados, pero todavía no están las AMD 6990…

La verdad es que el diseño de la torre es excepcional pero no es en absoluto suficiente para poder diseñar con ella un sistema con dos AMD 6990 en CrossFire. Con la torre de serie más los dos ventiladores superiores adicionales de 12 cm las GPUs llegaban a 90ºC (concretamente la tarjeta superior que incluye las GPUs 1 y 2) en solamente un minuto de test OpenCL (!!) con el ventilador tarado la 100% y un nivel de ruido increíble.

DSCF2243Vista inferior.

Realmente alarmante… menos mal que tengo un extenso surtido de ventiladores de altas prestaciones y una de mis aficiones es la física y en concreto la dinámica turbulenta de fluidos…

DSCF2253Vista frontal, todo perforado para favorecer el flujo de aire.

DSCF2248Vista trasera antes de retirar las tapas perforadas.

DSCF2246Espacio, más espacio…

DSCF2251NOX Hummer: gigantesca, a su lado una torre ATX de tamaño medio.

DSCF2254El ventilador frontal de 25 cm, antes de darle la vuelta.

DSCF2259La parte superior contiene una tapa perforada que se puede retirar.

DSCF2260Con la tapa retirada.

DSCF2262Por esta zona se enrutan todos los cables para dejar libre la parte interior.

DSCF2263Las bahías de discos de 3.5” de color blanco. Para mejorar el flujo de aire la he retirado.

DSCF2267Perspectiva trasera.

DSCF2269Perspectiva frontal.

DSCF2271Vista interior.

DSCF2273La tapa lateral perforada.

Modificación de la torre:

En primer lugar procedí a la inversión del flujo de los dos ventiladores que trae de serie, estamos buscando un flujo de aire de atrás hacia adelante.

DSCF2300El gran ventilador de 25 cm frontal.

En segundo lugar, y contrariamente al sentido común, monté los dos ventiladores superiores de 12 cm metiendo aire sobre la zona de la CPU y hacia las AMD 6990. Interesa alejar el calor de las 4 GPUs del resto de componentes…

DSCF2299Flujo de entrada sobre CPU y memoria en dirección a las 4 GPUs Cayman.

DSCF2302Esta zona está realmente “fría” con temperaturas en carga máxima en la chapa blanca sobre los 30ºC.

En tercer lugar retiré todos los “accesorios” de la torre que pudiesen obstruir el flujo de aire, entre ellos las bahías de discos duros (excepto la inferior), las tapas traseras de los slots PCI y PCIex y los curiosos sistemas de sujeción de las tarjetas (que yo sustituyo por los clásicos y más robustos y fiables TORNILLOS).

DSCF2274Muy bonitos pero más prácticos y estables son los clásicos tornillos.

DSCF2276Vía libre al aire, y con él al polvo. La limpieza del sistema será crítica, avisado queda el cliente…

DSCF2279Por mí podían ahorrarse accesorios de este tipo…

También he eliminado todos los filtros anti polvo que incluía la torre y lo he hecho por dos razones:

  • En primer lugar para aumentar el flujo de aire y disminuir las temperaturas.
  • En segundo lugar porque solamente hay filtros en las bahías de 5.25” del panel frontal y en el ventilador inferior (al lado de la fuente de alimentación (no lo he utilizado), Por todos los demás huecos entra polvo libremente incluyendo toda la tapa lateral, el ventilador frontal de 25 cm, los ventiladores superiores y resto de ranuras de ventilación.

Para poner filtros de ese modo, es mejor no hacerlo pues son inútiles.

Continuará en la tercera entrega…

Si consideras útil el contenido de este Blog, ayuda a mantenerlo ojeando algunas de las ofertas que consideres interesantes de nuestros anunciantes.

Carlos Yus Valero – informaticapremium      informaticapremium-logo-150px[3]

AMD 6990 CrossFire. Sistemas de Altas Prestaciones – ProfessionalSAT

Aunque últimamente estoy muy ocupado con otra de mis pasiones, el motor, también tengo tiempo para mis Sistemas de Altas Prestaciones. Ahora mismo estoy enfrascado en el diseño de dos de ellos de características absolutamente divergentes y en la ampliación de una tercera máquina.

DSCF1968Dos AMD 6990 para un Sistema de Altas Prestaciones CrossFire. 1200€.

Todos ellos están basados de procesadores Core i7, los dos nuevos en CPUs Sandy Bridge de 32 nm, uno de ellos a 4.8 GHz y el tercero es un i7 950 configurado a 4 GHz.

DSCF1965Un portento en potencia bruta de cálculo: 6144 SPs.

El primer sistema está sistema diseñado sobre dos AMD Radeon 6990 biprocesador, va a ser utilizado en cálculo intensivo e ininterrumpido acelerado por las 4 GPUs disponibles. No es muy importante la potencia del procesador o la cantidad de memoria del sistema, sí lo es en cambio la potencia combinada de las GPUs.

Nos encontramos con una potencia de cálculo increíble, a frecuencias nominales obtenemos:

  • 1536 SPs por chip. 3072 SPs por tarjeta y 6144 SPs entre las dos AMD 6990.
  • 2 GB de GDDR5 @ 5 GHz por chip. 4 GB por tarjeta y 8 GB entre las dos 6990.
  • 5.10 GFlops @ 830 MHz por tarjeta (frecuencia nominal). Más de 10 GFlops para el conjunto CrossFire.

DSCF1966Resulta difícil imaginar el calor que pueden generar estos dos ejemplares…

Las AMD 6990 llegan a disipar más de 400W por unidad, al haber dos en este sistema nos encontramos con más de 800W solamente para las GPUs por ello en esta máquina ha habido que prestar especial atención a varios aspectos.

DSCF1981La turbina que impulsa aire sobre los dos radiadores de los dos chips Radeon.

Por un lado es crítica la elección de la torre y los sistemas de refrigeración y ventilación. Debe de ser muy espaciosa y contar con un óptimo flujo de aire.

DSCF1970Tras esta enigmática etiqueta se esconde el switch para activar la segunda BIOS.

Cambiando de posición el switch conseguimos  MHz extra en los cores permaneciendo el resto invariado, no es una mejora muy importante teniendo además en cuenta que aumenta el voltaje de alimentación de los cores y con ello MUCHO la disipación térmica.

DSCF1976A través de las aspas vemos la circuitería de alimentación de estos monstruos.

VRMLos VRM de la AMD 6990.

Las consideraciones acústicas, siento decirlo, pero en este sistema están de más. Ya hablé y acordé con el cliente que el nivel de ruido sería sencillamente insoportable. Simplemente es difícil extraer más de 1000 W de calor manteniendo temperaturas internas del aire sobre los 40 ºC en verano. Éste es el objetivo, temperaturas controladas y estabilidad total.

DSCF1978Toda la placa está cubierta por radiadores de aluminio negros.

En segundo lugar es necesaria una fuente de alimentación de calidad excepcional y alta potencia, 1.2 KW. En siguientes artículos hablaré sobre el resto de componentes.

DSCF1969La parte trasera igualmente está cubierta por placas de disipación de aluminio negro.

También es crítica la elección de la placa base. Es necesario que posea separación suficiente entre los dos slots PCIex donde se conectarán las dos AMD 6990. Con dos artefactos de 400W nos interesa que entre ellas haya un flujo adecuado de aire.

DSCF1971La salida de aire caliente hacia el interior del chasis a través del radiador de aluminio.

Estas GPUs cuentan con sistemas de refrigeración altamente especializados y realmente utilizan la tecnología disponible al límite. Ambos chips llevan intercambiadores de calor de tipo cámara de vapor, mucho más eficientes que los típicos heat pipes.

RadiadorLos dos Vapor Chambers con los restos de los thermal pads.

DSCF1983Se aprecia la base de cobre ya desde fuera.

DSCF1974Toda la parte trasera está cubierta a excepción de los propios procesadores.

DSCF19734 puertos mini Display Port.

DSCF1982Cuidado con los dedos…

En resumen, conforme vaya avanzando el montaje del sistema veré como evoluciona el diseño de todo el sistema de refrigeración, ya que va a ser un verdadero reto.

El objetivo es conseguir temperaturas bajas y expulsar lo antes posible todo el calor proveniente (estimado en algo más de 500W) de las salidas traseras de las dos AMD 6990. Los otros 300W (o algo más) salen directamente al exterior por la parte trasera de las GPUs.

Es muy importante que este calor no represente un peligro para otros componentes de la máquina y no acorte su vida. Por otro lado debo intentar limitar en lo posible la entrada de suciedad en el equipo para que no sea necesario limpiar las GPUs muy a menudo.

 Si consideras útil el contenido de este Blog, ayuda a mantenerlo ojeando algunas de las ofertas que consideres interesantes de nuestros anunciantes.

Carlos Yus Valero – informaticapremium      informaticapremium-logo-150px[3]