jueves, 2 de febrero de 2017

Temperatura y degradación física en semiconductores –ProfessionalSAT

En este artículo hablaré sobre la dependencia de la velocidad de degradación de los semiconductores con la temperatura y os daré una sencilla manera de calcularla. Como sabréis los que seguís mis Blogs, es un tema que me suscita un gran interés pues diseño y llevo el mantenimiento de un gran número de máquinas sometidas a niveles de stress extremos y continuados en el tiempo.

 semim[6]Termografía del die de un procesador Core 2 Duo en carga máxima, a la derecha los cores.

En mis Sistemas de Altas Prestaciones estoy notando un fenómeno nuevo desde hace un par de años, algunos módulos de memoria DDR3 de 2 y 4 GB fallan tras unos 500 días en carga máxima a temperaturas que rondan los 45 – 60 ºC en el chip DRAM (en carga de saturación). Se trata de sistemas Core i7 serie 900 Nehalem 45 nm con 6 o 12 GB de DDR3.

Últimamente y debido a las ingentes cantidades de DRAM con las que cuenta cada máquina que monto en estos momentos (Ivy Bridge o Haswell 22 nm) y al hecho de que todas montan 16 GB y algunas ya 32 GB temo que este fenómeno vaya a más… y lo hará.

Samsung_DDR3 (2)Uno de los chips DDR3, un  Samsung, presente en muchos de mis sistemas.

En especial este artículo se refiere a la memoria DRAM (DDR3, GDDR5), la memoria Flash presente en los discos SSD y en las tarjetas de memoria y también a las CPUs y demás componentes integrados en nuestras máquinas.

En muchos de mis artículos he escrito hasta la saciedad sobre la importancia de un estricto control térmico en el diseño de los sistemas que se dedican a cálculo intensivo, por ejemplo, en el siguiente detallo la correcta aplicación de la interfaz térmica.

Pasta térmica y transferencia de calor II. Actualizado – ProfessionalSAT
Pasta térmica y transferencia de calor I - ProfessionalSAT

En otros he escrito sobre la degradación física de la memoria DRAM bajo condiciones de stress continuado en muchos de mis Sistemas de Altas Prestaciones:

Degradación física de la memoria DDR3 en cargas de trabajo de saturación – ProfessionalSAT

big_soc-cpu2Termografía de un SOC con dos cores Atom en carga máxima de CPU.

Son máquinas que no pueden fallar y no en el sentido de no arrancar o no ser estables, si no en el sentido de ser estrictamente exactas en sus cálculos, siempre y en cualquier circunstancia. Pensemos que una máquina actual realiza miles de millones de cálculos de coma flotante por segundo por core y en mis Sistemas de Altas Prestaciones lo hacen durante meses o años ininterrumpidamente.

thermal_main_vid_02Termografía de una GPU donde se aprecian los chips DRAM.

Mis clientes exigen exactitud y repetitividad en los cálculos y entre otras consideraciones tengo muy en cuenta la temperatura de cada componente y a esta etapa del diseño le dedico muchas horas.

La Ley de Arrhenius:

Para saber como afecta la temperatura a la velocidad de degradación de cualquier componente electrónico debemos aplicar la Ley de Arrhenius.

Arrhenius 01

Siendo:

k: la velocidad relativa de degradación del componente.

A: factor pre exponencial (una constante dependiente de lo que medimos).

e: número e o número de Euler o constante de Napier (2.7 1828 1828…)

R: constante de los gases ideales (8.31446… J / mol * K)

T: temperaturas en Kelvin, temperatura absoluta (K)

Otra forma de presentar la ecuación de Arrhenius, en su forma logarítmica:

Arrhenius 02

Os ahorraré los cálculos, si asignamos a 25ºC una duración t a un componente, a 125ºC este intervalo se reduce en un alarmante factor 450. Nuestro chip de memoria DRAM, por ejemplo, dará 450 veces más errores a 125ºC que a 25ºC, o dará el primer error en un intervalo de tiempo 450 veces menor.

Es decir, es absolutamente crítico mantener nuestras CPUs, RAM, placa base, GPU y SSD a temperaturas lo más bajas posible para ralentizar su INEVITABLE degradación por electromigración y otros fenómenos (principalmente oxidación por el oxígeno atmosférico, ataque por la humedad del aire, …)

Para más información os recomiendo otro de mis artículos sobre e tema:

Electromigración en microprocesadores – LowLevelHardware

Bild5Micrografía en la que se aprecian los efectos de la electromigración creando un cortocircuito.

Comentarios finales:

La razón última de que el número de fallos vaya en aumento en los sistemas actuales responde a dos factores:

    • El incremento en la cantidad de DRAM por máquina.
    • Las pequeñas geometrías (mayor densidad en bits por mm2) de los chip DRAM (actualmente sobre los 20 nm).

Es un fenómeno a vigilar, absolutamente inevitable,  aunque como consuelo para el común de los mortales, solamente afecta y a largo plazo a máquinas en condiciones especiales de stress y carga (como las mías).

Para terminar y como nota práctica diré que, muy aproximadamente, cada 11ºC de temperatura extra en un componente se reduce a la mitad su vida útil.

Si consideras útil el contenido de este Blog, ayuda a mantenerlo ojeando algunas de las ofertas que consideres interesantes de nuestros anunciantes. Gracias de antemano.

El que tenga dudas o aportaciones tiene para ello la sección de comentarios, intentaré responder a todos y con la máxima claridad. Los Blogs deben de ser lugares de intercambio y agradezco vuestro feedback.

Carlos Yus Valero – informaticapremium      informaticapremium-logo-150px[3]