jueves, 2 de febrero de 2017

Temperatura y degradación física en semiconductores –ProfessionalSAT

En este artículo hablaré sobre la dependencia de la velocidad de degradación de los semiconductores con la temperatura y os daré una sencilla manera de calcularla. Como sabréis los que seguís mis Blogs, es un tema que me suscita un gran interés pues diseño y llevo el mantenimiento de un gran número de máquinas sometidas a niveles de stress extremos y continuados en el tiempo.

 semim[6]Termografía del die de un procesador Core 2 Duo en carga máxima, a la derecha los cores.

En mis Sistemas de Altas Prestaciones estoy notando un fenómeno nuevo desde hace un par de años, algunos módulos de memoria DDR3 de 2 y 4 GB fallan tras unos 500 días en carga máxima a temperaturas que rondan los 45 – 60 ºC en el chip DRAM (en carga de saturación). Se trata de sistemas Core i7 serie 900 Nehalem 45 nm con 6 o 12 GB de DDR3.

Últimamente y debido a las ingentes cantidades de DRAM con las que cuenta cada máquina que monto en estos momentos (Ivy Bridge o Haswell 22 nm) y al hecho de que todas montan 16 GB y algunas ya 32 GB temo que este fenómeno vaya a más… y lo hará.

Samsung_DDR3 (2)Uno de los chips DDR3, un  Samsung, presente en muchos de mis sistemas.

En especial este artículo se refiere a la memoria DRAM (DDR3, GDDR5), la memoria Flash presente en los discos SSD y en las tarjetas de memoria y también a las CPUs y demás componentes integrados en nuestras máquinas.

En muchos de mis artículos he escrito hasta la saciedad sobre la importancia de un estricto control térmico en el diseño de los sistemas que se dedican a cálculo intensivo, por ejemplo, en el siguiente detallo la correcta aplicación de la interfaz térmica.

Pasta térmica y transferencia de calor II. Actualizado – ProfessionalSAT
Pasta térmica y transferencia de calor I - ProfessionalSAT

En otros he escrito sobre la degradación física de la memoria DRAM bajo condiciones de stress continuado en muchos de mis Sistemas de Altas Prestaciones:

Degradación física de la memoria DDR3 en cargas de trabajo de saturación – ProfessionalSAT

big_soc-cpu2Termografía de un SOC con dos cores Atom en carga máxima de CPU.

Son máquinas que no pueden fallar y no en el sentido de no arrancar o no ser estables, si no en el sentido de ser estrictamente exactas en sus cálculos, siempre y en cualquier circunstancia. Pensemos que una máquina actual realiza miles de millones de cálculos de coma flotante por segundo por core y en mis Sistemas de Altas Prestaciones lo hacen durante meses o años ininterrumpidamente.

thermal_main_vid_02Termografía de una GPU donde se aprecian los chips DRAM.

Mis clientes exigen exactitud y repetitividad en los cálculos y entre otras consideraciones tengo muy en cuenta la temperatura de cada componente y a esta etapa del diseño le dedico muchas horas.

La Ley de Arrhenius:

Para saber como afecta la temperatura a la velocidad de degradación de cualquier componente electrónico debemos aplicar la Ley de Arrhenius.

Arrhenius 01

Siendo:

k: la velocidad relativa de degradación del componente.

A: factor pre exponencial (una constante dependiente de lo que medimos).

e: número e o número de Euler o constante de Napier (2.7 1828 1828…)

R: constante de los gases ideales (8.31446… J / mol * K)

T: temperaturas en Kelvin, temperatura absoluta (K)

Otra forma de presentar la ecuación de Arrhenius, en su forma logarítmica:

Arrhenius 02

Os ahorraré los cálculos, si asignamos a 25ºC una duración t a un componente, a 125ºC este intervalo se reduce en un alarmante factor 450. Nuestro chip de memoria DRAM, por ejemplo, dará 450 veces más errores a 125ºC que a 25ºC, o dará el primer error en un intervalo de tiempo 450 veces menor.

Es decir, es absolutamente crítico mantener nuestras CPUs, RAM, placa base, GPU y SSD a temperaturas lo más bajas posible para ralentizar su INEVITABLE degradación por electromigración y otros fenómenos (principalmente oxidación por el oxígeno atmosférico, ataque por la humedad del aire, …)

Para más información os recomiendo otro de mis artículos sobre e tema:

Electromigración en microprocesadores – LowLevelHardware

Bild5Micrografía en la que se aprecian los efectos de la electromigración creando un cortocircuito.

Comentarios finales:

La razón última de que el número de fallos vaya en aumento en los sistemas actuales responde a dos factores:

    • El incremento en la cantidad de DRAM por máquina.
    • Las pequeñas geometrías (mayor densidad en bits por mm2) de los chip DRAM (actualmente sobre los 20 nm).

Es un fenómeno a vigilar, absolutamente inevitable,  aunque como consuelo para el común de los mortales, solamente afecta y a largo plazo a máquinas en condiciones especiales de stress y carga (como las mías).

Para terminar y como nota práctica diré que, muy aproximadamente, cada 11ºC de temperatura extra en un componente se reduce a la mitad su vida útil.

Si consideras útil el contenido de este Blog, ayuda a mantenerlo ojeando algunas de las ofertas que consideres interesantes de nuestros anunciantes. Gracias de antemano.

El que tenga dudas o aportaciones tiene para ello la sección de comentarios, intentaré responder a todos y con la máxima claridad. Los Blogs deben de ser lugares de intercambio y agradezco vuestro feedback.

Carlos Yus Valero – informaticapremium      informaticapremium-logo-150px[3]

13 comentarios:

  1. Un Blog muy bueno :) , gracias por la información , saludos

    ResponderEliminar
  2. Una pregunta imagina una lugar totalmente aislado ( vacio) i con una temperatura de 0 grados , cual seria la vida util de los componentes ?

    ResponderEliminar
  3. Sergi,

    0º C (centígrados) no es una temperatura particularmente interesante si no es por el hecho de que el agua cambia de estado a esa temperatura. 0ºC son 273,15 K (Kelvin) en la escala absoluta de temperaturas, la escala realmente importante.

    0 K (no se llaman grados, simplemente Kelvins) marca el punto de energía cero, es decir, un elemento, átomo, electrón o una sustancia compleja a 0 Kelvin no vibra térmicamente, está absolutamente en reposo.

    En cambio, a 0º C y al vacío (sin aire y sin humedad), la mayoría de componentes electrónicos durarían de 5 a 7 veces más tiempo o se degradarían de 5 a 7 veces más lentamente que a 25º C al vacío.

    A 25º C y en el mundo real, es decir, con aire con su oxígeno y humedad todo se complica y se acelera la degradación por estos dos últimos factores (ataque por oxidación y reacciones químicas aceleradas por las humedades relativas elevadas).

    Hay que pensar, de todos modos, que hay componentes que a 0º C no trabajan nada bien, por ejemplo pilas, baterías (de litio, NiMH, Plomo, ZincCarbón...), condensadores electrolíticos, motores eléctricos (aumento de viscosidad de la lubricación) por ejemplo en los discos duros, y un largo etcétera.

    ResponderEliminar
  4. Ah, por cierto, muchas gracias por tus felicitaciones,

    Carlos Yus Valero.

    ResponderEliminar
  5. ¿y ahy algun soft que haga pruebas para determinar la degradación física del pc? (a ser posible en pruebas en modo de comprobación en lento ya que en rápido....

    Es decir... tengo un vaio >fz31m... en sus tiempos juege viciadas al crisys1 y al fallout 3 pero ahora no puede apenas ni con 15 ventanas del chorome.....

    Es un t7250(2Ghz) 3Ram a 333Mhz y 8400m gt........... (lo he abierto en varias ocasiones y tambien cambiado la pasta.......

    En sus primeros días tenia una idle de 28ºc y subia a 47º viendo un blu-ray pero después de siete años tiene un idle de 42º y con el chorome me llega a 50ºc.

    >>La degradación física es algo real mente importante en los componentes del pc pero apenas se da atención a esto.

    ah! tambien tengo un fx8350 en el cual me murió por usar un disipador de aire (aunque usaba dos de 12cm) a los dos meses..... el siguiente que me dieron me iva el comando aircrack-ng -w a unos 7000kb/s y ara ronda los 5700kb/s con un corsai 100i con 3 fans d 120 a rpm al 60% y una temp de 50ºc (idle tiene 36ºc)

    >https://www.facebook.com/uchia.vaiox/media_set?set=a.3043747548821.1073741825.1717103266&type=3

    ResponderEliminar
  6. Muy buen blog, nos avisas de un problema que pasa casi desapercibido
    Una duda ¿Cual es la vida útil de un procesador 22nm bajo los efectos de electromigración, operando a temperaturas normales (45 a 65°C)?

    ResponderEliminar
  7. Anónimo.

    En primer lugar disculpas porque de algún modo se me ha pasado tu comentario... casi dos años.

    Sobre las temperaturas 50ºC en los cores en tu portátil no es nada preocupante, ni siquiera elevado.

    En el AMD FX 8350, debería de funcionar establemente y sin ningún problema con un refrigerador por aire de gama media. Si el tuyo tenía 2 ventiladores de 12 cm, es que era de gama alta... por lo que si la CPU ha fallado no fue por ese motivo sino o por mal montaje del radiador o por algún problema eléctrico en placa base o sobretensión.

    Un saludo.

    Carlos Yus Valero.

    ResponderEliminar
  8. Unknown.

    En principio, y bajo los parámetros que señalas, un procesador de 22 nm (Ivy Bridge o Haswell) está en el rango perfecto para tener una gran longevidad. En ese sentido no deberías de tener ningún problema.

    Saludos.

    Carlos Yus Valero.

    ResponderEliminar
    Respuestas
    1. Muchas gracias por contestar.Lo que sucede es que tengo un equipo con esas características trabajando a esas temperaturas pero no tiene ventilador de fabrica (es una laptop). Ahora con lo que dices supongo que no debería preocuparme por eso. Lo que si debería es cambiarle la pasta térmica cada 1 o 2 años.Ha si perdón soy Erik Alvarez
      Gracias de nuevo
      Saludos

      Eliminar
    2. Ha se me olvido, también me preocupe por que algunos equipos con mi mismo procesador (intel celeron n2840) poseen ventilador y por lo que investigue sus temperaturas son entre 20 y 30°C, por eso creí preocupante las temperaturas de mi equipo.

      Eliminar
  9. Anónimo.

    Se me olvidaba. Hablabas de software... no hay manera de saber si nuestro procesador se acerca a un fallo catastrófico por degradación física debida a electromigración.

    Lo que sí he notado empíricamente, es que antes del fallo (meses a veces), las temperaturas de funcionamiento con igual carga, mismo voltaje y idéntica refrigeración (temperatura exterior, radiador, interfaz térmica, ventiladores y rpm) van subiendo.

    En el caso de algunas CPUs, en carga máxima, tras un par de años de degradación y en las condiciones que señalo arriba, llega a incrementarse la temperatura en 20ºC.

    Esto es indicativo de que hemos sido demasiado agresivos con el voltaje al configurar el procesador fuera de especificación o que hemos obligado a las CPU o GPU a trabajar en continuo a temperaturas muy elevadas (p.ej. a más de 70ºC constantes).

    Un saludo.

    Carlos Yus Valero.

    ResponderEliminar
  10. Erik.

    Como te comenté y con los nuevos datos que añades, no debería haber problema con tu CPU a largo plazo.

    Sobre cambiar la pasta térmica, depende de cual sea... las hay que se degradan con el tiempo rápidamente, otras se desplazan fuera del área de contacto entre CPU y radiador, otras en cambio duran años y años en perfectas condiciones.

    He escrito varios artículos sobre estos aspectos de la transferencia de calor:

    http://professionalsat.blogspot.com.es/2008/06/equipos-de-altas-prestaciones.html

    http://professionalsat.blogspot.com.es/2008/09/pump-out-pentium-d900-425-ghz.html

    http://professionalsat.blogspot.com.es/2009/06/thermal-pad-en-ebullicion.html

    http://professionalsat.blogspot.com.es/2009/03/intel-core-i7-aplicacion-de-la-interfaz.html

    http://professionalsat.blogspot.com.es/2009/03/intel-core-i7-aplicacion-de-la-interfaz.html

    http://lowlevelhardware.blogspot.com.es/2008/05/cores-y-pasta-trmica.html

    Y muchos otros...

    Un saludo.

    Carlos Yus Valero.

    ResponderEliminar
    Respuestas
    1. Muchas gracias.
      Revisaré tus artículos que comentas. Ya he revisado algunos y son muy buenos e interesantes. Tienes mi total respeto
      Saludos y hasta pronto

      Eliminar