ProfessionalSAT: Cougar Point Intel 6 Series Chipset SATA2 bug. Actualizado

jueves, 2 de febrero de 2017

Cougar Point Intel 6 Series Chipset SATA2 bug. Actualizado – ProfessionalSAT

No debo negar mi absoluta sorpresa (ni los propios OEM lo han sabido hasta hace pocos días) al conocer el error de diseño en la circuitería de la controladora SATA2 integrada en todos los nuevos chipsets de la serie 6 de Intel (H67, P67 y sus derivados) destinados a albergar los nuevos procesadores Sandy Bridge (los stepping comerciales B2 son los afectados por el bug, no los previos A stepping que van de maravilla…)

DSCF1063 Intel P67 chipset.

Efectivamente este hecho deja a Intel sin ninguna plataforma sobre la que montar sus nuevos procesadores.

Si somos poseedores de una de estas nuevas CPUs debemos intentar devolverla o reservarla hasta que, a finales de Abril o principios de Mayo, Intel tenga disponible una nueva revisión de silicio del chipset (la B3 o C) sobre la que la podamos montar.

Consideraciones personales a parte, debo resaltar que me parece extraño que un fallo de funcionamiento tan grave haya pasado desapercibido a los bien dimensionados y entrenados sistemas de validación en Intel Corp.

Esquema del chipset P67 Cougar Point.

Como antes he comentado son todas las placas base a la venta las afectadas por el bug y esto ha forzado a Intel y a todos sus partners (OEMs y fabricantes de placas base) a realizar un recall masivo de todos estos componentes.

A nadie se le escapa que todos estos acontecimientos son un balón de oxígeno inesperado para AMD, que está pasando ciertas dificultades en llevar a producción masiva sus dos nuevos diseños de 32 nm fabricados en Global Foundries, Llano y su nueva microarquitectura Bulldozer.

Todos recordamos el desafortunado TLB bug que lastró gravemente a AMD y retrasó la salida al mercado de los procesadores Phenom de 65 nm (core Barcelona) y que, por otra parte, le costó ingentes cantidades de dinero.

La explicación de Intel

Intel define el fallo como una degradación progresiva y continua de la tasa de errores de transmisión en las líneas SATA2 integradas en los chipsets de la serie 6.

http://www.intel.com/support/chipsets/sb/CS-032263.htm

Inicialmente esto se puede notar en un progresivo deterioro del rendimiento de las operaciones del sistema de archivos sobre los dispositivos conectados en los cuatro puertos SATA2 nativos de la placa base debido a una tasa de errores de bit elevada que inicialmente se soluciona mediante correcciones ECC.

Posteriormente llegará a una degradación tal que sea necesario retransmitir los datos, desde el disco a la controladora o viceversa al hallarse corrupción en los datos, con la consiguiente reducción de rendimiento en tiempos de acceso y en transferencia.

En un último estadio podemos llegar a perder una unidad de disco (su letra) en Windows durante el normal uso de nuestro PC dando lugar a errores de escritura demorada y finalmente incluso a la no detección del dispositivo durante las rutinas de arranque de la placa base (POST).

Debo agregar que en mi experiencia personal, cuando se dan frecuentes retransmisiones de datos (retries) debidas a errores de transmisión (corrupción de datos) se acorta claramente la vida del disco duro por trabajar fuera de especificación (no han sido diseñados para tal caso excepcional).

La explicación técnica oficial

Se trata de un mal diseño en una de las máscaras que se utilizan en las últimas etapas de litografía del wafer de silicio con tecnología de 65 nm. Posteriormente tras el corte de los chips formarán cada uno de ellos un chipset de la serie 6.

Es un típico caso de electromigración. Según Intel, han localizado un transistor perteneciente al árbol de distribución de reloj (clock tree) de la controladora SATA2 que tiene un espesor de gate demasiado bajo provocando un leakage excesivo. Sencillamente, se fugan electrones a través del transistor y conforme utilizamos la controladora SATA2 se deterioran sus características eléctricas más y más…

Conclusiones y algunas consideraciones

No existe solución milagrosa para el problema (ni parches en BIOS ni nada), así que la única opción ha sido retirar todos los chipsets afectados del mercado e intentar, lo más rápido posible, fabricar un sustituto sin fallos. Esto será un hecho seguramente a finales de Abril o principios de mayo, hasta entonces no hay Sandy Bridge…

En resumen, a día de hoy no existe plataforma para los nuevos procesadores Sandy bridge, con lo que quedan dos opciones: los excelentes Core i7 de la serie 900 o los magníficos AMD Phenom II X6 de seis cores nativos.

Por suerte algunos afortunados gozan de early samples de chipsets P67 stepping A libres del error que funcionan a la perfección y con absoluta estabilidad… lo que yo me pregunto es como en un stepping posterior ha aparecido este fallo “de la nada”.

Como moraleja de la historia quizás deberíamos todos reflexionar acerca, valga la redundancia, de la calidad de los controles de calidad que se aplican en la actualidad en todos los ámbitos.

Resultados como este desafortunadamente tendrán que esperar a Abril o Mayo…

Si consideras útil el contenido de este Blog, ayuda a mantenerlo ojeando algunas de las ofertas que consideres interesantes de nuestros anunciantes. Gracias de antemano.

El que tenga dudas o aportaciones tiene para ello la sección de comentarios, intentaré responder a todos y con la máxima claridad. Los Blogs deben de ser lugares de intercambio y agradezco vuestro feedback.

Bibliografía complementaria:

Datasheet: http://www.intel.com/Assets/PDF/datasheet/324645.pdf

Themal Design guide: http://www.intel.com/Assets/PDF/designguide/324647.pdf

Specification update: http://www.intel.com/Assets/PDF/specupdate/324646.pdf

Políticas de los fabricantes de placas base:

ASUS: http://event.asus.com/2011/SandyBridge/notice/

GigaByte: http://gigabytedaily.blogspot.com/2011/02/intel-6-series-chipset-issues-q.html

ASRock: http://www.asrock.com/news/events/201102ex/index.html

Carlos Yus Valero – informaticapremium

6 comentarios:

Javier Martinez2 de febrero de 2011 a las 23:49
Hola Carlos, lo primero felicitarte por tu gran trabajo, tras casi 3 años de lectura de tus blogs (la mayoria por la noche portatil en cama) puedo decir que he aprendido mas de informatica con tigo que en los anteriores 13 años, muchas gracias de verdad.

Alagos aparte, debo decir que en parte me alegro de lo ocurrido con lo referente a el chipset para Sandy Bridge.
Punto uno, nos ayuda a comprender y valorar el producto de alta calidad, la deficiencia en los controles de calidad que acaban cometiendo las compañias por poder abaratar el precio de los componentes, por demanda del consumidor, bajando los costes de fabricacion de sus productos. Señores yo pregunto avanzamos?
Punto dos, asi podre disfrutar mas tiempo de mi recien nacido i7 950 @ 4Ghz 6gb 3Ch 9 9 9 24 1T 1600 Kingston HX Gigabyte X58A-UD3R 9800GTX corriendo MacOsX 10.6.6 Snow Leopard y en un futuro no muy lejano corriendo 2 F60, uno W7 y el otro SL. Que siempre nos tienes con los dientes largos.
Una vez mas, gracias Carlos.
ResponderEliminar
Respuestas
Carlos Yus Valero3 de febrero de 2011 a las 19:27
Javier,

En primer lugar gracias por tus felicitaciones y halagos, sabes que más que un trabajo o una obligación mis Blogs son un verdadero placer limitado sólo por mi falta de tiempo y exceso de obligaciones.

En segundo lugar, ciertamente los controles de calidad se están reduciendo día a día y ahora mismo no llegan al mínimo exigible.

Esto viene motivado por la reducción de precios, los excesivos volúmenes y el verdadero ansia de reducir al mínimo el time-to-market de los productos.

Para terminar te felicito por tu excelente i7 950 a 4 GHz con triple DDR3 1600 y BCLK 200 ya que aunque no sea un Sandy Bridge sí tiene un rendimiento excepcional.

Un saludo,

Carlos Yus.
ResponderEliminar
Respuestas
Anónimo4 de febrero de 2011 a las 20:04
Gracias por esta valiosa información, muy aclaradora.

Es el artículo más completo que he leido.

Me ha llamado la atención el que hables de riesgo de pérdida de datos y daños a los discos sata2 conectados en esos puertos. No he visto información al respecto en otros sitios.

Siempre es un placer leerte.
ResponderEliminar
Respuestas
Carlos Yus Valero6 de febrero de 2011 a las 17:50
Anónimo,

Sobre la posibilidad de pérdida de datos, está ahí y es un hecho posible.

Cuando un dispositivo de almacenamiento recibe datos corruptos por un cable defectuoso o conexión sucia o fallos en la controladora puede corromper datos.

Si una controladora pide el reenvío de un paquete procedente de un disco duro un número elevado de veces por cualquier razón (fallo controladora, fallo sincronización de reloj, daños en cableado...) este (el disco) trabaja en un entorno no nominal.

En este caso se produce un deterioro no nominal de la mecánica del disco debido a un trabajo fuera de especificación (múltiples retries).

Saludos,

Carlos Yus.
ResponderEliminar
Respuestas
Juan Fran9 de febrero de 2011 a las 1:25
Vaya hasta el más grande se equivoca!!
Verlo para creerlo.

Gran atículo,

Saludos Carlos.
ResponderEliminar
Respuestas
Carlos Yus Valero9 de febrero de 2011 a las 21:00
¡Hombre Sr. Juan Fran, cuánto tiempo!

Tienes toda la razón, ha sido una sorpresa para todos que un error tan grave haya pasado desapercibido a los equipos de testing y validación de Intel y posteriormente a los OEM... es raro.

En dos semanas creo que tendré algo de tiempo alguna tarde, a ver si nos vemos.

Un saludo,

Carlos Yus.
ResponderEliminar
Respuestas

Añadir comentario

Nota: solo los miembros de este blog pueden publicar comentarios.