Un estudio que involucro 100.000 distintos discos duros, por un periodo de hasta 9 años, revelo que estos componentes fallan mas comúnmente que lo que publicitan los fabricantes de almacenamiento. Como si fuera poco, hecha por la borda diversos mitos al respecto de estos aparatos, incluido que los discos SCSI fallan menos que los SATA y que la temperatura es un factor importante para su vida útil.
PUBLICIDAD
La Universidad Carnegie Mellon, cuya especialidad es la informática y robótica, realizo un estudio que involucro nueve años, miles de servidores, decenas de miles de discos duros y once tipos de discos duros con cuatro tipo de interfaces distintas, que arrojo polémicos resultados sobre el tiempo de falla media y las razones de los errores en discos duros.
Los discos duros, según muchos, son los componentes que poseen la tasa más alta de fallos dentro de un computador. La razón es bastante sencilla y es que en conjunto con la – en vías de extinción diskettera, los ópticos y los ventiladores, son las únicas que poseen piezas móviles dentro del computador. Sin embargo hay una serie de leyendas, mitos, verdades y mentiras entorno a los discos duros, a tal punto que llega a ser prácticamente una decisión gutural el inclinarse entorno a un tipo, marca o modelo de disco duro en particular. Algunos dicen que la serie SATA de 80GB de Seagate esta poseída por el diablo, otros que enfriar los discos duros es una buena decisión para la vida útil y los más corporativos ponen las manos al fuego por sus costosos discos SCSI. El estudio hecho por la C.M. parece aclarar al menos algunas de las dudas respecto a estos misteriosos aparatos.
El experimento, que no es más que un ejercicio estadístico, con datos recolectados de diversos clusters con un gran número de discos duros, busca correlaciones entre variables que podrían inducir una falla en distintos aparatos. Entre las variables se encuentran temperatura, capacidad e interfaz, y si bien no todas las variables se mantienen constantes, el hecho de que la muestra sea bastante importante y el tiempo de duración del experimento, le entrega credibilidad y minimiza el efecto de las variables no controladas por razones de fuerza mayor. ¿Cual seria una variable no controlada en este caso? Debido a que los orígenes de los datos provienen en todos los casos de clusters, los datos que son grabados en estos y la exigencia que el nodo le da al disco duro, son variables muy complicadas de manejar, ya que cada nodo hace un trabajo similar pero no idéntico, pero nuevamente debido a la magnitud del universo, el efecto de estas variables es minimizado.
Conclusiones
Temperatura
Si bien la temperatura tiene relación con la tasa de fallos, este es una variable menor y afecta bastante menos que lo esperado por los investigadores. Hay factores mas determinantes en la posibilidad que un disco duro falle fatalmente, como lo serian errores de lectura/escritura en el pasado o el tiempo de uso del mismo.
PUBLICIDAD
Errores pequeños y errores fatales
Uno de los resultados que arroja el estudio, es que si el discos duro presenta un fallo menor, un error de escritura monitoreado vía SMART, existe una gran posibilidad de que este muera en el corto plazo. Por otro lado y mirándolo desde el punto de vista de los discos duros reemplazados, casi la mitad de ellos presentaba al menos un tipo de error SMART. En pocas y sencillas palabras, si tu disco duro tira un error, respalda, es muy posible que tenga sus días contados.
Discos SCSI v/s Discos SATA
De acuerdo a la leyenda urbana, los discos duros de interfaz SCSI, usados en su mayoría en servidores de altos desempeño y en menor medida en estaciones de trabajo del mismo tenor, son de mayor calidad que sus pares con interfaz SATA. Sin embargo este estudio llega a la conclusión que los discos SCSI e incluso aquellos con interfaz de fibra óptica, tienen las mismas posibilidades de fallar que un disco duro SATA.
MTBF: Mean Time Between Failures
Existe un valor usado entre los fabricantes de discos duros, como también otras compañías productivas, llamado en ingles MTBF, Mean Time Between Failures. Este número no es mas ni menos que el tiempo medio entre fallas, y es medido en horas. Los valores entregados por las compañías de discos duros hablan de tiempos de entre 50 y 150 años de uso, sin embargo el estudio cree que esta cifra es más cercana a los 9 u 11 años. La razón de esta diferencia, radica básicamente en el procedimiento que utilizan las compañías de discos duros para lograr estos valores y como podrán notar a primera vista, es un valor proyectado, ya que difícilmente han hecho funcionar un disco duro por 150 años. Por lo tanto, espera que tu disco duro eventualmente falle y antes de que lo botes por obsoleto, al menos te evitaras la cara de sorpresa cuando esto ocurra.
¿Entonces quien es el culpable?
De acuerdo al estudio la variable más importante y sin lugar a dudas es el tiempo de uso. Esto pudiese parecer obvio ya que al tratarse de una pieza movible existe un desgaste propio. Sin embargo y a diferencia de otros productos, donde la tasa de fallos es muy alta en un comienzo (debido a posibles fallas en su manufactura), luego baja conforme el tiempo y finalmente sube nuevamente en la época de “decadencia”, en el caso de los discos duros pareciera ser que cada día de uso aumenta la posibilidad de falla en la misma proporción. Sin entrar en datos estadísticos, lo que quiere decir esto es que cada día que pasa es mas probable que tu disco duro falle y no estamos hablando de grandes periodos de tiempo sino que el segundo año de vida el componente duplica su tasa de fallos respecto, el tercer año es aun peor, y el cuarto es el doble que el segundo, y esto se repitió en tres distintas salas de servidores.
Hablar es gratis, rezar también
Para finalizar, y luego de leer el estudio de la Universidad de Carnegie Mellon, no queda más que dar recomendaciones. Para mal de todos, los discos duros son tan o más frágiles de lo que imaginábamos, son componentes que aun cuando cuidemos, pueden morir en cualquier momento, y cada día que pasa funcionando no hace mas que aumentar sus posibilidades de muerte. Si bien es posible que los fabricantes tengan responsabilidad hasta algún punto, debemos recordar que las capacidades de estos productos y su rendimiento han aumentado ridículamente a lo largo de los años y su precio en tanto ha disminuido drásticamente. Por lo tanto no queda mas que recomendarles que respalden su información mas importante periódicamente, sin importar el precio o las promesas de los fabricantes, y siempre estar preparados anímicamente y financieramente para cambiar este componente que tantos dolores de cabeza nos ha traído a muchos.
Fuente: DailyTech Estudio: Disk failures in the real world: What does an MTTF of 1,000,000 hours mean to you?