Nube negra de Amazon: algunos datos no son recuperables
Se nos atravesó una nube negra (cc) Flickr - waponigirl

Se nos atravesó una nube negra (cc) Flickr - waponigirl
Como muchos habrán escuchado, leído o experimentado en carne propia, la semana pasada la plataforma de servicios web AWS de Amazon se vino abajo estrepitosamente, arrastrando consigo a muchos sitios, servicios y emprendimientos que alojan con ellos como Hootsuite, Quora, FourSquare, Reddit, Heroku, Chartbeat y bueno, Betazeta.
Hoy ha salido a la luz nueva información que no nos deja completamente satisfechos y, en la práctica, tiene a varios clientes algo disconformes.
El problema se presentó la madrugada del jueves 21 de abril, cuando un error del cual no se ha dado suficiente información gatilló un mecanismo de emergencia que respalda los volumenes elásticos de storage (EBS) y levanta espejos. Este proceso escaló en cadena levantando espejos de espejos, respaldos de respaldos, respaldos de espejos, espejos de respaldo ocupando finalmente todo el espacio disponible. Los sitios que cayeron sufrieron la consecuencia de este proceso de emergencia recursivo, pero si bien todos entendimos el síntoma, todavía nadie tiene clara la enfermedad: ¿Qué hizo que los volúmenes intentaran replicarse infinitamente? ¿La nube cobró conciencia? ¿Pasará nuevamente mañana o pasado?
Durante el jueves 21 el servicio se fue restableciendo paulatinamente. Algunos sitios volvieron durante esa tarde y nosotros durante la madrugada del viernes. A las 6:30 am nuestro equipo IT declaró la emergencia superada y se fue a casa con 22 horas de trabajo continuo en el cuerpo y aproximadamente 2Kg de pizza en las tripas y otro tanto en litros de café (alimento de campeones). En esa jornada maratónica levantaron nuestros respaldos y salvo por el desfase natural entre el último respaldo y la caída de Amazon, se recuperó todo.
Hoy Amazon reconoció oficialmente que aproximadamente un 0.07% de la información se perdió para siempre y, aunque eso parece muy poco, en algunos casos equivale a haber perdido el proyecto completo (aunque no me consta que alguien haya tenido tanta mala suerte). Este reconocimiento es hasta ahora la información más relevante ofrecida por el proveedor, luego de casi una semana de mantener a los clientes en la oscuridad.
Esto no hace sino acrecentar la molestia entre los usuarios de la nube AWS, que no sólo se debe al hermetismo de la empresa sino a que quedó en evidencia que el servicio no es tan diversificado como se ofrecía. Así como hay regiones que son absolutamente independientes, cada región tiene Availability Zones (AZ) que pueden compartir un mismo volumen de datos pero son independientes a nivel material, de modo que si cae una bomba nuclear en un AZ no bote a toda la región. Bueno, no fue una bomba nuclear -eso lo tenemos claro- y de todos modos sí cayó toda la región, al menos todo el storage compartido en ella. ¿No contradice eso los términos de servicio?
Muchos anticipan reacciones luego de este incidente. Algunos pronostican que las empresas abandonarán la nube, aunque eso me parece improbable. Sí queda en evidencia que necesitamos no solamente tener respaldos offline fuera de Amazon (que ya tenemos) sino la capacidad de atender al menos parcialmente aunque se caiga el proveedor principal. Como sea, el aprendizaje para nosotros no es que hay que abandonar la nube, sino volverse infinitamente flexibles para aprovechar su esencia volátil.
Para cerrar, también es relevante comentar que cada vez que quiebra un banco sale alguien a decir: “por eso es mejor guardar la plata debajo del colchón” y cada vez que sube el precio de los limones mi suegra dice: “por eso hay que plantar limoneros”. La verdad es que la diversificación y tercerización de cualquier aspecto de nuestra actividad no están exentas de riesgo, y uno lo elige conociéndolos y tomando la decisión que maximiza su valor. En ese escenario, encerrarse y aspirar a autoabastecerse en todos los insumos y servicios que uno necesita puede eliminar el riesgo, pero también todo el valor agregado de existir en una economía globalizada. El remedio sería peor que la enfermedad
Link: Amazon: Some data won’t be recovered after cloud outage (The Register)
La Televisión Digital Terrestre en Latinoamérica
El plan de Facebook para monetizar su producto
Yahoo! lanza Axis, su propio navegador para móv...
Cámaras Wi-Fi de Samsung a primera vista
Un sitio web lucha contra la monopolización de ...
Google no infringió las patentes de Oracle con ...
Windows 8 bootea tan rápido que no da tiempo al...
Detrás del Community Manager: ¿Cómo es realment...
47 Comentarios
Nube negra de Amazon: algunos datos no son recuperables
Concuerdo con Fagandini, si bien la "nube" es un excelente servicio, no podemos depender de dichos servicios para salvaguardar nuestra información, siempre es bueno tener un caballito de Troya en estos casos
Responderuna reflexión interesante. Te aseguro que ocurren cosas similares (aunque en distintas escalas) en otros tipos de outsourcing.
Por otro lado... que puedes esperar de un servicio de almacenamiento que se llama "la nube"?
Dice que hay que tomar ventaja de la globalización. No que hay que tener todo en la nube y no tenerlo a la vez.
En otro sitio leí que algunos sitios usan amazon por barato, me parece descortés de su parte.
Si todos en la ciudad quisieran tener hortalizas o vaca, cerdos y gallinas, a donde los van a guardar? En el techo?
no es un problema de "la nube", constantemente se hacen charlas y simposiums para discutir el tema, y no hay ninguna aseveración final, un respaldo local vs la nube, son tantos los factores, pero en general "la nube" termina ofreciendo un mejor servicio, de mayor calidad y efectivo, en una gran mayoría de casos, puede ser que los servicios locales de alta calidad, son extremadamente caros y de poca oferta, siendo los servicios baratos una gran mayoría y de pobre calidad.
Lo que tengo claro que ningún servicio, sea local o nube, debe ser usado para guardar únicamente la información.
Yo sigo prefiriendo redundancia. Dos servidores en espejo actualizados y si algo falla, un simple mod al DNS y ya está. Claro que si se mueren los DNS es más complicado pero mucho menos probable.
Amigo, la expresion "caballito de Troya" no aplica en este caso.
Bacano como escribe este man.. buen dato
ResponderParadójico que una de las ventajas de la nube es la resiliencia a este tipo de cosas. Al final fue como tener un server en otro datacenter más para ese 0.07% de datos (que no sé a cuánto ascenderá en bytes). Me llama la atención la descripción del error también, que el mecanismo automatizado de respaldo se vuelva así de loco es nuevo para mí :P
Responderque acaso en amazon no saben programar? o a nadie se le ocurrió hacer las pruebas suficientes?
Responder¿Hay alguien en la foto?
@Guaton, averígualo tu mismo. =p
@Guatón Campero:
PUTO RACISTA...
nunca hay que confiar ciegamente en nadie
Responderse caen los aviones y no se va a caer en sitio de applewayer XD
En resumen.... se vendió la pomada de una supertecnología (y el palo que aforran), y al final era chanta.... (chilean way...)
ResponderLo que no me gusto es que betazeta.com tambien se cayo, entonces no sabia que le habia pasado a betazeta.
Responder¿Es muy difícil traducir todo el texto?
Respondervolumenes elásticos de storage (EBS)
Storage= almacenamiento
Availability Zones (AZ) = Zonas de disponibilidad
respaldos offline = Respaldos fuera de linea
El espanglish dejemoslo a los habitantes de Miami. Gracias
exageras, si al final los que se manejan en informática tienen a usar términos en ingles. O también quieres traducir software y hardware?
Programa en español y ve si funciona! ...
Concuerdo con suikakuyu y Hardticky; Los que nos manejamos en informática tendemos a usar términos en inglés, y el común de las personas lo entienden así más fácilmente. Ser correcto por ser correcto no tiene ningún sentido.
@suikakuyu, Hardticky y Pablo: pero tienen que aceptar que dejar storage sin traducir es simplemente too much. Nunca he escuchado a un chileto decir estórash.
Escribir en español is too mainstream...
*chileno
Se llama ingles tecnico aweonao awwww(8)
Stream of Data = Mazacote de datos?
como dice Hardticky... Is too mainstream = Es tan flujo principal?
Este es un blog publico leido por personas que no necesariamente son especialistas en informatica. Los terminos deben traducirse.
@alguien pero si que entiende algo de informatica, al menos los terminos.
si la minoria no los conoce, bueno que los averigue :)
No soy partidario de la nube a decir verdad, en algunos casos puede ser hasta necesario el uso de estos sistemas tercerizados (tal como tu indicas en el caso de los emprendimientos), pero en otros casos donde la criticidad de los sistemas implica mantener todo en linea, y accesible a todo momento es recomendable lo implementado localmente.
ResponderCon esto no quiero decir que la nube no sirva o sea ineficiente, pero es necesario analizar todos los factores que implica tener tus sistemas en un tercero con todo lo que eso conlleva y sobretodo considerando que el tercero es quien se hace cargo de todo (fallos incluidos).
Igual, hay que considerar que ningún sistema es infalible, y en este caso apuestas. al fallar hay un porcentaje de que te afecte, en cambio si tienes un data center propio, es 100% seguro que te va a afectar.
Responder"aspirar a autoabastecerse en todos los insumos y servicios que uno necesita puede eliminar el riesgo", nop, a lo mejor puede estar mas controlado, o cambiar un tipo de riesgo por otro, pero definitivamente no se elimina. El beneficio es que da mas la sensación de poder hacer algo y no estar sentado comiendo pizas a ver que pasa.
ResponderGuito : La nube es un datacenter (lo mas probable que mas de uno) pero al final igual son servidores, tienen los mismos problemas que un datacenter local (me imaginaría que mas capacidad para afrontar problemas comunes)
Bueno, cualquiera que este inmerso en tecnologia y datos sabra que siempre es mejor varias fuentes de respaldo que una sola.
ResponderSkynet cobró vida xD!
Responder¿Por que me sale que estan hostiados en "theplanet"?.
ResponderHace una semana salia que estaban en amazon.
¿Se cambiaron por la caida de amazon o yo estoy puro weiando y nunca se an cambiado?
http://uptime.netcraft.com/up/graph?site=www.fayerwayer.com
Hace como 2 meses que estamos en Amazon. Si alguna parte dice "the planet" es que nos falta actualizar la plantilla.
Responder@ fff:
a casi 1 semana de la falla que sufrio betazeta "uds" mismos (estoy seguro) que no se han planteado otra alternativa ni mucho menos un plan de contigencia o plan b.
solo se presignan y esperan que no suceda mas.
moo, te distes cuenta que el sitio continuó funcionando aunque Amazon muriera, ese es un plan de contingencia, un respaldo funcional.
Por el contrario, una semana antes de la falla el jefe de plataforma presentó un proyecto para alojar copias en distintas partes del mundo (aunque sea en un hosting de 3 lucas, pero tener uno en cada región), y por otro lado alojar cada capa en un proveedor distinto: los estáticos en Akamai, los PHP en Amazon, y así...
Pero entre el powerpoint y ponerlo en práctica no basta una semana, de hecho nos vamos a demorar un par de meses y es bastante peludo sincronizar todo el mono.
Primero fue google ahora amazon, la verdad es que esto nos hace meditar sobre el cloud... un servicio sobrevendido pero al parecer no tan seguro como lo hacen notar en las presentaciones de las distintas empresas. La verdad es que las empreseas que ofrecen el servicio de cloud tienen que enfrentarse a la complejidad de los grandes sistemas que deben administrar y asegurar. Estas grandes instalaciones se convierten en un ecosistema que cada parte interactua entre si, y bueno si existe un error humano, un error de sistema o alguna falla del famoso fierro este ecosistema se ve afectado. Creo que la enseñanaza es no tener todos los huevos en la misma canasta; y si bien estas empreseas ofrecen maravillas en uptime, aseguramiento de los datos, etc, etc... con esto queda claro que no debemos confiar. En conclusion el cloud es una excelente herramienta pero aun le falta madurar y seguir convenciendo a las empresas de esta genial idea.
ResponderNunca le he tenido confianza a yahoo
ResponderEn una de esas meten a un infiltrado en los datacenter de amazon y el admin era un mono fumando un cigarro (simpsons) y ademas lo tenian de cybercafe pa los vecinos jajajajaj
Respondermonitoring tool and sysadmin FAIL!
ResponderBueno esto nos indica que hay que tener el respaldo del respaldo del respaldo por que si no se va a la goma tu porno aaaaaa digo informacion jajajajjaja bueno pero es cierto ningun sistema es 100% seguro ni perfecto siempre existe el factor humano(errores o pendejadas) pero bueno esto hace a que los sistemas se mejoren pero guarden sus cosas bien en sus propias compus y algunas cosas en la nube es una buena opcion pero no la mejor eee.
ResponderBueno es un tema para los sysadmin, les recomiendo runrobin con tres nodos. Nodo principal en california, otro en amazon y el último en chile donde tengan respaldos frios. Con eso evitamos cortes por perdida de enlace internacional, enlace nacional y nubes caidas. No sale caro para uds.
Responderfoto qlia xDDDDDDDDDDDDDDDD
@andres, jajaja si poh, la foto puro reforzando el estereotipo, mas encima el weon dando consejos bacanes
ResponderYo tenia entendido que FayerWayer tenia su propio datacenter.
ResponderDebe haber un acuerdo de servicio con Amazon dónde garantizan el 99,99% de disponibilidad y las diferencias de precio se deben basar en la cantidad de 9 del decimal. Lo mismo ocurre con Microsoft y su plataforma Azure, no pretendo hacer propaganda, pero quizás pueda servir para evaluar la interoperabilidad entre los proveedores de servicios en la nube y es donde cobra importancia vital la sincronización.
ResponderDeja tu Comentario