Amazon se disculpa por caída de su nube y atribuye la culpa a error humano
(cc) stars6 / Leonardo Rizzi
Amazon publicó hoy detalles del desastre ocurrido en su red la semana pasada, que causó la caída del servicio de una serie de empresas que dependen de estos servidores en la nube (incluyendo a Betazeta).
La compañía explicó que todo comenzó a mediodía (12:47, horario del Pacífico) del 21 de abril, en la Elastic Block Storage (EBS) de Amazon, que básicamente es el almacenamiento usado por el servicio EC2, que ofrece almacenamiento escalable en servidores en la nube. Amazon explicó que, por una falla humana, se realizó un cambio incorrecto en la configuración de la red, que hizo que el proceso de escalamiento fallara.
El cambio de configuración era para mejorar la capacidad de la red primaria. Durante el cambio, uno de los pasos estándar es mover el tráfico fuera de los routers redundantes en la red primaria EBS para permitir que la actualización ocurra. El cambio del tráfico fue ejecutado incorrectamente, y en lugar de enrutarlo hacia otro router en la red primaria, fue enviado a la red redundante de menor capacidad de EBS.
EBS funciona usando una tecnología peer-to-peer, que mantiene a los datos sincronizados en varios nodos, usando dos redes – una rápida para operaciones normales, y una lenta, que sirve de respaldo cuando la primaria falla. Cada nodo usa la red para crear múltiples copias de los datos usados a medida que se requiera. Cuando uno de los nodos deja de comunicarse con otro en medio de una operación, el primer nodo asume que el segundo falló, y busca otro que esté libre donde pueda replicarse. Esto normalmente pasa tan rápido que los humanos no están involucrados.
Cuando el enrutamiento del tráfico en la red primaria no funcionó correctamente, un grupo de nodos de EBS perdió contacto con sus réplicas. Cuando se restauró la conexión, tantos nodos se habían caído que cuando comenzaron a replicarse de nuevo, el espacio disponible se había acabado. Eso dejó a varios nodos en un círculo vicioso en donde buscaban una y otra vez espacio en otros nodos para crear espejos, cuando no había más espacio. Los requerimientos para crear nuevos nodos en EBS se apilaron, sobrecargando todo lo demás. A las 2:40, Amazon deshabilitó la capacidad de los clientes de crear nuevos volúmenes de datos. Una vez que los nuevos requerimientos dejaron de apilarse, parecía que la situación se había calmado, pero no fue así.
Espejos, más espejos
Los volúmenes de EBS siguieron buscando nodos donde replicarse, causando tensión constante en el sistema. Para las 11:30 am, los técnicos habían encontrado una forma de detener la locura sin afectar la comunicación entre los nodos. Una vez que se aplicó esa solución, un 13% de EBS todavía estaba atascada con requerimientos. Para mediodía, los ingenieros empezaron a buscar espacio para que los volúmenes atascados pudiesen replicarse, algo que no era fácil porque requería que se movieran físicamente servidores y se instalaran al cluster de EBS.
Eso tomó bastante tiempo. Para las 12:30 del 22 de abril, todavía había un 2,2% de EBS que estaba atascado. Con la nueva capacidad instalada, Amazon empezó a trabajar en hacer que los nodos se comunicara normalmente entre sí otra vez. Esto debía hacerse por etapas, y el trabajo se extendió hasta el día siguiente. Para las 18:15 del 23 de abril, las operaciones estaban casi de vuelta a la normalidad (excepto por el 2,2% que todavía estaba atascado). Resultó que esa parte tendría que ser recuperada manualmente. Los datos estaban respaldados en Amazon S3, y para el día siguiente, se había recuperado todo menos un 1,04% de los datos.
Se siguió trabajando, y al final un 0,07% de los datos involucrados no pudieron ser recuperados, dijo Amazon.
Lo que viene
La compañía informó que está auditando su proceso para realizar cambios en su red, que es donde comenzaron los problemas, y que aumentará la automatización del sistema para prevenir errores similares en el futuro. Además, todos los clientes recibirán un crédito de 10 días, independientemente de si sus servicios se vieron afectados o no. Amazon lanzó una larga lista de los cambios que realizará, que van desde aumentar la capacidad disponible para operaciones de recuperación, a hacer más fácil para los clientes acceder a más de una zona de disponibilidad y mejoras a su dashboard de estado.
Y por último, “queremos disculparnos. Sabemos cuán críticos son nuestros servicios para los negocios de nuestros clientes y haremos todo lo que esté en nuestras manos para aprender de este evento y usarlo para impulsar mejoras en nuestros servicios”.
Está claro que este evento tendrá repercusiones en la reputación de Amazon y en la forma de planear el uso de servidores de sus clientes. Al menos sirve para aprender un poco más sobre la nube y sus problemas…
Link: Summary of the Amazon EC2 and Amazon RDS service disruption (Amazon vía All Things D)
Se activa el reconocimiento de voz en el buscad...
Creador del formato GIF gana un Webby a la tray...
Xbox One es la verdadera "Smart TV"
Todo lo que debes saber sobre Xbox One #XboxReveal
Ciudades del futuro imaginadas en el pasado: El...
Yahoo anuncia el nuevo Flickr
Yahoo confirma la compra de Tumblr por USD$1.10...
Julian Assange asegura que Wikileaks no ha prov...
24 Comentarios
Amazon se disculpa por caída de su nube y atribuye la culpa a error humano
mmmmmm..... la respuesta de amazon no me satisface. Aprenderan muchisimo de aquel error pero creo que esto esgravisimo, es decir, una caida del servicio "es superable" pero cuando hay perdida de datos y mas encima no lo pueden recuperar.... uffff creo que les hace falta un buen DRP....
ResponderDe acuerdo, pero de seguro el DRP a este nivel es algo medio "tricky".
Error humano aqui significa que un ingeniero de sistemas dejo la "mansa caga". En el mercado actual el puesto de ingeniero de sistemas esta completamente subvalorado en lo que se refiere a rentas. No lo digo tanto por la complejidad del trabajo que hace, sino porque todos los dias un ingeniero de sistemas esta sentado en un barril de polvora que tarde o temprano va a explotar. El mercado no valora bien este aspecto.
ResponderMuy bien dicho!!!!
Me sumo a tus dichos.....
Muy bien dicho, pero tambien hay que tener encuenta que los valores de los ingenieros de sistemas esta regulado por los desgraciados del Outsourcing, que del millon te sacan 400 para pagarle a una mina que mueve el poto para vender profesionales que con cuea tiene 4medio.
men eso pasa en todos los trabajos
El drama del ingeniero... siempre tenemos que resolver cagás de otros.
Amen hermano.
Lo malo que eso es solo aca en Chile en otros paises el sueldo es bueno, o casi similar al del ingeniero de software xD
Sí, o contratan ingenieros con muchas capacidades y les pagan poco, o contratan Webmasters chantas y les pagan más (bancos por ejemplo).
Me suena a cuando cuentan la historia del hundimiento del Titanic
ResponderHa llegado carta! y es azul...
ResponderNo me gusta... aunque soy ingeniero... que hablen de error humano...asi livianamente...
Responderrecuerden que el que se mando el condoro era humano.... y los que la arreglaron eran humanos tambien...de hecho las maquinas y la nuve tambien la hicieron humanos....
A lo que voy...es bueno automatizar, pero eso nunca remplazara la buena mano de obra calificada...Automatizar es para lograr buenos resultados con ingenieros juanetes......
Si quieres bunas soluciones... consigue mejores ingenieros...i pagales como tal
Por otro lado, puede que esté el mejor ingeniero del mundo pero este no será perfecto, siempre hay errores, ahora amazón debió tener un plan alternativo para suplir un presunto error, lo que más sería un error de logística, y claro, si el ingeniero contratado no era muy eficiente, no es problema de el, si no de quien lo contrató.
A lo que se refiere con error humano es a que no se siguió el protocolo y un humano tiro la pelota justo donde no debía, ahora si fue tan así no se, pero por lo menos eso es lo que esta escrito.
nuBe perro... nuBe...
Honestamente, ni tu ortografía ni redacción son la de un ingeniero...
les digo que esta chingadera de la nube no sirve todavia
ResponderSi lo que paso con el cambio de configuración es real y un "alguien" hizo algo que no estaba protocolizado, merece la guillotina (lamentablemente), si eso me pasa en mi pega en la tarde me tienen el sobre arriba del escritorio.
ResponderCreo que es hora de conectar a Skynet
ResponderA nadie le llama la atencion lo "organico" de como los programas reaccionaron? es ligeramente inquietante leer el relato
ResponderError de capa 8
Responderuta la quería decir xDDDD
jajajajajajaja....capa 8....... ta buena esa......
ResponderDeja tu Comentario