Internet

Caída de ChatGPT, Zoom, Fortnite, Roblox y otros: ¿Amazon reparó el problema? ¿Qué ocurrió con AWS?

Tras el incidente global que afectó su infraestructura cloud en Virginia del Norte (US-EAST-1), Amazon Web Services (AWS) confirmó que identificó la causa raíz.

Amazon Web Services

Amazon Web Services (AWS), la rama de computación en la nube de Amazon y principal proveedor de infraestructura cloud a nivel mundial, ha anunciado la solución al fallo global que interrumpió el funcionamiento de miles de servicios de internet este lunes.

Lee también: Caída global de Amazon Web Services (AWS) colapsa banca, juegos (Fortnite, Roblox) y servicios de IA (ChatGPT)

La compañía confirmó que, tras el incidente originado en su centro de datos de Virginia del Norte (región US-EAST-1), se logró identificar la posible causa raíz del problema, que estaba relacionado con fallos en la resolución de DNS y en el sistema de monitoreo de carga de red de EC2.

aws amazon web services

La restauración del servicio

A lo largo del día, AWS implementó medidas de mitigación escalonadas que permitieron a la compañía ver “signos significativos de recuperación”.


  1. Prioridad en Servicios Críticos: Amazon priorizó la restauración de servicios esenciales para grandes clientes empresariales, como DynamoDB (base de datos), EC2 (computación bajo demanda) y Lambda.
  2. Estado Actual: Según los últimos reportes, la mayoría de las peticiones a los servicios de AWS ya deberían estar tramitándose “correctamente”.
  3. Intermitencias Residuales: A pesar de la solución del fallo principal, la compañía advirtió que aún se pueden detectar algunas fallas e intermitencias debido a la acumulación de millones de solicitudes pendientes (backlog) que los sistemas deben procesar para recuperar la normalidad completa.

La caída de AWS afectó a una vasta red de plataformas y servicios, incluyendo redes sociales (Snapchat), videojuegos (Fortnite, Roblox), servicios de IA (ChatGPT), y sistemas de banca digital y aerolíneas, poniendo de manifiesto la alta dependencia global en su infraestructura de nube.

Agencia
ARCHIVO - El centro de procesamiento de datos de Amazon Web Services, en imagen del jueves 22 de agosto de 2024, en Boardman, Oregon. (AP Foto/Jenny Kane, archivo) AP (Jenny Kane/AP)

Análisis de arquitectura crítica

El incidente en la región US-EAST-1 de AWS no solo representó una interrupción operativa, sino que también expuso la extrema fragilidad de la dependencia digital global de una única infraestructura cloud. Con una cuota de mercado cercana al 30%, AWS sostiene servicios críticos que van desde aplicaciones de entretenimiento masivo hasta pilares de la economía como la banca digital.

La caída evidenció que un fallo localizado, relacionado con la resolución de DNS y el balanceador de carga de red, tiene el poder de generar una parálisis en cascada que impacta directamente en transacciones financieras, comunicaciones empresariales (Zoom) y procesos de logística aérea. La rápida propagación de la falla subraya el riesgo sistémico inherente a la concentración de cargas de trabajo en un puñado de proveedores hiperescalares.

Una falla global en servidores dejó sin servicio a miles de apps y afectó a usuarios en México.
Una falla global en servidores dejó sin servicio a miles de apps y afectó a usuarios en México. Foto: Especial (Dall-E y Gemini)

¿En qué influye el backlog?

La respuesta de Amazon, aunque logró mitigar el problema y restaurar servicios críticos como DynamoDB y EC2, dejó un desafío inmediato: la gestión de la latencia y la acumulación de la cola de solicitudes pendientes (backlog). Aunque el fallo original fue solucionado, la vuelta a la normalidad es un proceso gradual. Las intermitencias residuales se explican porque el sistema debe procesar los millones de peticiones que se acumularon durante la interrupción.

Este período de recuperación lenta obliga a las empresas clientes a revisar sus arquitecturas de ciberresiliencia, debatiendo la necesidad de adoptar estrategias de cloud híbrida o multirregión que garanticen la continuidad operativa incluso si una de las principales regiones de un proveedor masivo como AWS experimenta una disrupción total.

       

Tags

     
.

Lo Último