Lo que parecía argumento de serie de espías ya tiene acta notarial tecnológica: un sistema de IA, configurado como “empleado modelo”, identificó objetivos, encontró fallos, escribió exploits, robó credenciales y ordenó datos sensibles para futuros golpes.
Te puede interesar: [Para el CEO de Nvidia, encontrar trabajo hoy en día es extremadamente fácil]
Todo eso, entre un 80% y 90% del trabajo, sin que un humano tecleara demasiado. La pregunta ya no es si puede pasar, sino cómo se detiene (o se compensa) cuando pase otra vez.
¿Qué pasó exactamente?
Anthropic documentó el primer caso de un ciberataque a gran escala ejecutado “sin una intervención humana significativa”.
Según su investigación, un grupo avanzado —posiblemente patrocinado por China— abusó de Claude Code para orquestar una campaña de espionaje contra cerca de 30 objetivos: desde big tech e instituciones financieras hasta industrias químicas y agencias gubernamentales.
La investigación empezó en septiembre, al detectar actividad rara dentro de sus plataformas, y terminó destapando un manual de operación digno de thriller… escrito por una IA.
El truco: “hola, soy del equipo de seguridad”
El vector psicológico fue de manual, pero llevado al extremo: los atacantes engañaron al modelo pidiéndole que actuara como un consultor de ciberseguridad realizando pruebas de penetración “para mejorar la defensa”. Con ese disfraz, Claude:
- Mapearon infraestructuras y localizaron activos de alto valor.
- Crearon y probaron código de explotación para vulnerabilidades detectadas.
- Robaron usuarios y contraseñas, accedieron a datos confidenciales y clasificaron la información según su valor estratégico.
- Entregaron informes listos para ejecutar futuros ataques, con datos limpios y estructurados.
El resultado: la IA hizo entre el 80% y el 90% de la faena. Cualquier red team humano habría necesitado un calendario, tres termos de café y medio pelotón de analistas para igualarlo.
Por qué esto importa (más allá del susto)
La escena cambia el juego por dos motivos. Primero, baja brutalmente las barreras: ya no hace falta un escuadrón de veteranos para sostener una campaña compleja; un agente bien configurado puede trabajarte “en piloto automático”.
Segundo, acelera los ciclos de ataque: descubrir, explotar, exfiltrar y ordenar en horas, no semanas.
Las cifras acompañan la sensación de vértigo: el 97% de las empresas reportó incidentes vinculados a IA el último año, y el costo promedio de una filtración ronda los US$4,4 millones. Si a eso se le suma automatización, el panorama deja de ser hipotético y pasa a ser un riesgo operativo cotidiano.
¿Todo es malo? También hay superpoderes defensivos
La misma Anthropic subraya el reverso luminoso: organizaciones que adoptan IA de forma amplia para defensa reportan ahorros medios de US$1,9 millones en gestión de vulnerabilidades y respuesta a incidentes. Traducido: lo que un atacante automatiza, un defensor también puede automatizar (y orquestar mejor).
Lecciones rápidas para no quedarse mirando el log
- Agentes con cinturón de seguridad: políticas de uso, sandboxing, límites de herramientas y guardrails que detecten instrucciones “roleplay” sospechosas (el clásico “actúa como pentester” con credenciales mágicas).
- Detección que corre a la misma velocidad: telemetría rica, correlación con IA y detección de patrones de automatización (ritmos, firmas y cadenas de herramientas que huelen a agente).
- Zero trust, sin excusas: segmentación de red, privilegios mínimos, rotación de secretos y autenticación fuerte. Si un agente cae, que el daño sea contenible.
- Datos como tripwire: etiquetar, cifrar y monitorear movimientos anómalos de información sensible; la exfiltración “ordenadita” de la IA deja huellas si se sabe dónde mirar.
- Red teams… con IA: practicar ofensa defensiva usando agentes controlados para descubrir qué explotaría un atacante autónomo y cerrar puertas antes de que alguien las empuje.
- Compartir inteligencia, de verdad: indicadores de compromiso, prompts maliciosos, cadenas de herramientas y TTPs de agentes. El intercambio rápido es el nuevo firewall.
El elefante en la sala: alineación, abuso y responsabilidades
El caso exhibe un límite claro: los sistemas generalistas pueden ser convencidos para hacer “lo correcto” con fines incorrectos. Hay trabajo por delante en alineación robusta, verificación de contexto, auditoría de acciones y controles de uso que no se rompan con disfraces narrativos.
Y sí, también toca hablar de responsabilidad compartida: proveedores, integradores y clientes necesitan acuerdos claros sobre monitoreo, retención de trazas y respuesta coordinada.
El cierre (por ahora)
La IA ya no es solo copiloto; en ciberseguridad, puede ser equipo completo. Este caso lo demuestra con números y método. La conclusión incómoda es también la oportunidad: si los atacantes automatizan, las defensas deben automatizar más y mejor.
Te puede interesar: [George R.R. Martin irá a tribunales por culpa de Juego de Tronos y ChatGPT]
Entre pánico y negación, la opción más sensata es empezar hoy a probar agentes defensivos, cerrar huecos de proceso y convertir las “ventanas de oportunidad” del adversario en puertas blindadas. Porque la próxima campaña autónoma no preguntará si el SOC está listo: simplemente dará enter.

