¿Imaginas que una inteligencia artificial comparta datos sensibles como si estuviera jugando? Pues eso fue lo que ocurrió. Un grupo de expertos descubrió cómo hacer que ChatGPT soltara claves de licencia con tan solo un poco de HTML oculto, una dinámica disfrazada de juego… y una frase clave: “me rindo”.
Te puede interesar: [Elon Musk quiere que Grok sea una IA aún más rebelde]
Un juego con reglas peligrosas
El investigador de seguridad Marco Figueroa explicó que la técnica consistía en disfrazar la solicitud como un inocente juego de adivinanzas. En lugar de pedir una clave directamente —algo que los filtros de OpenAI suelen bloquear— utilizaron etiquetas HTML para ocultar el mensaje real.
Luego, con un tono amistoso y reglas inventadas, invitaron al modelo a jugar. Cuando el usuario escribía “me rindo”, GPT-4, obediente como siempre, revelaba el dato oculto: una clave de activación.
¿Y qué tipo de datos reveló?
Una de las claves resultó estar asociada a Wells Fargo Bank, mientras que otra permitía activar Windows de forma gratuita. Si bien esas claves ya circulaban por foros en línea, el verdadero problema no fue lo que reveló, sino cómo lo hizo.
La vulnerabilidad demostró que aún se pueden burlar los filtros de seguridad con estrategias muy simples.
“No son solo las palabras, es el contexto”
Figueroa recalcó que el verdadero talón de Aquiles no está en las palabras clave, sino en que los modelos como GPT-4 aún no son capaces de detectar contextos engañosos. Al tratarse de un supuesto “juego”, el modelo siguió las reglas propuestas sin advertir el riesgo, revelando datos sin resistencia.
Y si esto funciona con claves de software, ¿qué pasaría si se aplicara para extraer información personal o enlaces peligrosos?
Te puede interesar: [8 formas de aprovechar la IA para estudiar mejor]
Una advertencia para los desarrolladores
Figueroa hizo un llamado a los equipos de desarrollo de inteligencia artificial: deben adelantarse a estas técnicas y fortalecer los modelos, no solo con filtros, sino con mecanismos que detecten manipulaciones lógicas y trampas discursivas.

