La escena ya es cotidiana: alguien se siente mal, abre un chatbot de inteligencia artificial y empieza a describir sus síntomas esperando una respuesta casi mágica. Pero un estudio reciente de la Universidad de Oxford acaba de pinchar ese globo de expectativas.
Te puede interesar: [¿Qué sensaciones está dejando la puesta en marcha de la primera red social solo para inteligencias artificiales?]
Los modelos de lenguaje actuales no solo no mejoran las decisiones de los pacientes, sino que pueden generar información engañosa, especialmente cuando se les usa como sustitutos del criterio médico.
Qué analizó realmente el estudio
El trabajo, publicado en Nature Medicine y liderado por el Oxford Internet Institute y el Departamento Nuffield de Ciencias de la Salud de Atención Primaria, se centró en los famosos LLM (modelos de lenguaje de gran tamaño).
Estos modelos, entrenados con cantidades gigantescas de texto, prometen entender el lenguaje natural y responder de forma “inteligente”.
La gran pregunta de los investigadores fue directa:¿Ayuda de verdad la IA a que las personas tomen mejores decisiones sobre su salud?
La respuesta, según los resultados, es un claro “todavía no”.
Cómo se hizo la prueba: IA vs. métodos de siempre
El estudio se llevó a cabo con casi 1.300 participantes en un ensayo aleatorio controlado. A cada persona se le presentaron escenarios clínicos diseñados por médicos, por ejemplo:
- Un joven con un dolor de cabeza intenso después de una noche de fiesta.
- Una madre primeriza que se siente exhausta y sin aliento de forma constante.
El grupo se dividió en dos:
- Unos usaron un modelo de IA para decidir qué hacer.
- Otros recurrieron a métodos tradicionales: buscar en internet, usar su propio juicio, etc.
La misión era identificar posibles problemas de salud (como resfriado común, anemia o cálculos biliares) y decidir si era mejor:
- Quedarse en casa y observar
- Ir al médico de cabecera
- Acudir directamente al hospital
El resultado clave: quienes usaron IA no tomaron decisiones mejores que quienes no la usaron.

Dónde se atasca la IA cuando se mete en temas médicos
Al revisar manualmente las conversaciones entre humanos y modelos de lenguaje, el equipo detectó problemas en ambos lados:
- Los usuarios a menudo daban poca información o datos incompletos.
- Los modelos respondían con información mezclada, combinando consejos útiles con recomendaciones erróneas o engañosas.
Es decir, la teoría de “la IA lo sabe todo” se cae cuando entra la realidad del uso cotidiano: preguntas mal planteadas, respuestas demasiado seguras pero incorrectas y cero capacidad de ver al paciente en persona.
Por eso, los autores concluyen que los LLM actuales no están listos para la atención directa al paciente. Como resume Andrew Bean, autor principal del estudio: “La interacción con humanos sigue siendo un reto incluso para los mejores modelos”.
Igual que un medicamento: antes de usar en personas, hay que probarlo bien
Los investigadores comparan la situación con la de los fármacos: no se lanza un medicamento al mercado sin ensayos clínicos rigurosos, y lo mismo debería aplicarse a sistemas de IA que intervienen en decisiones de salud.
Rebecca Payne, médica de cabecera y líder del estudio, lo deja claro:
- La IA no está lista para asumir el papel del médico.
- Consultar a un modelo de lenguaje por síntomas puede ser peligroso, porque puede:
- Minimizar problemas graves.
- Dar diagnósticos erróneos.
- No detectar situaciones que requieren ayuda urgente.
Te puede interesar: [Este popular influencer le vendió su cara a la inteligencia artificial: ¿Qué significa esto?]
El mensaje final es directo:la IA puede ser útil como herramienta complementaria, pero no como sustituto del profesional de salud. Y menos aún como única fuente de diagnóstico cuando está en juego algo tan delicado como el cuerpo humano.
