Sesgo de automatización en el razonamiento diagnóstico asistido por LLMs: evidencia experimental para usar mejor estas herramientas

Los modelos de lenguaje grande mejoran el razonamiento diagnóstico cuando funcionan bien, pero un ensayo clínico aleatorizado publicado en NEJM AI demuestra que sus errores pueden reducir la precisión diagnóstica en hasta 14 puntos porcentuales, incluso en médicos entrenados formalmente en alfabetización en IA y bajo condiciones de uso completamente voluntario.

INTELIGENCIA ARTIFICIALIA EN LA CLÍNICARIESGOS DEL USO DE IA MÉDICA

Alfredo Manzano

5/27/20264 min read

Los modelos de lenguaje grande han llegado a la práctica clínica antes de que tengamos claridad sobre cómo usarlos bien. Eso no es un argumento contra su uso, es un argumento para entender mejor lo que ocurre cuando los usamos. Un ensayo clínico aleatorizado publicado este mes en NEJM AI por Qazi et al. aporta exactamente ese tipo de evidencia: no un alegato contra la IA clínica, sino datos concretos sobre un mecanismo específico de fallo que, una vez entendido, se puede mitigar.

El estudio reclutó 44 médicos y, antes de cualquier asignación, todos completaron un programa de 20 horas en alfabetización en IA que cubría capacidades de LLMs, ingeniería de prompts y estrategias de evaluación crítica de outputs. Solo después de ese entrenamiento fueron asignados aleatoriamente 1:1 a dos grupos. Ambos grupos recibieron seis viñetas clínicas para diagnosticar en 75 minutos, con acceso a recursos convencionales como PubMed y búsqueda web, y con la posibilidad de consultar voluntariamente las recomendaciones de ChatGPT-4o mediante un clic explícito. Hasta aquí, la experiencia era idéntica para todos. La única diferencia estaba en el contenido de lo que el LLM respondía: el grupo control recibió recomendaciones correctas en los seis casos, mientras que el grupo de tratamiento recibió recomendaciones con errores deliberados en tres de los seis, diseñados para ser detectables por un médico competente pero no inmediatamente obvios. Ningún participante sabía en qué condición estaba ni que algunos outputs podían contener errores, lo que permitió medir sesgo de automatización genuino e inconsciente.

Los resultados cuantifican el problema con precisión. El grupo control alcanzó una precisión de razonamiento diagnóstico del 84.9% (DE ±19.7%). El grupo de tratamiento obtuvo 73.3% (DE ±30.5%), diferencia ajustada de −14.0 puntos porcentuales (IC 95%: −18.9 a −9.1; P<0.0001). En el diagnóstico de primera elección la brecha fue aún mayor: 90.5% versus 76.1%, diferencia ajustada de −18.3 puntos porcentuales (IC 95%: −26.6 a −10.0). Ambos grupos consultaron el LLM con frecuencia casi idéntica, alrededor del 68% de los casos, de modo que la diferencia no refleja cuánto usaron la herramienta sino qué tan bien filtraron sus errores cuando los hubo.

El hallazgo más valioso para la práctica está en los subgrupos. Los médicos con más de 10 años de experiencia mostraron una caída de 16.6 puntos porcentuales cuando el LLM se equivocaba (IC 95%: −23.1 a −10.1), frente a 9.1 puntos en los menos experimentados (IC 95%: −18.1 a −0.1). Este resultado, contraintuitivo a primera vista, tiene una explicación cognitiva coherente. Con la experiencia, el razonamiento diagnóstico se vuelve más eficiente porque se encapsula en esquemas mentales y heurísticas bien calibradas. Ese mismo proceso lo hace más susceptible al anclaje cuando una fuente autoritativa, fluida y estructuralmente coherente como un LLM apunta en la dirección equivocada. Los autores identifican tres mecanismos: procesamiento heurístico inducido por fluidez, por el que los outputs narrativos del LLM encajan demasiado bien con los modelos mentales del experto y eluden el escrutinio analítico; presencia social y sycophancy recíproca, por la que la IA conversacional activa confianza no justificada al proyectar autoridad y seguridad; y sesgo de autoridad por coherencia narrativa, por el que una justificación bien construida lleva al médico experto a validar una conclusión incorrecta porque la cadena argumentativa parece sólida.

Entender estos mecanismos es útil precisamente porque son intervenibles. No señalan una incompatibilidad entre los médicos y los LLMs, sino patrones específicos de fallo cognitivo que se pueden anticipar. El experto que sabe que su experiencia lo hace más susceptible al anclaje por una fuente fluida tiene algo concreto sobre lo que actuar: instancias de verificación deliberada, protocolos de segunda revisión, o simplemente el hábito de explicitar por qué el LLM podría estar equivocado antes de aceptar su sugerencia.

El estudio también informa la discusión institucional. El entrenamiento de 20 horas en alfabetización en IA no fue suficiente para proteger a los participantes del sesgo, lo que sugiere que la educación, siendo necesaria, no puede ser el único mecanismo de seguridad. Los sistemas de salud que están adoptando LLMs necesitan complementarla con protocolos estructurados, supervisión institucional y marcos de validación. Eso no es un obstáculo al progreso, es la condición para que el progreso sea sostenible.

Los LLMs mejoran el razonamiento diagnóstico cuando funcionan bien, y este mismo grupo de investigadores cita evidencia de mejoras de hasta 18 puntos porcentuales en precisión cuando los outputs son correctos. El objetivo no es usar menos estas herramientas, sino usarlas con una comprensión más precisa de dónde fallan y por qué. Este ensayo es una contribución directa a ese objetivo.

Referencia:

Qazi, I. A., Ali, A., Khawaja, A. U., Akhtar, M. J., Sheikh, A. Z., & Alizai, M. H. (2026). Automation bias in large language model–assisted diagnostic reasoning among physicians trained in AI literacy — A randomized clinical trial. NEJM AI, 3(5). https://doi.org/10.1056/AIoa2501001