La medicina necesita dos formas de pensar; la IA médica también: el estudio AMIE

La medicina requiere pensar rápido, pero también detenerse a razonar. El nuevo AMIE intenta combinar ambas formas de pensamiento para manejar enfermedades a lo largo del tiempo, acercando la inteligencia artificial a uno de los aspectos más complejos de la práctica clínica.

INTELIGENCIA ARTIFICIALSALUD DIGITALSISTEMAS DE APOYO A LA DECISIÓN DIAGNÓSTICAIA EN LA CLÍNICAAGENTES MÉDICOS

Alfredo Manzano

6/24/20265 min read

Durante años hemos discutido si la inteligencia artificial puede diagnosticar enfermedades como un médico. Sin embargo, esa pregunta siempre me ha parecido incompleta. En la práctica clínica, emitir un diagnóstico rara vez representa el final del trabajo. En realidad, es apenas el comienzo.

Una vez que el diagnóstico está sobre la mesa empiezan las decisiones realmente difíciles. ¿Qué tratamiento es el más adecuado? ¿Es necesario solicitar más estudios? ¿Conviene iniciar medicación o esperar? ¿Cuándo debe regresar el paciente? ¿Qué hacer si no responde al tratamiento? ¿Qué ocurre si aparecen nuevos síntomas en la siguiente consulta?

En otras palabras, la medicina no consiste únicamente en reconocer enfermedades. Consiste en acompañarlas.

Mientras leía el nuevo trabajo de Google DeepMind sobre AMIE (Articulate Medical Intelligence Explorer), publicado en Nature, no podía dejar de pensar en Daniel Kahneman y en una de las ideas más influyentes de la psicología cognitiva moderna.

Kahneman propuso que nuestro cerebro funciona mediante dos sistemas de pensamiento. El Sistema 1 es rápido, intuitivo y automático. Es el que nos permite reconocer instantáneamente un rostro conocido o sospechar un diagnóstico apenas escuchamos las primeras frases de un paciente. El Sistema 2, en cambio, es lento, deliberativo y analítico. Es el que utilizamos cuando revisamos una guía clínica, reconsideramos un diagnóstico difícil o calculamos cuidadosamente el riesgo y beneficio de un tratamiento.

Los médicos utilizamos ambos sistemas constantemente. Durante una consulta alternamos entre ellos sin darnos cuenta. La experiencia clínica nos permite reconocer patrones casi de inmediato, pero cuando un caso se vuelve complejo desaceleramos deliberadamente nuestro pensamiento. Consultamos evidencia, analizamos alternativas y reconsideramos nuestras decisiones antes de actuar.

Lo interesante es que los autores de este trabajo decidieron construir precisamente eso.

En lugar de desarrollar un único modelo de lenguaje que hiciera todo al mismo tiempo, diseñaron AMIE como un sistema compuesto por dos agentes con funciones claramente diferenciadas. Uno conversa con el paciente, mantiene el contexto de la consulta y responde con rapidez y naturalidad. El otro permanece en segundo plano realizando un trabajo mucho más lento y profundo: analiza la evolución clínica del paciente, integra la información acumulada durante varias consultas, revisa cientos de páginas de guías clínicas y construye un plan terapéutico razonado antes de devolverlo al agente conversacional.

La analogía con Kahneman me parece especialmente sugerente porque ayuda a entender la lógica del diseño de AMIE. Los autores no intentan demostrar que una inteligencia artificial "piense" como un cerebro humano. Lo que toman prestado es una estrategia para organizar el razonamiento clínico: separar las tareas que exigen velocidad de aquellas que requieren deliberación.

Esa idea atraviesa todo el artículo y, en mi opinión, explica por qué este trabajo representa un paso diferente respecto a los estudios previos sobre modelos de lenguaje en medicina.

Hasta ahora, gran parte de la investigación se había concentrado en una pregunta relativamente concreta: ¿es capaz un modelo de llegar al diagnóstico correcto? Es una cuestión importante, pero está lejos de reflejar lo que ocurre en una consulta real. Una vez identificado el problema comienza una secuencia de decisiones mucho más compleja. Hay que seleccionar estudios complementarios, decidir si conviene iniciar tratamiento o esperar, ajustar dosis, interpretar la evolución clínica, programar el seguimiento y modificar el plan cuando aparecen nuevos datos. Ese conjunto de decisiones constituye el razonamiento de manejo clínico, una competencia que depende tanto del conocimiento médico como de la capacidad para integrar información cambiante a lo largo del tiempo.

Con ese objetivo, los autores rediseñaron AMIE alrededor de dos agentes complementarios. El primero mantiene la conversación con el paciente. Conserva el contexto entre visitas, obtiene información clínica y responde de manera fluida durante el diálogo. El segundo trabaja en segundo plano y dispone de más tiempo para analizar el caso. A partir del historial acumulado, recupera las guías clínicas más relevantes, establece los objetivos terapéuticos, propone investigaciones y tratamientos, justifica cada decisión y genera un plan de manejo estructurado que posteriormente utiliza el agente conversacional.

Este segundo componente merece especial atención porque es una de las principales innovaciones técnicas del estudio. En lugar de depender únicamente del conocimiento almacenado durante el entrenamiento del modelo, el sistema consulta de forma dinámica un corpus de 627 documentos procedentes de las guías NICE y BMJ Best Practice. Gracias a la capacidad de contexto largo de Gemini, puede incorporar simultáneamente varias guías completas, razonar sobre ellas y citar de manera explícita qué recomendación respalda cada decisión clínica. El resultado se parece menos a una respuesta improvisada por un chatbot y más a un proceso de revisión clínica sustentado en documentación actualizada.

Una arquitectura así exigía una forma distinta de evaluación. Los investigadores organizaron un estudio aleatorizado y ciego utilizando un formato OSCE virtual. Participaron 21 médicos de atención primaria y 21 pacientes simulados que desarrollaron 100 escenarios clínicos repartidos entre cinco especialidades. Cada caso incluía tres consultas sucesivas. Entre una visita y la siguiente aparecían resultados de laboratorio, estudios de imagen, respuestas al tratamiento o nuevos síntomas, obligando a replantear continuamente el manejo del paciente. Además, tanto los médicos como AMIE podían consultar el mismo conjunto de guías clínicas durante el estudio, de modo que la comparación no evaluaba memoria enciclopédica, sino la capacidad para utilizar adecuadamente la evidencia disponible.

La valoración tampoco se limitó a establecer quién llegaba al diagnóstico correcto. Especialistas independientes analizaron la calidad global de los planes de manejo, la pertinencia de las investigaciones solicitadas, la adecuación de los tratamientos, la precisión de las recomendaciones, el seguimiento propuesto y el grado de alineación con las guías clínicas. Los pacientes simulados, por su parte, evaluaron aspectos relacionados con la comunicación y con la calidad del razonamiento clínico percibido durante la consulta.

Los resultados muestran que AMIE alcanzó un rendimiento global no inferior al de los médicos participantes y obtuvo puntuaciones superiores en varios apartados. Las diferencias fueron especialmente claras en la precisión de las recomendaciones terapéuticas y diagnósticas. Mientras los médicos tendían con mayor frecuencia a formular indicaciones generales, AMIE proporcionaba instrucciones más específicas, incluyendo medicamentos concretos, dosis, duración del tratamiento, estudios complementarios y planes detallados de seguimiento. También destacó por la consistencia con las recomendaciones de las guías clínicas y por la capacidad de justificar explícitamente cada decisión mediante referencias a la evidencia consultada.

El trabajo incorpora además un segundo experimento centrado exclusivamente en razonamiento farmacológico. Para ello los autores desarrollaron RxQA, un nuevo benchmark construido a partir de formularios oficiales del Reino Unido y Estados Unidos y validado por farmacéuticos certificados. Tanto los médicos como AMIE respondieron primero sin acceso a información externa y posteriormente con posibilidad de consultar los formularios correspondientes. Ambos mejoraron de forma significativa cuando dispusieron de esa información adicional, aunque AMIE obtuvo una ventaja clara en las preguntas clasificadas como de mayor dificultad.

Ese resultado me parece particularmente interesante porque recuerda una realidad que a veces olvidamos. La competencia clínica nunca ha dependido únicamente de cuánto conocimiento somos capaces de memorizar. También depende de reconocer cuándo es necesario consultar una fuente fiable, interpretar correctamente esa información e incorporarla a la decisión clínica. En ese sentido, el estudio ilustra cómo el acceso estructurado a conocimiento actualizado beneficia tanto a los médicos como a los sistemas de inteligencia artificial.

Fuente:

Liévin V, Palepu A, Weng WH, et al. Towards Conversational AI for Disease Management. Nature. 2026. doi:10.1038/s41586-026-10764-5.

Suscríbete para recibir actualizaciones