Cuando la IA deja de responder y empieza a actuar: el salto hacia agentes médicos autónomos

Un estudio en Nature presenta MIRA, un agente de inteligencia artificial capaz de interactuar con una historia clínica electrónica simulada, solicitar pruebas, interpretar resultados y proponer tratamientos. Sus resultados sugieren que los agentes médicos integrados al flujo clínico podrían representar una nueva etapa en la IA aplicada a la medicina, aunque todavía lejos de la autonomía real sin supervisión.

INTELIGENCIA ARTIFICIALSALUD DIGITALAGENTES MÉDICOSSISTEMAS DE APOYO A LA DECISIÓN DIAGNÓSTICAIA EN LA CLÍNICA

Alfredo Manzano

6/22/20266 min read

Durante los últimos años hemos visto cómo los grandes modelos de lenguaje pasaron de ser curiosidades tecnológicas a convertirse en herramientas capaces de aprobar exámenes médicos, resumir historias clínicas y responder preguntas complejas. Pero, en medicina, responder bien no es lo mismo que cuidar bien. La práctica clínica no consiste solo en producir texto. Consiste en preguntar, decidir qué información falta, solicitar estudios, interpretar resultados, ajustar tratamientos, reconocer riesgos y documentar acciones dentro de sistemas hospitalarios reales. Esa diferencia, aparentemente simple, es el punto de partida del estudio de Ferber y colaboradores publicado en Nature, que propone un cambio de escala: pasar de los chatbots médicos a los agentes médicos autónomos.

El artículo presenta MIRA, sigla de Medical Intelligence for Reasoning and Action, un agente de inteligencia artificial diseñado para operar dentro de una historia clínica electrónica simulada. Esta distinción es importante. MIRA no se limita a conversar ni a ofrecer recomendaciones en lenguaje natural. El sistema puede navegar un entorno clínico estructurado, comunicarse con un “paciente” simulado, solicitar laboratorios, microbiología e imágenes, interpretar los resultados, formular diagnósticos diferenciales y proponer intervenciones, medicación o ingreso hospitalario. En otras palabras, intenta reproducir una parte esencial del trabajo médico: transformar incertidumbre clínica en acciones concretas dentro de un flujo asistencial.

La pregunta central del estudio es ambiciosa: ¿puede un agente de IA integrado a una historia clínica electrónica manejar casos clínicos completos con un desempeño comparable al de médicos? Para responderla, los autores construyeron un entorno de urgencias basado en casos reales del conjunto MIMIC-IV, una base de datos ampliamente utilizada en investigación clínica computacional. El sistema fue evaluado en más de 500 casos retrospectivos que incluían ocho diagnósticos frecuentes o clínicamente relevantes: apendicitis, colecistitis, diverticulitis, embolia pulmonar, cáncer pancreático, pancreatitis, neumonía e infección urinaria.

Uno de los aspectos más interesantes del trabajo es que los autores no evaluaron a MIRA con viñetas clínicas estáticas. En lugar de presentar un resumen ya procesado, simularon un flujo clínico más dinámico. El agente debía obtener información mediante conversación con un paciente simulado, explorar la historia clínica, pedir estudios, revisar hallazgos y tomar decisiones progresivas. Además, las acciones se organizaron usando estándares clínicos como FHIR y sistemas de codificación médica como ICD, LOINC, ATC, RxNorm y SNOMED-CT. Esto no es un detalle técnico menor. En medicina digital, la diferencia entre una recomendación útil y una intervención integrable depende de que el sistema pueda comunicarse con las infraestructuras reales de salud.

Los resultados son llamativos. En la evaluación contra los diagnósticos de alta hospitalaria registrados en MIMIC-IV, MIRA alcanzó una exactitud diagnóstica promedio cercana al 89%. En la comparación directa con médicos, su desempeño también fue superior en promedio: aproximadamente 88% de exactitud frente a 78% en un grupo de médicos especialistas certificados y 71% en una cohorte mixta de residentes y especialistas. El rendimiento fue particularmente alto en apendicitis y pancreatitis, mientras que neumonía e infección urinaria fueron escenarios más difíciles. Esta última observación me parece clínicamente verosímil: ambos diagnósticos suelen depender de matices contextuales, comorbilidades, colonización, documentación incompleta y criterios que no siempre están claramente representados en una base retrospectiva.

También resulta relevante que MIRA no pareció resolver los casos mediante un atajo puramente textual. Los autores analizaron las “trazas” de acción del agente y observaron un flujo razonablemente parecido al razonamiento clínico habitual: historia, exploración física, laboratorio, imagen, medicación, procedimientos y decisión de ingreso. En apendicitis, por ejemplo, el sistema avanzaba desde la entrevista y el examen físico hacia estudios complementarios, imagen, antibióticos, cirugía y admisión. Este punto es crucial porque la seguridad de un agente médico no depende solo del resultado final, sino del camino que toma para llegar a él.

El estudio también explora la selección de pruebas. MIRA solicitó exploración física con más frecuencia que los médicos y pidió una proporción mayor de parámetros analíticos. Sin embargo, los autores señalan que esto no se tradujo en una estrategia de “pedir todo”: la cobertura de laboratorio seguía por debajo de lo documentado en la atención real de MIMIC-IV, y no hubo un aumento sistemático de estudios de imagen frente a los médicos. Este matiz es importante porque uno de los riesgos previsibles de los agentes clínicos es la sobreutilización diagnóstica. Un agente que maximiza certeza sin considerar recursos podría empeorar la eficiencia del sistema. Aquí, al menos en simulación, MIRA mostró una alineación razonable con patrones clínicos, aunque su mayor apetito por laboratorio merece vigilancia.

En el plano terapéutico, los autores evaluaron la capacidad del agente para recomendar procedimientos y tratamientos. MIRA identificó correctamente intervenciones quirúrgicas relevantes en patologías como apendicitis y colecistitis, con alta concordancia para apendicectomía y colecistectomía laparoscópica. También mostró mayor adherencia agregada a guías clínicas que las cohortes médicas en varias categorías, como fluidoterapia en pancreatitis, analgesia y algunos esquemas antibióticos. Pero el estudio evita una lectura triunfalista: la adherencia no fue perfecta y persistieron desviaciones en algunos pacientes. En medicina, un promedio alto no basta si los errores se concentran en decisiones críticas.

La seguridad farmacológica recibió una atención particular. En una muestra de 56 casos y 468 prescripciones, las instrucciones de dosis fueron consideradas clínicamente útiles y correctas en casi todos los casos, aunque la vía de administración fue el campo con menor exactitud relativa. No se observaron interacciones graves, incompatibilidades por función renal, conflictos por alergias, prescripción riesgosa por QT ni uso inseguro de opioides en la muestra evaluada. Hubo tres casos de duplicación terapéutica, juzgados como clínicamente razonables aunque con necesidad de redacción más explícita. Esta parte del estudio es alentadora, pero también nos recuerda que la seguridad clínica no es solo “no cometer errores evidentes”; es comunicar con precisión suficiente para que una orden pueda ejecutarse sin ambigüedad.

Otro componente valioso es la evaluación de decisiones de ingreso en neumonía y embolia pulmonar. MIRA no recibió explícitamente los puntajes CURB-65 o sPESI, pero a partir de los datos clínicos disponibles logró una sensibilidad del 100% para identificar pacientes que requerían ingreso. El costo fue cierta tendencia a sobreingresar, especialmente en embolia pulmonar. Desde una perspectiva de seguridad, este sesgo conservador puede ser aceptable en simulación, pero en la vida real podría tener consecuencias relevantes: saturación hospitalaria, costos, riesgos iatrogénicos y pérdida de confianza si las recomendaciones son sistemáticamente demasiado cautelosas.

Las limitaciones del trabajo son importantes. La evaluación se realizó en un entorno retrospectivo y simulado, no en atención clínica prospectiva. El paciente era otro agente de IA, aunque estrictamente restringido a la historia documentada. Los casos provenían de una base de datos concreta y de un conjunto limitado de diagnósticos. La comparación con médicos se hizo bajo condiciones experimentales que no equivalen por completo a una guardia real, con sus interrupciones, incertidumbre, presión asistencial y responsabilidad legal. Además, el “ground truth” retrospectivo tiene imperfecciones: el diagnóstico de alta no siempre captura la complejidad del razonamiento inicial, y parte de la información disponible para un médico real puede no estar documentada.

Aun así, este estudio marca una transición conceptual. La IA médica ya no se evalúa solo como un motor de respuestas, sino como un sistema capaz de actuar dentro de un espacio clínico regulado. Esa es la promesa y también el riesgo. Un chatbot equivocado puede inducir una mala decisión; un agente mal gobernado podría ejecutar una orden incorrecta. Por eso, la palabra clave no es autonomía, sino gobernanza. La pregunta futura no será simplemente si estos agentes pueden igualar a médicos en simulaciones, sino bajo qué condiciones pueden aportar valor sin diluir responsabilidad, aumentar inequidades o introducir nuevos modos de error.

Mi lectura es que MIRA no anuncia el reemplazo del médico, sino el comienzo de una nueva categoría de herramienta clínica: sistemas capaces de convertir intención médica en acciones estructuradas, auditables y potencialmente supervisables. Su lugar más plausible no es actuar solo, sino funcionar como copiloto dentro de barreras claras: revisar medicación, sugerir diagnósticos diferenciales, detectar omisiones, proponer planes iniciales, priorizar riesgos y documentar decisiones. Para llegar ahí harán falta ensayos prospectivos, integración real con historias clínicas, evaluación en múltiples hospitales, auditoría continua, trazabilidad completa y mecanismos robustos de supervisión humana.

La medicina no necesita agentes infalibles; necesita herramientas que mejoren decisiones reales sin ocultar incertidumbre. Este estudio es importante porque nos muestra cómo podría verse esa próxima generación de IA clínica. Pero también nos obliga a formular la pregunta correcta: no solo si la IA puede actuar como un médico, sino cómo debemos rediseñar los sistemas clínicos para que, cuando actúe, lo haga de manera segura, transparente y al servicio del paciente.

Referencia:

Ferber D, Hilgers L, Höper C, et al. Towards autonomous medical artificial intelligence agents. Nature. 2026. doi:10.1038/s41586-026-10675-5.