¿Para qué sirve una IA médica especializada si GPT y Gemini responden mejor?

Durante años se asumió que las herramientas de IA diseñadas específicamente para medicina serían superiores a los modelos generales. Un nuevo estudio publicado en Nature Medicine cuestiona esa idea: GPT-5.2, Gemini y Claude superaron consistentemente a plataformas clínicas comerciales en conocimiento médico, alineación con expertos y consultas reales de médicos.

INTELIGENCIA ARTIFICIALSALUD DIGITAL

Alfredo Manzano

6/16/20265 min read

Hace apenas unos años, la conversación sobre inteligencia artificial en medicina parecía tener una dirección clara. Los modelos generales podían ser impresionantes, pero cuando se trataba de la práctica clínica real, muchos asumíamos que las herramientas específicamente diseñadas para médicos terminarían dominando el campo. Después de todo, estas plataformas prometían combinar conocimiento biomédico especializado, literatura científica actualizada y mecanismos de recuperación de información diseñados para responder preguntas clínicas complejas.

Sin embargo, un trabajo publicado en Nature Medicine en 2026 plantea una pregunta incómoda para esa narrativa: ¿y si los modelos generales más avanzados ya son mejores que muchas de las herramientas clínicas especializadas disponibles actualmente?

El estudio, liderado por Krithik Vishwanath y colaboradores, realizó una comparación independiente entre dos plataformas comerciales orientadas a médicos —OpenEvidence y UpToDate Expert AI— y tres modelos de propósito general considerados de frontera tecnológica: GPT-5.2, Gemini 3.1 Pro y Claude Opus 4.6. Lo interesante no es solamente quién ganó, sino cómo se diseñó la evaluación.

Los autores no se limitaron a utilizar un único benchmark académico. Construyeron una evaluación en tres niveles. El primero consistió en 500 preguntas de MedQA, un conjunto de preguntas tipo examen médico estadounidense. El segundo utilizó 500 elementos de HealthBench, un benchmark orientado a medir cuánto se alinean las respuestas de un modelo con las expectativas de expertos clínicos. Finalmente, desarrollaron un tercer conjunto probablemente más interesante: cien consultas reales realizadas por médicos durante la atención clínica cotidiana en NYU Langone Health. Estas consultas fueron evaluadas de forma ciega por doce clínicos estadounidenses que desconocían qué sistema había generado cada respuesta.

La diferencia entre estos tres niveles es importante. Los benchmarks tradicionales evalúan conocimiento o razonamiento estructurado, pero la práctica médica diaria es mucho más desordenada. Las preguntas reales suelen ser ambiguas, incompletas y contextualizadas. Por eso, incluir consultas auténticas aporta una perspectiva mucho más cercana al uso clínico real.

Los resultados fueron llamativos. En MedQA, Gemini alcanzó una precisión del 97,4%, seguido por GPT-5.2 con 94,2%. Tanto OpenEvidence como UpToDate Expert AI quedaron por debajo, alrededor del 89%. Aunque estas cifras siguen siendo altas, la diferencia fue estadísticamente significativa.

La distancia se amplió aún más en HealthBench. GPT-5.2 obtuvo una puntuación de 88 sobre 100, mientras que OpenEvidence y UpToDate se situaron cerca de 62 puntos. En otras palabras, los modelos generales mostraron una mayor capacidad para producir respuestas alineadas con los criterios utilizados por médicos expertos para evaluar calidad clínica, completitud y comunicación.

Pero el resultado más relevante surgió en las consultas clínicas reales. Los tres modelos generales formaron un grupo de rendimiento superior, con puntuaciones promedio entre 3,5 y 3,6 sobre 4. Las herramientas clínicas especializadas quedaron agrupadas en un segundo nivel, junto con Google AI Overview, una función integrada en el buscador de Google que ni siquiera fue diseñada específicamente para médicos.

Ese hallazgo merece una reflexión cuidadosa. Durante años, muchas empresas han justificado el valor de sus productos clínicos argumentando que la especialización aporta ventajas decisivas frente a los modelos generales. Sin embargo, en este estudio, los sistemas especializados no lograron demostrar una superioridad medible. De hecho, Google AI Overview obtuvo resultados comparables a OpenEvidence y UpToDate AI en las consultas clínicas evaluadas.

¿Por qué podría estar ocurriendo esto?

Los autores plantean una hipótesis interesante. Muchas herramientas clínicas actuales probablemente utilizan técnicas de retrieval-augmented generation o RAG. Este enfoque permite recuperar documentos externos y utilizarlos durante la generación de respuestas. En teoría, esto debería mejorar la precisión. Sin embargo, investigaciones recientes sugieren que la recuperación de información puede introducir ruido cuando el contenido recuperado es irrelevante o cuando el modelo no integra adecuadamente la evidencia obtenida.

Mientras tanto, los modelos generales continúan beneficiándose de escalas de entrenamiento gigantescas, ciclos de actualización extremadamente rápidos y procesos sofisticados de alineación con usuarios humanos. Es posible que estas ventajas compensen —e incluso superen— los beneficios de la especialización actual.

No obstante, sería un error interpretar este trabajo como una sentencia definitiva contra la IA clínica especializada. Los propios autores son cuidadosos al respecto. Señalan que los resultados representan una fotografía de un ecosistema tecnológico que cambia a enorme velocidad. Además, existen áreas altamente especializadas —como determinadas subespecialidades médicas o tareas operativas hospitalarias concretas— donde la adaptación específica podría seguir ofreciendo ventajas relevantes.

También hay limitaciones metodológicas importantes. Las herramientas clínicas evaluadas no disponían de APIs públicas, por lo que los investigadores tuvieron que interactuar con ellas mediante interfaces web. Esto dificulta controlar variables como los prompts ocultos, la recuperación de información o el formato de salida. Además, algunos benchmarks utilizados podrían haber sido vistos durante el entrenamiento de ciertos modelos, un problema conocido como contaminación de datos.

Otra cuestión relevante es que HealthBench fue desarrollado por OpenAI. Aunque los investigadores utilizaron múltiples jueces automáticos para reducir sesgos, siempre existe la posibilidad de que un benchmark favorezca indirectamente a los modelos de la organización que lo creó. Precisamente por eso los autores consideran que la evaluación basada en consultas clínicas reales y revisión ciega por médicos constituye la evidencia más sólida del estudio.

Quizás la lección más importante no sea que GPT o Gemini sean mejores que OpenEvidence o UpToDate AI. La verdadera enseñanza es que necesitamos evaluaciones independientes y transparentes antes de incorporar herramientas de IA a la práctica clínica. En medicina hemos aprendido durante décadas que las afirmaciones comerciales no sustituyen la evidencia. Resulta llamativo que, en un momento donde las herramientas generativas están entrando rápidamente en hospitales, consultas y sistemas de salud, todavía existan tan pocos estudios comparativos realizados por grupos independientes.

Desde mi perspectiva, este trabajo refleja una transformación más profunda. Durante mucho tiempo asumimos que la competencia principal en IA médica ocurriría entre modelos clínicos especializados. Lo que estamos viendo ahora es algo diferente: modelos generales extremadamente potentes que comienzan a competir seriamente en dominios altamente especializados. Si esta tendencia continúa, el factor diferencial quizá ya no sea únicamente el conocimiento médico incorporado en un modelo, sino la calidad de su alineación, su capacidad de razonamiento y la forma en que se integra dentro de los flujos de trabajo clínicos.

La pregunta para los próximos años no será simplemente qué modelo sabe más medicina. Será qué modelo puede demostrar, con evidencia independiente y en entornos reales, que ayuda a los profesionales sanitarios a tomar mejores decisiones sin aumentar riesgos para los pacientes. Este estudio representa un paso importante hacia esa conversación.

Referencia:

Vishwanath K, Alyakin A, Ghosh M, et al. General-purpose large language models outperform specialized clinical AI tools on medical benchmarks. Nature Medicine. 2026. doi:10.1038/s41591-026-04431-5.