Cuando la IA clínica puede ser engañada: la fragilidad oculta de los modelos de lenguaje en medicina

Un estudio revela que los modelos de lenguaje utilizados para consejo médico pueden ser manipulados con facilidad para generar recomendaciones peligrosas. Incluso los sistemas más avanzados fallan ante ataques diseñados para explotar su forma de razonar.

INTELIGENCIA ARTIFICIALIA EN LA CLÍNICARIESGOS DEL USO DE IA MÉDICA

Alfredo Manzano

3/30/20264 min read

Hay algo profundamente seductor en la idea de que un modelo de lenguaje pueda actuar como una extensión del razonamiento clínico. En teoría, estos sistemas prometen democratizar el acceso al conocimiento médico, asistir en la toma de decisiones y mejorar la comunicación con pacientes. Pero un estudio reciente publicado en JAMA Network Open me obliga a detenerme y replantear una pregunta incómoda: ¿qué ocurre cuando estos modelos son manipulados deliberadamente?

El trabajo aborda una vulnerabilidad crítica de los grandes modelos de lenguaje (LLMs): su susceptibilidad a los llamados prompt-injection attacks. En términos simples, se trata de introducir instrucciones maliciosas dentro del texto que el modelo procesa, de forma que alteren su comportamiento sin que el usuario lo perciba. No es un fallo trivial. En el contexto médico, significa que un sistema diseñado para ofrecer recomendaciones seguras podría ser inducido a sugerir tratamientos peligrosos o directamente contraindicados.

Lo que encuentro especialmente relevante de este estudio es que no se limita a una demostración teórica. Los autores diseñaron una simulación controlada con diálogos clínicos estructurados en seis turnos, imitando una interacción real entre paciente y sistema. Evaluaron 12 escenarios clínicos que iban desde situaciones de daño moderado —como recomendaciones inapropiadas de suplementos— hasta escenarios de daño extremo, incluyendo la prescripción de fármacos absolutamente contraindicados en embarazo, como la talidomida.

El diseño metodológico es elegante en su simplicidad. Introducen la manipulación en un punto específico del diálogo —antes de la recomendación terapéutica— y comparan el comportamiento del modelo con y sin ataque. Además, emplean dos estrategias de ataque distintas: una basada en contexto, que adapta la manipulación al caso clínico, y otra basada en la fabricación de evidencia, donde se simulan metaanálisis o guías clínicas falsas para reforzar recomendaciones peligrosas.

Los resultados son, francamente, inquietantes. En 216 evaluaciones, los ataques tuvieron éxito en el 94,4% de los casos en el momento crítico de la recomendación clínica. Esto no es un fallo marginal: es una vulnerabilidad sistemática. Más preocupante aún, en escenarios de daño extremo —como la recomendación de fármacos teratogénicos— la tasa de éxito alcanzó el 91,7%.

Pero hay un matiz que considero clave desde el punto de vista clínico: estas recomendaciones no solo aparecen, sino que persisten. En aproximadamente el 69% de los casos, el modelo mantenía la recomendación errónea en turnos posteriores del diálogo. Esto sugiere que la manipulación no es superficial; altera el “estado interno” de la conversación, afectando la coherencia longitudinal del razonamiento del modelo.

Cuando los autores escalan el experimento a modelos más avanzados —los denominados flagship— mediante un ataque más realista (inyección en el lado del cliente, simulando un entorno comprometido), el problema no desaparece. Al contrario, se mantiene con tasas de éxito entre el 80% y el 100%. Esto desafía una narrativa frecuente en IA: que el progreso en capacidad del modelo implica automáticamente mayor seguridad.

Desde una perspectiva técnica, este fenómeno revela una limitación estructural. Los LLMs no “verifican” la veracidad de la información como lo haría un clínico; operan mediante patrones estadísticos sobre texto. Cuando se les presenta información con apariencia de evidencia —por ejemplo, un metaanálisis ficticio bien redactado— carecen de mecanismos robustos para discriminar entre evidencia real y fabricada. Este es un punto crítico: la medicina basada en la evidencia se convierte, paradójicamente, en una superficie de ataque.

También me parece particularmente interesante cómo los ataques contextuales explotan la tendencia del modelo a ser útil. Este sesgo hacia la asistencia —una característica deseable en la mayoría de aplicaciones— se transforma aquí en una vulnerabilidad. El modelo prioriza la coherencia con el contexto proporcionado, incluso cuando este ha sido manipulado.

En términos de seguridad del paciente, las implicaciones son profundas. No estamos hablando únicamente de errores espontáneos o alucinaciones —un fenómeno ya ampliamente discutido en la literatura— sino de manipulaciones externas que pueden ser introducidas sin acceso privilegiado al sistema. El estudio describe escenarios plausibles: extensiones de navegador comprometidas, integraciones con sistemas externos o flujos de datos contaminados. En todos estos casos, el usuario final —especialmente si es un paciente— no tendría forma de detectar la manipulación.

Esto plantea un desafío que trasciende lo técnico. Los marcos regulatorios actuales, tanto en EE. UU. como en Europa, se centran en aspectos como el sesgo algorítmico o el rendimiento en condiciones normales de uso. Sin embargo, este trabajo muestra que los modelos pueden comportarse de forma radicalmente distinta bajo condiciones adversariales. Es decir, evaluar un sistema sin considerar ataques deliberados es, en cierto modo, evaluar solo la mitad del problema.

Por supuesto, el estudio tiene limitaciones. Se trata de una simulación controlada con un número relativamente limitado de modelos y escenarios. No hay validación en entornos clínicos reales ni interacción con profesionales sanitarios. Además, los modelos evaluados corresponden a versiones específicas en el tiempo, y sabemos que estos sistemas evolucionan rápidamente. Sin embargo, la consistencia de los resultados —especialmente en modelos de última generación— sugiere que no estamos ante un artefacto experimental.

Lo que me llevo de este trabajo no es una desconfianza absoluta hacia los LLMs, sino una comprensión más matizada de su lugar en la medicina. Estos sistemas no son equivalentes a un clínico digital. Son herramientas probabilísticas extremadamente potentes, pero también inherentemente vulnerables a manipulación textual.

La consecuencia práctica es clara: no podemos integrar modelos de lenguaje en entornos clínicos sin incorporar una capa de seguridad equivalente a la criticidad de las decisiones que influyen. Esto incluye validación de entradas, monitorización de salidas y, probablemente, sistemas redundantes que permitan detectar inconsistencias.

En última instancia, este estudio nos recuerda algo fundamental: en medicina, la precisión no es suficiente. También necesitamos robustez. Y en el caso de la inteligencia artificial, esa robustez no vendrá solo de modelos más grandes o más sofisticados, sino de una comprensión profunda de cómo pueden fallar —y cómo pueden ser engañados.

Referencia:
Lee RW, Jun TJ, Lee JM, Cho SI, Park HJ, Suh J. Vulnerability of Large Language Models to Prompt Injection When Providing Medical Advice. JAMA Netw Open. 2025;8(12):e2549963. doi:10.1001/jamanetworkopen.2025.49963