IA en Salud

Dos Tonos de Equivocarse: Errores Confiados vs. Inciertos en IA Clínica

Resumen

Una respuesta equivocada en IA clínica no tiene un solo costo. Tiene un tono. Una respuesta confiadamente equivocada se trata como un hecho y se cuela en la historia clínica, en la conversación con la familia, en la siguiente decisión. Una respuesta incierta y equivocada se toma con el peso calibrado que ella misma se da, se vuelve a revisar y rara vez causa daño aunque esté equivocada. Esa asimetría es tan fuerte que un modelo 95% preciso pero siempre confiado es más peligroso en una clínica que un modelo 88% preciso que matiza con honestidad. La calibración no es un detalle de investigación. Es una decisión de diseño a nivel de superficie: la incertidumbre tiene que ser una salida de primera clase, el lenguaje tiene que coincidir con la confianza, y la negativa a responder tiene que ser una característica, no un bug. Así lo construí en el flujo de aprobación de MILA.

26 de mayo, 202610 min de lectura
IA en SaludCalibraciónSeguridad ClínicaMILAIncertidumbre

Hay un momento al que sigo volviendo de las primeras pruebas internas de MILA. Una enfermera, revisando un resumen que el sistema había escrito sobre la tendencia respiratoria nocturna de un bebé, se detuvo en una línea. La línea decía: "estado respiratorio estable, sin desaturaciones preocupantes." Era declarativa. Era limpia. Era el tipo de oración que una persona cansada, a mitad de turno, lee una vez y confía.

También estaba equivocada. No de forma catastrófica. Había habido dos breves desaturaciones durante la noche, recuperadas sin intervención, el tipo de cosa por la que un clínico normalmente no detiene el mundo. Pero "sin desaturaciones preocupantes" no era lo que decía la historia clínica. La historia decía dos breves desaturaciones. El modelo había decidido, por su cuenta, que no eran preocupantes y las había borrado del resumen con voz confiada.

La enfermera lo atrapó. Siempre lo hace. Pero me senté con ese borrador un buen rato después, porque me dijo algo que había estado rodeando durante meses: en la IA clínica, una respuesta equivocada no tiene un solo costo. Tiene un tono.

Los Dos Tonos

Un modelo puede equivocarse de dos formas muy distintas, y la diferencia importa más que el número de precisión en tu tablero.

Una respuesta confiadamente equivocada es declarativa. Sin matices, sin cláusulas de calificación, sin "según datos limitados." Se lee exactamente como se lee una respuesta confiadamente correcta, porque el lenguaje de la superficie no carga ninguna señal sobre la certeza real del modelo. En un entorno clínico ajetreado, ese tipo de oración se escanea, se acepta y se incorpora a la siguiente decisión. Se vuelve parte de la historia clínica, parte del traspaso de turno, parte de lo que se le dice a la familia. Para cuando alguien se da cuenta de que estaba mal, ya ha hecho trabajo en el mundo.

Una respuesta incierta y equivocada tiene otra forma. "Según la tendencia disponible y las notas nocturnas limitadas, el estado respiratorio parece estable, aunque señalaría las dos breves desaturaciones cerca de las 02:00 para su revisión." El mismo posible error. El mismo posible fallo. Pero la oración en sí está haciendo algo que la versión confiada no hizo: está nombrando sus propios límites. Está pidiendo ser revisada. Le está pasando al médico un hilo del que tirar.

Incluso cuando la versión incierta está equivocada, está equivocada con las manos a la vista. La enfermera la lee como pidió ser leída, baja la velocidad en la parte señalada y casi siempre atrapa el problema. La versión confiada está equivocada con las manos detrás de la espalda.

La precisión no es toda la historia

Un modelo 95% preciso que siempre habla con confianza producirá, sobre mil borradores, cincuenta errores confiados que se ven exactamente como sus novecientas cincuenta verdades confiadas. Un modelo 88% preciso que calibra con honestidad producirá ciento veinte errores, pero los equivocados en su mayoría matizarán, preguntarán o diferirán, y el médico los atrapará. En un contexto clínico, el segundo modelo es más seguro. La calibración cambia el costo de estar equivocado.

Por Qué "Solo Acertar" No Es la Meta

Quiero ser honesto sobre por qué me tomó tanto interiorizar esto. Como la mayoría de los ingenieros, mi primer instinto fue empujar el número de precisión hacia arriba. Más datos, mejores prompts, recuperación sobre las notas de la unidad, evals encima de evals. Todas son cosas buenas. Las sigo haciendo. Pero en algún punto de la tercera o cuarta ronda de "solo necesitamos que este número suba más," noté que el tipo de error que enviábamos al 92% se veía exactamente como el que enviábamos al 88%. El número se movía. El perfil de peligro no.

El perfil de peligro solo cambió cuando dejé de optimizar el modelo de forma aislada y comencé a diseñar la superficie — el lenguaje, el formato, el flujo alrededor de la salida — para que cargara la confianza como una señal visible.

Esta es la parte que la mayoría de los demos de IA clínica saltan. Muestran una respuesta limpia en una caja limpia y le dejan al médico recordar "esto es IA, vuelvelo a revisar." Eso funciona durante una hora. No funciona en la historia número setecientas de una semana larga. La superficie tiene que hacer el recordar, no el humano.

Cómo Se Ve la Calibración en la Superficie

Esta es la forma en la que aterricé después de muchos arranques fallidos. No es investigación novedosa; es la aplicación de ideas de calibración bien conocidas en el lugar donde realmente importan, que es donde un humano lee la salida.

   el modelo produce respuesta
            │
            ▼
   el modelo produce confianza  ◄──  (no un score en metadatos,
   (alta / media / baja)              una salida de primera clase)
            │
            ▼
   ┌──────────────────────────────────────┐
   │  EL LENGUAJE COINCIDE CON LA          │
   │  CONFIANZA                            │
   │                                      │
   │  alta   ──▶ declarativo, llano        │
   │             "respiratorio estable"   │
   │                                      │
   │  media  ──▶ matizado con razón        │
   │             "parece estable; se      │
   │              notan dos breves desats"│
   │                                      │
   │  baja   ──▶ diferir + nombrar el      │
   │             vacío "notas nocturnas   │
   │             insuficientes; revisar"  │
   └────────────────┬─────────────────────┘
                    │
                    ▼
   la negativa a responder es una salida normal,
   no un error
                    │
                    ▼
   revisión humana con la confianza
   visible de un vistazo, no enterrada

El movimiento clave es que la confianza no es un número metido en un tooltip. Cambia cómo se lee la oración. Un médico escaneando diez resúmenes puede sentir, al nivel del lenguaje, cuáles se apoyan en datos sólidos y cuáles están estirándose. Ese es todo el punto. La calibración tiene que aterrizar en la parte del sistema que el médico realmente lee, que es, casi siempre, solo las palabras.

La incertidumbre es una salida, no un metadato

Si tu modelo emite un score de confianza que vive al lado de la respuesta pero no cambia la respuesta, no construiste calibración. Construiste una calcomanía. La confianza tiene que dar forma a las palabras, al formato y al flujo de trabajo alrededor, porque esa es la parte que el humano realmente procesa. Cualquier otra cosa se ignora a la hora tres del turno.

La Negativa a Responder Es una Característica

Esta es la pieza por la que más tuve que pelear. Al principio, cada vez que MILA devolvía algo como "no hay suficientes notas nocturnas para caracterizar esta tendencia; favor revisar directamente," alguien lo registraba como una falla. Vacío de cobertura. Respuesta perdida. Los tableros la castigaban.

Cambié los tableros. Una negativa donde la negativa era correcta no es una falla. Es el sistema haciendo exactamente lo que haría un clínico cuidadoso: decir "no sé lo suficiente para decirlo." Tratar eso como un modo de falla presiona al modelo — y a las personas que lo promptean — a empujar más allá de la incertidumbre genuina hacia una respuesta confiadamente equivocada, que es el peor resultado en toda la superficie.

Entonces en MILA, la abstención se registra como un tipo de salida normal. La rastreamos. Incluso vemos su tasa como una señal de salud: si la abstención cae a cero, algo está mal con la calibración, el modelo empezó a responder con confianza cosas que no debería. (He escrito más directamente sobre esto en cuándo los modelos deberían decir "no sé" — el diseño de la abstención y la calibración del tono son hermanos, pero este texto es sobre cómo se siente el estar equivocado una vez que está en la página.)

El Flujo de Aprobación Carga la Calibración

En MILA, ningún contenido escrito por IA llega a un padre ni entra a una historia clínica sin que un médico lo apruebe. Eso es innegociable, por razones sobre las que he escrito en la capa de empatía. Pero el flujo de aprobación también es donde la calibración vive o muere en la práctica.

Concretamente, la pantalla de revisión muestra el borrador con el lenguaje cargado de confianza ya moldeado en la oración, y un indicador pequeño pero imposible de pasar por alto al lado: una banda verde calma para las secciones de alta confianza, un ámbar suave para las matizadas, un rojo claro para las secciones que el modelo se negó a caracterizar. El ojo del médico se entrena, al segundo día de uso, a bajar la velocidad en ámbar y a esperar rojo en turnos con datos escasos. Las aprobaciones en secciones verdes son rápidas. Las aprobaciones en ámbar son más lentas, y esa lentitud es la característica. El sistema está recomprando atención de las partes que la necesitan.

Una oración confiadamente equivocada que se cuele por este tipo de flujo sigue siendo posible. Nada lo elimina. Pero ahora es el caso raro en vez del caso por defecto, y el caso raro es lo que los humanos son buenos atrapando.

Diseña la revisión para donde vive el peligro

El borrador más peligroso es el que se lee limpio y está equivocado en una palabra específica. Diseña la superficie de revisión para que la atención del médico se dirija exactamente a las partes que se la ganaron, y se libere de las que no. Pantallas de revisión uniformes entrenan escaneo uniforme. Pantallas de revisión calibradas entrenan atención calibrada.

La Versión Digna de "Equivocado"

Lo que realmente persigo, debajo de todo esto, es una especie de dignidad al estar equivocado. Un sistema de IA clínica va a estar equivocado a veces. Eso no es una falla del campo; es la naturaleza de trabajar con datos imperfectos y una herramienta probabilística. Lo que no aceptaré es que esté equivocado en un tono que disfrace lo equivocado y descargue el costo en una enfermera cansada a las 4 a.m. o en un padre asustado a cualquier hora.

La versión digna de equivocado se ve así: el sistema te dice, en la forma de sus oraciones, cuánto confiar en él. Cuando está en terreno sólido, habla llanamente. Cuando está estirándose, lo dice. Cuando está más allá de sus límites, se detiene. Las respuestas equivocadas que produce son en su mayoría del tipo matizado, y se atrapan, porque el matiz hizo su trabajo.

Pienso mucho en el borrador que la enfermera atrapó. Lo atrapó porque es excelente, y porque el flujo le dio espacio para hacerlo. Pero no quiero que la seguridad de MILA dependa de la excelencia y la suerte. Quiero que dependa de cómo habla el sistema. Eso es lo que la calibración en la superficie realmente significa: la certeza del modelo se vuelve parte del lenguaje, y el lenguaje se vuelve parte de la seguridad.

En la IA clínica, no eliges si tu sistema estará equivocado. Solo eliges el tono de su equivocación. Elige con cuidado.


Si construyes IA clínica, o trabajas del lado receptor de ella, contáctame. La calibración es uno de esos temas que se vuelven más fáciles mientras más honestamente hablemos de nuestros modos de falla.

Frequently Asked Questions

No te pierdas nada

Artículos sobre IA, ingeniería y las lecciones que aprendo construyendo cosas. Sin spam, lo prometo.

OR

Osvaldo Restrepo

Senior Full Stack AI & Software Engineer. Building production AI systems that solve real problems.