Google DeepMind está construyendo un "AI co-clinician" para ayudar a médicos a atender pacientes. El sistema muestra resultados prometedores en estudios de simulación pero todavía queda detrás de los médicos experimentados. La investigación también deja en claro por qué el modo de voz de ChatGPT no está listo para tareas serias, mucho menos consultas médicas.

El AI co-clinician se construye alrededor de lo que los investigadores llaman "atención triádica": agentes de IA ayudan a los pacientes durante su tratamiento mientras los médicos mantienen la autoridad clínica y la supervisión. La idea es que un sistema de IA funcione como miembro del equipo médico, apoyando a los pacientes bajo supervisión clínica.

Para evaluar el sistema desde la perspectiva del clínico, el equipo trabajó con médicos académicos para adaptar el marco NOHARM, buscando dos tipos de errores: por comisión y por omisión.

En una comparación a ciegas con 98 consultas realistas de atención primaria, los médicos eligieron consistentemente las respuestas del AI co-clinician por sobre las herramientas de síntesis de evidencia líderes. Ganó 67 a 26 contra un sistema clínico de IA existente y 63 a 30 contra GPT-5.4-thinking-with-search. En el análisis objetivo, el sistema registró un error crítico en uno de los 98 casos.

En una comparación a ciegas con 98 consultas realistas de atención primaria, los médicos prefirieron las respuestas del AI co-clinician por sobre un agente clínico de IA existente (67 a 26) y GPT-5.4-thinking-with-search (63 a 30). Imagen: Google DeepMind
En una comparación a ciegas con 98 consultas realistas de atención primaria, los médicos prefirieron las respuestas del AI co-clinician por sobre un agente clínico de IA existente (67 a 26) y GPT-5.4-thinking-with-search (63 a 30). Imagen: Google DeepMind

La ventaja fue aún mayor en preguntas sobre medicamentos. El benchmark RxQA cubre 600 preguntas sobre principios activos, interacciones y dosis, extraídas de directorios farmacológicos nacionales de dos países y validadas por farmacéuticos licenciados. Estas preguntas son duras incluso para médicos de atención primaria: con libros de referencia acertaron 61,3 por ciento, y apenas 48,3 por ciento sin ellos.

El AI co-clinician anotó 73,3 por ciento, apenas por delante de GPT-5.4-thinking-with-search con 72,7 por ciento. La brecha se ensanchó cuando las preguntas se hicieron en formato abierto en vez de selección múltiple, que es como los médicos buscan en la práctica. Ahí el AI co-clinician alcanzó un puntaje de calidad de 95,0 por ciento, comparado con 90,9 por ciento del modelo de OpenAI.

¿Cómo se comporta el AI co-clinician en telemedicina?

Más allá del soporte basado en texto, Google DeepMind está probando cómo el AI co-clinician maneja audio y video en tiempo real para telemedicina. Trabajando con médicos de Harvard y Stanford, el equipo corrió un estudio aleatorio de simulación con 20 escenarios clínicos sintéticos, 10 médicos haciendo de pacientes actores, y 120 visitas hipotéticas de telemedicina en total.

El AI co-clinician mostró capacidades que van más allá de lo que pueden hacer los sistemas de solo texto. Corrigió la técnica de inhalador de un paciente y guió a pacientes a través de exámenes de hombro para detectar una lesión del manguito rotador.

Para conversaciones cara a cara con pacientes, el AI co-clinician corre con una configuración de doble agente: un módulo "Planner" observa la conversación para asegurar que el agente "Talker" se mantenga dentro de límites clínicos seguros. Cuando los médicos usan el sistema, prioriza evidencia clínica sólida y corre verificaciones y chequeos de citas durante las búsquedas.

¿Por qué los médicos experimentados siguen ganando?

El estudio puntuó más de 140 aspectos de calidad de consulta en siete áreas: triage, anamnesis, razonamiento clínico, comunicación y consejería, pasos de tratamiento, detección de señales de alarma y exámenes físicos. La conclusión es sobria para cualquiera que espere que la IA reemplace a un médico: los médicos experimentados superaron al sistema en general, especialmente al captar "red flags" y guiar exámenes físicos críticos.

Aún así, el AI co-clinician igualó o superó a médicos de atención primaria en 68 de las 140 áreas evaluadas. El GPT-realtime de OpenAI quedó detrás de ambos en las siete áreas. Los investigadores concluyen que sistemas como este funcionan mejor como herramientas de soporte para médicos, no como reemplazo del juicio clínico.

En visitas simuladas de telemedicina, los médicos de atención primaria (naranja) superaron al AI co-clinician de Google (azul) en las siete áreas evaluadas. La brecha más grande fue en detección de señales de alarma. Imagen: Google DeepMind
En visitas simuladas de telemedicina, los médicos de atención primaria (naranja) superaron al AI co-clinician de Google (azul) en las siete áreas evaluadas. La brecha más grande fue en detección de señales de alarma. Imagen: Google DeepMind

Aún no está claro si el proyecto de investigación se transformará en producto. Los resultados muestran progreso en síntesis de evidencia con IA y consultas de telemedicina, pero también dejan claro que sigue habiendo una brecha por cerrar con los médicos experimentados, sobre todo en tareas críticas para la seguridad como detectar señales de alarma. "Es temprano todavía, pero la promesa es clara", dice el investigador de DeepMind Alan Karthikesalingam.