El acceso a imágenes médicas 3D de alta calidad sigue siendo uno de los cuellos de botella más obstinados de la radiología asistida por IA. La escasez de datos, las restricciones de privacidad y el alto costo de la anotación experta dejan a los equipos entrenando con datasets pequeños, estrechos y difíciles de compartir, lo que limita la robustez y generalización de los modelos.

NVIDIA presentó NV-Generate-CTMR, un framework de código abierto construido sobre la familia MAISI (Medical AI for Synthetic Imaging) que apunta a aliviar ese cuello de botella. El framework genera volúmenes 3D realistas de CT y MRI con segmentaciones pareadas, listos para integrarse a pipelines de entrenamiento.

¿Qué hace exactamente NV-Generate-CTMR?

El sistema incluye dos arquitecturas:

  • MAISI-v1: basado en Latent Denoising Diffusion Probabilistic Models (DDPM), pensado para generación estocástica con mayor diversidad.
  • MAISI-v2: basado en Latent Rectified Flow, que entrega una aceleración de 33× en la velocidad de inferencia y mejor calidad de imagen que la versión anterior.

Es el primer framework open source de generación de imagen médica que soporta tamaños de vóxel flexibles, dimensiones variables de volumen y cobertura de cuerpo entero dentro de un único modelo. Eso permite sintetizar datos que calzan con protocolos clínicos reales, desde recortes pequeños hasta scans full-resolution, sin reentrenar modelos separados para cada configuración.

Figura 1. Imágenes MR generadas por el modelo rflow-mr de NV-Generate-CTMR. Izquierda: MRI T2w de próstata. Derecha: MRI T1w cerebral.
Figura 1. Imágenes MR generadas por el modelo rflow-mr de NV-Generate-CTMR. Izquierda: MRI T2w de próstata. Derecha: MRI T1w cerebral.

El dataset MR-RATE: 100.000 estudios cerebrales abiertos

NV-Generate-MR-Brain, el nuevo modelo focalizado en anatomía cerebral, fue entrenado sobre el dataset multimodal MR-RATE, recién liberado por la Universidad de Zúrich, el Medipol University Hospital, Forithmus y NVIDIA. MR-RATE es el dataset multimodal de MRI más grande publicado en abierto:

  • 100.000 estudios de MRI cerebral de más de 83.000 pacientes
  • Cerca de 700.000 volúmenes
  • Cada estudio pareado con reporte radiológico desidentificado y metadatos clínicos y de scanner (DICOM)
  • Diversidad de escáneres, protocolos y patologías neurológicas reales

El dataset se publica con licencia CC-BY-NC para instituciones de investigación, con licencias comerciales disponibles a través de Forithmus.

Figura 2. MR-RATE: volúmenes MRI de cerebro y columna con reportes radiológicos pareados
Figura 2. MR-RATE: volúmenes MRI de cerebro y columna con reportes radiológicos pareados

¿Por qué importa la generación de imágenes para la IA médica?

La síntesis de imágenes médicas se volvió una capacidad central para el desarrollo de IA clínica. Los equipos usan datos sintéticos para aumentar conjuntos de entrenamiento limitados, traducir entre modalidades (por ejemplo CT a MRI), simular patologías raras y habilitar el data sharing preservando la privacidad sin exponer información real de pacientes.

A medida que las imágenes clínicas se vuelven más personalizadas, heterogéneas y multimodales, los frameworks de generación escalables y controlables dejan de ser opcionales y pasan a ser esenciales para construir sistemas de IA médica robustos.

Limitaciones de los enfoques previos

Históricamente los métodos de síntesis médica caen en tres categorías: modelos de regresión directa, enfoques basados en GAN y, más recientemente, modelos de difusión. Los de difusión emergieron como estado del arte por su estabilidad y capacidad de modelar distribuciones anatómicas complejas, pero traen tres problemas:

1. Las imágenes médicas reales varían enormemente entre escáneres, protocolos de adquisición y espaciados de vóxel, lo que dificulta generalizar. 2. CT y MRI son intrínsecamente 3D, y los modelos de difusión 3D completos son computacionalmente caros en tiempo y memoria GPU. 3. Aunque se entreguen señales de condicionamiento (máscaras, hints anatómicos), las salidas no siempre las respetan, limitando la generación controlada.

NV-Generate-CTMR ataca los tres puntos: voxel size flexible, MAISI-v2 con Rectified Flow para inferencia 33× más rápida, y un módulo ControlNet para generar estructuras anatómicas específicas o sintetizar una secuencia MRI a partir de otra.

¿Qué se puede correr y dónde?

El repositorio incluye código de inferencia end-to-end, pesos preentrenados y configuraciones de entrenamiento. La mayor parte de los modelos se publica bajo la NVIDIA Open Model License, y la inferencia puede correrse en GPUs NVIDIA RTX royalty-free para generar imágenes, fine-tunear sobre datos propios o adaptar a nuevas anatomías.

NV-Generate-MR-Brain soporta resolución volumétrica de hasta 512 × 512 × 256 y las secuencias clínicas más usadas: T1w, T2w, FLAIR y SWI. Puede generar volúmenes whole-brain o skull-stripped según especificación del usuario.

El modelo ya se usa internamente para generar pares imagen-máscara con tumores como data de augmentación para NV Segment. Fuera de NVIDIA, se aplicó en detección de anomalías zero-shot, clasificación de cáncer pulmonar en CT, clasificación de lesiones prostáticas en MRI, síntesis MR-a-CT y tractografía cerebral, entre otros papers de CVPR y arXiv recientes.