Punto clave de esta nota

NVIDIA lanza el Model Card Generator (MCG), un toolkit contenedorizado que genera model cards en formato Model Card++ en menos de un minuto.

Punto clave de esta nota

El pipeline combina Nemotron RAG para embedding y reranking con GPT-OSS-120B para extracción, llegando a 91% de completitud y 76% de precisión.

Punto clave de esta nota

Cuando se elimina toda la documentación y solo queda código, la completitud cae a 61% y la precisión estricta a 28%.

NVIDIA MCG: model cards automáticas con GPT-OSS-120B

Al grano

NVIDIA lanza el Model Card Generator (MCG), un toolkit contenedorizado que genera model cards en formato Model Card++ en menos de un minuto.
El pipeline combina Nemotron RAG para embedding y reranking con GPT-OSS-120B para extracción, llegando a 91% de completitud y 76% de precisión.
Cuando se elimina toda la documentación y solo queda código, la completitud cae a 61% y la precisión estricta a 28%.

A medida que los modelos de IA crecen en complejidad y la presión regulatoria se intensifica bajo marcos como la AB-2013 de California y la AI Act de la Unión Europea, los equipos de software enfrentan un desafío más allá del código: deben producir documentación completa y auditable de cada modelo antes de liberarlo.

Las model cards describen cómo funciona un modelo, su uso previsto y licencia, datos de entrenamiento, desempeño y limitaciones. Promueven transparencia y rendición de cuentas para que los usuarios aguas abajo (clientes, reguladores y comunidades afectadas) tomen decisiones informadas al seleccionar y desplegar IA. La audiencia se extiende más allá de los desarrolladores: hacedores de política, equipos de compras y evaluadores de riesgo dependen de las model cards para juzgar la idoneidad de uso y comparar modelos entre proveedores.

En la práctica, crear model cards a mano es tedioso y lento. La documentación queda atrás del desarrollo, y los metadatos suelen estar desactualizados al momento del release. A medida que los modelos crecen en complejidad, el formato inconsistente y los campos faltantes generan riesgo innecesario en auditoría y frenan la adopción. El toolkit Model Card Generator (MCG) de NVIDIA automatiza y estandariza la documentación en formato Model Card++ en menos de un minuto, leyendo directamente desde los datos fuente.

¿Qué es exactamente el toolkit MCG?

El toolkit MCG es un pipeline contenedorizado que automatiza la generación de model cards leyendo el código fuente del modelo. Sigue una arquitectura modular Ingesta → Extracción → Renderizado. Un orquestador central recibe la solicitud (sea una URL o un archivo subido), coordina el flujo de trabajo y devuelve una model card completa. Cada etapa corre como un servicio separado, lo que permite actualizar o reemplazar componentes individuales sin afectar el resto del pipeline.

¿Cómo funciona el pipeline?

El toolkit expone una UI interactiva que acepta una URL (GitHub, GitLab, HuggingFace o cualquier página web pública) o un archivo subido (ZIP, PDF, DOCX o Markdown). También hay disponible una API REST para integración programática.

Desde ahí, los datos fluyen por tres etapas:

Input → Ingesta. El sistema obtiene el contenido y lo procesa en bloques de documento, categorizados por tipo: documentación, archivos de configuración y código.
Documentos → Extracción. La etapa de extracción corre los documentos ingeridos por un pipeline de retrieval-augmented generation (RAG) potenciado por NVIDIA Inference Microservices (NIM). NVIDIA Nemotron RAG maneja el embedding de alta precisión (llama-nemotron-embed-1b-v2) y el reranking (llama-nemotron-rerank-500m-v2), con retrievers separados para código, archivos de configuración y documentación, de modo de priorizar fuentes de mayor señal. La extracción central la hace GPT-OSS-120B, que lee los pasajes recuperados y aplica formato y guías de contenido curadas por expertos (la plantilla NVIDIA MC++ y guías de estilo a nivel de campo) para generar información conforme al formato esperado. Un paso de validación revisa las respuestas antes de aceptarlas. La salida es JSON estructurado. Tras completar el overview, el mismo contenido fluye a una etapa de subcards que produce las cuatro subcards de Model Card++: Bias, Explainability, Privacy y Safety & Security.
JSON → Renderizado. El JSON estructurado se renderiza a Markdown legible usando una plantilla configurable. Es posible editar el contenido en la interfaz y re-renderizar antes de descargar o integrar con otros sistemas. El artefacto final es una model card completa (overview más cuatro subcards), lista para revisión o publicación.

Figura 1. Arquitectura del toolkit MCG: genera una model card completa leyendo directamente del código fuente.

Diseñado para flexibilidad

El usuario no queda amarrado a un modelo, plantilla o estándar. El toolkit es personalizable en tres dimensiones:

1) Modelos: el sistema usa endpoints configurables para el modelo de lenguaje, embeddings y reranking. Es posible apuntar a distintos NIMs o APIs compatibles para ajustarse a requisitos de desempeño, costo o residencia de datos, ya sea prototipando con un modelo más chico o escalando a producción.

2) Plantillas: el formato de salida lo manda una plantilla Markdown. Cada organización puede ajustarla para Model Card++, estándares internos o formatos regulatorios emergentes sin modificar la lógica de extracción. Las salidas también son compatibles con CycloneDX. Cuando aparece un nuevo requisito de divulgación, basta con actualizar la plantilla, no el pipeline.

3) Guías: la guía a nivel de campo (qué capturar, cómo redactarlo) viene de bases de conocimiento configurables. A medida que evolucionan las regulaciones o las necesidades del dominio, las guías se actualizan sin tocar el código central. El mismo pipeline puede servir a distintas industrias y regímenes de cumplimiento.

¿Dónde se puede ejecutar?

El toolkit se entrega como servicios contenedorizados con setup de un solo comando. El orquestador y las etapas de ingesta, extracción y subcards corren cada uno como contenedores separados, con la infraestructura (base de datos y cola de tareas) incluida. No hay lock-in a cloud propietaria: MCG corre on-premises o en la nube propia del usuario, con soporte Kubernetes para levantarlo en infraestructura privada.

¿Qué tan precisa es la herramienta?

NVIDIA probó el toolkit en repositorios públicos de modelos, midiendo tasa de completitud, tiempo de generación y precisión. Cada campo se evaluó contra la documentación fuente. La precisión se calcula como campos correctos sobre campos no-placeholder.

El toolkit genera una model card completa (overview más cuatro subcards) en menos de un minuto en la mayoría de los repositorios. La completitud global llega a 91% (baseline de terceros), con precisión de 76% en el set de prueba estandarizado. Ambos valores varían según modelo y repositorio: repositorios con READMEs y archivos de configuración más ricos rinden mejores resultados.

NVIDIA también probó qué pasa cuando se elimina toda la documentación. Usando los mismos repositorios del set estándar, eliminaron todos los archivos .pdf, .md y .txt y volvieron a correr el toolkit solo sobre el código. En cinco modelos, la completitud promedio cayó a 61% desde 91%, y la precisión estricta, medida solo sobre campos verificables, cayó a 28% comparado con 76% en la prueba estándar.

El 61% de completitud muestra que el toolkit todavía extrae señales significativas de código, archivos de configuración y estructura del repositorio; la caída en precisión refleja cuánto contribuye la documentación a acertar esos campos.

De forma importante, el toolkit no compensa adivinando. Si no puede poblar un campo con confianza, lo marca como "not found" o "information not available", lo que lo convierte en un buscador útil de vacíos para equipos cuya documentación aún se está escribiendo, además de generador para equipos cuya documentación ya está completa.

Oracle como primer adoptante

Oracle es uno de los primeros socios en integrar el toolkit MCG en infraestructura productiva. Como parte de su oferta OCI AI, que abarca configuraciones de GPU desde A10 hasta GB200 NVL72, Oracle desplegó el toolkit usando una combinación de OCI Container Engine for Kubernetes y servicios de IA, ejecutando pods MCG y pods NIM dentro de una arquitectura VCN estándar respaldada por Object Storage para los modelos NIM. Su despliegue usa Llama-3.3-Nemotron-Super-49B-v1 como modelo de extracción central, con Nemotron RAG manejando embedding y reranking. El modelo GPT-OSS-120B se alojó y probó tanto en el clúster dedicado de IA con 2x H100 como en la oferta on-demand.

Un OCI Dedicated AI Cluster (DAC) es un entorno privado de IA generativa, totalmente administrado, con GPUs, endpoints y un perímetro de seguridad propios dentro de OCI. El toolkit MCG trae no solo herramientas de transparencia de IA directo a ese flujo de trabajo, sin que el cliente las construya desde cero, sino también la capacidad de identificar la configuración óptima de GPU necesaria para alojar los modelos.

Para empezar

Si la documentación interesa antes de la versión completa, el repositorio Trustworthy AI en GitHub tiene plantillas Model Card++ open source y AI transparency cards para blueprints, datasets, contenedores y sistemas, ya disponibles. La iniciativa Trustworthy AI de NVIDIA busca hacer más fácil mantener la documentación al ritmo de los modelos que se despliegan.

NVIDIA MCG: model cards automáticas con GPT-OSS-120B

Al grano

Por qué importa

¿Qué es exactamente el toolkit MCG?

¿Cómo funciona el pipeline?

Diseñado para flexibilidad

¿Dónde se puede ejecutar?

¿Qué tan precisa es la herramienta?

Oracle como primer adoptante

Para empezar

Seguir leyendo

NVIDIA Nemotron 3 Ultra corre agentes a un decimo del costo

NVIDIA Agent Toolkit empaqueta Nemotron, NemoClaw y OpenShell

Nemotron 3 Ultra: mejorar agentes de IA sin reentrenar

Un agente de IA para triar alarmas industriales con Nemotron

→Al grano

✦Por qué importa

¿Qué es exactamente el toolkit MCG?

¿Cómo funciona el pipeline?

Diseñado para flexibilidad

¿Dónde se puede ejecutar?

¿Qué tan precisa es la herramienta?

Oracle como primer adoptante

Para empezar

Seguir leyendo

NVIDIA Nemotron 3 Ultra corre agentes a un decimo del costo

NVIDIA Agent Toolkit empaqueta Nemotron, NemoClaw y OpenShell

Nemotron 3 Ultra: mejorar agentes de IA sin reentrenar

Un agente de IA para triar alarmas industriales con Nemotron

Al grano

Por qué importa