Punto clave de esta nota

NVIDIA AI-Q es un blueprint open source que expone un pipeline completo de deep research como skill enchufable para Claude Code, Codex y OpenCode.

¿El pipeline corre dentro de la red corporativa?

el agente envía la tarea, AI-Q hace retrieval y síntesis con datos sensibles, y devuelve un reporte con citas sin que los documentos salgan del entorno.

Punto clave de esta nota

Soporta servidores MCP autenticados como fuentes de datos, con patrones para acceso sin autenticación, service accounts y forwarding de identidad de usuario.

NVIDIA AI-Q: skill open source de deep research para Claude Code y Codex

Al grano

NVIDIA AI-Q es un blueprint open source que expone un pipeline completo de deep research como skill enchufable para Claude Code, Codex y OpenCode.
El pipeline corre dentro de la red corporativa: el agente envía la tarea, AI-Q hace retrieval y síntesis con datos sensibles, y devuelve un reporte con citas sin que los documentos salgan del entorno.
Soporta servidores MCP autenticados como fuentes de datos, con patrones para acceso sin autenticación, service accounts y forwarding de identidad de usuario.

NVIDIA publicó AI-Q Agent Skill, un blueprint open source que añade una capacidad de deep research portable a los agent harnesses más usados del mercado: Claude Code, Codex y OpenCode, según describió la compañía en su blog para desarrolladores. La pieza ataca un problema concreto: cuando un harness general necesita hacer síntesis multi-documento o producir un brief respaldado por datos internos, la complejidad cae sobre el desarrollador.

El planteo de NVIDIA es separar el harness del backend de investigación. El primero orquesta tareas y herramientas; el segundo, AI-Q, se encarga del pipeline completo de retrieval, clasificación de intención, investigación superficial, investigación profunda y evaluación.

¿Qué hace exactamente la AI-Q Agent Skill?

La skill permite a Claude Code, Codex u otros agentes de propósito general enviar una tarea de investigación a un servidor AI-Q corriendo (local o alojado) y recibir un reporte detallado con citas. La distribución incluye:

Un archivo SKILL.md que indica al harness cómo invocar AI-Q.
Un script scripts/aiq.py que gestiona el ruteo de requests, el envío de jobs, el polling y la recuperación de resultados.

El pipeline expone cinco etapas: clasificación de intención, clarificación con human-in-the-loop, investigación superficial, investigación profunda y evaluación. Cada etapa es ajustable y se evalúa con benchmarks establecidos: FreshQA, Deep Research Bench y DeepSearchQA.

¿Cómo se instala en Claude Code y Codex?

La skill vive en el repositorio AI-Q en GitHub en .agents/skills/aiq-research/. Requisitos: Python 3.10 o superior y un servidor AI-Q corriendo accesible desde el harness.

Para Claude Code (skill local del workspace):

Código

mkdir -p .claude/skills
ln -s ../../.agents/skills/aiq-research .claude/skills/aiq-research

Para instalación a nivel de usuario:

Código

mkdir -p ~/.claude/skills
cp -R .agents/skills/aiq-research ~/.claude/skills/aiq-research

Para Codex:

Código

mkdir -p <codex-skills-dir>
cp -R .agents/skills/aiq-research <codex-skills-dir>/aiq-research

Para OpenCode (skills de usuario):

Código

mkdir -p ~/.config/opencode/skills
cp -R .agents/skills/aiq-research ~/.config/opencode/skills/aiq-research

Tras reiniciar la sesión, el harness expone una sola capacidad de deep research. Frases como "investiga el paisaje regulatorio para X a través de nuestras políticas internas y produce un memo" se rutean automáticamente a AI-Q, que envía el job, hace el polling y devuelve un reporte estructurado con citas.

Integración MCP segura: AI-Q como cliente MCP

La segunda mitad del lanzamiento es el acceso a datos. AI-Q ahora soporta de primera clase la conexión a servidores MCP autenticados como fuentes de datos. Las pipelines de investigación pueden consumir los mismos sistemas empresariales que ya usan los agentes, sin levantar un stack de retrieval paralelo.

AI-Q está construido sobre el NeMo Agent Toolkit, por lo que los servidores MCP se enchufan como function groups. NVIDIA documenta tres patrones de integración:

Servidores MCP sin autenticación: el caso más simple, con mcp_client apuntando a la URL del servidor. AI-Q descubre y registra las herramientas remotas como funciones del NeMo Agent Toolkit.
Autenticación por service account: el patrón preferido para CI, batch jobs y fuentes empresariales compartidas, con bloques de configuración para client_id, client_secret y token_url.
Forwarding de la identidad del usuario autenticado: para APIs downstream que ya confían en el bearer token del usuario de AI-Q. El token se captura al enviar el job y se restaura dentro de los workers asíncronos de Dask. Los tokens aún no se refrescan a mitad de job, lo que está en la roadmap del próximo release.

Para nuevos despliegues, NVIDIA recomienda transport: streamable-http (obligatorio para servidores MCP protegidos y preferido sobre sse en escenarios productivos con autenticación).

¿Por qué importa para empresas reguladas?

El argumento operativo, y la apuesta más fuerte del blueprint, es que AI-Q corre donde están los datos. NVIDIA destaca tres propiedades para industrias reguladas (salud, finanzas, gobierno, defensa):

El pipeline corre donde vive el dato: AI-Q lee información empresarial, hace retrieval y síntesis, y produce reportes sin que los documentos crudos salgan del entorno controlado. El harness del agente recibe solo el resultado con citas, no acceso directo a las fuentes.
Modelos abiertos auto-alojados: los modelos abiertos NVIDIA Nemotron pueden correr on-prem como NIM, mientras los modelos de frontera quedan como alternativa configurable. Permite enrutar tareas sensibles al modelo on-prem y dejar al frontier solo para orquestación, o desactivar el frontier completo.
Auditabilidad integrada: los reportes incluyen atribución de fuentes y NeMo Agent Toolkit emite trazas OpenTelemetry. Los equipos de cumplimiento pueden inspeccionar qué fuentes se recuperaron, cómo se usaron y cómo se produjo la respuesta final.

¿Qué significa para equipos de IA en Chile?

Para áreas de banca, salud y servicios financieros chilenos que evalúan agentes de IA con datos internos, AI-Q baja el costo de adopción en tres frentes concretos:

Sin construir retrieval propio: el pipeline completo (chunking, embedding, ranking, síntesis con citas) viene listo, configurable vía Docker Compose o Helm.
Soberanía de datos: los reportes se generan sin que los datos crudos salgan del cluster. Relevante para regulación financiera local (CMF, SBIF) y datos clínicos protegidos por la ley 21.668 de protección de datos personales.
Costo de cómputo flexible: las tareas pesadas pueden delegarse a Nemotron on-prem, mientras Claude o GPT-5 quedan reservados para orquestación. Esto puede reducir el costo de tokens 5-10× según la mezcla.

El blueprint está disponible en el repositorio AI-Q con guías para Docker Compose y Kubernetes Helm charts. La documentación para agregar una fuente de datos cubre los tres patrones MCP en detalle.

NVIDIA AI-Q: skill open source de deep research para Claude Code y Codex

Al grano

Por qué importa

¿Qué hace exactamente la AI-Q Agent Skill?

¿Cómo se instala en Claude Code y Codex?

Integración MCP segura: AI-Q como cliente MCP

¿Por qué importa para empresas reguladas?

¿Qué significa para equipos de IA en Chile?

Seguir leyendo

NVIDIA Agent Toolkit empaqueta Nemotron, NemoClaw y OpenShell

NVIDIA BioNeMo llega a Claude Science para potenciar la IA

NVIDIA publica su arquitectura para gobernar agentes IA autónomos

NVIDIA BioNeMo duplica la eficiencia de los agentes científicos

→Al grano

✦Por qué importa

¿Qué hace exactamente la AI-Q Agent Skill?

¿Cómo se instala en Claude Code y Codex?

Integración MCP segura: AI-Q como cliente MCP

¿Por qué importa para empresas reguladas?

¿Qué significa para equipos de IA en Chile?

Seguir leyendo

NVIDIA Agent Toolkit empaqueta Nemotron, NemoClaw y OpenShell

NVIDIA BioNeMo llega a Claude Science para potenciar la IA

NVIDIA publica su arquitectura para gobernar agentes IA autónomos

NVIDIA BioNeMo duplica la eficiencia de los agentes científicos

Al grano

Por qué importa