NVIDIA publicó AI-Q Agent Skill, un blueprint open source que añade una capacidad de deep research portable a los agent harnesses más usados del mercado: Claude Code, Codex y OpenCode, según describió la compañía en su blog para desarrolladores. La pieza ataca un problema concreto: cuando un harness general necesita hacer síntesis multi-documento o producir un brief respaldado por datos internos, la complejidad cae sobre el desarrollador.
El planteo de NVIDIA es separar el harness del backend de investigación. El primero orquesta tareas y herramientas; el segundo, AI-Q, se encarga del pipeline completo de retrieval, clasificación de intención, investigación superficial, investigación profunda y evaluación.
¿Qué hace exactamente la AI-Q Agent Skill?

La skill permite a Claude Code, Codex u otros agentes de propósito general enviar una tarea de investigación a un servidor AI-Q corriendo (local o alojado) y recibir un reporte detallado con citas. La distribución incluye:
- Un archivo
SKILL.mdque indica al harness cómo invocar AI-Q. - Un script
scripts/aiq.pyque gestiona el ruteo de requests, el envío de jobs, el polling y la recuperación de resultados.
El pipeline expone cinco etapas: clasificación de intención, clarificación con human-in-the-loop, investigación superficial, investigación profunda y evaluación. Cada etapa es ajustable y se evalúa con benchmarks establecidos: FreshQA, Deep Research Bench y DeepSearchQA.
¿Cómo se instala en Claude Code y Codex?

La skill vive en el repositorio AI-Q en GitHub en .agents/skills/aiq-research/. Requisitos: Python 3.10 o superior y un servidor AI-Q corriendo accesible desde el harness.
Para Claude Code (skill local del workspace):
mkdir -p .claude/skills
ln -s ../../.agents/skills/aiq-research .claude/skills/aiq-researchPara instalación a nivel de usuario:
mkdir -p ~/.claude/skills
cp -R .agents/skills/aiq-research ~/.claude/skills/aiq-researchPara Codex:
mkdir -p <codex-skills-dir>
cp -R .agents/skills/aiq-research <codex-skills-dir>/aiq-researchPara OpenCode (skills de usuario):
mkdir -p ~/.config/opencode/skills
cp -R .agents/skills/aiq-research ~/.config/opencode/skills/aiq-researchTras reiniciar la sesión, el harness expone una sola capacidad de deep research. Frases como "investiga el paisaje regulatorio para X a través de nuestras políticas internas y produce un memo" se rutean automáticamente a AI-Q, que envía el job, hace el polling y devuelve un reporte estructurado con citas.
Integración MCP segura: AI-Q como cliente MCP
La segunda mitad del lanzamiento es el acceso a datos. AI-Q ahora soporta de primera clase la conexión a servidores MCP autenticados como fuentes de datos. Las pipelines de investigación pueden consumir los mismos sistemas empresariales que ya usan los agentes, sin levantar un stack de retrieval paralelo.
AI-Q está construido sobre el NeMo Agent Toolkit, por lo que los servidores MCP se enchufan como function groups. NVIDIA documenta tres patrones de integración:
- Servidores MCP sin autenticación: el caso más simple, con
mcp_clientapuntando a la URL del servidor. AI-Q descubre y registra las herramientas remotas como funciones del NeMo Agent Toolkit. - Autenticación por service account: el patrón preferido para CI, batch jobs y fuentes empresariales compartidas, con bloques de configuración para
client_id,client_secretytoken_url. - Forwarding de la identidad del usuario autenticado: para APIs downstream que ya confían en el bearer token del usuario de AI-Q. El token se captura al enviar el job y se restaura dentro de los workers asíncronos de Dask. Los tokens aún no se refrescan a mitad de job, lo que está en la roadmap del próximo release.
Para nuevos despliegues, NVIDIA recomienda transport: streamable-http (obligatorio para servidores MCP protegidos y preferido sobre sse en escenarios productivos con autenticación).
¿Por qué importa para empresas reguladas?
El argumento operativo, y la apuesta más fuerte del blueprint, es que AI-Q corre donde están los datos. NVIDIA destaca tres propiedades para industrias reguladas (salud, finanzas, gobierno, defensa):
- El pipeline corre donde vive el dato: AI-Q lee información empresarial, hace retrieval y síntesis, y produce reportes sin que los documentos crudos salgan del entorno controlado. El harness del agente recibe solo el resultado con citas, no acceso directo a las fuentes.
- Modelos abiertos auto-alojados: los modelos abiertos NVIDIA Nemotron pueden correr on-prem como NIM, mientras los modelos de frontera quedan como alternativa configurable. Permite enrutar tareas sensibles al modelo on-prem y dejar al frontier solo para orquestación, o desactivar el frontier completo.
- Auditabilidad integrada: los reportes incluyen atribución de fuentes y NeMo Agent Toolkit emite trazas OpenTelemetry. Los equipos de cumplimiento pueden inspeccionar qué fuentes se recuperaron, cómo se usaron y cómo se produjo la respuesta final.
¿Qué significa para equipos de IA en Chile?
Para áreas de banca, salud y servicios financieros chilenos que evalúan agentes de IA con datos internos, AI-Q baja el costo de adopción en tres frentes concretos:
- Sin construir retrieval propio: el pipeline completo (chunking, embedding, ranking, síntesis con citas) viene listo, configurable vía Docker Compose o Helm.
- Soberanía de datos: los reportes se generan sin que los datos crudos salgan del cluster. Relevante para regulación financiera local (CMF, SBIF) y datos clínicos protegidos por la ley 21.668 de protección de datos personales.
- Costo de cómputo flexible: las tareas pesadas pueden delegarse a Nemotron on-prem, mientras Claude o GPT-5 quedan reservados para orquestación. Esto puede reducir el costo de tokens 5-10× según la mezcla.
El blueprint está disponible en el repositorio AI-Q con guías para Docker Compose y Kubernetes Helm charts. La documentación para agregar una fuente de datos cubre los tres patrones MCP en detalle.




