NVIDIA publicó AI-Q Agent Skill, un blueprint open source que añade una capacidad de deep research portable a los agent harnesses más usados del mercado: Claude Code, Codex y OpenCode, según describió la compañía en su blog para desarrolladores. La pieza ataca un problema concreto: cuando un harness general necesita hacer síntesis multi-documento o producir un brief respaldado por datos internos, la complejidad cae sobre el desarrollador.

El planteo de NVIDIA es separar el harness del backend de investigación. El primero orquesta tareas y herramientas; el segundo, AI-Q, se encarga del pipeline completo de retrieval, clasificación de intención, investigación superficial, investigación profunda y evaluación.

¿Qué hace exactamente la AI-Q Agent Skill?

La skill permite a Claude Code, Codex u otros agentes de propósito general enviar una tarea de investigación a un servidor AI-Q corriendo (local o alojado) y recibir un reporte detallado con citas. La distribución incluye:

  • Un archivo SKILL.md que indica al harness cómo invocar AI-Q.
  • Un script scripts/aiq.py que gestiona el ruteo de requests, el envío de jobs, el polling y la recuperación de resultados.

El pipeline expone cinco etapas: clasificación de intención, clarificación con human-in-the-loop, investigación superficial, investigación profunda y evaluación. Cada etapa es ajustable y se evalúa con benchmarks establecidos: FreshQA, Deep Research Bench y DeepSearchQA.

¿Cómo se instala en Claude Code y Codex?

La skill vive en el repositorio AI-Q en GitHub en .agents/skills/aiq-research/. Requisitos: Python 3.10 o superior y un servidor AI-Q corriendo accesible desde el harness.

Para Claude Code (skill local del workspace):

Código
mkdir -p .claude/skills
ln -s ../../.agents/skills/aiq-research .claude/skills/aiq-research

Para instalación a nivel de usuario:

Código
mkdir -p ~/.claude/skills
cp -R .agents/skills/aiq-research ~/.claude/skills/aiq-research

Para Codex:

Código
mkdir -p <codex-skills-dir>
cp -R .agents/skills/aiq-research <codex-skills-dir>/aiq-research

Para OpenCode (skills de usuario):

Código
mkdir -p ~/.config/opencode/skills
cp -R .agents/skills/aiq-research ~/.config/opencode/skills/aiq-research

Tras reiniciar la sesión, el harness expone una sola capacidad de deep research. Frases como "investiga el paisaje regulatorio para X a través de nuestras políticas internas y produce un memo" se rutean automáticamente a AI-Q, que envía el job, hace el polling y devuelve un reporte estructurado con citas.

Integración MCP segura: AI-Q como cliente MCP

La segunda mitad del lanzamiento es el acceso a datos. AI-Q ahora soporta de primera clase la conexión a servidores MCP autenticados como fuentes de datos. Las pipelines de investigación pueden consumir los mismos sistemas empresariales que ya usan los agentes, sin levantar un stack de retrieval paralelo.

AI-Q está construido sobre el NeMo Agent Toolkit, por lo que los servidores MCP se enchufan como function groups. NVIDIA documenta tres patrones de integración:

  • Servidores MCP sin autenticación: el caso más simple, con mcp_client apuntando a la URL del servidor. AI-Q descubre y registra las herramientas remotas como funciones del NeMo Agent Toolkit.
  • Autenticación por service account: el patrón preferido para CI, batch jobs y fuentes empresariales compartidas, con bloques de configuración para client_id, client_secret y token_url.
  • Forwarding de la identidad del usuario autenticado: para APIs downstream que ya confían en el bearer token del usuario de AI-Q. El token se captura al enviar el job y se restaura dentro de los workers asíncronos de Dask. Los tokens aún no se refrescan a mitad de job, lo que está en la roadmap del próximo release.

Para nuevos despliegues, NVIDIA recomienda transport: streamable-http (obligatorio para servidores MCP protegidos y preferido sobre sse en escenarios productivos con autenticación).

¿Por qué importa para empresas reguladas?

El argumento operativo, y la apuesta más fuerte del blueprint, es que AI-Q corre donde están los datos. NVIDIA destaca tres propiedades para industrias reguladas (salud, finanzas, gobierno, defensa):

  • El pipeline corre donde vive el dato: AI-Q lee información empresarial, hace retrieval y síntesis, y produce reportes sin que los documentos crudos salgan del entorno controlado. El harness del agente recibe solo el resultado con citas, no acceso directo a las fuentes.
  • Modelos abiertos auto-alojados: los modelos abiertos NVIDIA Nemotron pueden correr on-prem como NIM, mientras los modelos de frontera quedan como alternativa configurable. Permite enrutar tareas sensibles al modelo on-prem y dejar al frontier solo para orquestación, o desactivar el frontier completo.
  • Auditabilidad integrada: los reportes incluyen atribución de fuentes y NeMo Agent Toolkit emite trazas OpenTelemetry. Los equipos de cumplimiento pueden inspeccionar qué fuentes se recuperaron, cómo se usaron y cómo se produjo la respuesta final.

¿Qué significa para equipos de IA en Chile?

Para áreas de banca, salud y servicios financieros chilenos que evalúan agentes de IA con datos internos, AI-Q baja el costo de adopción en tres frentes concretos:

  • Sin construir retrieval propio: el pipeline completo (chunking, embedding, ranking, síntesis con citas) viene listo, configurable vía Docker Compose o Helm.
  • Soberanía de datos: los reportes se generan sin que los datos crudos salgan del cluster. Relevante para regulación financiera local (CMF, SBIF) y datos clínicos protegidos por la ley 21.668 de protección de datos personales.
  • Costo de cómputo flexible: las tareas pesadas pueden delegarse a Nemotron on-prem, mientras Claude o GPT-5 quedan reservados para orquestación. Esto puede reducir el costo de tokens 5-10× según la mezcla.

El blueprint está disponible en el repositorio AI-Q con guías para Docker Compose y Kubernetes Helm charts. La documentación para agregar una fuente de datos cubre los tres patrones MCP en detalle.