Un archivo Markdown bien afinado puede subir el rendimiento de GPT-5.5 en cerca de 23 puntos en tareas procedimentales, sin tocar un solo peso del modelo. Esa es la promesa de SkillOpt, un método publicado por Microsoft junto a tres universidades chinas que entrena los llamados "skill documents" usados por agentes de IA con la misma lógica con la que se entrenan los modelos.
Los documentos de habilidades, o skills, ya son comunes en productos comerciales. Anthropic agregó el año pasado un sistema modular a Claude que carga instrucciones, scripts y recursos específicos según la tarea. Estos archivos suelen incluir procedimientos, reglas de uso de herramientas, formatos de salida y patrones conocidos de fallo. Hasta hoy, según el paper de Microsoft, se redactaban a mano, se generaban en una sola pasada por un modelo, o se autorrevisaban de forma laxa. Ninguna de esas vías garantiza que el skill efectivamente mejore.
¿Cómo entrena SkillOpt un documento de texto?
SkillOpt trata al documento como un estado externo y entrenable para un modelo destino que se mantiene congelado. Un segundo modelo separado actúa como optimizador: lee los logs de las corridas del agente, identifica patrones de error y éxito que se repiten, y propone ediciones acotadas al skill —agregar, eliminar o reemplazar pasajes individuales—. Cada cambio se acepta solo si rinde mejor en un set de validación reservado.
Los autores mapean conceptos clásicos de deep learning al nivel del texto:
- Una "learning rate" limita cuántas ediciones pueden entrar por paso.
- Un scheduler reduce el tamaño del paso a lo largo de las épocas.
- Las ediciones rechazadas van a un buffer y sirven como ejemplos negativos para reflexión posterior.
- Una actualización lenta al cierre de cada época preserva direcciones de edición estables entre rondas, análogo al gradient smoothing.
El modelo destino solo recibe en inferencia un archivo Markdown de 300 a 2.000 tokens como contexto. El optimizador desaparece tras el entrenamiento, sin costo en deployment.
¿Cuánto rinde frente a otros métodos?
Los autores corrieron SkillOpt sobre seis benchmarks: búsqueda, planillas, análisis documental, matemática y acción embebida. Como modelos objetivo usaron siete sistemas, entre ellos GPT-5.5 y el mucho más chico Qwen3.5-4B. Las tareas se ejecutaron tanto en chat directo como dentro de los entornos agénticos Codex y Claude Code.
En cada combinación, SkillOpt empata o supera al mejor competidor. Eso vale contra skills escritos a mano, contra skills generados en una pasada por un LLM, y contra métodos especializados como Trace2Skill, TextGrad, GEPA y EvoSkill. En GPT-5.5 con chat directo, el promedio de los seis benchmarks sube alrededor de 23 puntos.
Los mayores saltos aparecen en tareas con requisitos estrictos de formato y uso de herramientas, como edición de planillas. Los modelos chicos también se benefician, evidencia de que un skill bien entrenado entrega conocimiento procedimental que no está en los pesos.
¿Las habilidades son transferibles?
Sí, y es uno de los hallazgos más útiles del paper. Un skill entrenado sobre un modelo grande mejora también a los chicos de la misma familia. Una habilidad para planillas entrenada dentro del loop de Codex funciona sin cambios en Claude Code, alcanzando ahí el mismo nivel que un skill entrenado nativamente. Una habilidad de matemática optimizada con problemas de olimpiada sigue rindiendo en un benchmark relacionado sin reentrenar.
Los ablations muestran que la estabilidad depende de cuatro ingredientes combinados: paso acotado, gating por validación, feedback negativo y consolidación a largo plazo. Quitar la actualización lenta al fin de época cuesta más de veinte puntos en SpreadsheetBench, la mayor caída registrada.
¿Qué tan compactos quedan los documentos?
Los skills finales casi nunca pasan los 2.000 tokens, y las mejoras vienen de apenas una a cuatro ediciones aceptadas a lo largo de cuatro épocas de entrenamiento. En OfficeQA, la mayor ganancia vino de un único cambio aceptado. Las reglas aprendidas se leen como si las hubiera anotado un practicante experimentado: "para planillas, primero revisa la estructura de la hoja y escribe valores ya evaluados en todo el rango destino en lugar de fórmulas Excel". Para ALFWorld, mantiene un log de ubicaciones visitadas y evita ir al objetivo antes de levantar el objeto pedido. Ninguna regla apunta a una tarea específica: describen procedimientos.
Las limitaciones reconocidas por los autores: el método depende de scoring automático confiable. Para tareas abiertas donde el éxito es difícil de medir, la validación necesita juicio humano o LLM. SkillOpt además optimiza un único documento, no una librería completa de skills, lo que podría volverse cuello de botella en dominios muy variados.
¿Dónde encaja en la carrera de modelos que se mejoran solos?
El paper se inscribe en una familia de propuestas recientes de self-improvement. OpenClaw-RL, de Princeton, usa señales de seguimiento de cada interacción como fuente viva de entrenamiento. MetaClaw extrae reglas conductuales de tareas fallidas y las inyecta en el prompt, actualizando pesos solo en fases ociosas vía RL. SkillOpt va por la vía más liviana: deja el modelo congelado y solo cambia un archivo de texto legible.




