Un grupo de 13 autores liderado por Han Li publicó el 14 de mayo de 2026 el paper Solvita: Enhancing Large Language Models for Competitive Programming via Agentic Evolution, que propone un framework agentivo para que los LLMs resuelvan problemas duros de programación competitiva sin necesidad de reentrenar pesos.

¿Qué problema intenta resolver Solvita?

Los modelos de lenguaje grandes siguen tropezando con las exigencias de razonamiento riguroso que pide la programación competitiva. Los frameworks multi-agente recientes han intentado cerrar esa brecha, pero todos comparten una limitación estructural: son fundamentalmente stateless. Dependen de recuperación estática y descartan toda la experiencia de resolución y depuración acumulada en tareas anteriores.

¿Cómo funciona el sistema?

Solvita reorganiza la resolución de problemas en un sistema de bucle cerrado que combina cuatro etapas: selección de estrategia, síntesis de programa, supervisión certificada y hacking dirigido. Cada etapa la ejecuta un agente especializado:

  • Planner: selecciona la estrategia de ataque al problema.
  • Solver: sintetiza el programa candidato.
  • Oracle: certifica la calidad de los tests y la corrección del programa.
  • Hacker: busca vulnerabilidades adversariales en la solución propuesta.

Lo distintivo es que cada agente está acoplado a una red de conocimiento entrenable con estructura de grafo. A medida que el sistema opera, las señales de resultado (veredictos de éxito o fracaso, calidad de la certificación, vulnerabilidades encontradas por el Hacker) se traducen en actualizaciones de aprendizaje por refuerzo sobre los pesos de esas redes.

¿Qué gana Solvita frente a los pipelines actuales?

El efecto práctico es que los agentes aprenden a enrutar futuras consultas basándose en éxitos y fracasos previos. La experiencia de razonamiento se acumula y se transfiere entre tareas, sin tocar los pesos del LLM subyacente.

¿Cuán bueno es comparado con lo existente?

Los autores evaluaron Solvita en cuatro benchmarks: CodeContests, APPS, AetherCode y rondas en vivo de Codeforces. Los resultados reportados:

  • Establece un nuevo estado del arte entre agentes de generación de código.
  • Supera a los pipelines multi-agente existentes.
  • Casi duplica la exactitud de las líneas base de un solo paso.

El paper está disponible bajo el identificador arXiv:2605.15301, fue enviado el 14 de mayo de 2026 y la versión PDF pesa 824 KB.

¿Por qué importa en LATAM?

Para equipos de ingeniería de software en Chile y la región, donde los presupuestos para reentrenar modelos propietarios son inalcanzables, un framework como Solvita ofrece una alternativa concreta: en vez de pagar el costo (hoy entre USD 50.000 y USD 200.000) de un fine-tune especializado para tareas de código, se puede usar un LLM general bien acoplado a una capa de memoria entrenable. Si los números del paper se replican en producción, el ahorro es relevante.