Etiqueta

#benchmarks ia

5 notas publicadas

OpenAI dice que GPT-5.6 Sol supera a Opus 5 en ARC-AGI-3

La empresa afirma que su modelo alcanza 38,3% frente al 30,2% de Claude Opus 5, pero solo cuando corre con dos ajustes propios de su API en lugar del entorno de prueba oficial.

The Decoderayer

Kimi K3, el modelo abierto que se acerca a GPT-5.6 Sol

El nuevo buque insignia de Kimi suma 2,8 billones de parametros y un millon de tokens de contexto, pero rompe con la era del modelo chino ultrabarato.

The Decoder17 jul

Fable 5 alcanza 16% en el índice RLI de tareas freelance

El benchmark de Scale Labs y el Center for AI Safety mide agentes en 240 proyectos reales por USD 144.000: la tasa top se cuadruplicó en ocho meses.

The Decoder4 jul

Claude Sonnet 5 alcanza a Opus 4.8 en trabajo cognitivo

El nuevo modelo agentic de Anthropic mejora en cada benchmark sobre Sonnet 4.6, se acerca a Opus 4.8 y en el test GDPval-AA v2 lo supera con 1.618 puntos frente a 1.615.

The Decoder1 jul

Opus 4.7 lidera MirrorCode con 56% reconstruyendo programas

En la nueva benchmark de Epoch AI y METR, GPT-5.5 alcanza 44% y Gemini 3.1 Pro un 32%; una tarea costó USD 2.600 y 19 días de inferencia continua sin intervención humana.

The Decoder28 jun

Etiquetas relacionadas

Otros temas que aparecen junto a #benchmarks ia en nuestra cobertura editorial.

#Anthropic2 #LLM2 #Agentes IA2 #claude-opus-4-71 #mirrorcode1 #epoch-ai1 #Coding Agent1 #Claude1