Etiqueta

#benchmark

9 notas publicadas

GPT-4 lidero el ECI todo un ano, hoy los top duran 7 semanas

El Epoch Capabilities Index cambio de manos 17 veces desde que Claude 3 Opus destrono a GPT-4 en febrero de 2024, con estancias de siete semanas como mediana.

The Decoder7 jul

DiscoBench: los agentes IA fallan al preguntar, no al buscar

Un benchmark de Tencent Hunyuan y Tsinghua muestra que Gemini 3.1 Pro y Claude Opus 4.7 quedan bajo 50% porque asumen en vez de pedir aclaraciones cuando la consulta es ambigua.

The Decoder6 jul

GLM-5.2 iguala a Opus 4.7 a un quinto del costo en Snowflake

El modelo chino de Zhipu AI resuelve 66% de 103 tareas de programación contra el 67% de Anthropic, pero quema casi el doble de tokens y suma latencia con 99 iteraciones por tarea.

The Decoder27 jun

Agentes IA aciertan el archivo pero fallan las líneas clave

SWE-Explore, el primer benchmark que aísla la búsqueda de código de la reparación, revela que Claude Code, Codex y OpenHands solo cubren entre 14% y 19% de las líneas que importan.

The Decoder14 jun

Gemini-SQL2 de Google lidera benchmark text-to-SQL con 80% de precisión

Construido sobre Gemini 3.1 Pro, el sistema de Google Research aventaja por más de siete puntos a GPT-5.5-xhigh y casi diez a Claude Opus 4.6 en el ranking BIRD.

The Decoder14 jun

NVIDIA GB300 NVL72 rinde 20x más agentes que H200 en AA-AgentPerf

Artificial Analysis estrenó el primer benchmark multi-vendor que mide rendimiento concurrente de agentes de IA en cargas reales de coding, con resultados normalizados por acelerador y por megawatt.

NVIDIA Developer14 jun

NVIDIA Blackwell lidera el primer benchmark de IA agéntica

El GB300 NVL72 corre 20× más agentes por megawatt que el HGX H200 en AgentPerf, el primer benchmark de Artificial Analysis que mide cargas reales de agentes encadenando llamadas LLM.

NVIDIA Blog13 jun

Robótica

NIST propone el primer benchmark estándar para humanoides

El instituto estadounidense busca cerrar el vacío que dejó el DARPA Robotics Challenge de 2015 con un set mínimo de pruebas de locomoción y manipulación.

The Robot Report30 may

SOOHAK revela que los LLMs inventan respuestas a problemas imposibles

Un consorcio de 64 matemáticos diseñó 439 tareas para Gemini 3 Pro, GPT-5 y Claude Opus 4.5; ninguno supera el 50% al detectar problemas sin solución.

The Decoder17 may

Etiquetas relacionadas

Otros temas que aparecen junto a #benchmark en nuestra cobertura editorial.

#Agentes IA4 #Gemini3 #LLM2 #Claude2 #Nvidia2 #Openai2 #Coding Agent2 #Claude Opus2