
NIST propone el primer benchmark estándar para humanoides
El instituto estadounidense busca cerrar el vacío que dejó el DARPA Robotics Challenge de 2015 con un set mínimo de pruebas de locomoción y manipulación.
5 notas publicadas

El instituto alemán crea una batería de pruebas modular basada en ISO 14644 y ISO TS 15066 para evaluar humanoides en condiciones reales de producción, salas limpias y seguridad funcional.

Un consorcio de 64 matemáticos diseñó 439 tareas para Gemini 3 Pro, GPT-5 y Claude Opus 4.5; ninguno supera el 50% al detectar problemas sin solución.

Anthropic publicó un benchmark con 99 preguntas escritas por especialistas y respuestas verificables sobre datasets reales. Claude Mythos Preview alcanza 82.6% en problemas resolubles por humanos.

BankerToolBench evalúa GPT-5.4, Claude Opus 4.6 y Gemini 3.1 Pro en tareas reales de banca de inversión, y la mitad de los outputs falla incluso como borrador inicial.
Otros temas que aparecen junto a #benchmark en nuestra cobertura editorial.