Con los modelos frontera alcanzando ya nivel de medalla de oro en la Olimpiada Internacional de Matemáticas (IMO), la investigación en IA necesita benchmarks nuevos. SOOHAK, desarrollado en Carnegie Mellon University, EleutherAI y la Universidad Nacional de Seúl, entre otras instituciones, consta de 439 tareas originales.
Las pruebas se dividen en dos secciones: un conjunto "Challenge" con 340 problemas de nivel posgrado y de investigación, y un conjunto "Refusal" con 99 problemas deliberadamente defectuosos que contienen contradicciones o no admiten una respuesta clara.
A diferencia de colecciones habituales, SOOHAK no fue extraído de competencias ni libros de texto. Cada problema fue escrito desde cero por un equipo de 38 profesores, 25 doctorandos y postdoctorados, y cinco medallistas IMO. Antes de enviar, cada colaborador debió confirmar que trabajó sin ayuda de IA. Quien fuera sorprendido colando tareas generadas por LLM era expulsado del equipo.
¿Por qué la matemática de investigación sigue siendo un muro?
Según los autores, Gemini 3 Pro de Google obtuvo el mejor puntaje en el conjunto Challenge con un 30%, seguido por GPT-5 (versiones 5.1 y 5.2) con un 26%. Claude Opus 4.5 cae al 10%. Los modelos de pesos abiertos como Kimi-2.5, Qwen3-235B y GPT-OSS-120B se quedan todos por debajo del 15%. Ningún modelo evaluado pudo resolver 124 de las tareas Challenge.
En la versión compañera más fácil, SOOHAK-Mini (que va desde nivel olimpiada escolar hasta primeros años de universidad), los puntajes son mucho más altos y los modelos top se agrupan. La brecha solo se abre en matemática de investigación, especialmente para los modelos de pesos abiertos, lo que sugiere que estos sistemas transfieren peor a material no publicado por falta de cobertura en áreas de nicho.
¿Qué pasa cuando no hay solución?
El verdadero quiebre con benchmarks anteriores es el conjunto Refusal. Contiene problemas marcados como irresolubles durante el control de calidad porque les faltan supuestos o tienen contradicciones internas. Un modelo solo obtiene crédito si detecta y nombra explícitamente la falla, en lugar de producir un número con seguridad.
Ningún modelo cruza la barrera del 50% en este conjunto. El modelo de pesos abiertos GLM-5 lidera con casi 50%, superando tanto a GPT-5 como a Gemini 3 Pro. La familia Qwen3 colapsa a menos del 3%, fallando casi siempre en marcar un problema defectuoso.
Los autores describen la detección de problemas defectuosos como "un nuevo objetivo de optimización que los modelos actuales no abordan directamente". Las tasas de solución suben casi linealmente con modelos más grandes y presupuestos de razonamiento más extensos. La capacidad de rechazo no sigue el mismo patrón. Más cómputo hace a los modelos mejores resolviendo, pero no mejor admitiendo que un problema no tiene respuesta.
¿Cómo se comparan con humanos?
Para la comparación con humanos, el equipo reclutó a 25 participantes distribuidos en cinco grupos, desde medallistas IMO hasta doctores en matemáticas. Sobre una selección de 79 tareas, los grupos en conjunto resolvieron el 51%. Solo Gemini 3 Pro superó esa cobertura combinada, alcanzando el 61%.
Los doctores en investigación rindieron peor que los estudiantes con trayectoria olímpica. Los autores lo atribuyen al formato: la ventana de 4,5 horas premia caminos cortos típicos de competencias, mientras que el rango temático amplio del benchmark no favorece a especialistas estrechos en investigación. SOOHAK mide principalmente matemática competitiva bajo presión de tiempo, no profundidad de investigación.
El dataset queda bloqueado hasta fin de 2026
El dataset completo no será público hasta fines de 2026, como precaución contra la contaminación de datos de entrenamiento. Hasta entonces, el equipo evaluará modelos a pedido. Los autores son explícitos sobre las limitaciones de SOOHAK: exigir respuestas numéricas limpias deja fuera grandes franjas de matemática superior que se examinarían mejor mediante demostraciones, construcciones o contraejemplos. Una versión futura necesitaría formatos más ricos, como asistentes de prueba formales o paneles de revisión expertos.
Cuánto avanza realmente la IA en investigación matemática sigue siendo una pregunta abierta. El medallista Fields Timothy Gowers dijo recientemente que ChatGPT 5.5 Pro produjo en menos de dos horas un resultado de nivel doctorado en teoría de números, convirtiendo una cota exponencial en polinomial. GPT-5.2 Pro encontró una demostración nueva del problema #281 de Erdős que el matemático Terence Tao calificó como "bastante distinta" a las demostraciones anteriores.
Tao es cuidadoso de no leer demasiado en esos triunfos. Cuando corrió una revisión sistemática sobre problemas Erdős abiertos, la tasa real de éxito de los modelos fue de 1% a 2%, y mayoritariamente en los más fáciles. Esa brecha entre algunos resultados llamativos y la habilidad amplia real es justamente lo que SOOHAK busca medir con precisión.




