El matemático británico Timothy Gowers, titular de la Cátedra de Combinatoria del Collège de France y Fellow del Trinity College de Cambridge, escribió en su blog que ChatGPT 5.5 Pro produjo un trabajo de investigación matemática a nivel doctoral mientras él aportaba "cero" contribución matemática. El modelo de OpenAI hizo todo el trabajo en menos de dos horas. "Ni siquiera fui ingenioso con los prompts", reconoce Gowers.

¿Qué problema resolvió ChatGPT 5.5 Pro?

Gowers le entregó al modelo problemas abiertos de un paper del teórico de números Mel Nathanson. Ese trabajo investiga los tamaños posibles de ciertos conjuntos de sumas enteras y la eficiencia con la que se pueden construir conjuntos con propiedades prescritas.

Nathanson había demostrado una cota exponencial para uno de los problemas y preguntaba si podía mejorarse. Según Gowers, ChatGPT 5.5 Pro pensó durante 17 minutos y 5 segundos y devolvió la construcción óptima con una cota cuadrática. La idea central: el modelo reemplazó un componente de la demostración de Nathanson por una variante más eficiente, bien conocida en combinatoria, pero cuya aplicación a este problema específico no resultaba obvia.

Cuando se lo pidió, ChatGPT reescribió el argumento como un preprint en LaTeX en 2 minutos y 23 segundos. Gowers verificó la corrección y luego le pasó una variante relacionada, que el modelo resolvió sin inconvenientes. Ambos resultados están disponibles como preprint.

El segundo problema: una escalada gradual

Una versión generalizada del problema resultó mucho más difícil. Ahí había trabajo previo de Isaac Rajagopal, estudiante del MIT, que había probado una dependencia exponencial. Gowers entregó a ChatGPT el paper de Rajagopal y pidió una mejora.

Lo que siguió fue una escalada gradual:

  • A los 16 minutos y 41 segundos, el modelo entregó una primera mejora. Rajagopal la juzgó correcta, pero la calificó como una modificación rutinaria de su propio trabajo.
  • Gowers se puso, según sus palabras, "codicioso" y le pidió a ChatGPT una cota mucho más fuerte.
  • 13 minutos y 33 segundos después, el modelo reportó optimismo y avisó que dos afirmaciones técnicas todavía necesitaban verificación.
  • Otros 9 minutos y 12 segundos más tarde, la verificación estaba lista.
  • El preprint final estuvo terminado en 31 minutos y 40 segundos acumulados.

El modelo había mejorado la cota de exponencial a polinómica.

¿Qué tan original es el resultado?

Rajagopal declaró que los resultados son "casi con certeza correctos", tanto en los pasos individuales de la demostración como en las ideas subyacentes. Su evaluación es matizada: la primera mejora fue una "modificación rutinaria" de su propio trabajo, pero la mejora a la cota polinómica fue "bastante impresionante".

Rajagopal califica la idea central del modelo como "bastante ingeniosa". El modelo encontró una manera contraintuitiva de comprimir ciertas estructuras algebraicas para que encajen en un rango numérico mucho más pequeño sin perder sus propiedades combinatorias críticas.

"Es el tipo de idea de la que estaría muy orgulloso si se me ocurriera tras una o dos semanas de reflexión, y a ChatGPT le tomó menos de una hora encontrarla y demostrarla, usando métodos similares a los de mi propia demostración", escribe Rajagopal. Hasta donde puede determinar, la idea era "completamente original".

¿Es esto un nuevo umbral para los matemáticos?

Gowers ubica el resultado al nivel de "un capítulo perfectamente razonable de un doctorado en combinatoria". Aclara que no es un "resultado asombroso", porque descansa fuertemente en las ideas de Rajagopal, pero sí es "una extensión definitivamente no trivial". Para un estudiante de doctorado, habría tomado tiempo considerable trabajar a través del paper de Rajagopal, identificar debilidades y adaptar las técnicas.

De ahí extrae una conclusión amplia: "La cota inferior para contribuir a la matemática será ahora demostrar algo que los LLMs no puedan demostrar".

Contexto: capacidades demostradas y costos

El experimento llega en un momento de tensión entre los avances de capacidad y los costos de los modelos frontera. ChatGPT 5.5 Pro duplicó el precio de lista respecto a GPT-5.4: los tokens de entrada cuestan ahora USD 5 por millón y los de salida USD 30 por millón (antes USD 2,50 y USD 15). Estudios de uso real de OpenRouter muestran que los costos reales subieron entre 49% y 92%, dependiendo del tamaño del input.

A ese precio, las dos horas de cómputo que Gowers describe representan probablemente decenas o cientos de dólares por preprint. Sigue siendo orden de magnitud más barato que una semana de trabajo de un postdoctorado, pero ya no es despreciable como costo operativo en una facultad.