
ITBench-AA: ningun frontier LLM supera 50% en tareas SRE
El primer benchmark IBM-Artificial Analysis para agentes en operaciones IT de empresa coloca a Claude Opus 4.7 al frente con 47%, seguido por GPT-5.5 con 46% y Qwen3.7 Max con 42%.
22 notas publicadas

El benchmark CiteVQA de la Universidad de Pekín muestra que hasta el mejor modelo (Gemini 3.1 Pro Preview) saca solo 76/100 cuando se exige que la cita apunte al párrafo correcto del PDF.

Un modelo de propósito general, sin asistente formal tipo Lean, descartó una conjetura de geometría discreta abierta desde 1946 con un cómputo estimado en 32 horas.

Peter Steinberger, el desarrollador austríaco que se unió a OpenAI en febrero, mostró un dashboard con 603.000 millones de tokens y 7,6 millones de requests procesados por 100 agentes Codex.

Una nueva función para suscriptores Pro de Estados Unidos enlaza cuentas vía Plaid, sincroniza gastos y deriva las consultas al modelo GPT-5.5 Thinking, con acceso solo de lectura.

Carnegie Mellon publicó un benchmark de 41 vulnerabilidades reales del motor V8: Anthropic alcanzó ejecución arbitraria en 21 casos, pero el costo fue 12 veces el de GPT-5.5.

Los suscriptores Pro estadounidenses ya pueden vincular más de 12.000 instituciones financieras a través de Plaid para obtener análisis de gasto, planificación y resúmenes de cartera.

La nueva iniciativa de seguridad combina GPT-5.5-Cyber y Codex Security, y llega un mes después de que Anthropic anunciara Claude Mythos dentro de su Project Glasswing.

Daybreak combina GPT-5.5, el agente Codex Security y mas de 20 partners para hallar y parchar vulnerabilidades en el ciclo de desarrollo, bajo Trusted Access for Cyber.

La nueva iniciativa de ciberseguridad de OpenAI usará GPT-5.5, GPT-5.5 con Trusted Access y GPT-5.5-Cyber, e integra a Cloudflare, Cisco y CrowdStrike.

Un análisis de OpenRouter sobre el uso real durante abril de 2026 muestra que el alza real en la factura mensual depende del largo del input y golpea más fuerte a quien usa prompts cortos.

El medallista Fields Timothy Gowers afirma que el modelo de OpenAI resolvió un problema abierto de teoría de números en 17 minutos y construyó un preprint completo sin guía matemática humana.

Las menciones de 'goblin' subieron 175% tras el lanzamiento de GPT-5.1, y el equipo trazó el problema a un reward signal mal calibrado en la personalidad Nerdy.

El AI Security Institute británico evaluó al modelo de OpenAI con 95 ejercicios capture-the-flag y un simulador empresarial: es el segundo en resolverlo completo, tras Claude Mythos Preview.

Un análisis de 160 partidas detectó tres patrones recurrentes que explican por qué ambos modelos siguen bajo el 1% del benchmark.

Sam Altman dijo que el nuevo modelo solo se desplegará en los próximos días para una lista cerrada de defensores cibernéticos vetados, replicando la estrategia de Anthropic con Claude Mythos.

Amazon estrenó tres servicios de OpenAI en Bedrock, incluido un agente empresarial gestionado, apenas 24 horas después de que Microsoft cediera sus derechos de exclusividad sobre Azure.

Una nueva guía de OpenAI advierte que los prompts heredados de modelos anteriores limitan el rendimiento de GPT-5.5 y recomienda partir desde cero con instrucciones mínimas orientadas al resultado.

El nuevo modelo de OpenAI lidera el Artificial Analysis Intelligence Index con 60 puntos, pero registra una tasa de alucinación del 86% en benchmarks factuales, casi el triple que Claude Opus 4.7.

Jakub Pachocki promete mejoras "extremadamente significativas" en el mediano plazo, mientras un sector creciente de investigadores cuestiona si los LLMs son el camino correcto.

GPT-5.5 promete avances en coding agéntico y menor consumo de tokens, pero el precio del API igual sube cerca del 20% según los primeros tests publicados.

BankerToolBench evalúa GPT-5.4, Claude Opus 4.6 y Gemini 3.1 Pro en tareas reales de banca de inversión, y la mitad de los outputs falla incluso como borrador inicial.
Otros temas que aparecen junto a #gpt 5 en nuestra cobertura editorial.