Saltar al contenido
Etiqueta

#gpt 5

22 notas publicadas

ITBench-AA: ningun frontier LLM supera 50% en tareas SRE
IA

ITBench-AA: ningun frontier LLM supera 50% en tareas SRE

El primer benchmark IBM-Artificial Analysis para agentes en operaciones IT de empresa coloca a Claude Opus 4.7 al frente con 47%, seguido por GPT-5.5 con 46% y Qwen3.7 Max con 42%.

Hugging Face
Los LLM aciertan respuestas pero citan fuentes equivocadas
IA

Los LLM aciertan respuestas pero citan fuentes equivocadas

El benchmark CiteVQA de la Universidad de Pekín muestra que hasta el mejor modelo (Gemini 3.1 Pro Preview) saca solo 76/100 cuando se exige que la cita apunte al párrafo correcto del PDF.

The Decoder
OpenAI dice que GPT-next refutó un problema de Erdős por menos de USD 1
IA

OpenAI dice que GPT-next refutó un problema de Erdős por menos de USD 1

Un modelo de propósito general, sin asistente formal tipo Lean, descartó una conjetura de geometría discreta abierta desde 1946 con un cómputo estimado en 32 horas.

Latent Space
OpenClaw: USD 1,3 millones en tokens de OpenAI en un mes
Electrónica

OpenClaw: USD 1,3 millones en tokens de OpenAI en un mes

Peter Steinberger, el desarrollador austríaco que se unió a OpenAI en febrero, mostró un dashboard con 603.000 millones de tokens y 7,6 millones de requests procesados por 100 agentes Codex.

Tom's Hardware
ChatGPT se conecta a tu banco y arma un dashboard financiero
IA

ChatGPT se conecta a tu banco y arma un dashboard financiero

Una nueva función para suscriptores Pro de Estados Unidos enlaza cuentas vía Plaid, sincroniza gastos y deriva las consultas al modelo GPT-5.5 Thinking, con acceso solo de lectura.

The Decoder
Claude Mythos lidera ExploitBench y supera a GPT-5.5 en V8
IA

Claude Mythos lidera ExploitBench y supera a GPT-5.5 en V8

Carnegie Mellon publicó un benchmark de 41 vulnerabilidades reales del motor V8: Anthropic alcanzó ejecución arbitraria en 21 casos, pero el costo fue 12 veces el de GPT-5.5.

The Decoder
ChatGPT Pro enlaza cuentas bancarias vía Plaid en EE.UU.
IA

ChatGPT Pro enlaza cuentas bancarias vía Plaid en EE.UU.

Los suscriptores Pro estadounidenses ya pueden vincular más de 12.000 instituciones financieras a través de Plaid para obtener análisis de gasto, planificación y resúmenes de cartera.

TechCrunch AI
OpenAI lanza Daybreak para cazar vulnerabilidades con IA
IA

OpenAI lanza Daybreak para cazar vulnerabilidades con IA

La nueva iniciativa de seguridad combina GPT-5.5-Cyber y Codex Security, y llega un mes después de que Anthropic anunciara Claude Mythos dentro de su Project Glasswing.

The Verge
OpenAI lanza Daybreak: Codex Security al centro del parche
IA

OpenAI lanza Daybreak: Codex Security al centro del parche

Daybreak combina GPT-5.5, el agente Codex Security y mas de 20 partners para hallar y parchar vulnerabilidades en el ciclo de desarrollo, bajo Trusted Access for Cyber.

MarkTechPost
Daybreak: la respuesta de OpenAI al Claude Mythos de Anthropic
IA

Daybreak: la respuesta de OpenAI al Claude Mythos de Anthropic

La nueva iniciativa de ciberseguridad de OpenAI usará GPT-5.5, GPT-5.5 con Trusted Access y GPT-5.5-Cyber, e integra a Cloudflare, Cisco y CrowdStrike.

Engadget
GPT-5.5 cuesta 49 a 92 por ciento más que su predecesor
IA

GPT-5.5 cuesta 49 a 92 por ciento más que su predecesor

Un análisis de OpenRouter sobre el uso real durante abril de 2026 muestra que el alza real en la factura mensual depende del largo del input y golpea más fuerte a quien usa prompts cortos.

The Decoder
ChatGPT 5.5 Pro produce un paper matemático nivel doctorado en horas
IA

ChatGPT 5.5 Pro produce un paper matemático nivel doctorado en horas

El medallista Fields Timothy Gowers afirma que el modelo de OpenAI resolvió un problema abierto de teoría de números en 17 minutos y construyó un preprint completo sin guía matemática humana.

The Decoder
Por qué ChatGPT se obsesionó con goblins, según OpenAI
IA

Por qué ChatGPT se obsesionó con goblins, según OpenAI

Las menciones de 'goblin' subieron 175% tras el lanzamiento de GPT-5.1, y el equipo trazó el problema a un reward signal mal calibrado en la personalidad Nerdy.

The Decoder
GPT-5.5 iguala a Claude Mythos en ciberataques, dice AISI
IA

GPT-5.5 iguala a Claude Mythos en ciberataques, dice AISI

El AI Security Institute británico evaluó al modelo de OpenAI con 95 ejercicios capture-the-flag y un simulador empresarial: es el segundo en resolverlo completo, tras Claude Mythos Preview.

The Decoder
GPT-5.5 y Opus 4.7 cometen los mismos tres errores en ARC-AGI-3
IA

GPT-5.5 y Opus 4.7 cometen los mismos tres errores en ARC-AGI-3

Un análisis de 160 partidas detectó tres patrones recurrentes que explican por qué ambos modelos siguen bajo el 1% del benchmark.

The Decoder
GPT-5.5-Cyber: OpenAI restringe su modelo de ciberseguridad
IA

GPT-5.5-Cyber: OpenAI restringe su modelo de ciberseguridad

Sam Altman dijo que el nuevo modelo solo se desplegará en los próximos días para una lista cerrada de defensores cibernéticos vetados, replicando la estrategia de Anthropic con Claude Mythos.

The Verge
OpenAI aterriza en AWS un día después de renegociar con Microsoft
IA

OpenAI aterriza en AWS un día después de renegociar con Microsoft

Amazon estrenó tres servicios de OpenAI en Bedrock, incluido un agente empresarial gestionado, apenas 24 horas después de que Microsoft cediera sus derechos de exclusividad sobre Azure.

The Decoder
OpenAI: borrar prompts viejos para sacarle el máximo a GPT-5.5
IA

OpenAI: borrar prompts viejos para sacarle el máximo a GPT-5.5

Una nueva guía de OpenAI advierte que los prompts heredados de modelos anteriores limitan el rendimiento de GPT-5.5 y recomienda partir desde cero con instrucciones mínimas orientadas al resultado.

The Decoder
GPT-5.5 lidera rankings de IA pero sigue alucinando y cuesta 20% más
IA

GPT-5.5 lidera rankings de IA pero sigue alucinando y cuesta 20% más

El nuevo modelo de OpenAI lidera el Artificial Analysis Intelligence Index con 60 puntos, pero registra una tasa de alucinación del 86% en benchmarks factuales, casi el triple que Claude Opus 4.7.

The Decoder
Científico jefe de OpenAI: el avance de IA fue "sorprendentemente lento"
IA

Científico jefe de OpenAI: el avance de IA fue "sorprendentemente lento"

Jakub Pachocki promete mejoras "extremadamente significativas" en el mediano plazo, mientras un sector creciente de investigadores cuestiona si los LLMs son el camino correcto.

The Decoder
OpenAI vuelve a matar Codex y lo absorbe dentro de GPT-5.5
IA

OpenAI vuelve a matar Codex y lo absorbe dentro de GPT-5.5

GPT-5.5 promete avances en coding agéntico y menor consumo de tokens, pero el precio del API igual sube cerca del 20% según los primeros tests publicados.

The Decoder
500 banqueros revisan outputs de IA: ninguno listo para clientes
IA

500 banqueros revisan outputs de IA: ninguno listo para clientes

BankerToolBench evalúa GPT-5.4, Claude Opus 4.6 y Gemini 3.1 Pro en tareas reales de banca de inversión, y la mitad de los outputs falla incluso como borrador inicial.

The Decoder

Etiquetas relacionadas

Otros temas que aparecen junto a #gpt 5 en nuestra cobertura editorial.