Etiqueta

#benchmarks

26 notas publicadas

Claude Opus 5 lidera benchmarks y cuesta menos que Fable 5

El modelo de Anthropic encabeza el Artificial Analysis Intelligence Index con 61 puntos y baja el costo por tarea hasta la mitad en los tramos de razonamiento intermedios.

The Decoderhace 17 horas

Claude Opus 5 casi iguala a Fable 5 a mitad de precio

El nuevo modelo insignia de Anthropic lidera en programacion agentica y trabajo de conocimiento, y cuesta la mitad por token que Fable 5.

The Decoderayer

Kimi K3: el modelo abierto de 2,8 billones que reta a Opus 4.8

Moonshot AI lanzo su modelo mas capaz, con pesos abiertos prometidos para el 27 de julio; supera a GPT-5.5 y Opus 4.8 en sus propios benchmarks, pero cobra como la gama Claude Sonnet.

Simon Willisonhace 6 días

Robótica

RoboLab de NVIDIA evalua robots generalistas en simulacion

La plataforma mide no solo si un robot completa la tarea, sino cuando falla, por que falla y con cuanta confianza estadistica se puede afirmar que una politica es mejor que otra.

The Robot Report15 jul

Open Source

Graviton5 supera al Xeon Granite Rapids pero no al EPYC Turin

Los primeros benchmarks del nuevo procesador Arm de AWS lo ubican por delante del Intel Xeon 6, aunque todavía por debajo del AMD EPYC Turin en la nube EC2.

Phoronix Tests15 jul

NVIDIA presenta RoboLab para evaluar robots de forma justa

La plataforma de NVIDIA Research busca resolver uno de los problemas sin resolver de la robótica: cómo medir de verdad si una política de control funcionará fuera del laboratorio.

NVIDIA Developer12 jul

Muse Spark 1.1 de Meta supera a GLM-5.2 en programación

El modelo empata en el Intelligence Index de Artificial Analysis, gana el duelo de programación y llega con un costo por tarea más bajo que sus rivales directos.

The Decoder12 jul

Grok 4.5 es tan barato que los benchmarks importan menos

El modelo de xAI queda detrás de Fable 5 y GPT-5.5 en varios benchmarks de programación, pero cuesta 2 dólares por millón de tokens de entrada y usa 4,2 veces menos tokens que Opus 4.8.

The Decoder11 jul

GPT-5.6 Sol casi iguala a Fable 5 a un tercio del costo

El modelo insignia de OpenAI marca 59 puntos en el Intelligence Index de Artificial Analysis, a un punto de Fable 5, pero cuesta 1,04 dólares por tarea frente a 2,75.

The Decoder11 jul

OpenAI: casi 30% del test de código SWE-Bench Pro falla

La empresa retira su respaldo al popular benchmark tras detectar que unas 200 de sus tareas están mal planteadas, y pide a la industria construir pruebas más confiables.

The Decoder11 jul

OpenAI vence a todos los humanos en la final de AtCoder

En la final del AtCoder World Tour 2026, un sistema de OpenAI resolvió los cinco problemas de la división de algoritmos y superó por amplio margen a los mejores programadores competitivos del mundo.

The Decoder9 jul

Databricks adopta GLM 5.2 como motor de código por defecto

El modelo abierto chino igualó a Opus 4.8 en un benchmark interno de Databricks a 1,28 dólares por tarea frente a 1,94, y pasa a ser el modelo de trabajo diario de sus desarrolladores.

The Decoder9 jul

Claude Fable 5 lidera los benchmarks de industria a un precio alto

Los nuevos índices de Artificial Analysis colocan al modelo de Anthropic primero en finanzas, derecho y medicina, pero una sola tarea puede costar más de cien veces que una alternativa abierta.

The Decoder8 jul

Open Source

SpacemiT K3: primeros benchmarks de RVV 1.0 sobre RISC-V RVA23

Phoronix midió el impacto de la extensión vectorial en el SoC de 16 núcleos X100/A100 con Bianbu 4.0, Linux 6.18 y GCC 15.2, y descubrió que apagar RVV por sysfs simplemente rompe el sistema.

Phoronix Tests6 jul

AISI británico: benchmarks fijos subestiman a los agentes IA

El AI Security Institute demostró que aumentar 10× el presupuesto de tokens sube el desempeño hasta 25 puntos en tareas de ingeniería de software y modifica la curva real de progreso del frontier.

The Decoder4 jul

Paper de OpenAI filtra tres variantes Pro para GPT-5.6

Un benchmark de genómica lista por primera vez Luna Pro, Terra Pro y Sol Pro; Sol Pro alcanza 31,5% de pass rate en la prueba.

The Decoder3 jul

Claude Sonnet 5 casi duplica el costo real por tarea

Consume 40% más tokens de salida que Sonnet 4.6 y triplica los ciclos de agente. El costo promedio salta de USD 1,20 a USD 2,29, aún más caro que el propio Opus 4.8.

The Decoder2 jul

CEO-Bench: solo 3 modelos IA sobrevivieron 500 días de startup

Princeton diseñó un benchmark donde agentes IA dirigen una startup ficticia por 500 días simulados. La mayoría quiebra, y una heurística sin IA supera a casi todos los modelos probados.

The Decoder2 jul

Electrónica

NVIDIA Vera vs Ampere Altra Max: benchmarks ARM en Linux

Phoronix midió la CPU Olympus de 88 núcleos frente al SoC Altra Max de 128 Neoverse-N1, en igual stack Ubuntu 24.04 LTS sobre System76 Thelio Astra.

Phoronix Tests22 jun

Claude Fable 5 cuesta el doble por solo 5,7% más rendimiento

El nuevo tope de gama de Anthropic lidera el Artificial Analysis Intelligence Index con 64,9 puntos, pero su corrida completa de benchmarks bordea los USD 10.000, el doble que Opus 4.8.

The Decoder13 jun

Open Source

ARM en Linux server: 7x más rápido en 8 años, 15x con Vera

Phoronix midió a NVIDIA Vera de 88 cores contra el Ampere eMAG de 32 cores de 2018, sobre Ubuntu 24.04 y GCC 16.1: el promedio geométrico mejora 7x solo por hardware ARM.

Phoronix Tests5 jun

Blackwell HGX B200 marca récord STAC-AI en finanzas

El benchmark STAC-AI LANG6 con Llama 3.1 8B y 70B muestra hasta 2,8x más rendimiento por GPU frente a Hopper en cargas de inferencia con documentos EDGAR.

NVIDIA Developer28 may

ITBench-AA: ningun frontier LLM supera 50% en tareas SRE

El primer benchmark IBM-Artificial Analysis para agentes en operaciones IT de empresa coloca a Claude Opus 4.7 al frente con 47%, seguido por GPT-5.5 con 46% y Qwen3.7 Max con 42%.

Hugging Face28 may

Los LLM aciertan respuestas pero citan fuentes equivocadas

El benchmark CiteVQA de la Universidad de Pekín muestra que hasta el mejor modelo (Gemini 3.1 Pro Preview) saca solo 76/100 cuando se exige que la cita apunte al párrafo correcto del PDF.

The Decoder25 may

Gemini 3.5 Flash es 5,5 veces más caro que su predecesor

El modelo más rápido en su clase de inteligencia consume tantos tokens en tareas de agentes que supera incluso al Gemini 3.1 Pro en costo total.

The Decoder21 may

WorldReasonBench: Seedance lidera y la logica derriba a todos

Tsinghua publicó un benchmark de 400 casos en cuatro dimensiones de razonamiento; los modelos comerciales doblan a los open source, pero la lógica desnuda a toda la categoría.

The Decoder16 may

Etiquetas relacionadas

Otros temas que aparecen junto a #benchmarks en nuestra cobertura editorial.

#LLM11 #Claude7 #Anthropic6 #Openai6 #GPT-56 #Agentes IA5 #Nvidia4 #Coding Agent4