Saltar al contenido
Etiqueta

#benchmarks

14 notas publicadas

ARM en Linux server: 7x más rápido en 8 años, 15x con Vera
Open Source

ARM en Linux server: 7x más rápido en 8 años, 15x con Vera

Phoronix midió a NVIDIA Vera de 88 cores contra el Ampere eMAG de 32 cores de 2018, sobre Ubuntu 24.04 y GCC 16.1: el promedio geométrico mejora 7x solo por hardware ARM.

Phoronix Tests
Blackwell HGX B200 marca récord STAC-AI en finanzas
IA

Blackwell HGX B200 marca récord STAC-AI en finanzas

El benchmark STAC-AI LANG6 con Llama 3.1 8B y 70B muestra hasta 2,8x más rendimiento por GPU frente a Hopper en cargas de inferencia con documentos EDGAR.

NVIDIA Developer
ITBench-AA: ningun frontier LLM supera 50% en tareas SRE
IA

ITBench-AA: ningun frontier LLM supera 50% en tareas SRE

El primer benchmark IBM-Artificial Analysis para agentes en operaciones IT de empresa coloca a Claude Opus 4.7 al frente con 47%, seguido por GPT-5.5 con 46% y Qwen3.7 Max con 42%.

Hugging Face
Minuteman: la primera FFF en imprimir un Benchy bajo 60 segundos
Robótica

Minuteman: la primera FFF en imprimir un Benchy bajo 60 segundos

Tras 18 meses y 19 episodios documentados, Jan Roetz logró bajar el clásico benchmark 3D Benchy a menos de un minuto en una impresora FFF construida sobre una losa de granito como contrapeso.

Hackster.io
Los LLM aciertan respuestas pero citan fuentes equivocadas
IA

Los LLM aciertan respuestas pero citan fuentes equivocadas

El benchmark CiteVQA de la Universidad de Pekín muestra que hasta el mejor modelo (Gemini 3.1 Pro Preview) saca solo 76/100 cuando se exige que la cita apunte al párrafo correcto del PDF.

The Decoder
Gemini 3.5 Flash es 5,5 veces más caro que su predecesor
IA

Gemini 3.5 Flash es 5,5 veces más caro que su predecesor

El modelo más rápido en su clase de inteligencia consume tantos tokens en tareas de agentes que supera incluso al Gemini 3.1 Pro en costo total.

The Decoder
WorldReasonBench: Seedance lidera y la logica derriba a todos
IA

WorldReasonBench: Seedance lidera y la logica derriba a todos

Tsinghua publicó un benchmark de 400 casos en cuatro dimensiones de razonamiento; los modelos comerciales doblan a los open source, pero la lógica desnuda a toda la categoría.

The Decoder
Claude Mythos lidera ExploitBench y supera a GPT-5.5 en V8
IA

Claude Mythos lidera ExploitBench y supera a GPT-5.5 en V8

Carnegie Mellon publicó un benchmark de 41 vulnerabilidades reales del motor V8: Anthropic alcanzó ejecución arbitraria en 21 casos, pero el costo fue 12 veces el de GPT-5.5.

The Decoder
Microsoft: agentes IA pierden 25% del contenido en tareas largas
Electrónica

Microsoft: agentes IA pierden 25% del contenido en tareas largas

El paper LLMs Corrupt Your Documents When You Delegate prueba 52 dominios profesionales. Solo Python pasa el umbral de listo para producción según Microsoft Research.

The Register
Deriva de detectores de IA: cómo los LLM modernos los dejan obsoletos
IA

Deriva de detectores de IA: cómo los LLM modernos los dejan obsoletos

Un benchmark contra ensayos generados por Kimi K2 en modo razonamiento reveló que ZeroGPT solo detectó el 38% del contenido de IA, frente al 97% esperado según métricas históricas.

Dev.to AI tag
GPT-5.5 lidera rankings de IA pero sigue alucinando y cuesta 20% más
IA

GPT-5.5 lidera rankings de IA pero sigue alucinando y cuesta 20% más

El nuevo modelo de OpenAI lidera el Artificial Analysis Intelligence Index con 60 puntos, pero registra una tasa de alucinación del 86% en benchmarks factuales, casi el triple que Claude Opus 4.7.

The Decoder
Científico jefe de OpenAI: el avance de IA fue "sorprendentemente lento"
IA

Científico jefe de OpenAI: el avance de IA fue "sorprendentemente lento"

Jakub Pachocki promete mejoras "extremadamente significativas" en el mediano plazo, mientras un sector creciente de investigadores cuestiona si los LLMs son el camino correcto.

The Decoder
Qwen3.6-27B supera en código a su predecesor quince veces más grande
IA

Qwen3.6-27B supera en código a su predecesor quince veces más grande

El nuevo modelo denso de código abierto de Alibaba con 27.000 millones de parámetros lidera casi todos los benchmarks de programación frente al Qwen3.5-397B-A17B.

The Decoder
GPT-5.5 vuelve al primer lugar con alucinaciones récord y 20% más caro
IA

GPT-5.5 vuelve al primer lugar con alucinaciones récord y 20% más caro

OpenAI recupera el liderazgo en benchmarks de IA con GPT-5.5, pero su modelo tiene una tasa de alucinación del 86%, muy superior al 36% de Claude Opus 4.7.

The Decoder

Etiquetas relacionadas

Otros temas que aparecen junto a #benchmarks en nuestra cobertura editorial.