ARM en Linux server: 7x más rápido en 8 años, 15x con Vera
Phoronix midió a NVIDIA Vera de 88 cores contra el Ampere eMAG de 32 cores de 2018, sobre Ubuntu 24.04 y GCC 16.1: el promedio geométrico mejora 7x solo por hardware ARM.
14 notas publicadas

El benchmark STAC-AI LANG6 con Llama 3.1 8B y 70B muestra hasta 2,8x más rendimiento por GPU frente a Hopper en cargas de inferencia con documentos EDGAR.

El primer benchmark IBM-Artificial Analysis para agentes en operaciones IT de empresa coloca a Claude Opus 4.7 al frente con 47%, seguido por GPT-5.5 con 46% y Qwen3.7 Max con 42%.

Tras 18 meses y 19 episodios documentados, Jan Roetz logró bajar el clásico benchmark 3D Benchy a menos de un minuto en una impresora FFF construida sobre una losa de granito como contrapeso.

El benchmark CiteVQA de la Universidad de Pekín muestra que hasta el mejor modelo (Gemini 3.1 Pro Preview) saca solo 76/100 cuando se exige que la cita apunte al párrafo correcto del PDF.

El modelo más rápido en su clase de inteligencia consume tantos tokens en tareas de agentes que supera incluso al Gemini 3.1 Pro en costo total.

Tsinghua publicó un benchmark de 400 casos en cuatro dimensiones de razonamiento; los modelos comerciales doblan a los open source, pero la lógica desnuda a toda la categoría.

Carnegie Mellon publicó un benchmark de 41 vulnerabilidades reales del motor V8: Anthropic alcanzó ejecución arbitraria en 21 casos, pero el costo fue 12 veces el de GPT-5.5.

El paper LLMs Corrupt Your Documents When You Delegate prueba 52 dominios profesionales. Solo Python pasa el umbral de listo para producción según Microsoft Research.

Un benchmark contra ensayos generados por Kimi K2 en modo razonamiento reveló que ZeroGPT solo detectó el 38% del contenido de IA, frente al 97% esperado según métricas históricas.

El nuevo modelo de OpenAI lidera el Artificial Analysis Intelligence Index con 60 puntos, pero registra una tasa de alucinación del 86% en benchmarks factuales, casi el triple que Claude Opus 4.7.

Jakub Pachocki promete mejoras "extremadamente significativas" en el mediano plazo, mientras un sector creciente de investigadores cuestiona si los LLMs son el camino correcto.

El nuevo modelo denso de código abierto de Alibaba con 27.000 millones de parámetros lidera casi todos los benchmarks de programación frente al Qwen3.5-397B-A17B.

OpenAI recupera el liderazgo en benchmarks de IA con GPT-5.5, pero su modelo tiene una tasa de alucinación del 86%, muy superior al 36% de Claude Opus 4.7.
Otros temas que aparecen junto a #benchmarks en nuestra cobertura editorial.