Saltar al contenido
Etiqueta

#inferencia

10 notas publicadas

NVIDIA GB300 NVL72 rinde 20x más agentes que H200 en AA-AgentPerf
IA

NVIDIA GB300 NVL72 rinde 20x más agentes que H200 en AA-AgentPerf

Artificial Analysis estrenó el primer benchmark multi-vendor que mide rendimiento concurrente de agentes de IA en cargas reales de coding, con resultados normalizados por acelerador y por megawatt.

NVIDIA Developer
NVIDIA DynoSim: gemelo digital de Dynamo a 1.500× tiempo real
IA

NVIDIA DynoSim: gemelo digital de Dynamo a 1.500× tiempo real

DynoSim corre el stack de servicio de LLM como simulación discreta en Rust y mapea la frontera de Pareto del workload antes de pagar GPUs reales.

NVIDIA Developer
General Compute compra USD 300M en SambaNova SN50 para inferencia
IA

General Compute compra USD 300M en SambaNova SN50 para inferencia

El nuevo neocloud levantó USD 15 millones a una valuación post-money de USD 60 millones y promete 600 a 700 tokens por segundo, contra los 250 típicos de las GPU.

TechCrunch AI
TokenSpeed alcanza 580 tps con Qwen3.5-397B-A17B en GPU
IA

TokenSpeed alcanza 580 tps con Qwen3.5-397B-A17B en GPU

El motor open source de LightSeek, escrito desde cero en SPMD con compilacion estatica, ataca workloads agenticos con prefix cache hibrido y disaggregacion prefill-decode para Mamba.

PyTorch Blog
NVIDIA Dynamo Snapshot: arranque 21x mas rapido en Kubernetes
IA

NVIDIA Dynamo Snapshot: arranque 21x mas rapido en Kubernetes

El sistema con CRIU mas cuda-checkpoint baja el cold-start de un gpt-oss-120b al limite fisico de memoria, evitando que GPUs facturadas queden ociosas durante el scale-up.

NVIDIA Developer
Cerebras IPO cierra en USD 60.000 millones y ya sirve a OpenAI
IA

Cerebras IPO cierra en USD 60.000 millones y ya sirve a OpenAI

El chip wafer-scale debuta en bolsa con USD 60.000 millones de market cap y su CFO Bob Komin confirma que ya sirve los modelos internos de OpenAI 5.4 y 5.5.

Latent Space
Sakana AI y NVIDIA aceleran 20% la inferencia de LLMs con TwELL
IA

Sakana AI y NVIDIA aceleran 20% la inferencia de LLMs con TwELL

Un kernel CUDA llamado TwELL aprovecha la sparsity de activaciones para acelerar inferencia 20,5% y entrenamiento 21,9% en GPUs H100, sin perder precisión en benchmarks.

MarkTechPost
Meta y Stanford: BLT recorta hasta 92% el ancho de banda
IA

Meta y Stanford: BLT recorta hasta 92% el ancho de banda

Investigadores de Meta, Stanford y la Universidad de Washington proponen tres técnicas que aceleran la generación del Byte Latent Transformer sin perder calidad de salida.

MarkTechPost
Cerebras encara el giro a la inferencia agentic en chips IA
IA

Cerebras encara el giro a la inferencia agentic en chips IA

Ben Thompson argumenta que la próxima ola de cómputo no se medirá en tokens por segundo sino en jerarquías de memoria para agentes que ya no necesitan al humano en el loop.

Stratechery
Huawei apunta a destronar a Nvidia en chips de IA en China
Electrónica

Huawei apunta a destronar a Nvidia en chips de IA en China

Huawei proyecta USD 12.000 millones en chips IA en 2026 (60% más que en 2025) mientras los envíos del H200 de Nvidia siguen frenados por la disputa regulatoria entre Washington y Beijing.

Tom's Hardware

Etiquetas relacionadas

Otros temas que aparecen junto a #inferencia en nuestra cobertura editorial.