Etiqueta

#inferencia

12 notas publicadas

NVIDIA Rubin: 10x más rendimiento agentico por watt

La nueva GPU de la plataforma Vera Rubin apunta a las cargas de IA agentica con 336 mil millones de transistores, 288 GB de HBM4 y 50 petaflops en formato NVFP4.

NVIDIA Developer23 jul

Electrónica

High Bandwidth Flash: memoria de pendrive para la IA

Sandisk y SK Hynix apilan chips de flash NAND para crear una capa de memoria barata y de alta capacidad, pensada para servir los pesos de modelos gigantes en tareas de inferencia.

IEEE Spectrum Semiconductors21 jul

Frozen v2: el chip de Google que graba Gemini en el silicio

El chip, atribuido a Jeff Dean, grabaría el plano de Gemini en el hardware para ser 6 a 10 veces más eficiente que los TPU actuales. Google lo desplegaría desde 2028 para abaratar la inferencia.

The Decoder21 jul

NVIDIA Confidential Computing rinde 98% del baseline sin cifrar

El benchmark en HGX B300 con Qwen 3.5-397B-A17B-FP8 muestra menos del 8% de overhead con Confidential Computing activado.

NVIDIA Developer3 jul

OpenAI corta a la mitad el costo de ChatGPT para invitados

The Information reveló que la compañía optimizó la inferencia para visitantes sin cuenta y bajó a unos pocos cientos las GPU NVIDIA necesarias.

The Decoder1 jul

SGLang sirve DeepSeek-V4 en GB300 con 5x más throughput

Dos meses después del lanzamiento, el stack abierto pasó de 2.200 a 11.200 tok/s/GPU a la misma interactividad gracias a KV Compression V2, W4A4 MegaMoE y CUDA graphs rompibles en el prefill.

PyTorch Blog27 jun

Electrónica

OpenAI y Broadcom debutan Jalapeño, su ASIC de inferencia

El chip de unos 840 mm² (cerca del límite reticle EUV) lleva seis módulos HBM, llegó al tape-out en nueve meses y se desplegará a escala gigawatt con Microsoft desde fines de 2026.

Tom's Hardware27 jun

Groq levanta USD 650M tras el not-acqui-hire de NVIDIA

Seis meses después de licenciar su IP de LPU a NVIDIA y perder a su fundador, la chipmaker apuesta por su negocio neocloud con 13 data centers y nuevos ejecutivos al timón.

TechCrunch AI23 jun

NVIDIA GB300 NVL72 rinde 20x más agentes que H200 en AA-AgentPerf

Artificial Analysis estrenó el primer benchmark multi-vendor que mide rendimiento concurrente de agentes de IA en cargas reales de coding, con resultados normalizados por acelerador y por megawatt.

NVIDIA Developer14 jun

NVIDIA DynoSim: gemelo digital de Dynamo a 1.500× tiempo real

DynoSim corre el stack de servicio de LLM como simulación discreta en Rust y mapea la frontera de Pareto del workload antes de pagar GPUs reales.

NVIDIA Developer30 may

TokenSpeed alcanza 580 tps con Qwen3.5-397B-A17B en GPU

El motor open source de LightSeek, escrito desde cero en SPMD con compilacion estatica, ataca workloads agenticos con prefix cache hibrido y disaggregacion prefill-decode para Mamba.

PyTorch Blog28 may

NVIDIA Dynamo Snapshot: arranque 21x mas rapido en Kubernetes

El sistema con CRIU mas cuda-checkpoint baja el cold-start de un gpt-oss-120b al limite fisico de memoria, evitando que GPUs facturadas queden ociosas durante el scale-up.

NVIDIA Developer28 may

Etiquetas relacionadas

Otros temas que aparecen junto a #inferencia en nuestra cobertura editorial.

#Nvidia7 #LLM3 #dynamo2 #Agentes IA2 #chips-ia2 #Openai2 #Deepseek2 #kubernetes1