Etiqueta

#vllm

3 notas publicadas

PyTorch integra Helion en vLLM para acelerar inferencia FP8

La integración con vLLM aceleró normalización, cuantización fusionada y scaled_mm en H100, mientras que B200 sigue limitado por el backend GEMM de Triton sobre Blackwell.

PyTorch Blog12 jun

TRL: delta sync baja 1,2 GB a 35 MB por step en RL asincrónico

Hugging Face liberó un PR en TRL que codifica solo los pesos que cambiaron como safetensors disperso y los sube a un Hub Bucket. El trainer y el rollout dejan de necesitar el mismo data center.

Hugging Face28 may

PyTorch 2.11 arregla pip install torch para GB200 y GH200

El nuevo wheel CUDA para aarch64 ya viaja en el índice por defecto de PyPI, cerrando dos años de --index-url y reinstalaciones silenciosas que rompían vLLM en Grace Hopper.

PyTorch Blog19 may

Etiquetas relacionadas

Otros temas que aparecen junto a #vllm en nuestra cobertura editorial.

#pytorch2 #Nvidia1 #cuda1 #aarch641 #gb2001 #Hugging Face1 #trl1 #rl-asincronico1