Etiqueta

#pytorch

7 notas publicadas

PyTorch integra Helion en vLLM para acelerar inferencia FP8

La integración con vLLM aceleró normalización, cuantización fusionada y scaled_mm en H100, mientras que B200 sigue limitado por el backend GEMM de Triton sobre Blackwell.

PyTorch Blog12 jun

torch.profiler explicado: cómo leer trazas en PyTorch desde cero

Hugging Face abre una serie de tres partes sobre profiling con PyTorch, empezando por matmul más bias en bf16 sobre una NVIDIA A100 80GB.

Hugging Face29 may

PyTorch Compile y kernel fusion: hasta 10x más rápido

El compilador Inductor agrupa operaciones dependientes en un solo kernel Triton, eliminando lanzamientos extra y tráfico de memoria intermedio.

PyTorch Blog28 may

TLX Block Attention: 1,85x sobre Flash Attention v2 en NVIDIA B200

El kernel Triton desarrollado por Meta para GPUs Blackwell aprovecha el patrón block-diagonal de los modelos de ranking para eliminar pasos enteros del algoritmo y acelerar 2,50x el backward pass.

PyTorch Blog26 may

PyTorch 2.11 arregla pip install torch para GB200 y GH200

El nuevo wheel CUDA para aarch64 ya viaja en el índice por defecto de PyPI, cerrando dos años de --index-url y reinstalaciones silenciosas que rompían vLLM en Grace Hopper.

PyTorch Blog19 may

ExecuTorch MLX: PyTorch acelera en GPU de Apple Silicon

El nuevo delegado MLX lleva inferencia GPU optimizada a Mac con chips de Apple, con soporte para Llama, Qwen, Gemma, Whisper y cuantización de 2 a 8 bits, además de NVFP4.

PyTorch Blog18 may

ExecuTorch lleva PyTorch a CPUs Arm y NPUs Ethos-U

Arm libero una serie de Jupyter Labs que muestran como exportar un modelo PyTorch a un artefacto .pte y correrlo en Raspberry Pi 5 o Cortex-M con NPU Ethos-U.

PyTorch Blog13 may

Etiquetas relacionadas

Otros temas que aparecen junto a #pytorch en nuestra cobertura editorial.

#Nvidia3 #executorch2 #vllm2 #cuda2 #triton2 #arm1 #Edge Ai1 #ethos-u1