Saltar al contenido
Etiqueta

#kernels gpu

1 nota publicada

TLX Block Attention: 1,85x sobre Flash Attention v2 en NVIDIA B200
IA

TLX Block Attention: 1,85x sobre Flash Attention v2 en NVIDIA B200

El kernel Triton desarrollado por Meta para GPUs Blackwell aprovecha el patrón block-diagonal de los modelos de ranking para eliminar pasos enteros del algoritmo y acelerar 2,50x el backward pass.

PyTorch Blog

Etiquetas relacionadas

Otros temas que aparecen junto a #kernels gpu en nuestra cobertura editorial.