Etiqueta

#kernels gpu

1 nota publicada

TLX Block Attention: 1,85x sobre Flash Attention v2 en NVIDIA B200

El kernel Triton desarrollado por Meta para GPUs Blackwell aprovecha el patrón block-diagonal de los modelos de ranking para eliminar pasos enteros del algoritmo y acelerar 2,50x el backward pass.

PyTorch Blog26 may

Etiquetas relacionadas

Otros temas que aparecen junto a #kernels gpu en nuestra cobertura editorial.

#Nvidia1 #Blackwell1 #pytorch1 #triton1 #Meta1