
IA
TLX Block Attention: 1,85x sobre Flash Attention v2 en NVIDIA B200
El kernel Triton desarrollado por Meta para GPUs Blackwell aprovecha el patrón block-diagonal de los modelos de ranking para eliminar pasos enteros del algoritmo y acelerar 2,50x el backward pass.
PyTorch Blog