Etiqueta

#triton

2 notas publicadas

PyTorch Compile y kernel fusion: hasta 10x más rápido

El compilador Inductor agrupa operaciones dependientes en un solo kernel Triton, eliminando lanzamientos extra y tráfico de memoria intermedio.

PyTorch Blog28 may

TLX Block Attention: 1,85x sobre Flash Attention v2 en NVIDIA B200

El kernel Triton desarrollado por Meta para GPUs Blackwell aprovecha el patrón block-diagonal de los modelos de ranking para eliminar pasos enteros del algoritmo y acelerar 2,50x el backward pass.

PyTorch Blog26 may

Etiquetas relacionadas

Otros temas que aparecen junto a #triton en nuestra cobertura editorial.

#pytorch2 #Nvidia1 #Blackwell1 #kernels-gpu1 #Meta1 #compiladores1 #gpu1 #deep-learning1