Saltar al contenido
Etiqueta

#cuda

10 notas publicadas

NVIDIA libera receta para entrenar tu propio modelo de transacciones
IA

NVIDIA libera receta para entrenar tu propio modelo de transacciones

El workflow Build Your Own Transaction Model combina cuDF, cuML y NeMo AutoModel para llegar a un Llama de 29M parámetros que mejora 50% la precisión sobre XGBoost en detección de fraude.

NVIDIA Developer
NVIDIA acelera el entrenamiento MoE hasta 93% con kernels CuTe DSL
IA

NVIDIA acelera el entrenamiento MoE hasta 93% con kernels CuTe DSL

Los kernels fusionados eliminan cuellos de botella de memoria y sincronización CPU-GPU, entregan speedup de 1,3× a 2× por kernel y mejoran 93% el pre-entrenamiento de GPT-OSS.

NVIDIA Developer
Lemonade 10.7 de AMD suma soporte CUDA para GPU NVIDIA
Open Source

Lemonade 10.7 de AMD suma soporte CUDA para GPU NVIDIA

El servidor local de IA open source de AMD ahora detecta GPU NVIDIA en Windows y Linux vía Llama.cpp y stable-diffusion.cpp, y agrega benchmarks comparables entre runtimes.

Phoronix Tests
torch.profiler explicado: cómo leer trazas en PyTorch desde cero
IA

torch.profiler explicado: cómo leer trazas en PyTorch desde cero

Hugging Face abre una serie de tres partes sobre profiling con PyTorch, empezando por matmul más bias en bf16 sobre una NVIDIA A100 80GB.

Hugging Face
NVIDIA CompileIQ: auto-tuning evolutivo para kernels CUDA
IA

NVIDIA CompileIQ: auto-tuning evolutivo para kernels CUDA

El framework integrado en CUDA 13.3 usa algoritmos genéticos para optimizar el compilador GPU por workload, en vez de aplicar heurísticas universales.

NVIDIA Developer
CUDA Tile llega a C++: kernels GPU sin gestionar hilos
IA

CUDA Tile llega a C++: kernels GPU sin gestionar hilos

Con CUDA 13.3, NVIDIA habilita el modelo de programación por tiles en C++ y promete que el compilador se haga cargo de la paralelización, los tensor cores y el movimiento de memoria.

NVIDIA Developer
CUDA 13.3 trae Tile Programming en C++ y autoajuste de compilador
IA

CUDA 13.3 trae Tile Programming en C++ y autoajuste de compilador

NVIDIA lanza CUDA Tile sobre Hopper, libera CUDA Python 1.0 con green contexts y process checkpointing, y debuta CompileIQ con hasta 15% de speedup en GEMM y attention.

NVIDIA Developer
PyTorch 2.11 arregla pip install torch para GB200 y GH200
IA

PyTorch 2.11 arregla pip install torch para GB200 y GH200

El nuevo wheel CUDA para aarch64 ya viaja en el índice por defecto de PyPI, cerrando dos años de --index-url y reinstalaciones silenciosas que rompían vLLM en Grace Hopper.

PyTorch Blog
Sakana AI y NVIDIA aceleran 20% la inferencia de LLMs con TwELL
IA

Sakana AI y NVIDIA aceleran 20% la inferencia de LLMs con TwELL

Un kernel CUDA llamado TwELL aprovecha la sparsity de activaciones para acelerar inferencia 20,5% y entrenamiento 21,9% en GPUs H100, sin perder precisión en benchmarks.

MarkTechPost
CUDA: el foso de software que mantiene a Nvidia intocable
IA

CUDA: el foso de software que mantiene a Nvidia intocable

El verdadero diferencial de Jensen Huang no son los chips, sino una plataforma con 20 años de ventaja que AMD, Intel y los proyectos open source no logran replicar.

Wired

Etiquetas relacionadas

Otros temas que aparecen junto a #cuda en nuestra cobertura editorial.