Etiqueta

#cuda

17 notas publicadas

De CUDA a MLX: Optimizando kernels de IA en Apple Silicon

Investigadores de Berkeley presentan una capa de traducción que permite adaptar kernels de CUDA a MLX, logrando mejoras de rendimiento de hasta 20x.

Berkeley AI Researchhace 2 días

NVIDIA y Applied Materials simulan la fábrica de chips entera

Las dos empresas integraron simulación acelerada por GPU en toda la cadena de fabricación de chips, desde el diseño de materiales a escala atómica hasta el gemelo digital de una fábrica completa.

NVIDIA Developerhace 4 días

Depuración de apps de Ray Tracing con NVIDIA OptiX Toolkit

Aprende a integrar herramientas de verificación de errores y depuración en tiempo real para optimizar el rendimiento de tus aplicaciones de trazado de rayos en la GPU.

NVIDIA Developer24 jul

Fusión de kernels en CUDA para acelerar la memoria GPU

NVIDIA explica cómo combinar operaciones en un solo kernel reduce el tráfico a memoria global y el overhead de lanzamiento, con ejemplos en CUDA C++, torch.compile y cuda.compute.

NVIDIA Developer11 jul

Open Source

ZLUDA v6 lleva PhysX a GPUs AMD y pierde su funding comercial

El único desarrollador del proyecto vuelve a modo weekend project tras el nuevo corte de financiamiento y suma soporte de texturas y Windows en la versión 6.

Phoronix Tests2 jul

NuRec: NVIDIA acelera 50x su pipeline de reconstrucción neural

Con Nsight Systems y Nsight Compute la ocupación GPU subió de 15% a 30-50%, el kernel interpolate cayó de 4.184 ms a 83.81 μs y el renderBackward se dividió por tipo de sensor.

NVIDIA Developer1 jul

NVIDIA baja hasta 5x el costo por token de DeepSeek V4 en Blackwell

El stack full-stack de inferencia sobre GB300 combina Dynamo, TensorRT-LLM, NVFP4 y NVLink para multiplicar por 20 el throughput por GPU y desplomar el costo por token.

NVIDIA Blog1 jul

Qualcomm compra Modular por USD 4.000M para enfrentar a CUDA

La operación paga 2,5 veces la valuación de hace nueve meses e integra a 150 ingenieros, incluido Chris Lattner (creador de LLVM y Swift), a la apuesta de Qualcomm por el centro de datos.

Wired25 jun

BEVPoolV3 acelera percepción de IA física hasta 42x en GPU

NVIDIA detalla cuatro cambios algorítmicos al pooling BEV que llevan la latencia de 274 µs a 16,4 µs en RTX PRO 6000 Blackwell Max-Q gracias a FP8 y mejor uso de caché L2.

NVIDIA Developer25 jun

CCCL Runtime: NVIDIA propone una capa C++ moderna para CUDA

Headers como cuda/stream, cuda/buffer y cuda/launch ofrecen tipos fuertes, dependencias explícitas y APIs asíncronas por defecto, sin reescribir el código que usa CUDA Runtime.

NVIDIA Developer23 jun

NVIDIA libera receta para entrenar tu propio modelo de transacciones

El workflow Build Your Own Transaction Model combina cuDF, cuML y NeMo AutoModel para llegar a un Llama de 29M parámetros que mejora 50% la precisión sobre XGBoost en detección de fraude.

NVIDIA Developer17 jun

NVIDIA acelera el entrenamiento MoE hasta 93% con kernels CuTe DSL

Los kernels fusionados eliminan cuellos de botella de memoria y sincronización CPU-GPU, entregan speedup de 1,3× a 2× por kernel y mejoran 93% el pre-entrenamiento de GPT-OSS.

NVIDIA Developer16 jun

Open Source

Lemonade 10.7 de AMD suma soporte CUDA para GPU NVIDIA

El servidor local de IA open source de AMD ahora detecta GPU NVIDIA en Windows y Linux vía Llama.cpp y stable-diffusion.cpp, y agrega benchmarks comparables entre runtimes.

Phoronix Tests11 jun

torch.profiler explicado: cómo leer trazas en PyTorch desde cero

Hugging Face abre una serie de tres partes sobre profiling con PyTorch, empezando por matmul más bias en bf16 sobre una NVIDIA A100 80GB.

Hugging Face29 may

NVIDIA CompileIQ: auto-tuning evolutivo para kernels CUDA

El framework integrado en CUDA 13.3 usa algoritmos genéticos para optimizar el compilador GPU por workload, en vez de aplicar heurísticas universales.

NVIDIA Developer28 may

CUDA Tile llega a C++: kernels GPU sin gestionar hilos

Con CUDA 13.3, NVIDIA habilita el modelo de programación por tiles en C++ y promete que el compilador se haga cargo de la paralelización, los tensor cores y el movimiento de memoria.

NVIDIA Developer27 may

CUDA 13.3 trae Tile Programming en C++ y autoajuste de compilador

NVIDIA lanza CUDA Tile sobre Hopper, libera CUDA Python 1.0 con green contexts y process checkpointing, y debuta CompileIQ con hasta 15% de speedup en GEMM y attention.

NVIDIA Developer27 may

Etiquetas relacionadas

Otros temas que aparecen junto a #cuda en nuestra cobertura editorial.

#Nvidia14 #gpu5 #Open Source3 #compiladores2 #pytorch2 #Machine Learning2 #Deepseek2 #tensorrt2