
IA
NVIDIA libera GPU Usage Monitor para clusters Kubernetes
El nuevo stack open source bajo Apache 2.0 integra DCGM Exporter, Prometheus y Grafana en un solo Helm chart para detectar GPUs ociosas y pods Pending en minutos.
NVIDIA Developer
4 notas publicadas

El modo Prometheus de NCCL 2.30 expone métricas GPU-a-GPU como series temporales para Grafana, sin el archivo JSON intermedio que se usaba para análisis offline.

El proyecto, publicado en GitHub, intercepta peticiones HTTP, WebSocket y SSE entre la CLI del agente y la red para frenar fugas de secretos y rutear modelos.

La plataforma fundada por Helen Gu utiliza machine learning para diagnosticar y prevenir problemas en modelos de IA, combinando datos, infraestructura y agentes.
Otros temas que aparecen junto a #observabilidad en nuestra cobertura editorial.