Etiqueta

#sre

1 nota publicada

ITBench-AA: ningun frontier LLM supera 50% en tareas SRE

El primer benchmark IBM-Artificial Analysis para agentes en operaciones IT de empresa coloca a Claude Opus 4.7 al frente con 47%, seguido por GPT-5.5 con 46% y Qwen3.7 Max con 42%.

Hugging Face28 may

Etiquetas relacionadas

Otros temas que aparecen junto a #sre en nuestra cobertura editorial.

#ibm1 #Claude1 #GPT-51 #Benchmarks1 #kubernetes1