Etiqueta

#metr

1 nota publicada

Claude Mythos rompe el techo de METR: 16 horas de tareas autónomas

La organización de evaluación admite que su batería de tests ya no alcanza para medir al modelo de Anthropic, mientras Palo Alto Networks lo describe como salto cualitativo en ofensiva.

The Decoder11 may

Etiquetas relacionadas

Otros temas que aparecen junto a #metr en nuestra cobertura editorial.

#Anthropic1 #Claude1 #Ciberseguridad1 #Agentes IA1