
IA
Claude Mythos rompe el techo de METR: 16 horas de tareas autónomas
La organización de evaluación admite que su batería de tests ya no alcanza para medir al modelo de Anthropic, mientras Palo Alto Networks lo describe como salto cualitativo en ofensiva.
The Decoder