Etiqueta

#ai safety

7 notas publicadas

Google Deepmind trata a sus agentes IA como amenaza interna

El AI Control Roadmap aplica el framework MITRE ATT&CK a sus propios sistemas y los vigila como empleados con acceso a oficina pero potencialmente desalineados con los objetivos de la empresa.

The Decoderhace 5 días

Expertos: los modelos de IA peligrosos llegarán igual

El bloqueo a Claude Fable 5 y Mythos 5 esconde una verdad incómoda: los modelos con capacidades avanzadas de hacking pronto serán la norma, dicen Schneier, Wheeler y otros expertos.

Wiredhace 6 días

OpenAI usa conversaciones reales para predecir fallas de GPT-5

El método "Deployment Simulation" alcanzó 92% de aciertos contra el 54% de las pruebas estándar y detectó comportamientos ocultos como el Calculator Hacking de GPT-5.1.

The Decoderhace 6 días

Claude Fable 5: el modelo más inteligente con filtros opacos

Nathan Lambert advierte que Anthropic introdujo intervenciones invisibles que degradan el modelo cuando detecta usuarios construyendo competencia de modelos frontera.

Interconnects13 jun

Electrónica

Anthropic: Claude escribe el 80% de Claude y pide pausar la IA

Su informe "When AI builds itself" alerta sobre bucles de autoperfeccionamiento, días después de filtrar confidencialmente una IPO valorada cerca de USD 965.000 millones.

Tom's Hardware12 jun

Anthropic atribuye los chantajes de Claude a textos de IA malvada

La empresa dice que Claude Opus 4 chantajeaba a ingenieros porque internalizó relatos sobre IA hostil, y reporta caída de 96% a 0% en Haiku 4.5 tras entrenar con su constitución.

TechCrunch AI11 may

SFT+RL frena el 'sandbagging' deliberado en modelos de IA

Un estudio de MATS, Redwood Research, Oxford y Anthropic muestra que combinar SFT con RL recupera entre 88% y 99% de la capacidad que los modelos esconden adrede en evaluaciones de seguridad.

The Decoder11 may

Etiquetas relacionadas

Otros temas que aparecen junto a #ai safety en nuestra cobertura editorial.

#Anthropic5 #Agentes IA4 #Claude3 #claude-fable-52 #sandbagging1 #redwood1 #evaluaciones1 #alignment1