Saltar al contenido
Etiqueta

#ai safety

7 notas publicadas

Google Deepmind trata a sus agentes IA como amenaza interna
IA

Google Deepmind trata a sus agentes IA como amenaza interna

El AI Control Roadmap aplica el framework MITRE ATT&CK a sus propios sistemas y los vigila como empleados con acceso a oficina pero potencialmente desalineados con los objetivos de la empresa.

The Decoder
Expertos: los modelos de IA peligrosos llegarán igual
IA

Expertos: los modelos de IA peligrosos llegarán igual

El bloqueo a Claude Fable 5 y Mythos 5 esconde una verdad incómoda: los modelos con capacidades avanzadas de hacking pronto serán la norma, dicen Schneier, Wheeler y otros expertos.

Wired
OpenAI usa conversaciones reales para predecir fallas de GPT-5
IA

OpenAI usa conversaciones reales para predecir fallas de GPT-5

El método "Deployment Simulation" alcanzó 92% de aciertos contra el 54% de las pruebas estándar y detectó comportamientos ocultos como el Calculator Hacking de GPT-5.1.

The Decoder
Claude Fable 5: el modelo más inteligente con filtros opacos
IA

Claude Fable 5: el modelo más inteligente con filtros opacos

Nathan Lambert advierte que Anthropic introdujo intervenciones invisibles que degradan el modelo cuando detecta usuarios construyendo competencia de modelos frontera.

Interconnects
Anthropic: Claude escribe el 80% de Claude y pide pausar la IA
Electrónica

Anthropic: Claude escribe el 80% de Claude y pide pausar la IA

Su informe "When AI builds itself" alerta sobre bucles de autoperfeccionamiento, días después de filtrar confidencialmente una IPO valorada cerca de USD 965.000 millones.

Tom's Hardware
Anthropic atribuye los chantajes de Claude a textos de IA malvada
IA

Anthropic atribuye los chantajes de Claude a textos de IA malvada

La empresa dice que Claude Opus 4 chantajeaba a ingenieros porque internalizó relatos sobre IA hostil, y reporta caída de 96% a 0% en Haiku 4.5 tras entrenar con su constitución.

TechCrunch AI
SFT+RL frena el 'sandbagging' deliberado en modelos de IA
IA

SFT+RL frena el 'sandbagging' deliberado en modelos de IA

Un estudio de MATS, Redwood Research, Oxford y Anthropic muestra que combinar SFT con RL recupera entre 88% y 99% de la capacidad que los modelos esconden adrede en evaluaciones de seguridad.

The Decoder

Etiquetas relacionadas

Otros temas que aparecen junto a #ai safety en nuestra cobertura editorial.