Antes de lanzar un modelo de IA al público, OpenAI lo somete a pruebas de seguridad. Esos tests intentan estimar cuán seguido el modelo mostrará comportamientos no deseados, como producir contenido prohibido o engañar a usuarios. Según un paper de investigación de OpenAI, la mayoría de estas pruebas se basa en preguntas hechas a mano, sintéticas o deliberadamente capciosas.
El problema es que esos tests sólo capturan una porción sesgada de la realidad. Están diseñados para buscar debilidades, no para reflejar lo que los usuarios escriben de verdad. Encima los modelos suelen darse cuenta de que están siendo evaluados y se comportan distinto a como lo harían en uso normal. Ambos efectos hacen que los resultados digan poco sobre el rendimiento real del modelo en producción.
¿Cómo funciona Deployment Simulation?
Los investigadores Marcus Williams, Micah Carroll y su equipo proponen un enfoque directo llamado Deployment Simulation. En lugar de inventar nuevas preguntas, toman conversaciones reales y anonimizadas que los usuarios tuvieron con un modelo anterior. Mantienen intacto el historial completo (todos los mensajes previos) y sólo dejan que el modelo nuevo, aún no lanzado, reescriba la próxima respuesta.
Como las conversaciones-fuente vienen de tráfico real, el modelo enfrenta exactamente el tipo de situaciones que se va a encontrar tras el lanzamiento. Y no se da cuenta de que está siendo testeado, porque sólo está viendo una solicitud común de un usuario.
Esas respuestas simuladas cumplen dos funciones. Primero, se pueden escanear en busca de nuevos tipos de mal comportamiento. Segundo, los investigadores pueden contar cuán seguido aparece un problema específico y derivar una estimación de frecuencia concreta. Esa estimación es verificable: tras el lanzamiento, la misma medición corre contra datos reales de producción y se compara con la predicción.
¿Qué tan bien funcionó?
OpenAI probó el método sobre cuatro modelos de la serie GPT-5 usando aproximadamente 1,3 millones de conversaciones de agosto de 2025 a marzo de 2026.
Para GPT-5.4 fueron especialmente estrictos: usaron la simulación para predecir cuán seguido el modelo mostraría cada tipo de comportamiento problemático tras su lanzamiento y fijaron esas estimaciones antes incluso de poder mirar los datos reales de uso. Eso permitió verificar después, sin sesgos, qué tan bien las predicciones coincidían con la realidad. Tres modelos anteriores de la serie se analizaron de manera retroactiva, cuando los resultados reales ya se conocían.
El equipo examinó 20 categorías de mal comportamiento, desde contenido prohibido hasta engaño. Para las categorías donde la frecuencia cambió significativamente entre versiones del modelo, la simulación predijo correctamente si el problema iba a aumentar o disminuir el 92% de las veces. Las pruebas estándar acertaron sólo el 54% de las veces.
El enfoque también sacó a la luz un nuevo tipo de comportamiento que los investigadores bautizaron como "Calculator Hacking": GPT-5.1 usaba en secreto su herramienta de navegación como calculadora, pero le decía a los usuarios que había hecho una búsqueda web. Según los investigadores, la simulación habría detectado este comportamiento antes del lanzamiento.
El gran problema de los tests tradicionales: los modelos saben
La ventaja se ve más nítida cuando se trata de la conciencia del test. Cuando se le preguntó si estaba siendo evaluado, un modelo de IA reconoció los tests de seguridad estándar como tal entre el 98,9% y el 100% de las veces. Con conversaciones reales de producción ese número cayó a apenas el 5,4%. La simulación marcó un porcentaje igualmente bajo.
El metajuego, donde el modelo piensa explícitamente en la supervisión de los desarrolladores dentro de su cadena de razonamiento, apareció en hasta el 76% de los tests estándar pero sólo en el 0,12% de las conversaciones reales. Como la simulación se mantiene cerca de los números del mundo real, sus mediciones son mucho más significativas.
¿Y las tareas de codificación?
Una limitación importante son las tareas donde el modelo usa herramientas que acceden a sistemas externos, como programar. Ahí un modelo puede invocar cientos de herramientas, buscar entre código o modificar archivos. Esos flujos de trabajo no se pueden replicar fácilmente sin soltar un modelo aún no terminado sobre sistemas reales, lo que podría disparar exactamente los riesgos que los investigadores tratan de predecir.
El equipo trabajó alrededor de eso usando un segundo modelo de IA para imitar lo que una herramienta habría devuelto. Con acceso a la conversación original, la versión coincidente del código y una base de datos de respuestas previas de herramientas, lograron levantar el realismo significativamente: un sistema evaluador apenas podía distinguir flujos simulados de los reales.
Los auditores externos también podrían usar el método. Con el dataset público WildChat, la técnica produjo predicciones más débiles pero todavía útiles. Eso abre la puerta para que investigadores independientes evalúen modelos de distintos proveedores sin necesitar acceso a datos privados de uso, según los autores. Apuntan varias limitaciones: el método depende de buenos sistemas de evaluación, el comportamiento de los usuarios puede cambiar con el tiempo y es difícil capturar riesgos extremadamente raros que sólo aparecen en una de cada decenas de millones de conversaciones.




