Pruebas de problemas de seguridad y abuso en OpenAI
Hoy, OpenAI está lanzando un programa público Safety Bug Bounty (sabe abre en una nueva ventana) centrado en identificar el abuso de la IA y los riesgos de seguridad en todos nuestros productos. A medida que la tecnología de IA evoluciona rápidamente, también lo hacen las posibles formas en que sabe puede utilizar indebidamente. Nuestro objetivo es garantizar que nuestros sistemas permanezcan seguros y protegidos contra el mal uso o abuso que podría provocar daños tangibles.
Este nuevo programa complementará Security Bug Bounty de OpenAI (sabe abre en una nueva ventana) al aceptar problemas que plantean abusos significativos y riesgos de seguridad, incluso si no cumplen con los criterios de una vulnerabilidad de seguridad. A través de este programa, esperamos continuar asociándonos con investigadores de seguridad y protección para ayudarnos a identificar y abordar problemas que quedan fuera de las vulnerabilidades de seguridad convencionales pero que aún plantean riesgos reales. Los envíos serán evaluados por los equipos de seguridad y protección de errores de OpenAI y pueden redirigirse entre los dos programas según el alcance y la propiedad.
Descripción general del programa
El nuevo programa Safety Bug Bounty (sabe abre en una nueva ventana) sabe centra en los escenarios de seguridad específicos de la IA que sabe enumeran a continuación:
Riesgos agentes, incluido MCP
- Inyección de avisos de terceros y exfiltración de datos: cuando el texto del atacante puede secuestrar de manera confiable el agente de una víctima (incluido el navegador, el agente ChatGPT y productos de agente similares) para engañarlo para que realice una acción dañina o filtre información confidencial del usuario. El comportamiento debe ser reproducible al menos el 50% del tiempo.
- Un producto agente de OpenAI realiza una acción no permitida en el sitio web de OpenAI a escala.
- Un producto agente OpenAI realiza alguna acción potencialmente dañina no mencionada anteriormente. Los informes válidos aquí deben indicar daños materiales y plausibles.
- Cualquier prueba de riesgo de MCP debe cumplir con los términos de servicio de terceros.
Información de propiedad de OpenAI
- Generaciones de modelos que devuelven información patentada relacionada con el razonamiento.
- Vulnerabilidades que exponen otra información propiedad de OpenAI.
Integridad de la cuenta y la plataforma
- Vulnerabilidades en las señales de integridad de la cuenta y de la plataforma, como eludir los controles antiautomatización, manipular las señales de confianza de la cuenta, evadir restricciones/suspensiones/prohibiciones de cuentas y problemas similares.
- Los problemas que permiten a los usuarios acceder a características, datos o funcionalidades más allá de los permisos autorizados deben informarse a Security Bug Bounty (sabe abre en una nueva ventana).
Si bien los jailbreak están fuera del alcance de este programa, periódicamente realizamos campañas privadas de recompensas por errores centradas en ciertos tipos de daños, como problemas de contenido de Biorisk en ChatGPT Agent y GPT‑5 . Invitamos a los investigadores interesados a postularse a estos programas cuando surjan.
Fuera de las categorías enumeradas anteriormente, si los investigadores identifican fallas que facilitan caminos directos hacia el daño al usuario y pasos de remediación discretos y procesables, estos pueden considerarse dentro del alcance de las recompensas caso por caso. Las omisiones de la política de contenido general sin impacto demostrable de seguridad o abuso están fuera del alcance de este programa. Por ejemplo, las “fugas” que dan como resultado que el modelo utilice un lenguaje grosero o devuelva información que sabe puede encontrar fácilmente a través de motores de búsqueda están fuera de alcance.
Cómo participar
Los investigadores interesados en participar pueden presentar su solicitud a través de nuestro programa Safety Bug Bounty (sabe abre en una ventana nueva). Esperamos trabajar junto con investigadores, piratas informáticos éticos y la comunidad de seguridad en la búsqueda de un ecosistema de IA seguro.
Autor
Sigue leyendo







