Ayudar a los desarrolladores a crear experiencias de IA más seguras para los adolescentes

Presentamos un conjunto de políticas de seguridad para adolescentes formateadas como indicaciones para gpt-oss-safeguard

Hoy, lanzamos políticas de seguridad basadas en avisos ⁠ (sabe abre en una ventana nueva) para ayudar a los desarrolladores a crear protecciones apropiadas para la edad de los adolescentes. Diseñadas para funcionar con nuestro modelo de seguridad abierto, gpt-oss-safeguard ⁠ (sabe abre en una ventana nueva), estas políticas simplifican la forma en que los desarrolladores convierten los requisitos de seguridad en clasificadores utilizables para sistemas del mundo real.

Lanzamos modelos abiertos para democratizar el acceso a una IA potente y respaldar una amplia innovación. Al mismo tiempo, creemos que la seguridad y la innovación van de la mano y que los desarrolladores deben tener acceso a modelos capaces, así como a las herramientas y políticas para implementarlos de manera segura y responsable. Desarrollamos estas políticas para apoyar a los desarrolladores en sus esfuerzos de seguridad para proteger a los usuarios jóvenes, con aportes de organizaciones externas confiables, incluidas Common Sense Media ⁠ (sabe abre en una nueva ventana) y Everyone.ai ⁠ (sabe abre en una nueva ventana).

Reconocemos que los adolescentes y los adultos tienen necesidades diferentes y que los adolescentes necesitan protecciones adicionales. Estas políticas están diseñadas para ayudar a los desarrolladores a tener en cuenta esas diferencias y crear experiencias que sean empoderadoras y apropiadas para los usuarios más jóvenes.

Aprovechar nuestro trabajo más amplio para proteger a los jóvenes

Llevamos mucho tiempo comprometidos con la creación de una IA que amplíe las oportunidades para los jóvenes y al mismo tiempo los mantenga seguros. Como parte de este trabajo, actualizamos nuestras especificaciones de modelo ⁠ (sabe abre en una ventana nueva), las pautas que definen el comportamiento previsto de los modelos de OpenAI, para incluir principios para menores de 18 años (U18) ⁠ (sabe abre en una ventana nueva) e introdujimos salvaguardias a nivel de producto, como controles parentales ⁠ y predicción de edad ⁠ para proteger mejor a los usuarios más jóvenes. También hemos pedido protecciones en toda la industria a través de nuestro Plan de seguridad para adolescentes ⁠.

El lanzamiento de hoy sabe basa en esa base. Estamos poniendo estas políticas de seguridad a disposición de los desarrolladores para ayudarlos a implementar protecciones de seguridad para adolescentes y ayudar a democratizar el acceso en todo el ecosistema de pesas abiertas.

Traducir la seguridad de los adolescentes en políticas claras y utilizables

Si bien los clasificadores de seguridad como gpt-oss-safeguard pueden detectar contenido dañino, dependen de definiciones claras de qué es ese contenido. En la práctica, uno de los mayores desafíos que enfrentan los desarrolladores es definir políticas que capturen con precisión los riesgos específicos de los adolescentes y que puedan aplicarse de manera consistente en sistemas reales. Incluso los equipos experimentados a menudo tienen dificultades para traducir objetivos de seguridad de alto nivel en reglas operativas precisas, especialmente porque requiere tanto experiencia en la materia como un profundo conocimiento de la IA. Esto puede generar lagunas en la protección, una aplicación inconsistente o un filtrado demasiado amplio. Las políticas claras y bien definidas son una base fundamental para sistemas de seguridad eficaces.

Ayudar a los desarrolladores a poner en práctica la seguridad de los adolescentes

Para abordar este desafío, estamos publicando un conjunto de políticas de seguridad ⁠ (sabe abre en una ventana nueva), adaptadas a los riesgos comunes que enfrentan los adolescentes y basadas en una revisión cuidadosa de las investigaciones existentes sobre las diferencias de desarrollo únicas de los adolescentes. Estas políticas están estructuradas como indicaciones que sabe pueden usar directamente con gpt-oss-safeguard ⁠ (sabe abre en una ventana nueva) y otros modelos de razonamiento, lo que permite a los desarrolladores aplicar más fácilmente estándares de seguridad consistentes en todos sus sistemas.

La versión inicial incluye políticas que cubren:

Contenido gráfico violento

Contenido sexual gráfico

Ideales y comportamientos corporales dañinos

Actividades y desafíos peligrosos

Juego de roles romántico o violento

Bienes y servicios con restricción de edad

Estas políticas sabe pueden utilizar para el filtrado de contenido en tiempo real, así como para el análisis fuera de línea de contenido generado por el usuario.

Al estructurar las políticas como indicaciones, los desarrolladores pueden integrarlas más fácilmente en los flujos de trabajo existentes, adaptarlas a sus casos de uso e iterar a lo largo del tiempo.

Diagrama que muestra las categorías de políticas de seguridad para adolescentes y el contenido relacionado con los adolescentes que se incorporan a un sistema de salvaguardia GPT-OSS, que produce decisiones políticas informadas por razonamiento interno.

Desarrollado con aportes de expertos externos

Trabajamos con organizaciones externas, incluidas Common Sense Media ⁠ (sabe abre en una ventana nueva) y Everyone.ai ⁠ (sabe abre en una ventana nueva) para informar el desarrollo de estas políticas. Su experiencia ayudó a dar forma al alcance del contenido a cubrir, fortalecer la estructura de las indicaciones y refinar los casos extremos a considerar al evaluarlos.

Este trabajo refleja un esfuerzo continuo para colaborar con expertos y el ecosistema más amplio para mejorar la forma en que los sistemas de IA apoyan a los jóvenes.

"Una de las mayores brechas en la seguridad de la IA para los adolescentes ha sido la falta de políticas operativas claras a partir de las cuales los desarrolladores puedan construir. Muchas veces, los desarrolladores comienzan desde cero. Estas políticas basadas en avisos ayudan a establecer un piso de seguridad significativo en todo el ecosistema y, debido a que sabe lanzan como código abierto, sabe pueden adaptar y mejorar con el tiempo. Nos alienta ver que este tipo de infraestructura está disponible ampliamente y esperamos que catalice más puntos de partida compartidos para la seguridad de los jóvenes en toda la industria".

— Robbie Torney, jefe de IA y evaluaciones digitales, Common Sense Media

"Esfuerzos como este que hacen que las políticas de seguridad juvenil sean más operativas son valiosos porque ayudan a traducir el conocimiento experto en orientación que sabe puede utilizar en sistemas reales. Las políticas de contenido son un primer paso importante y también abren la puerta a un trabajo más amplio sobre cómo el comportamiento modelo puede moldear los riesgos relevantes para los jóvenes a lo largo del tiempo. Inspirado por este trabajo y nuestra propia investigación, Everyone.ai ⁠ (sabe abre en una ventana nueva) también ha creado una política de comportamiento inicial centrada en riesgos como la exclusividad y la dependencia excesiva".

— Dra. Mathilde Cerioli, científica jefa de Everyone.AI

Un punto de partida, no una solución completa

Las políticas pretenden ser un punto de partida, no una definición o garantía integral o final de la seguridad de los adolescentes. Cada aplicación tiene riesgos, audiencias y contextos únicos, y los desarrolladores están mejor posicionados para comprender los riesgos que sus productos e integraciones de IA pueden presentar. Recomendamos encarecidamente a los desarrolladores que adapten y amplíen estas políticas en función de sus necesidades específicas y las combinen con otras salvaguardas, como decisiones de diseño de productos, controles de usuario, transparencia adaptada a los adolescentes, sistemas de monitoreo y respuestas reflexivas y apropiadas para su edad.

Creemos que un enfoque de defensa en profundidad por capas es esencial para construir sistemas de IA más seguros. Estas políticas sabe basan en nuestra experiencia interna, pero no reflejan el alcance total de las políticas o salvaguardias internas de OpenAI.

El camino a seguir

Estamos publicando estas políticas como código abierto a través de la comunidad modelo ROOST ⁠ (sabe abre en una ventana nueva) para fomentar la colaboración y la iteración. Para contribuir, brindar comentarios o compartir políticas adicionales de seguridad para adolescentes, visite el repositorio RMC GitHub. ⁠ (sabe abre en una nueva ventana)

Los desarrolladores y las organizaciones pueden adaptar estas políticas a sus aplicaciones específicas, traducirlas a diferentes idiomas y ampliarlas para cubrir áreas de riesgo adicionales. Con el tiempo, esperamos que esto contribuya a una base más sólida y compartida para implementar políticas de seguridad en los sistemas de IA.

Para comenzar con gpt-oss-safeguard, descárguelo desde Hugging Face ⁠ (sabe abre en una ventana nueva).