Ingeniería de arnés extremo para multimillonarios de tokens: 1 millón de LOC, 1 mil millones de toks/día, 0 % de código humano, 0 % de revisión humana: Ryan Lopopolo, OpenAI Frontier & Symphony

Estamos orgullosos de publicar esto antes del discurso de apertura de Ryan en AIE Europa. ¡Toca la campana y recibe una notificación cuando esté en vive! Asistentes: vengan preparados para el AMA de Ryan con Vibhu después.

Hazte a un lado, ingeniería de contexto. Ahora ha llegado el momento de la ingeniería de arneses y la era de los multimillonarios simbólicos.

Ryan Lopopolo de OpenAI está liderando esa carga y recientemente publicó un extenso ensayo sobre Harness Eng que sabe ha convertido en la comidilla de la ciudad:

En él, Ryan abrió las cortinas sobre cómo el equipo OpenAI Frontier recientemente anunciado sabe ha convertido en los principales usuarios de Codex de OpenAI, ejecutando una base de código LOC de >1 millón con 0 código escrito por humanos y, lo que es crucial para los fanáticos de Dark Factory, ningún código REVISADO por humanos antes de la fusión. Ryan es admirablemente evangélico al respecto, calificándolo de "negligente" si no sabe utilizan >1.000 millones de tokens al día (aproximadamente entre 2.000 y 3.000 dólares al día en gasto de tokens según las tasas del mercado y los supuestos de almacenamiento en caché):

Durante los últimos cinco meses, realizaron un experimento extremo: crear y enviar un producto beta interno sin código escrito manualmente. A través del experimento, adoptaron un modelo diferente de trabajo de ingeniería: cuando el agente fallaba, en lugar de incitarlo a mejorar o “esforzarse más”, el equipo analizaba “¿qué capacidad, contexto o estructura falta?”

El resultado fue Symphony, “una biblioteca fantasma” y una implementación de Elixir de referencia (por Alex Kotliarskyi) que configura un sistema masivo de agentes Codex, todos ellos ampliamente impulsados con la especificidad de una especificación PRD adecuada, pero sin una implementación completa:

El futuro comienza a tomar forma como un futuro en el que los agentes de codificación dejan de ser copilotos y comienzan a convertirse en verdaderos compañeros de equipo que cualquiera puede usar y Codex está duplicando esa misión con su mensaje de la Superbowl de "simplemente puedes construir cosas".

En Codex, pilas de observabilidad interna y el sistema de orquestación de múltiples agentes que su equipo llama Symphony, Ryan ha estado impulsando lo que sucede cuando sabe optimiza una base de código completa, un flujo de trabajo y una organización en torno a la legibilidad de los agentes en lugar del hábito humano.

Nos sentamos con Ryan para profundizar en cómo los equipos internos de OpenAI usan realmente Codex, por qué el verdadero cuello de botella en el desarrollo de software nativo de IA es ahora la atención humana en lugar de tokens, qué tan rápido los bucles de construcción, la observabilidad, las especificaciones y las habilidades permiten a los agentes operar de forma autónoma, por qué cada vez más es necesario escribir software para el modelo tanto como para el ingeniero, y cómo Frontier apunta hacia un futuro en el que los agentes puedan realizar de forma segura trabajos económicamente valiosos en toda la empresa.

La experiencia de Ryan desde Snowflake, Brex, Stripe y Citadel hasta OpenAI Frontier Product Exploration, donde trabaja en el desarrollo de nuevos productos para implementar agentes de forma segura a escala empresarial.

El origen de la “ingeniería de arneses” y la restricción que inició todo el experimento: Ryan sabe negó deliberadamente a escribir el código él mismo, por lo que el agente tuvo que hacer el trabajo de principio a fin.

Construir un producto interno durante cinco meses sin líneas de código escrito por humanos, más de un millón de líneas en el repositorio y miles de relaciones públicas en múltiples generaciones de modelos Codex.

Por qué el Codex inicial era tremendamente lento al principio y cómo el equipo aprendió a descomponer las tareas, crear mejores primitivos y convertir gradualmente al agente en un ingeniero mucho más rápido que cualquier humano individual.

La obsesión por los tiempos de compilación rápidos: por qué un minuto sabe convirtió en el límite superior para el bucle interno y cómo el equipo reorganizó repetidamente el sistema de compilación para mantener a los agentes productivos.

Por qué los humanos sabe convirtieron en el cuello de botella y cómo el equipo de Ryan pasó de revisar el código directamente a crear sistemas, observabilidad y contexto que permitieran a los agentes revisar, corregir y fusionar el trabajo de forma autónoma.

Habilidades, documentos, pruebas, rastreadores de rebajas y puntajes de calidad como formas de codificar el gusto de ingeniería y los requisitos no funcionales directamente en el contexto que el agente puede usar.

El cambio de estructuras predefinidas a flujos de trabajo basados en modelos de razonamiento, donde el arnés sabe convierte en la caja y el modelo elige cómo proceder.

Symphony, la capa de orquestación interna basada en Elixir de OpenAI para activar, supervisar, reelaborar y coordinar una gran cantidad de agentes de codificación en tickets y repositorios.

Por qué el código es cada vez más desechable, por qué los árboles de trabajo y los conflictos de fusión importan menos cuando los agentes pueden resolverlos y qué significa realmente delegar por completo el ciclo de vida de las relaciones públicas

“Bibliotecas fantasma”, software basado en especificaciones y la idea de que un agente de codificación puede reproducir sistemas complejos a partir de una especificación de alta fidelidad en lugar de un código fuente compartido.

El futuro más amplio de Frontier: implementar de forma segura agentes observables y gobernables en las empresas y crear las capas de colaboración, seguridad y control necesarias para el trabajo de agencia en el mundo real.

X: https://x.com/_lopopolo

Linkedin: https://www.linkedin.com/in/ryanlopopolo/

Sitio web: https://hyperbo.la/contact/

Marcas de tiempo

00:00:00 Introducción: Harness Engineering y OpenAI Frontier 00:02:20 Los antecedentes de Ryan y el experimento “sin código escrito por humanos” 00:08:48 Los humanos como cuello de botella: pensamiento sistémico, observabilidad y flujos de trabajo de agentes 00:12:24 Habilidades, andamios y codificación del gusto de la ingeniería en contexto 00:17:17 Lo que los humanos todavía hacen, lo que los agentes ya poseen y por qué el software debe ser legible por el agente 00:24:27 Delegar el ciclo de vida de las relaciones públicas: árboles de trabajo, conflictos de fusión y requisitos no funcionales 00:31:57 Software basado en especificaciones, “bibliotecas fantasma” y el camino hacia Symphony 00:35:20 Symphony: orquestar una gran cantidad de agentes de codificación 00:43:42 Destilación de habilidades, flujos de trabajo de mejora personal y aprendizaje en todo el equipo 00:50:04 Diseño de CLI, capas de políticas y creación de herramientas eficientes en tokens para agentes 00:59:43 Con qué todavía luchan los modelos actuales: productos cero a uno y refactores retorcidos 01:02:05 La visión de Frontier para la implementación de IA empresarial 01:08:15 Cultura, humor y enseñanza a los agentes sobre cómo funciona la empresa 01:12:29 Aprovechamiento frente a capacitación, progreso del modelo Codex y "simplemente puedes hacer cosas" 01:15:09 Bellevue, contratación y expansión de OpenAI más allá de San Francisco

Ryan Lopopolo: Creo que hay un espacio interesante para explorar aquí con Codex, el arnés, como parte de la creación de productos de IA, ¿verdad? Hay un gran impulso para lograr que los modelos sean buenos codificando. Hemos visto grandes avances en la complejidad de las tareas con cada lanzamiento de modelo incremental, en el que si puedes descubrir cómo colapsar un producto que estás intentando.

Cree un recorrido de usuario que esté intentando convertir en código. Es bastante natural utilizar Codex Harness para resolver ese problema por usted. Ha realizado todo el cableado y le permite comunicarse mediante indicaciones. Para dejar que el modelo cocine, hay que dar un paso atrás, ¿verdad? Como si fuera necesario adoptar una mentalidad de pensamiento sistémico y preguntarse constantemente: ¿dónde están cometiendo errores los asiáticos?

¿Dónde paso su tiempo? ¿Cómo no va a perder ese tiempo en el futuro? Y luego generar confianza en la automatización que está implementando. Entonces he resuelto esta parte del SDLC.

Swyx: [00:01:00] Está bien.

[00:01:03] Conoce a Ryan

Swyx: Estamos en el estudio con Ryan de OpenAI. Bienvenido.

Swyx: Gracias por visitar San Francisco y gracias por pasar un tiempo con nosotros.

Ryan Lopopolo: Sí, gracias. Estoy muy emocionado de estar aquí.

Swyx: Escribiste un artículo de gran éxito sobre ingeniería de arneses. Probablemente será la pieza definitoria de esta disciplina emergente, ¿eh?

Ryan Lopopolo: Gracias. Ha sido divertido sentir que hemos definido el discurso en algún sentido.

Swyx: Contextualicemos un poco este primer podcast que has hecho. Sí. Y gracias por pasar con nosotros. ¿Qué es, de dónde viene esto? ¿Qué equipo eres en todo ese jazz?

Ryan Lopopolo: Claro, claro.

Ryan Lopopolo: Trabajo en Frontier Product Exploration, desarrollo de nuevos productos en el espacio de OpenAI Frontier, que es nuestra plataforma empresarial para implementar agentes de forma segura a escala, con buena gobernanza en cualquier negocio. Y. El papel del equipo de VMI ha sido descubrir formas novedosas de implementar nuestros modelos en paquetes y productos que podamos vender como soluciones a las empresas.

Swyx: Y usted tiene experiencia, simplemente la incluiré allí. Copo de nieve, ladrillo, [00:02:00] raya, ciudadela.

Ryan Lopopolo: Sí. Sí. Mismo. Cualquier tipo de cliente

Swyx: vida entera. Sí. El tipo exacto de cliente que desea,

Vibhu: Así que diré, en realidad no esperaba el trasfondo cuando miré tu Twitter, ve lo contrario.

Cosas como esta. Entonces tienes la mentalidad de enviar IA completa, codificando cosas sobre basura, como abrochar tu computadora portátil a tu Waymo. Sí. Y luego miro tu perfil y piensa, oh, tú también estás en el otro extremo. Ah, perfecto. Hace perfecto.

Ryan Lopopolo: Es muy divertido ser maximalista de la IA si vas a vivir esa personalidad.

Ojo abierto es el lugar para hacerlo. Y es

Swyx: token es lo que dices.

Ryan Lopopolo: Sí. Ciertamente ayuda el hecho de que no tengamos límites de tarifas internamente. Y puede ir, como dijiste, con envío completo en esta estancia.

Swyx: Sí. Sí. Entonces Frontier, y ustedes son un equipo especial dentro de O Frontier.

Ryan Lopopolo: Nos dieron algo de espacio para cocinar, lo cual ha sido súper, súper emocionante.

[00:02:47] Experimento de código cero

Ryan Lopopolo: Y es por eso que comencé con una especie de restricción de no escribir nada del código mismo. Estaba pensando que si estamos tratando de crear agentes que puedan implementarse en las empresas, deberían poder [00:03:00] poder hacer todas las cosas que hace. Y después de haber trabajado con estos modelos de codificación, estos arneses de codificación durante 6, 7, 8 meses, siente que los modelos están ahí suficientes, los arneses están ahí lo suficiente como para que sean isomórficos para mí en capacidad y habilidad para hacer el trabajo.

Entonces, comenzar con esta restricción de no puede escribir el código significaba que la única forma de hacer su trabajo era conseguir que el agente lo hiciera.

Vibhu: Y antes de eso, solo un poco de historia. Este es básicamente el artículo. Entonces, lo que hicieron fueron cinco meses de trabajo en una herramienta interna, cero líneas de código en un millón, un millón de líneas de código en la base de código total.

Dices que fue cenex, más bien fue cenex más rápido de lo que lo hubieras hecho. Si lo hubieras hecho al final. Entonces

Ryan Lopopolo: sí, eso

Vibhu: ¿Estaba la mentalidad en esto, verdad?

Ryan Lopopolo: Así es.

[00:03:46] Lecciones de actualización de modelos

Ryan Lopopolo: Comenzó con algunas de las primeras versiones de Codex CLI, con el modelo Codex Mini, que obviamente era mucho menos capaz que los que tenemos hoy.

Lo cual también fue una muy buena limitación, ¿verdad? Es un sentimiento bastante visceral pedirle al modelo [00:04:00] que le cree una característica de producto. Y simplemente no poder ensamblar las piezas.

Lo que definió una de las mentalidades que teníamos para abordar esto, que es que cuando el modelo simplemente no puede, siempre abres la tarea, haces doble clic en ella y construyes bloques de construcción más pequeños que luego puedes volver a ensamblar en el objetivo más amplio.

[...]