Bridgewater, el fondo de cobertura fundado por Ray Dalio, y Thinking Machines Lab, la startup de la ex CTO de OpenAI Mira Murati, publicaron esta semana un reporte conjunto que apunta a un mismo diagnóstico: los mejores modelos frontier de la industria pierden contra un open-source afinado con datos privados y juicio experto. Los números vienen de la evaluación interna de las dos empresas.
La verdadera pega no es leer, es decidir qué importa
Un inversionista promedio queda enterrado bajo informes, análisis de mercado, filings corporativos y correos todos los días. Según el reporte del AIA Labs de Bridgewater y de Thinking Machines Lab, la lectura no es el trabajo real. El trabajo real es el flujo constante de pequeñas decisiones repetidas sobre qué merece atención y qué no. Esa es la clasificación que los investigadores intentaron automatizar.
Definieron seis tareas sacadas de la rutina de un inversionista. Un ejemplo: decidir si un artículo financiero es relevante para un ejecutivo. Otro: si un documento de un banco central señala la dirección de las próximas subidas o bajadas de tasas. Para un inversionista senior son juicios triviales, aunque casi nunca pueden explicitarlos con palabras. El reporte da un ejemplo revelador. Un titular sobre la reclamación de Trump por Groenlandia queda etiquetado como irrelevante, mientras que la amenaza de nuevos aranceles a China aparece marcada como altamente relevante. Los dos titulares tocan geopolítica y finanzas, pero uno mueve mercados y el otro no.
¿Cuánto acertaron los modelos frontier?
Los modelos frontier salieron mal parados en los tests de los autores. Variantes de Gemini, Claude y GPT pegaron apenas alrededor de 50% de precisión con un prompt básico. Instrucciones escritas por expertos y un sistema de rating de tres niveles ("relevante e interesante", "relevante pero no interesante", "irrelevante") empujaron la precisión al rango de 74-77%. Aún así no alcanzaron el umbral de 80% que los autores fijaron como mínimo para producción confiable.
El reporte agrega otro dato incómodo para las labs: los modelos nuevos casi no mejoran por dólar. GPT 5.4 cuesta 43% más que GPT 5.2 pero apenas gana precisión marginal en la tarea.
El valor real vive dentro de la cabeza de los inversionistas
La salida fue el fine-tuning. Reentrenaron un modelo open-weight con ejemplos propietarios. El ingrediente clave fue el juicio de los propios inversionistas de Bridgewater. Primero, contratistas externos baratos etiquetaron los documentos, pero muchas de esas etiquetas estaban mal. Para no obligar a los profesionales caros a revisar todo el corpus, los investigadores aplicaron un truco: entrenaron un primer modelo con los labels imperfectos y le pidieron reevaluar los mismos documentos. Donde el modelo y el label original discrepaban, había una alta probabilidad de que el humano se hubiera equivocado. Solo esos casos disputados escalaron a los inversionistas para corregirlos.
El entrenamiento corrió sobre la plataforma Tinker de Thinking Machines Lab, construida encima del modelo abierto Qwen3-235B. En la evaluación de los propios autores, el modelo afinado llegó a 84,7% de precisión frente al 78,2% del mejor frontier probado. Además, cuesta cerca de 14 veces menos operarlo. No es una comparación independiente, por supuesto: las dos empresas tienen interés directo en vender el producto.
¿Qué implica para las labs frontier?
Aun con la advertencia sobre la fuente, el hallazgo detrás de los números vale la pena leer. Muestra otra vez que los grandes labs como OpenAI no han absorbido toda la información del mundo. Existen pools enormes de datos corporativos propietarios y de experiencia humana no entrenada. Y ese material guarda margen real de mejora, en especial cuando las empresas se guardan su data más valiosa a propósito. Cualquiera que le entrega esos datos a un frontier lab arriesga competir después contra un producto construido encima de ellos.
Herramientas como Tinker le abren a las empresas una alternativa. Se quedan con los pesos, los datos y, según cómo lo desplieguen, hasta con las GPUs.




