Bridgewater afina Qwen3 y supera a GPT y Claude por 14x menos

El fondo de cobertura entrenó un modelo open-source de 235B junto a Thinking Machines Lab y llegó a 84,7% de precisión en análisis de documentos financieros contra 78,2% de los frontier.

Publicado el 3 de julio de 2026 · 06:33 p. m.3 min de lectura

Al grano

Bridgewater y Thinking Machines Lab afinaron Qwen3-235B con juicio de sus propios inversionistas y le ganaron a GPT, Claude y Gemini.

El modelo llegó a 84,7% de precisión en análisis financiero versus 78,2% del mejor frontier probado, y cuesta 14 veces menos operar.

Los modelos frontier apenas pasaron el 50% con un prompt básico y llegaron al 74-77% con expert prompting.

Por qué importa

El hallazgo importante no es que Qwen3-235B afinado pegue 84,7% contra 78,2% del mejor frontier. Es que la fuente de esa mejora vive en la cabeza de los inversionistas de Bridgewater y no en el corpus público que scrapean OpenAI o Anthropic. Para gerentes de tecnología en Chile la lectura es directa: si tu ventaja competitiva es dominio experto no escrito, subirlo a un frontier lab equivale a regalar el moat.

Bridgewater, el fondo de cobertura fundado por Ray Dalio, y Thinking Machines Lab, la startup de la ex CTO de OpenAI Mira Murati, publicaron esta semana un reporte conjunto que apunta a un mismo diagnóstico: los mejores modelos frontier de la industria pierden contra un open-source afinado con datos privados y juicio experto. Los números vienen de la evaluación interna de las dos empresas.

La verdadera pega no es leer, es decidir qué importa

Un inversionista promedio queda enterrado bajo informes, análisis de mercado, filings corporativos y correos todos los días. Según el reporte del AIA Labs de Bridgewater y de Thinking Machines Lab, la lectura no es el trabajo real. El trabajo real es el flujo constante de pequeñas decisiones repetidas sobre qué merece atención y qué no. Esa es la clasificación que los investigadores intentaron automatizar.

Definieron seis tareas sacadas de la rutina de un inversionista. Un ejemplo: decidir si un artículo financiero es relevante para un ejecutivo. Otro: si un documento de un banco central señala la dirección de las próximas subidas o bajadas de tasas. Para un inversionista senior son juicios triviales, aunque casi nunca pueden explicitarlos con palabras. El reporte da un ejemplo revelador. Un titular sobre la reclamación de Trump por Groenlandia queda etiquetado como irrelevante, mientras que la amenaza de nuevos aranceles a China aparece marcada como altamente relevante. Los dos titulares tocan geopolítica y finanzas, pero uno mueve mercados y el otro no.

¿Cuánto acertaron los modelos frontier?

Los modelos frontier salieron mal parados en los tests de los autores. Variantes de Gemini, Claude y GPT pegaron apenas alrededor de 50% de precisión con un prompt básico. Instrucciones escritas por expertos y un sistema de rating de tres niveles ("relevante e interesante", "relevante pero no interesante", "irrelevante") empujaron la precisión al rango de 74-77%. Aún así no alcanzaron el umbral de 80% que los autores fijaron como mínimo para producción confiable.

El reporte agrega otro dato incómodo para las labs: los modelos nuevos casi no mejoran por dólar. GPT 5.4 cuesta 43% más que GPT 5.2 pero apenas gana precisión marginal en la tarea.

El valor real vive dentro de la cabeza de los inversionistas

La salida fue el fine-tuning. Reentrenaron un modelo open-weight con ejemplos propietarios. El ingrediente clave fue el juicio de los propios inversionistas de Bridgewater. Primero, contratistas externos baratos etiquetaron los documentos, pero muchas de esas etiquetas estaban mal. Para no obligar a los profesionales caros a revisar todo el corpus, los investigadores aplicaron un truco: entrenaron un primer modelo con los labels imperfectos y le pidieron reevaluar los mismos documentos. Donde el modelo y el label original discrepaban, había una alta probabilidad de que el humano se hubiera equivocado. Solo esos casos disputados escalaron a los inversionistas para corregirlos.

El entrenamiento corrió sobre la plataforma Tinker de Thinking Machines Lab, construida encima del modelo abierto Qwen3-235B. En la evaluación de los propios autores, el modelo afinado llegó a 84,7% de precisión frente al 78,2% del mejor frontier probado. Además, cuesta cerca de 14 veces menos operarlo. No es una comparación independiente, por supuesto: las dos empresas tienen interés directo en vender el producto.

¿Qué implica para las labs frontier?

Aun con la advertencia sobre la fuente, el hallazgo detrás de los números vale la pena leer. Muestra otra vez que los grandes labs como OpenAI no han absorbido toda la información del mundo. Existen pools enormes de datos corporativos propietarios y de experiencia humana no entrenada. Y ese material guarda margen real de mejora, en especial cuando las empresas se guardan su data más valiosa a propósito. Cualquiera que le entrega esos datos a un frontier lab arriesga competir después contra un producto construido encima de ellos.

Herramientas como Tinker le abren a las empresas una alternativa. Se quedan con los pesos, los datos y, según cómo lo desplieguen, hasta con las GPUs.

Bridgewater afina Qwen3 y supera a GPT y Claude por 14x menos

Al grano

Por qué importa

La verdadera pega no es leer, es decidir qué importa

¿Cuánto acertaron los modelos frontier?

El valor real vive dentro de la cabeza de los inversionistas

¿Qué implica para las labs frontier?

Seguir leyendo

Agentes IA locales en Windows: MXC y llama.cpp duplican rendimiento

NVIDIA FOX: el cerebro agéntico para fábricas autónomas

NVIDIA Isaac Lab acelera sim-to-real con 8 papers en ICRA 2026

NVIDIA empuja a las telcos a vender tokens AI en vez de GPU por hora

→Al grano

✦Por qué importa

La verdadera pega no es leer, es decidir qué importa

¿Cuánto acertaron los modelos frontier?

El valor real vive dentro de la cabeza de los inversionistas

¿Qué implica para las labs frontier?

Seguir leyendo

Agentes IA locales en Windows: MXC y llama.cpp duplican rendimiento

NVIDIA FOX: el cerebro agéntico para fábricas autónomas

NVIDIA Isaac Lab acelera sim-to-real con 8 papers en ICRA 2026

NVIDIA empuja a las telcos a vender tokens AI en vez de GPU por hora

Al grano

Por qué importa