Leanstral 1.5 de Mistral: 100% en miniF2F y caza 5 bugs

El modelo open-source (Apache 2.0) para verificación formal en Lean 4 lidera PutnamBench entre pesos abiertos y detectó overflows reales en 57 repositorios.

Publicado el 5 de julio de 2026 · 12:42 a. m.2 min de lectura

Al grano

Mistral liberó Leanstral 1.5, modelo open-source (Apache 2.0) enfocado en verificación formal con Lean 4, disponible en Hugging Face y API gratuita.

Alcanza 100% en miniF2F y resuelve 587 de 672 problemas en PutnamBench, superando a todos los modelos open-source del segmento.

Al escanear 57 repositorios open source detectó cinco bugs desconocidos, incluido un overflow en la librería Rust varinteger.

Por qué importa

Los benchmarks matemáticos son un teatro conocido en la carrera de modelos, pero la historia interesante acá es el salto lateral. Leanstral 1.5 pasó de demostrar teoremas a detectar overflows reales en librerías Rust. Ese cruce entre razonamiento simbólico y auditoría de código es lo que los equipos de seguridad venían pidiendo. Que Mistral lo entregue open-source y con API gratuita cambia el juego: la verificación formal deja de ser un lujo académico para arquitecturas críticas.

Mistral AI liberó Leanstral 1.5, un modelo open-source bajo licencia Apache 2.0 diseñado específicamente para verificación formal en el lenguaje de programación Lean 4. Este entorno se usa para demostrar formalmente teoremas matemáticos y verificar la corrección de software, un ámbito donde los modelos de lenguaje suelen tropezar por la exigencia de razonamiento simbólico paso a paso.

El anuncio confirma dos apuestas fuertes de la casa francesa. Primero, que la verificación formal es un vector serio para diferenciar modelos open-weight frente a los closed-source. Segundo, que la matemática de alto nivel es un terreno donde publicar cifras concretas todavía mueve la aguja del mindshare técnico.

¿Qué benchmarks superó Leanstral 1.5?

Los resultados publicados por Mistral son directos y comparables:

miniF2F: 100% de aciertos. El benchmark cubre desde problemas de secundaria hasta el nivel olimpiada matemática.
PutnamBench: 587 de 672 problemas resueltos, un 87,3%. El corpus proviene de la William Lowell Putnam Mathematical Competition.
FATE-H: 87%. Testea álgebra a nivel maestría en áreas como teoría de grupos.
FATE-X: 34%. Testea álgebra doctoral, incluyendo teoría de anillos.

Según Mistral, Leanstral 1.5 lidera el campo open-source en PutnamBench, FATE-H y FATE-X. El único modelo que lo supera en PutnamBench es Aleph Prover, que es closed-source.

De teoremas a bugs reales

El modelo se entrenó principalmente para matemáticas, pero Mistral asegura que también rinde bien en verificación de código. En una prueba práctica, Leanstral 1.5 escaneó 57 repositorios open source y detectó cinco bugs previamente desconocidos. Entre ellos, un bug de overflow en la librería Rust varinteger, un componente que afecta la seguridad de parsers en aplicaciones que manipulan enteros de longitud variable.

Este dato importa por lo que sugiere el pipeline: si un modelo entrenado para pruebas matemáticas encuentra bugs reales al usarlo como scanner formal, la brecha entre "verificación formal académica" y "auditoría de seguridad práctica" se acorta un poco más.

¿Cómo se entrenó y dónde probarlo?

El entrenamiento combinó tres etapas: mid-training, fine-tuning supervisado (SFT) y aprendizaje por refuerzo (RL), la receta estándar post-2024 en la industria.

Los pesos están disponibles en Hugging Face y Mistral también ofrece una API gratuita para probar el modelo sin infraestructura propia. La licencia Apache 2.0 permite uso comercial sin restricciones, lo que abre la puerta a integraciones en toolchains privadas de verificación.

Contexto para desarrolladores en LatAm

Para equipos hispanohablantes que trabajan con Lean 4 o auditan librerías críticas (fintech, criptografía, sistemas embebidos), la combinación "modelo abierto + API gratuita" reduce la barrera de entrada. Un servidor con una GPU consumer alcanza para experimentar; correrlo en producción exige compute serio, pero la fase de prototipado se puede hacer contra la API pública sin costo.

La escena chilena todavía ve la verificación formal como un tema de doctorado, pero herramientas como esta empiezan a hacerla accesible para equipos de ingeniería que auditan smart contracts, kernels o firmware embarcado.

Leanstral 1.5 de Mistral: 100% en miniF2F y caza 5 bugs

Al grano

Por qué importa

¿Qué benchmarks superó Leanstral 1.5?

De teoremas a bugs reales

¿Cómo se entrenó y dónde probarlo?

Contexto para desarrolladores en LatAm

Seguir leyendo

Zyphra, Cohere y Poolside amplían el open source de IA

JetBrains lanza Mellum2: MoE de 12B con licencia Apache 2.0

GLM-5.2 pasa el vibe check y Z.ai apunta a un Fable abierto en diciembre

GLM-5.2 destrona a Opus en frontend coding y suma IndexShare

→Al grano

✦Por qué importa

¿Qué benchmarks superó Leanstral 1.5?

De teoremas a bugs reales

¿Cómo se entrenó y dónde probarlo?

Contexto para desarrolladores en LatAm

Seguir leyendo

Zyphra, Cohere y Poolside amplían el open source de IA

JetBrains lanza Mellum2: MoE de 12B con licencia Apache 2.0

GLM-5.2 pasa el vibe check y Z.ai apunta a un Fable abierto en diciembre

GLM-5.2 destrona a Opus en frontend coding y suma IndexShare

Al grano

Por qué importa