Punto clave de esta nota

Ahmad Osman, fundador de Osmantic, sostiene que la brecha entre modelos frontier y modelos open source ejecutados en hardware propio bajó a un rango de cuatro a ocho meses.

Punto clave de esta nota

Un modelo local sin acceso a búsqueda y herramientas falla en tareas que el mismo modelo hosted resuelve; la infraestructura alrededor es tan importante como los pesos.

Ahmad Osman: la IA local está a 4-8 meses de los modelos frontier

Al grano

Ahmad Osman, fundador de Osmantic, sostiene que la brecha entre modelos frontier y modelos open source ejecutados en hardware propio bajó a un rango de cuatro a ocho meses.
Un modelo local sin acceso a búsqueda y herramientas falla en tareas que el mismo modelo hosted resuelve; la infraestructura alrededor es tan importante como los pesos.
Progresión open source destacada: Llama, Mistral, Qwen, DeepSeek, GLM y Kimi; cada generación achica el gap con los cerrados.

Ahmad Osman lleva años defendiendo la IA local (correr modelos en tu propio computador, workstation o hardware dedicado) mucho antes de que se volviera uno de los grandes ejes de este año en el AI Engineer World's Fair. También es fundador de Osmantic, una empresa que construye software open source para desplegar y operar sistemas de IA local.

Uno de los temas que emerge del AIEWF es que los LLM open source se están convirtiendo en alternativas cada vez más creíbles frente a los grandes modelos propietarios. Como la mayoría de los sistemas de IA local dependen de modelos abiertos, ese giro refuerza la posición que Osman viene sosteniendo. En sus palabras a Latent Space: "la brecha entre modelos open source y modelos frontier cerrados se sigue achicando".

Osman lo dice todavía más explícito en un sitio llamado Open Source AI Must Win: "la capacidad de estudiar, construir, reparar, desplegar, auditar, adaptar, enseñar, preservar y ejecutar sistemas de inteligencia sin pedir permiso es de importancia existencial".

En el AIEWF, Osman dio un taller de dos partes sobre LLM locales y agentes de workstation. Las sesiones mostraron a qué velocidad avanza el campo: desde modelos en teléfonos y laptops hasta workstations con GPU dedicada e infraestructura empresarial. El público no se limitó a los entusiastas del hardware: incluyó desde estudiantes que se preguntaban qué máquina comprar para la universidad hasta ejecutivos pensando en enrutamiento de modelos y control de datos corporativos.

¿Qué es exactamente la IA local hoy?

Latent Space: ¿Podés resumir de qué trataron los talleres y qué buscaban los asistentes?

Ahmad Osman: Fue un taller en dos partes y hubo más demanda que espacio. Lamentablemente tuvimos que dejar gente afuera. Llegué con un sitio web que preparamos para demostrar IA local. Era básicamente una arena de hardware donde la gente podía comparar sistemas como el DGX Spark, máquinas AMD Strix Halo y otros dispositivos. Podías correrlos uno contra otro, o compararlos con un modelo frontier de la nube, y ver la performance, la calidad del output, la velocidad y la latencia por vos mismo.

La idea principal era hacer tangible la IA local. Todavía existe una percepción que data de 2022, cuando los modelos eran mucho menos capaces. Pero todo mejoró sustancialmente desde entonces. Hay un rezago frente a los modelos frontier (quizás de cuatro a ocho meses), pero los modelos locales y abiertos vienen alcanzándolos. Queríamos que la gente interactuara con estos sistemas y no solo escuchara un argumento teórico.

Un modelo es apenas una pieza del sistema

Latent Space: ¿Qué le falta a la mayoría cuando piensa en IA local como "correr un modelo en tu máquina"?

Osman: Hay una gran confusión con productos como ChatGPT o Claude Code. Vienen con una infraestructura completa alrededor del modelo y del agente. No son una sola cosa.

Un amigo mío compró una RTX 5090 para correr Qwen 3.5 local. Conectó Claude Code al modelo y le pidió cambiar la iluminación RGB de la GPU, pero falló. Después usó el servicio hosted de Claude Code, y funcionó. Le pregunté si le había dado al modelo local acceso a búsqueda por internet. No lo había hecho. Los datos de entrenamiento tenían fecha de corte, mientras que el software y la documentación que necesitaba habían cambiado desde entonces. Una vez que le dimos al sistema local acceso a un endpoint de búsqueda, pudo completar la tarea.

Ese es el punto: cuando usás un agente hosted, no estás usando solo un modelo. Estás usando búsqueda, herramientas, infraestructura y otros servicios alrededor. Con nuestro sistema open source de despliegue, tratamos de dar la experiencia completa: desde interfaz de chat e ingesta de documentos hasta agentes, harnesses y herramientas de búsqueda. Esa capa end-to-end venía faltando en el ecosistema de IA local.

¿Hay que comprar una GPU para experimentar?

Latent Space: ¿Los desarrolladores necesitan salir a comprar GPUs para experimentar con IA local?

Osman: Depende del tamaño del modelo que quieras usar. Podés correr un Qwen de cuatro bits en una MacBook. En el otro extremo, un modelo abierto de clase frontier bien grande puede requerir varias RTX Pro 6000. Pero la tendencia mayor es que los modelos son cada vez más eficientes. En un teléfono moderno podés correr un modelo que supera a sistemas que la gente usaba en la nube hace apenas un par de años, sin consumir toda la memoria del dispositivo.

Hardware y modelos avanzan juntos

Latent Space: ¿El progreso viene principalmente del software y los modelos, o también del hardware?

Osman: Los modelos mejoraron dramáticamente. Las arquitecturas son más eficientes y muchas mejoras chicas se acumulan. Una vez que un laboratorio frontier demuestra que una capacidad es posible, el ecosistema open source puede trabajar hacia atrás y encontrar formas más eficientes de reproducirla.

Estamos viendo modelos con decenas de miles de millones de parámetros que dan rendimiento que antes requería sistemas mucho más grandes. Algunos de esos modelos corren en una RTX 3090 lanzada en 2020. Hace dos años, ese nivel de capacidad sobre ese hardware no era realista.

IA híbrida y soberana

Latent Space: ¿Esperás que más aplicaciones combinen IA local y en la nube?

Osman: Sí. Los modelos edge se van a volver más populares, y esto no es solo consumo. Las empresas están cada vez más conscientes de que los modelos de los que dependen pueden dejar de estar disponibles en la misma forma. Los proveedores pueden cambiar calidad, precio, acceso o políticas. Eso crea incentivo para moverse hacia hardware dedicado y compute seguro. No necesariamente on-premises: una empresa puede usar hardware dedicado colocado en un data center bajo su control.

El beneficio es que la calidad del modelo no cambia inesperadamente, el acceso no puede ser removido, y la empresa retiene control sobre su propiedad intelectual, datos, privacidad y obligaciones de compliance. Los modelos open source también siguen cerrando la brecha con los sistemas propietarios frontier. Vimos una progresión rápida a través de Llama, Mistral, Qwen, DeepSeek, GLM y Kimi. Cada generación achica el gap.

Modelos especializados: el negocio real

Latent Space: ¿A dónde lleva esto para el mundo empresarial?

Osman: Creo hace tiempo que los modelos más pequeños y especializados son el futuro para muchos casos de uso de negocio. Una empresa puede empezar con un modelo general y recolectar trazas, mensajes y feedback de cómo lo usan los empleados. Con el tiempo, esos datos pueden alimentar un modelo más especializado ajustado al trabajo particular de la compañía. Eso puede mejorar performance, reducir costos y hacer el sistema más útil.

También creo que las empresas de modelos open source van a monetizar cada vez más vía licencias para fine-tuning, aprendizaje por refuerzo o despliegues comerciales especializados. La dirección general apunta a mayor soberanía: empresas e individuos controlando sus modelos, compute y datos, mientras se benefician del progreso rápido del ecosistema open source.

Por cierto: la pregunta más frecuente del taller fue cuántas GPUs tengo en casa. La respuesta son 22 RTX 3090.

Ahmad Osman: la IA local está a 4-8 meses de los modelos frontier

Al grano

Por qué importa

¿Qué es exactamente la IA local hoy?

Un modelo es apenas una pieza del sistema

¿Hay que comprar una GPU para experimentar?

Hardware y modelos avanzan juntos

IA híbrida y soberana

Modelos especializados: el negocio real

Seguir leyendo

Zyphra, Cohere y Poolside amplían el open source de IA

Reachy Mini corre voz, LLM y TTS 100% en local con Qwen3

AMD GAIA 0.20: IA local con control total de hardware

IA local: ejecuta LLMs privados en tu propio computador

→Al grano

✦Por qué importa

¿Qué es exactamente la IA local hoy?

Un modelo es apenas una pieza del sistema

¿Hay que comprar una GPU para experimentar?

Hardware y modelos avanzan juntos

IA híbrida y soberana

Modelos especializados: el negocio real

Seguir leyendo

Zyphra, Cohere y Poolside amplían el open source de IA

Reachy Mini corre voz, LLM y TTS 100% en local con Qwen3

AMD GAIA 0.20: IA local con control total de hardware

IA local: ejecuta LLMs privados en tu propio computador

Al grano

Por qué importa