Para los usuarios pesados de IA, la economía del boom actual empieza a doler. En el último año, los grandes laboratorios subieron precios y apretaron los límites de uso, con cuotas más estrictas, ventanas de contexto menores en planes bajos y funciones que migran a planes más caros. Aun cuando el costo por token cayó en los titulares, la realidad del usuario es más complicada: volúmenes más altos, flujos más complejos y nuevas expectativas de herramientas hacen que las facturas mensuales suban, no bajen.

Al mismo tiempo, los modelos open-weight mejoraron rápido, el hardware de consumo se volvió más capaz y herramientas como LM Studio, Ollama y llama.cpp dejaron el despliegue local mucho más accesible que hace apenas un año. El resultado es un renacimiento del cómputo IA en máquinas propias.

¿Cómo se armó el setup?

Yo soy uno de los que dio el salto. A mediados de marzo compré un mini PC GMKtech con chip AMD Ryzen AI Max+ 395 y 96 GB de RAM. La compra (en ese momento unos £1.500, equivalentes a USD 2.000) fue una decisión calculada. Los volúmenes que quería pasar por modelos IA habrían reventado mis suscripciones actuales (tengo ChatGPT Plus y GLM Coding Lite, que combinados me cuestan unos USD 23 al mes) y me habrían empujado a planes mensuales más caros o a inferencia vía API.

La decisión era simple: gastar varios miles de dólares al año en suscripciones (con la garantía de pagar más cada año a laboratorios que probablemente vuelvan a subir precios) o pagar un cargo único por mi propio hardware más un costo menor recurrente de electricidad. Elegí lo segundo.

Cuando llegó el mini PC, configurarlo fue relativamente fácil, aunque por transparencia: solo posible con ayuda de los modelos IA de pago completo que tengo en los grandes laboratorios.

El sistema que monté sobre mi hardware se diseñó para ayudarme a seguir la noticia constante en los temas que cubro para Tom's Hardware Premium y otros. Toma feeds RSS y digiere historias en los temas que cubro, después las califica contra un "cerebro" digital construido analizando casi 2.000 notas mías de los últimos cuatro años.

Cuando encuentra candidatos potencialmente interesantes, esas historias se "asignan" a reporteros IA, que leen sobre el tema en la web y producen pitches similares a los que yo mando a mis editores. Esos reporteros IA mandan los pitches a editores IA, que conversan con los reporteros para afinar el encuadre antes de presentarme dos párrafos de una idea amplia ajustada a mis gustos vía Telegram.

Los resultados están lejos de ser perfectos: los equipararía a un recién egresado al que enseño, en cuanto a gusto y profundidad. Pero son un buen punto de partida para entender qué importa cada día y una provocación sobre cómo enmarcar esos eventos. Para lo que uso IA, ni siquiera los modelos frontera son mucho mejores que los locales, aunque la brecha es mayor cuando se trata de codear.

¿Qué modelos corre el stack local?

Todo el proceso usa LM Studio y corre sobre una mezcla de modelos cuantizados, en general Qwen3.5 y 3.6. Como ejecuto varios procesos de editor y reportero en paralelo, el conteo de parámetros por modelo puede parecer chico para los 96 GB de RAM que mi GPU AMD puede direccionar (tras algunos ajustes de BIOS). Uso una mezcla del Qwen 3.5-9B estándar, el Jackrong Qwen-3.5-9B-GLM-5.1-Distilled y el Qwopus-3.5-9B. En parte es porque miles de llamadas a los modelos ocurren cada día y para mantener el ritmo de stories en la cola, el throughput tiene que ser alto.

Desde que arrancó el proyecto local a mediados de marzo, mis LLMs caseros queman entre 20 y 50 millones de tokens al día solo en este pipeline. Junto al troubleshooting con modelos hospedados de pago y proyectos paralelos en mi plan GLM Coding, uso entre 50 y 100 millones de tokens en un día promedio.

Para este tipo de lectura, análisis y reescritura, los modelos locales funcionan brillante. Tienen throughput alto pero corren en segundo plano, así que el "time to first token" más lento que muchos critican frente a los hosted no es un problema para mí. El modelo corre 24 horas al día y si tarda dos segundos o dos minutos en procesar los prompts (entre 7.000 y 18.000 tokens, dependiendo de si es reportero o editor y cuán avanzado va el diálogo), no me afecta. Los tokens por segundo no van a impresionar a quien hable en redes: los modelos manejan los prompts a unos 300 tok/s y la salida sale mucho más lenta, 5-10 tok/s. Pero a mí me sirve.

¿Vale la pena vs seguir pagando APIs?

Sigo manteniendo mis suscripciones grandes, pero las uso distinto. Mi plan GLM Coding, comprado en navidad y vigente por un año, lo uso junto a Codex de OpenAI para destrabar y afinar proyectos cuando aparecen problemas. Mi conocimiento de programación se quedó en QuickBASIC y Delphi de la adolescencia, así que poder convocar a estas herramientas (y una suscripción ocasional a OpenCode Go) para resolver problemas es invaluable.

La proporción de mi uso de IA, sin embargo, cambió de manera importante. Dos tercios o más de mi uso total de tokens son LLMs locales. A medida que los modelos locales sigan desarrollándose y la brecha con la frontera se cierre, espero que esa proporción crezca. Hace poco, por ejemplo, vibe-codeé una interfaz web para LM Studio que me deja usarlo como chatbot regular.

En solo dos meses, lo que me habría costado correr ese proyecto contra GPT-5.4-mini vía API equivale a tres cuartos del costo del primer mini PC, alrededor de USD 1.500.

En retrospectiva, ojalá hubiera comprado la versión de 128 GB. Por eso, hace unas dos semanas, antes del próximo salto de precios de memoria, compré el modelo más grande. La razón fue simple: el volumen de consultas en mi caja de 96 GB empezaba a tocar techo y quería expandir el proyecto. También quería probar harnesses de coding hospedados localmente, como Claude Code o Hermes, sobre modelos locales.

La experiencia del primer mini PC ayudó mucho a configurar el segundo. El conteo de tokens pasó de 20-50 millones diarios a 50-80 millones diarios. Mové parte del proyecto de ingesta y análisis al hardware nuevo y lo cargué con modelos de 27B y 36B parámetros (vía el modelo Final-Bench-Darwin-36B-Opus), liberando espacio en mi primer mini PC.

Eso funcionó bastante bien. La parte de probar un Claude Code casero ha tenido menos éxito: respaldar el harness con GLM-4.7-Flash funciona, pero el salto generacional se siente excesivo. Los modelos Qwen más grandes se quedan pegados en su propio razonamiento o queman buena parte de la ventana de contexto asignada. Estoy considerando cambiar Claude Code por un harness más liviano para darle una corrida en serio.

¿Por qué los modelos frontera van a seguir subiendo de precio?

La apuesta que hago es simple: los precios de suscripción y API de los laboratorios frontera (con outliers como DeepSeek) solo van a ir en una dirección, a medida que las empresas detrás se den cuenta de que tienen que retornar dinero a los inversionistas. Incluso si los precios no se van a la estratósfera, los laboratorios podrían recortar uso, como ya vimos hacer a GitHub. Y aunque la carrera por construir capacidad para satisfacer la demanda va a empujar los precios de hardware al alza en el corto plazo, sigo pensando que es mejor apuesta tener control sobre tus modelos y cuánto pagas que dejarlo en manos de las grandes empresas.

Sigo afinando mi stack local, que ya pasó de uno a dos mini PCs interconectados. También miro una PC con GPU Nvidia para tener la velocidad de tokens que hoy me falta. Por ahora prefiero exprimir lo que tengo antes de hacer el salto financiero a un sistema más grande.