Correr modelos de IA localmente dejó de ser un nicho de hobbistas para volverse una opción legítima para developers, pequeñas empresas y privacidad-first. En 2026 la oferta se expandió: NVIDIA cementó su catálogo edge con Jetson Orin Nano Super y Thor (en pre-anuncio), Apple normalizó M4 Ultra con 192GB de memoria unificada para inferencia de LLMs grandes, y RTX 5090 (32GB GDDR7) bajó el ticket consumer para entrenamiento.
Lo que cubrimos en esta guía: el catálogo real de hardware viable para IA local en 2026, la pregunta práctica de cuánta VRAM necesita cada modelo (Llama 4, Claude Sonnet local, Qwen 3, DeepSeek), comparativa de tokens/segundo en plataformas distintas y el cálculo honesto de costo total para un dev en Chile (precio del hardware + envío + IVA + electricidad por hora de uso).
No es un universo solo NVIDIA: Apple Silicon es competitiva en memoria unificada, Tenstorrent ofrece ASICs interesantes y los players chinos empiezan a llegar a LATAM con precios disruptivos.














