La demanda explosiva por computación para correr modelos de IA solo se acelera, pero cualquiera que entre al negocio choca con dos obstáculos: conseguir los chips correctos y meterlos en data centers donde puedan empezar a generar ingresos.
General Compute, un nuevo neocloud de inferencia (empresa que arrienda capacidad de procesamiento para la fase en que los modelos responden a usuarios, no para entrenamiento), tiene respuestas a esas dos preguntas que iluminan hacia dónde va el ecosistema de IA. Esas respuestas le ayudaron a levantar una ronda semilla de USD 15 millones a una valuación post-money de USD 60 millones, liderada por FUSE VC con participación de Carya Venture Partners y Village Global Ventures.
¿Cuál es el chip correcto para inferencia?
La demanda por GPUs se disparó, pero ya se está volviendo consensus que no son los chips más adecuados para correr modelos una vez entrenados. La fase de inferencia tiene requisitos computacionales distintos al entrenamiento, y una nueva clase de chips está siendo diseñada específicamente para ella. La adquisición de Groq por USD 20 mil millones de NVIDIA en diciembre y la IPO de Cerebras por USD 57 mil millones la semana pasada marcaron el camino.
Con la capacidad de ambas empresas estresada, los cofundadores de General Compute, el CEO Finn Puklowski y el CTO Jason Goodison, encontraron otra opción: chips especializados de SambaNova, fabricante respaldado por Intel y enfocado en inferencia, que llevaba un tiempo fuera de la conversación de Silicon Valley.
¿Qué ofrece la arquitectura SambaNova SN50?
Eso podría cambiar cuando SambaNova libere sus nuevos chips este año. La arquitectura es más flexible y usa más memoria para almacenar contexto durante los cálculos de inferencia. SambaNova afirma que supera no solo a las GPU sino también a chips especializados de Groq o Cerebras. Puklowski dice que los nuevos chips generarán 600 a 700 tokens por segundo, contra unos 250 tokens por segundo en GPU.
General Compute tiene USD 300 millones del chip SN50 de SambaNova ordenados y dice que será el primer neocloud en desplegarlos.
Estos chips también ayudan a resolver el segundo problema: dónde ponerlos. Son refrigerados por aire, no por agua, y consumen menos potencia, así que se pueden instalar en data centers existentes sin nuevas inversiones en infraestructura.
Puklowski está persiguiendo acuerdos de colocation (instalar hardware en instalaciones de terceros) no solo con proveedores de data center, sino también con mineros de criptomonedas que buscan reutilizar su infraestructura ahora que el costo de producir un bitcoin a menudo supera su precio.
¿Qué tan rápido es eso en la práctica?
General Compute lanzó su oferta cloud la semana pasada, afirmando que ya es la más rápida corriendo MiniMax 2.7, un LLM open source potente.
Joe Hasselmann, inversionista de venture que entró temprano al boom de inferencia cuando invirtió en Groq en 2021, lanzó este año un nuevo fondo, Evercrest Capital Partners, enfocado en IA, e hizo de General Compute una de sus primeras apuestas. Hasselmann ve en la sociedad SambaNova-General Compute paralelos con la relación CoreWeave-NVIDIA y con la dupla chip-cloud que tenía Groq antes de la adquisición.
"Necesitan una mezcla saludable de clientes que pongan sus chips en entornos con alto crecimiento", dijo Hasselmann. "Tanto como General Compute apuesta por SambaNova, SambaNova apuesta por General Compute."
¿Qué está en juego para el resto del mercado?
La pregunta de fondo es qué arquitectura de cómputo capturará la mayor parte del valor en el futuro de la IA. Los neoclouds de inferencia son apuestas implícitas a un mundo de múltiples modelos y agentes, donde ningún proveedor domina y la velocidad y el costo por token se convierten en las variables competitivas clave. Considera la Serie B de USD 113 millones levantada por OpenRouter esta semana, que refleja la capacidad de la empresa para ofrecer acceso a múltiples modelos y optimizar el gasto en tokens.
La velocidad importa en ese cálculo, tanto para precio como para capacidad. Puklowski quiere convertir cargas de trabajo de una hora para agentes de coding en tareas de 5 a 10 minutos, y hacer económicamente viables los agentes de voz para atención al cliente, que requieren inferencia más rápida para sostener conversaciones efectivas.
"Si usas ChatGPT y te entrega 50 tokens por segundo, eso todavía es mucho más rápido de lo que podemos leer", dijo Puklowski a TechCrunch. "Ahora que las cosas pasaron a interacciones agente-a-agente, donde los agentes están leyendo en nuestro nombre o consultando bases de datos, necesitan ir más rápido."
¿Qué significa esto para LatAm?
En la región, los proyectos que dependen de inferencia rápida y barata (asistentes de voz para call centers en Chile, Colombia y México, agentes de coding embebidos en pipelines DevOps locales) son los primeros candidatos a ver precios por millón de tokens caer si SambaNova-General Compute escala según lo prometido. Hoy un millón de tokens de salida de GPT-5 cuesta entre USD 8 y USD 15 dependiendo del proveedor; un escenario competitivo con SN50, Cerebras y Groq podría empujar ese piso hacia USD 2 o USD 3 por millón de tokens en cargas de inferencia simples antes de que termine 2026.



