OpenAI y Broadcom presentaron Jalapeño, un procesador de inferencia ASIC diseñado a medida para modelos de lenguaje grandes (LLM) y futuras cargas de IA agéntica. Según ambas empresas, el chip entrega un rendimiento por watt superior al del hardware de vanguardia disponible hoy. OpenAI considera el proyecto como estratégico y plantea a Jalapeño como la primera generación de su propia línea de hardware de inferencia.
¿Qué hace exactamente Jalapeño?

OpenAI subraya que Jalapeño no es un acelerador de IA reutilizado ni un procesador genérico. Se trata de un ASIC construido específicamente para inferencia, con una arquitectura definida a partir del comportamiento real de los LLM. La firma asegura que el diseño ataca los cuellos de botella prácticos que importan a escala: el costoso movimiento de datos, el balance entre cómputo y memoria, la eficiencia de red y el comportamiento general del sistema.
El procesador combina alto throughput con baja latencia. Por eso utiliza un compute chiplet de gran tamaño y memoria HBM en vez de DRAM más barata, una elección útil para cargas de razonamiento y agentes autónomos. OpenAI y Broadcom afirman además que el chip entrega una utilización efectiva más alta que los aceleradores convencionales y se acerca al máximo teórico, lo que se traduce en eficiencia tanto en costos como en consumo eléctrico.
Las compañías no revelaron objetivos de rendimiento concretos para el ASIC, por lo que estas afirmaciones deben tomarse con cautela. Sí confirmaron que muestras de ingeniería ya operan en laboratorio a la frecuencia y consumo objetivo (sin detallar cifras), ejecutando cargas de machine learning como GPT-5.3-Codex-Spark.
Los tests internos tempranos indican que el rendimiento por watt de Jalapeño es sustancialmente mejor que el del current state-of-the-art, según los voceros oficiales. Sin embargo, no se entregaron números duros, benchmarks ni configuración de memoria. Hay otra advertencia importante: aunque Jalapeño superaría a los actuales AMD Instinct MI350 y a las soluciones basadas en Nvidia Blackwell, todavía falta ver cómo competirá contra los próximos Instinct MI400 y los productos basados en Nvidia Rubin.
"Jalapeño fue diseñado desde cero para inferencia de LLM usando insights detallados de nuestra colaboración cercana con los investigadores de OpenAI", dijo Richard Ho, líder del programa de hardware de OpenAI. "Optimizamos la arquitectura alrededor de los kernels, el movimiento de memoria, la red y los patrones de servicio que más importan para los modelos de IA de frontera. Según las pruebas tempranas, Jalapeño ejecutará nuestras cargas más importantes muy cerca del límite teórico del hardware."
¿Cuán grande es el chip y cómo se compone?

Aunque Broadcom y OpenAI no publicaron las especificaciones, sí mostraron el wafer y el packaging, lo que permite un análisis preliminar. El paquete aparenta tener un compute chiplet grande rodeado por seis módulos HBM y otro chiplet adicional que probablemente concentra las interfaces de I/O, flanqueado por dos dummy dies estructurales.
La imagen del wafer luce como un acelerador estilo Broadcom centrado en arreglos sistólicos: muestra un floorplan muy regular y columnar con regiones de cómputo replicadas y macros de infraestructura fijos. Aun así, hay que tomar la lectura con pinzas. La calidad de la foto no permite afirmar con certeza si Jalapeño usa un verdadero arreglo sistólico 2D, un conjunto de motores matriciales 1D/2D, una colección de tiles vectoriales o tensoriales, u otra ruta de datos para inferencia. Lo único claro es que el die tiene un floorplan altamente repetitivo consistente con varias arquitecturas de aceleradores en tiles.
Lo que sí se puede estimar es el tamaño del compute chiplet usando como referencia los paquetes HBM3/4 (10,975 mm × 10,975 mm) que lo rodean. Según el cálculo, el chiplet mide aproximadamente 25,46 mm de ancho × 33 mm de alto, lo que arroja un die de cerca de 840 mm². Esta cifra está muy cerca del límite reticle de los sistemas de litografía EUV (858 mm²). La estimación no es exacta dada la calidad de la imagen, pero se acerca a la realidad.
El tamaño implica que el chip carga mucha potencia de cómputo. Sin estimaciones de rendimiento es imposible cuantificar el impacto, pero es razonable decir que el compute die de Jalapeño es considerablemente más grande que el de otros aceleradores de inferencia del mercado y se parece más a procesadores de entrenamiento. Hablando de entrenamiento, AMD y Nvidia han apostado por diseños multi-chiplet para empaquetar tanto rendimiento como sea posible. El hecho de que OpenAI y Broadcom hayan optado por un único compute chiplet grande sugiere que priorizaron reducir latencias al máximo.
¿Cuándo y para quién estará disponible?
Las empresas dicen que el chip alcanzó tape-out en apenas nueve meses y que se desplegará a partir de fines de 2026, un tiempo extremadamente corto para un ASIC. No está claro si Broadcom y OpenAI usaron IA de forma extensiva para definir y desarrollar Jalapeño, aunque admitieron que los modelos de OpenAI aceleraron partes del diseño y la optimización. Diseñar un ASIC desde cero suele tomar entre 1,5 y 2 años, por lo que la IA puede comprimir el ciclo de desarrollo. Otro factor es la reutilización extensiva de bloques lógicos que Broadcom hace entre sus diseños personalizados, lo que también acorta los plazos.
Según el anuncio, Jalapeño está diseñado para soportar no solo las cargas de OpenAI, sino también los LLM presentes y futuros de la industria, lo que abre la puerta a que OpenAI venda hardware a terceros, asumiendo que pueda asegurar suministro con Broadcom y TSMC. El CEO de Broadcom indica que el chip se desplegará a escala gigawatt con Microsoft y otros socios a partir de este año, aunque no quedó claro si el procesador será de uso exclusivo de OpenAI o se ofrecerá también a otros tenants.
"Nuestra colaboración con OpenAI representa un compromiso fundamental con la escala de la infraestructura física requerida para la próxima década de IA", dijo Hock Tan, presidente y CEO de Broadcom. "Esto es solo el comienzo de un roadmap multi-generacional. Co-desarrollando nuestro silicio líder de la industria directamente con OpenAI, estamos habilitando el despliegue de centros de datos gigawatt-scale con Microsoft y otros socios desde 2026."
¿Por qué un compute die tan grande?
Comparado con la competencia, Jalapeño se ubica en otro juego. Aceleradores ASIC previos como el de Taalas (de tamaño reticle similar) podían ejecutar solo un modelo concreto —Llama 3.1 8B en ese caso— con rendimiento y eficiencia altísimos. La apuesta de OpenAI sugiere algo distinto: un chip configurable para correr varios modelos sin necesidad de un ASIC nuevo por cada versión. Si los usuarios siguen mostrando apego cuando un modelo se retira (los recientes movimientos para conservar GPT-4o son evidencia), tiene sentido mantener un mismo modelo durante varios años con costos operativos bajos.
La elección de un compute chiplet único en lugar de un diseño multi-chiplet apunta a minimizar latencias internas: cuanta menos comunicación entre dies, menor el overhead de movimiento de datos, algo crítico para inferencia interactiva y agentes que generan miles de tokens.




