La carrera por correr inteligencia artificial directamente en la CPU sumó un movimiento conjunto de Intel y AMD. Las dos compañías oficializaron la especificación de ACE, un set de extensiones x86 que añade silicio dedicado a la multiplicación de matrices y reusa los registros de AVX10 de 512 bits. El objetivo es claro: ofrecer un camino más eficiente que la GPU para modelos pequeños y cargas latency-sensitive de un único usuario.
¿Qué hace exactamente ACE?
La multiplicación de matrices es el corazón de los modelos modernos. Cada inferencia recorre tablas de números aplicando multiplicaciones y sumas. AVX10 ya permitía hacerlo con sus instrucciones multiply-accumulate, pero, según describe Tom's Hardware, técnicamente "es un parche, porque AVX no fue diseñada pensando en operaciones de matrices 2D".
ACE introduce hardware específico que opera sobre los mismos registros de 512 bits. El resultado, asegura la especificación, es hasta 16 veces más operaciones por la misma cantidad de vectores de entrada, comparado con AVX10. No implica 16x de speedup real (dependerá de cuánto silicio dedique cada fabricante en sus implementaciones), pero sí reduce el overhead de instrucciones y mejora la utilización del ancho de banda hacia la RAM.
Soporte amplio de formatos numéricos
Uno de los argumentos más fuertes para frameworks como PyTorch y TensorFlow es que ACE soporta nativamente la mayoría de los tipos de dato usados en machine learning: INT8, INT32, FP8, FP16, FP32 y BF16. La extensión también acepta sin conversiones los formatos block-scaled MX del Open Compute Project, algo que AVX10 no entrega de fábrica.
| Característica | AVX10 | ACE |
|---|---|---|
| Registros | 512 bits | 512 bits (reusa AVX10) |
| Multiplicación de matrices | Multiply-accumulate | Silicio dedicado |
| Operaciones por vector | 1x base | hasta 16x |
| Formatos MX (OCP) | No nativo | Nativo |
| Rutas de código por hardware | Múltiples | Única |
¿Por qué importa para desarrolladores e integradores?
Hasta ahora cada arquitectura x86 tenía su propio nivel de soporte AVX, lo que obligaba a las bibliotecas de ML a mantener varias rutas de código. ACE busca ser implementation-agnostic, así PyTorch o TensorFlow pueden escribir una sola ruta que corre indistintamente en silicio Intel o AMD. Para desarrolladores latinoamericanos que no siempre tienen acceso fluido a GPUs dedicadas, la promesa es directa: ejecutar inferencia en notebooks y servidores convencionales sin pagar el costo de mover datos hacia una GPU o NPU.
ACE también abre la puerta a mover cargas desde NPUs hacia la CPU cuando la latencia importa más que el consumo. Cada NPU tiene un set de instrucciones distinto; el procesador x86 con ACE ofrece un destino consistente para los kits de optimización.
¿Cuándo llega a productos finales?
Intel y AMD no anunciaron todavía cuáles serán las primeras familias de CPU con ACE habilitado. Bruno Ferreira, autor del análisis de Tom's Hardware, anticipa que los próximos diseños dedicarán más silicio a la nueva extensión para amplificar el speedup real. Para integradores de Chile y LatAm que arman estaciones de IA con CPU de consumo (Core Ultra de Intel, Ryzen AI de AMD), la disponibilidad de ACE se vuelve un punto a vigilar antes de presupuestar para 2027.




