Intel y AMD definen ACE: instrucciones IA nativas en x86

ACE reusa los registros AVX10 de 512 bits, agrega silicio dedicado a multiplicar matrices y unifica el camino de optimización en PyTorch o TensorFlow.

Publicado el 20 de junio de 2026 · 06:05 p. m.2 min de lectura

Al grano

Intel y AMD publicaron la especificación completa de ACE, un set de extensiones x86 orientado a multiplicación de matrices para IA.

ACE reusa los registros AVX10 de 512 bits y agrega silicio dedicado, prometiendo hasta 16 veces más operaciones por vector que AVX10.

Soporta nativamente INT8, INT32, FP8, FP16, FP32, BF16 y los formatos MX del Open Compute Project, sin conversiones intermedias.

Por qué importa

La movida más interesante de ACE no es el 16x prometido sino que Intel y AMD lo firmen juntos. Hasta hoy cada generación de AVX abría una zanja distinta entre familias y obligaba a frameworks como PyTorch a sostener rutas paralelas. Si ACE queda realmente como destino único en x86, los integradores chilenos pueden por fin amortizar estaciones de IA sin comprar GPU dedicada para modelos chicos.

La carrera por correr inteligencia artificial directamente en la CPU sumó un movimiento conjunto de Intel y AMD. Las dos compañías oficializaron la especificación de ACE, un set de extensiones x86 que añade silicio dedicado a la multiplicación de matrices y reusa los registros de AVX10 de 512 bits. El objetivo es claro: ofrecer un camino más eficiente que la GPU para modelos pequeños y cargas latency-sensitive de un único usuario.

¿Qué hace exactamente ACE?

La multiplicación de matrices es el corazón de los modelos modernos. Cada inferencia recorre tablas de números aplicando multiplicaciones y sumas. AVX10 ya permitía hacerlo con sus instrucciones multiply-accumulate, pero, según describe Tom's Hardware, técnicamente "es un parche, porque AVX no fue diseñada pensando en operaciones de matrices 2D".

ACE introduce hardware específico que opera sobre los mismos registros de 512 bits. El resultado, asegura la especificación, es hasta 16 veces más operaciones por la misma cantidad de vectores de entrada, comparado con AVX10. No implica 16x de speedup real (dependerá de cuánto silicio dedique cada fabricante en sus implementaciones), pero sí reduce el overhead de instrucciones y mejora la utilización del ancho de banda hacia la RAM.

Soporte amplio de formatos numéricos

Uno de los argumentos más fuertes para frameworks como PyTorch y TensorFlow es que ACE soporta nativamente la mayoría de los tipos de dato usados en machine learning: INT8, INT32, FP8, FP16, FP32 y BF16. La extensión también acepta sin conversiones los formatos block-scaled MX del Open Compute Project, algo que AVX10 no entrega de fábrica.

Característica	AVX10	ACE
Registros	512 bits	512 bits (reusa AVX10)
Multiplicación de matrices	Multiply-accumulate	Silicio dedicado
Operaciones por vector	1x base	hasta 16x
Formatos MX (OCP)	No nativo	Nativo
Rutas de código por hardware	Múltiples	Única

¿Por qué importa para desarrolladores e integradores?

Hasta ahora cada arquitectura x86 tenía su propio nivel de soporte AVX, lo que obligaba a las bibliotecas de ML a mantener varias rutas de código. ACE busca ser implementation-agnostic, así PyTorch o TensorFlow pueden escribir una sola ruta que corre indistintamente en silicio Intel o AMD. Para desarrolladores latinoamericanos que no siempre tienen acceso fluido a GPUs dedicadas, la promesa es directa: ejecutar inferencia en notebooks y servidores convencionales sin pagar el costo de mover datos hacia una GPU o NPU.

ACE también abre la puerta a mover cargas desde NPUs hacia la CPU cuando la latencia importa más que el consumo. Cada NPU tiene un set de instrucciones distinto; el procesador x86 con ACE ofrece un destino consistente para los kits de optimización.

¿Cuándo llega a productos finales?

Intel y AMD no anunciaron todavía cuáles serán las primeras familias de CPU con ACE habilitado. Bruno Ferreira, autor del análisis de Tom's Hardware, anticipa que los próximos diseños dedicarán más silicio a la nueva extensión para amplificar el speedup real. Para integradores de Chile y LatAm que arman estaciones de IA con CPU de consumo (Core Ultra de Intel, Ryzen AI de AMD), la disponibilidad de ACE se vuelve un punto a vigilar antes de presupuestar para 2027.

Intel y AMD definen ACE: instrucciones IA nativas en x86

Al grano

Por qué importa

¿Qué hace exactamente ACE?

Soporte amplio de formatos numéricos

¿Por qué importa para desarrolladores e integradores?

¿Cuándo llega a productos finales?

Seguir leyendo

Submarino DIY navega por color con Raspberry Pi 4 y ESP32

Switch y Klipper aceleran la Prusa MK3S y 3DBenchy cae a 9 min

RS-485 y Raspberry Pi: riego DIY que escala por la granja

Tesla V100 a PCIe por USD 200 supera a la RTX 3060 con LLMs

→Al grano

✦Por qué importa

¿Qué hace exactamente ACE?

Soporte amplio de formatos numéricos

¿Por qué importa para desarrolladores e integradores?

¿Cuándo llega a productos finales?

Seguir leyendo

Submarino DIY navega por color con Raspberry Pi 4 y ESP32

Switch y Klipper aceleran la Prusa MK3S y 3DBenchy cae a 9 min

RS-485 y Raspberry Pi: riego DIY que escala por la granja

Tesla V100 a PCIe por USD 200 supera a la RTX 3060 con LLMs

Al grano

Por qué importa