Lemonade 10.7 de AMD suma soporte CUDA para GPU NVIDIA

El servidor local de IA open source de AMD ahora detecta GPU NVIDIA en Windows y Linux vía Llama.cpp y stable-diffusion.cpp, y agrega benchmarks comparables entre runtimes.

Publicado el 11 de junio de 2026 · 01:01 a. m.2 min de lectura

Al grano

Lemonade 10.7, el servidor local de IA open source de AMD, agregó soporte CUDA para GPU NVIDIA en Windows y Linux.

Es compatible con APIs OpenAI, Anthropic y Ollama, y ya soporta CPU x86_64, AArch64, GPU Apple Metal, Radeon, Instinct y NPU Ryzen AI.

Suma backend CUDA y Vulkan para stable-diffusion.cpp, modelos LMX-Omni, endpoint Prometheus y el comando lemonade bench.

Por qué importa

Que AMD agregue soporte CUDA a una herramienta propia es señal de hacia dónde apunta la inferencia local: portabilidad sobre lealtad de vendor. Ollama sigue siendo el default consumer, pero Lemonade ya cubre más backends de hardware en una sola instalación. El comando lemonade bench resuelve un dolor real, no había forma estándar de comparar Llama.cpp vs vLLM vs FastFlowLM. Para makers chilenos que combinan GPU NVIDIA viejas con Radeon nuevas, el setup deja de exigir dos stacks paralelos.

Lemonade, el servidor local de IA desarrollado por AMD para correr modelos sobre sus CPU, GPU y NPU, liberó una nueva versión que además agrega soporte CUDA para GPU NVIDIA.

El SDK Lemonade ofrece capacidades de servidor local de IA compatibles con las APIs de OpenAI, Anthropic y Ollama. Se apoya en FastFlowLM, vLLM, Llama.cpp y otros componentes para entregar una experiencia de IA local open source rica. Más allá de soportar los productos propios de AMD (NPU Ryzen AI, aceleradores Radeon e Instinct y CPU x86_64), también suma GPU Apple Metal y CPU AArch64. Lo llamativo es que con Lemonade 10.7 se incorpora soporte CUDA, lo que permite usar el mismo servidor local sobre las GPU de su competidor directo.

Lemonade 10.7 integra el backend CUDA de Llama.cpp en Windows y Linux con detección correcta de la GPU NVIDIA dentro de Lemonade y otras piezas de integración. El backend CUDA de stable-diffusion.cpp también se suma en Linux. Además, esta versión trae soporte Vulkan para stable-diffusion.cpp en Windows y Linux, ampliando la compatibilidad entre vendors.

¿Qué más trae Lemonade 10.7?

La versión incorpora soporte para modelos LMX-Omni, un endpoint Prometheus nativo para monitoreo de estadísticas en tiempo real y otras mejoras menores. La integración con Prometheus apunta a quienes corren Lemonade detrás de dashboards de observabilidad estilo Grafana.

El cambio que más llama la atención es el comando lemonade bench, enfocado en benchmarking apples-to-apples de LLMs entre Llama.cpp, FastFlowLM, vLLM y el software de Ryzen AI. Hasta ahora, comparar rendimiento entre estos runtimes locales exigía armar un harness propio para cada uno. La promesa de Lemonade es un único punto de entrada para medir tokens por segundo y latencia bajo configuraciones equivalentes.

¿Por qué importa que AMD habilite CUDA?

Que AMD agregue CUDA a una herramienta propia no es trivial. Lemonade compite directamente con Ollama y con el stack de inferencia local que históricamente ha sido territorio NVIDIA. Al permitir que la misma instalación maneje Ryzen AI, Radeon, Instinct, Apple Metal, x86_64, AArch64 y ahora también GPU NVIDIA, AMD posiciona Lemonade como capa de abstracción cross-vendor antes que como producto cautivo de su silicon. Para integradores y laboratorios LatAm que mezclan hardware NVIDIA viejo con tarjetas Radeon nuevas, el cambio reduce fricción de despliegue.

Los descargables de Lemonade 10.7 y más detalles del feature release open source están en su release en GitHub.

Lemonade 10.7 de AMD suma soporte CUDA para GPU NVIDIA

Al grano

Por qué importa

¿Qué más trae Lemonade 10.7?

¿Por qué importa que AMD habilite CUDA?

Seguir leyendo

DiffusionGemma: generación de texto 4 veces más rápida

CUDA: el foso de software que mantiene a Nvidia intocable

NVIDIA CompileIQ: auto-tuning evolutivo para kernels CUDA

CUDA 13.3 trae Tile Programming en C++ y autoajuste de compilador

→Al grano

✦Por qué importa

¿Qué más trae Lemonade 10.7?

¿Por qué importa que AMD habilite CUDA?

Seguir leyendo

DiffusionGemma: generación de texto 4 veces más rápida

CUDA: el foso de software que mantiene a Nvidia intocable

NVIDIA CompileIQ: auto-tuning evolutivo para kernels CUDA

CUDA 13.3 trae Tile Programming en C++ y autoajuste de compilador

Al grano

Por qué importa