Lemonade, el servidor local de IA desarrollado por AMD para correr modelos sobre sus CPU, GPU y NPU, liberó una nueva versión que además agrega soporte CUDA para GPU NVIDIA.

El SDK Lemonade ofrece capacidades de servidor local de IA compatibles con las APIs de OpenAI, Anthropic y Ollama. Se apoya en FastFlowLM, vLLM, Llama.cpp y otros componentes para entregar una experiencia de IA local open source rica. Más allá de soportar los productos propios de AMD (NPU Ryzen AI, aceleradores Radeon e Instinct y CPU x86_64), también suma GPU Apple Metal y CPU AArch64. Lo llamativo es que con Lemonade 10.7 se incorpora soporte CUDA, lo que permite usar el mismo servidor local sobre las GPU de su competidor directo.

Lemonade 10.7 integra el backend CUDA de Llama.cpp en Windows y Linux con detección correcta de la GPU NVIDIA dentro de Lemonade y otras piezas de integración. El backend CUDA de stable-diffusion.cpp también se suma en Linux. Además, esta versión trae soporte Vulkan para stable-diffusion.cpp en Windows y Linux, ampliando la compatibilidad entre vendors.

¿Qué más trae Lemonade 10.7?

La versión incorpora soporte para modelos LMX-Omni, un endpoint Prometheus nativo para monitoreo de estadísticas en tiempo real y otras mejoras menores. La integración con Prometheus apunta a quienes corren Lemonade detrás de dashboards de observabilidad estilo Grafana.

El cambio que más llama la atención es el comando lemonade bench, enfocado en benchmarking apples-to-apples de LLMs entre Llama.cpp, FastFlowLM, vLLM y el software de Ryzen AI. Hasta ahora, comparar rendimiento entre estos runtimes locales exigía armar un harness propio para cada uno. La promesa de Lemonade es un único punto de entrada para medir tokens por segundo y latencia bajo configuraciones equivalentes.

¿Por qué importa que AMD habilite CUDA?

Que AMD agregue CUDA a una herramienta propia no es trivial. Lemonade compite directamente con Ollama y con el stack de inferencia local que históricamente ha sido territorio NVIDIA. Al permitir que la misma instalación maneje Ryzen AI, Radeon, Instinct, Apple Metal, x86_64, AArch64 y ahora también GPU NVIDIA, AMD posiciona Lemonade como capa de abstracción cross-vendor antes que como producto cautivo de su silicon. Para integradores y laboratorios LatAm que mezclan hardware NVIDIA viejo con tarjetas Radeon nuevas, el cambio reduce fricción de despliegue.

Los descargables de Lemonade 10.7 y más detalles del feature release open source están en su release en GitHub.