Lemonade 10.7 de AMD suma soporte CUDA para GPU NVIDIA
El servidor local de IA open source de AMD ahora detecta GPU NVIDIA en Windows y Linux vía Llama.cpp y stable-diffusion.cpp, y agrega benchmarks comparables entre runtimes.
60 notas publicadas

Google DeepMind publica un modelo experimental MoE de 26B parámetros bajo Apache 2.0 que genera bloques de 256 tokens en paralelo, alcanzando 1.000 tok/s en una NVIDIA H100.

Investigadores de la Universidad de Twente proponen ajustar la frecuencia de reloj del GPU por kernel para reducir el consumo eléctrico sin perder rendimiento.

El nuevo motor DNN acelera modelos como Qwen 2.5 y Gemma 3 con backends nativos en Intel, Arm, Qualcomm y RISC-V, y supera por hasta 36% al ONNX Runtime en benchmarks.

NVIDIA presenta NVFP4, una técnica de entrenamiento de precisión mixta de 4 bits que permite acelerar el despliegue de LLM en plataformas Blackwell sin perder precisión.

Tras las críticas por mi primer acercamiento a los asistentes de código por IA, profundizo en modelos, frontends y el arte de la ingeniería de prompts.

Arduino plantea agentes locales, LLMs compactos y workflows de IA orquestados sobre el UNO Q, que combina Debian Linux con un STM32 en tiempo real en una misma placa.

Aprende a integrar Hermes Agent con NVIDIA NemoClaw para procesar datos privados y públicos de forma segura, permitiendo que tu asistente aprenda nuevas habilidades sin reescribir código.

El startup de hardware AI promete 60 veces más memoria que el DGX B300 de NVIDIA, con 12 chips Ignite (ARM + RISC-V), bandwidth de 25,6 TB/s y envío previsto para 2027.

El modelo activa solo 2,5B parámetros por token, promete inferencia más de 2 veces más rápida que pares de tamaño similar y apunta a routing, RAG, subagentes y despliegues privados.

Entiende la diferencia entre memoria explícita e historial en modelos LLM. Aprende a limpiar, corregir y optimizar el contexto que tu IA utiliza a diario.

DynoSim corre el stack de servicio de LLM como simulación discreta en Rust y mapea la frontera de Pareto del workload antes de pagar GPUs reales.

Anthropic mantiene los precios de Opus 4.7 (USD 5/USD 25 por millón de tokens), suma control de esfuerzo en claude.ai, workflows dinámicos en Claude Code y modo rápido tres veces más barato.
Hugging Face liberó un PR en TRL que codifica solo los pesos que cambiaron como safetensors disperso y los sube a un Hub Bucket. El trainer y el rollout dejan de necesitar el mismo data center.
Hugging Face publicó el stack speech-to-speech cascade con Silero, Parakeet-TDT, Qwen3-TTS y llama.cpp para correr el robot sin enviar audio a la nube.

El benchmark STAC-AI LANG6 con Llama 3.1 8B y 70B muestra hasta 2,8x más rendimiento por GPU frente a Hopper en cargas de inferencia con documentos EDGAR.

El motor open source de LightSeek, escrito desde cero en SPMD con compilacion estatica, ataca workloads agenticos con prefix cache hibrido y disaggregacion prefill-decode para Mamba.

El sistema con CRIU mas cuda-checkpoint baja el cold-start de un gpt-oss-120b al limite fisico de memoria, evitando que GPUs facturadas queden ociosas durante el scale-up.

Tras seis meses probando coding agents en su proyecto tinygrad, el hacker se alinea con LeCun y Marcus: 'son modelos estadísticos que imitan código, no que lo entienden'.

El benchmark CiteVQA de la Universidad de Pekín muestra que hasta el mejor modelo (Gemini 3.1 Pro Preview) saca solo 76/100 cuando se exige que la cita apunte al párrafo correcto del PDF.

El asistente conversacional usa Gemini 3.1 Flash-Lite por defecto, suma plugins de gráficos, generación de imágenes y sandbox de código, y también corre contra modelos locales en LM Studio.

Tres referentes, tres lecturas: el cofundador de DeepMind cree que la AGI está a cinco años, LeCun niega que los LLM actuales sean inteligentes y el colíder de Gemini propone un punto medio.

MMProLong, un modelo de 7B parámetros, supera a InternVL3-38B y Gemma3-27B en documentos de hasta 512.000 tokens entrenándose con pares pregunta-respuesta en vez de OCR puro.

Un experimento del matemático Adam Kucharski mostró que Microsoft Copilot, Gemini Flash y otros modelos rápidos confabulan estereotipos cuando deberían leer los datos reales.

AutoTTS deja que un agente de código busque por sí mismo las reglas del test-time scaling y produce una estrategia que iguala a self-consistency con un tercio del costo en tokens.

Desde prompt engineering y RAG hasta SFT, LoRA y RLVR con GRPO: una guia tecnica para decidir cuando cada metodo agrega valor sin disparar el costo.

El fundador Liang Wenfeng le dijo a inversionistas que la ronda de 13.200 millones de dolares apunta a AGI y modelos open source, no a monetizar rapido.

El recorte sobre DeepSeek V4 Pro lleva el output a USD 0,87 por millon de tokens y consolida la guerra de precios que la oferta china abrio contra OpenAI y Anthropic.

Un giro narrativo de Greg Brockman, el cierre del equipo de modelos de AI21 y el primer equipo de harness en DeepSeek apuntan al mismo movimiento: el modelo dejó de ser el producto.

El nuevo modelo del equipo Qwen, exclusivo de la API de Alibaba Cloud, completó 432 tests de kernel y 1.158 tool calls sin intervención humana, logrando un speedup promedio de 10x.

NVIDIA detalla cinco prácticas para medir agentes en producción: trayectorias completas, precisión de tool calls y eficiencia, más allá del benchmark estático del modelo base.

El modelo más rápido en su clase de inteligencia consume tantos tokens en tareas de agentes que supera incluso al Gemini 3.1 Pro en costo total.

Simon Willison desarma el lanzamiento: GA sin preview, USD 1,50 input y USD 9 output por millón de tokens, cerca del 3.1 Pro mientras Google lo regala en sus productos de consumo.
El SDK open source de AMD para servir LLMs sobre GPUs y NPUs sube el soporte para Apple Silicon de beta a GA, e integra el ROCm 7.13 Tech Preview en Llama.cpp y Stable-Diffusion.cpp.

El developer británico, autor de Datasette, presentó en PyCon US 2026 una lightning talk sobre el punto de inflexión de noviembre de 2025, cuando los agentes de código cruzaron la barrera de calidad.

El modelo se construyó sobre el checkpoint Kimi K2.5 y cobra USD 0,50 por millón de tokens de entrada, contra los hasta USD 11 por tarea que cuestan Opus 4.7 y GPT-5.5.

El nuevo delegado MLX lleva inferencia GPU optimizada a Mac con chips de Apple, con soporte para Llama, Qwen, Gemma, Whisper y cuantización de 2 a 8 bits, además de NVFP4.

Un consorcio de 64 matemáticos diseñó 439 tareas para Gemini 3 Pro, GPT-5 y Claude Opus 4.5; ninguno supera el 50% al detectar problemas sin solución.

Cada suscripcion Claude da creditos API mensuales por el monto del plan: harnesses como OpenClaw y claude -p pierden la subvencion mientras Codex gana fans entre AI engineers.

El último boletín de Interconnects repasa los lanzamientos del mes en pesos abiertos y discute por qué los benchmarks del CAISI muestran una brecha más grande que la real.

Ai2 y UC Berkeley entrenaron un mixture-of-experts cuyos expertos se especializan por dominio temático, no por patrones gramaticales: permite descartar 3/4 perdiendo solo un punto porcentual.

El AI Security Institute británico recalculó por segunda vez en tres meses el período de duplicación de los modelos frontera en tareas de ciberseguridad: pasó de 8 meses a menos de 4.7.

NVIDIA acopla aceleradores Groq 3 LPX y servidores Vera Rubin NVL72 con un fabric programado por compilador para servir agentes de IA con latencia constante a miles de chips.

Un equipo chino libera el LLM médico más grande disponible bajo Apache 2.0, con MoE que activa solo 6,1B parámetros y supera modelos propietarios en HealthBench.

El paper LLMs Corrupt Your Documents When You Delegate prueba 52 dominios profesionales. Solo Python pasa el umbral de listo para producción según Microsoft Research.

Un kernel CUDA llamado TwELL aprovecha la sparsity de activaciones para acelerar inferencia 20,5% y entrenamiento 21,9% en GPUs H100, sin perder precisión en benchmarks.

Investigadores de Meta, Stanford y la Universidad de Washington proponen tres técnicas que aceleran la generación del Byte Latent Transformer sin perder calidad de salida.

Un reporte de Google Threat Intelligence Group detalla un ataque Python contra autenticación 2FA en una herramienta open source, con señales delatoras como un puntaje CVSS alucinado.

El nuevo modelo de Baidu se destila desde Ernie 5.0 con cerca de un tercio de los parámetros y el 6% del costo de entrenamiento, alcanzando el 4° lugar global del Search Arena con 1.223 puntos.

Un análisis de OpenRouter sobre el uso real durante abril de 2026 muestra que el alza real en la factura mensual depende del largo del input y golpea más fuerte a quien usa prompts cortos.

El medallista Fields Timothy Gowers afirma que el modelo de OpenAI resolvió un problema abierto de teoría de números en 17 minutos y construyó un preprint completo sin guía matemática humana.

Simon Willison se hace eco de un argumento del equipo de Anthropic: pedir respuestas en HTML deja a Claude usar SVG, widgets interactivos y navegación en página, recursos imposibles en Markdown plano.

El proyecto open source de Angelos Papoutsakis baja el listón de nanoGPT y entrega seis módulos para construir y entrenar un LLM básico en un computador común.

Google empuja un modelo Gemini Nano de unos 4 GB a cada instalación de Chrome. Promete autocorrección y sugerencias avanzadas, pero ya genera quejas por uso de disco y CPU.

Samuel Potozkin combinó reconocimiento de voz en tiempo real, un LLM para generar respuestas y síntesis que imita al droide para construir un C-3PO funcional, aunque algo más robótico que el original.

Repaso a la serie de tres artículos de Giles Thomas sobre cómo funcionan logits, embeddings, atención y transformers, la base estadística que conviene dominar antes de hablar de IA generativa.

Hector Zenil y colegas demuestran en PNAS Nexus que ningún sistema general puede alinearse con humanos, y proponen reemplazar el control absoluto por un ecosistema de agentes en tensión.

El modelo se enfoca en developers con contexto de un millón de tokens, costos 40-60% menores que Grok 4.20 y razonamiento integrado, aunque queda detrás de los flagships de OpenAI y Anthropic.

El modelo procesa texto, imagen, video y audio con 30 mil millones de parámetros y se entrenó con datos sintéticos de Qwen, GPT-OSS, Kimi y DeepSeek-OCR.

Nvidia presenta NemoClaw, una implementación de referencia que despliega OpenClaw, OpenShell y modelos Nemotron con configuraciones de seguridad endurecidas para empresas.
Otros temas que aparecen junto a #llm en nuestra cobertura editorial.