Saltar al contenido
Etiqueta

#llm

60 notas publicadas

Lemonade 10.7 de AMD suma soporte CUDA para GPU NVIDIA
Open Source

Lemonade 10.7 de AMD suma soporte CUDA para GPU NVIDIA

El servidor local de IA open source de AMD ahora detecta GPU NVIDIA en Windows y Linux vía Llama.cpp y stable-diffusion.cpp, y agrega benchmarks comparables entre runtimes.

Phoronix Tests
DiffusionGemma: generación de texto 4 veces más rápida
IA

DiffusionGemma: generación de texto 4 veces más rápida

Google DeepMind publica un modelo experimental MoE de 26B parámetros bajo Apache 2.0 que genera bloques de 256 tokens en paralelo, alcanzando 1.000 tok/s en una NVIDIA H100.

Google DeepMind
Ahorro energético en IA: truco de reloj reduce 14% el consumo
IA

Ahorro energético en IA: truco de reloj reduce 14% el consumo

Investigadores de la Universidad de Twente proponen ajustar la frecuencia de reloj del GPU por kernel para reducir el consumo eléctrico sin perder rendimiento.

IEEE Spectrum AI
OpenCV 5 sube cobertura ONNX al 80% y soporta LLMs y VLMs
Electrónica

OpenCV 5 sube cobertura ONNX al 80% y soporta LLMs y VLMs

El nuevo motor DNN acelera modelos como Qwen 2.5 y Gemma 3 con backends nativos en Intel, Arm, Qualcomm y RISC-V, y supera por hasta 36% al ONNX Runtime en benchmarks.

CNX Software
Entrena modelos de IA más rápido con JAX y NVFP4
IA

Entrena modelos de IA más rápido con JAX y NVFP4

NVIDIA presenta NVFP4, una técnica de entrenamiento de precisión mixta de 4 bits que permite acelerar el despliegue de LLM en plataformas Blackwell sin perder precisión.

NVIDIA Developer
Asistentes de código IA: ¿por qué los usas mal?
Electrónica

Asistentes de código IA: ¿por qué los usas mal?

Tras las críticas por mi primer acercamiento a los asistentes de código por IA, profundizo en modelos, frontends y el arte de la ingeniería de prompts.

Hackaday
Más allá del edge: inteligencia local en Arduino UNO Q
Electrónica

Más allá del edge: inteligencia local en Arduino UNO Q

Arduino plantea agentes locales, LLMs compactos y workflows de IA orquestados sobre el UNO Q, que combina Debian Linux con un STM32 en tiempo real en una misma placa.

Arduino
Despliega agentes de IA autoevolutivos con Hermes y NemoClaw
IA

Despliega agentes de IA autoevolutivos con Hermes y NemoClaw

Aprende a integrar Hermes Agent con NVIDIA NemoClaw para procesar datos privados y públicos de forma segura, permitiendo que tu asistente aprenda nuevas habilidades sin reescribir código.

NVIDIA Developer
Majestic Labs Prometheus: 128 TB de DRAM contra el muro de memoria
IA

Majestic Labs Prometheus: 128 TB de DRAM contra el muro de memoria

El startup de hardware AI promete 60 veces más memoria que el DGX B300 de NVIDIA, con 12 chips Ignite (ARM + RISC-V), bandwidth de 25,6 TB/s y envío previsto para 2027.

IEEE Spectrum AI
JetBrains lanza Mellum2: MoE de 12B con licencia Apache 2.0
IA

JetBrains lanza Mellum2: MoE de 12B con licencia Apache 2.0

El modelo activa solo 2,5B parámetros por token, promete inferencia más de 2 veces más rápida que pares de tamaño similar y apunta a routing, RAG, subagentes y despliegues privados.

Hugging Face
IA: Qué es la memoria y cómo configurarla para ser más eficiente
IA

IA: Qué es la memoria y cómo configurarla para ser más eficiente

Entiende la diferencia entre memoria explícita e historial en modelos LLM. Aprende a limpiar, corregir y optimizar el contexto que tu IA utiliza a diario.

Xataka
NVIDIA DynoSim: gemelo digital de Dynamo a 1.500× tiempo real
IA

NVIDIA DynoSim: gemelo digital de Dynamo a 1.500× tiempo real

DynoSim corre el stack de servicio de LLM como simulación discreta en Rust y mapea la frontera de Pareto del workload antes de pagar GPUs reales.

NVIDIA Developer
Claude Opus 4.8: más juicio agéntico y menos alucinaciones
IA

Claude Opus 4.8: más juicio agéntico y menos alucinaciones

Anthropic mantiene los precios de Opus 4.7 (USD 5/USD 25 por millón de tokens), suma control de esfuerzo en claude.ai, workflows dinámicos en Claude Code y modo rápido tres veces más barato.

Anthropic
TRL: delta sync baja 1,2 GB a 35 MB por step en RL asincrónico
IA

TRL: delta sync baja 1,2 GB a 35 MB por step en RL asincrónico

Hugging Face liberó un PR en TRL que codifica solo los pesos que cambiaron como safetensors disperso y los sube a un Hub Bucket. El trainer y el rollout dejan de necesitar el mismo data center.

Hugging Face
Reachy Mini ahora conversa 100% offline con tu hardware
IA

Reachy Mini ahora conversa 100% offline con tu hardware

Hugging Face publicó el stack speech-to-speech cascade con Silero, Parakeet-TDT, Qwen3-TTS y llama.cpp para correr el robot sin enviar audio a la nube.

Hugging Face
Blackwell HGX B200 marca récord STAC-AI en finanzas
IA

Blackwell HGX B200 marca récord STAC-AI en finanzas

El benchmark STAC-AI LANG6 con Llama 3.1 8B y 70B muestra hasta 2,8x más rendimiento por GPU frente a Hopper en cargas de inferencia con documentos EDGAR.

NVIDIA Developer
TokenSpeed alcanza 580 tps con Qwen3.5-397B-A17B en GPU
IA

TokenSpeed alcanza 580 tps con Qwen3.5-397B-A17B en GPU

El motor open source de LightSeek, escrito desde cero en SPMD con compilacion estatica, ataca workloads agenticos con prefix cache hibrido y disaggregacion prefill-decode para Mamba.

PyTorch Blog
NVIDIA Dynamo Snapshot: arranque 21x mas rapido en Kubernetes
IA

NVIDIA Dynamo Snapshot: arranque 21x mas rapido en Kubernetes

El sistema con CRIU mas cuda-checkpoint baja el cold-start de un gpt-oss-120b al limite fisico de memoria, evitando que GPUs facturadas queden ociosas durante el scale-up.

NVIDIA Developer
George Hotz: los agentes de IA serán el error más caro del software
IA

George Hotz: los agentes de IA serán el error más caro del software

Tras seis meses probando coding agents en su proyecto tinygrad, el hacker se alinea con LeCun y Marcus: 'son modelos estadísticos que imitan código, no que lo entienden'.

The Decoder
Los LLM aciertan respuestas pero citan fuentes equivocadas
IA

Los LLM aciertan respuestas pero citan fuentes equivocadas

El benchmark CiteVQA de la Universidad de Pekín muestra que hasta el mejor modelo (Gemini 3.1 Pro Preview) saca solo 76/100 cuando se exige que la cita apunte al párrafo correcto del PDF.

The Decoder
Simon Willison lanza Datasette Agent para chatear con SQLite
IA

Simon Willison lanza Datasette Agent para chatear con SQLite

El asistente conversacional usa Gemini 3.1 Flash-Lite por defecto, suma plugins de gráficos, generación de imágenes y sandbox de código, y también corre contra modelos locales en LM Studio.

Simon Willison
Hassabis ve el inicio de la singularidad; LeCun lo rechaza
IA

Hassabis ve el inicio de la singularidad; LeCun lo rechaza

Tres referentes, tres lecturas: el cofundador de DeepMind cree que la AGI está a cinco años, LeCun niega que los LLM actuales sean inteligentes y el colíder de Gemini propone un punto medio.

The Decoder
ByteDance: preguntar a un LMM enseña mejor que transcribir
IA

ByteDance: preguntar a un LMM enseña mejor que transcribir

MMProLong, un modelo de 7B parámetros, supera a InternVL3-38B y Gemma3-27B en documentos de hasta 512.000 tokens entrenándose con pares pregunta-respuesta en vez de OCR puro.

The Decoder
Copilot en modo Auto inventa diferencias entre países que no existen
IA

Copilot en modo Auto inventa diferencias entre países que no existen

Un experimento del matemático Adam Kucharski mostró que Microsoft Copilot, Gemini Flash y otros modelos rápidos confabulan estereotipos cuando deberían leer los datos reales.

The Decoder
Claude Code descubre algoritmos de scaling con 70% menos compute
IA

Claude Code descubre algoritmos de scaling con 70% menos compute

AutoTTS deja que un agente de código busque por sí mismo las reglas del test-time scaling y produce una estrategia que iguala a self-consistency con un tercio del costo en tokens.

The Decoder
Nueve tecnicas para personalizar agentes IA segun NVIDIA
IA

Nueve tecnicas para personalizar agentes IA segun NVIDIA

Desde prompt engineering y RAG hasta SFT, LoRA y RLVR con GRPO: una guia tecnica para decidir cuando cada metodo agrega valor sin disparar el costo.

NVIDIA Developer
Deepseek prioriza investigacion AGI sobre ganancias rapidas
IA

Deepseek prioriza investigacion AGI sobre ganancias rapidas

El fundador Liang Wenfeng le dijo a inversionistas que la ronda de 13.200 millones de dolares apunta a AGI y modelos open source, no a monetizar rapido.

The Decoder
DeepSeek deja permanente el 75% de descuento: hasta 51x mas barato
IA

DeepSeek deja permanente el 75% de descuento: hasta 51x mas barato

El recorte sobre DeepSeek V4 Pro lleva el output a USD 0,87 por millon de tokens y consolida la guerra de precios que la oferta china abrio contra OpenAI y Anthropic.

The Decoder
Los laboratorios de modelos se transforman en laboratorios de agentes IA
IA

Los laboratorios de modelos se transforman en laboratorios de agentes IA

Un giro narrativo de Greg Brockman, el cierre del equipo de modelos de AI21 y el primer equipo de harness en DeepSeek apuntan al mismo movimiento: el modelo dejó de ser el producto.

Latent Space
Qwen3.7-Max corrió 35 horas solo para optimizar el chip propio de Alibab
IA

Qwen3.7-Max corrió 35 horas solo para optimizar el chip propio de Alibab

El nuevo modelo del equipo Qwen, exclusivo de la API de Alibaba Cloud, completó 432 tests de kernel y 1.158 tool calls sin intervención humana, logrando un speedup promedio de 10x.

The Decoder
Evaluar agentes IA no es lo mismo que medir un modelo
IA

Evaluar agentes IA no es lo mismo que medir un modelo

NVIDIA detalla cinco prácticas para medir agentes en producción: trayectorias completas, precisión de tool calls y eficiencia, más allá del benchmark estático del modelo base.

NVIDIA Developer
Gemini 3.5 Flash es 5,5 veces más caro que su predecesor
IA

Gemini 3.5 Flash es 5,5 veces más caro que su predecesor

El modelo más rápido en su clase de inteligencia consume tantos tokens en tareas de agentes que supera incluso al Gemini 3.1 Pro en costo total.

The Decoder
Gemini 3.5 Flash sube 6x el precio vs 3.1 Flash-Lite
IA

Gemini 3.5 Flash sube 6x el precio vs 3.1 Flash-Lite

Simon Willison desarma el lanzamiento: GA sin preview, USD 1,50 input y USD 9 output por millón de tokens, cerca del 3.1 Pro mientras Google lo regala en sus productos de consumo.

Simon Willison
AMD Lemonade SDK 10.5 declara macOS en GA con ROCm 7.13
Open Source

AMD Lemonade SDK 10.5 declara macOS en GA con ROCm 7.13

El SDK open source de AMD para servir LLMs sobre GPUs y NPUs sube el soporte para Apple Silicon de beta a GA, e integra el ROCm 7.13 Tech Preview en Llama.cpp y Stable-Diffusion.cpp.

Phoronix Tests
Simon Willison resume seis meses de LLMs en cinco minutos
IA

Simon Willison resume seis meses de LLMs en cinco minutos

El developer británico, autor de Datasette, presentó en PyCon US 2026 una lightning talk sobre el punto de inflexión de noviembre de 2025, cuando los agentes de código cruzaron la barrera de calidad.

Simon Willison
Cursor Composer 2.5 iguala a Opus 4.7 con costo 10 veces menor
IA

Cursor Composer 2.5 iguala a Opus 4.7 con costo 10 veces menor

El modelo se construyó sobre el checkpoint Kimi K2.5 y cobra USD 0,50 por millón de tokens de entrada, contra los hasta USD 11 por tarea que cuestan Opus 4.7 y GPT-5.5.

The Decoder
ExecuTorch MLX: PyTorch acelera en GPU de Apple Silicon
IA

ExecuTorch MLX: PyTorch acelera en GPU de Apple Silicon

El nuevo delegado MLX lleva inferencia GPU optimizada a Mac con chips de Apple, con soporte para Llama, Qwen, Gemma, Whisper y cuantización de 2 a 8 bits, además de NVFP4.

PyTorch Blog
SOOHAK revela que los LLMs inventan respuestas a problemas imposibles
IA

SOOHAK revela que los LLMs inventan respuestas a problemas imposibles

Un consorcio de 64 matemáticos diseñó 439 tareas para Gemini 3 Pro, GPT-5 y Claude Opus 4.5; ninguno supera el 50% al detectar problemas sin solución.

The Decoder
Anthropic mide el uso programatico de Claude y Codex gana terreno
IA

Anthropic mide el uso programatico de Claude y Codex gana terreno

Cada suscripcion Claude da creditos API mensuales por el monto del plan: harnesses como OpenClaw y claude -p pierden la subvencion mientras Codex gana fans entre AI engineers.

Latent Space
Bonanza open: Gemma 4, DeepSeek V4, Kimi K2.6 y MiMo 2.5 estrenan
IA

Bonanza open: Gemma 4, DeepSeek V4, Kimi K2.6 y MiMo 2.5 estrenan

El último boletín de Interconnects repasa los lanzamientos del mes en pesos abiertos y discute por qué los benchmarks del CAISI muestran una brecha más grande que la real.

Interconnects
EMO: el MoE de Ai2 corre con solo 12,5% de sus expertos
IA

EMO: el MoE de Ai2 corre con solo 12,5% de sus expertos

Ai2 y UC Berkeley entrenaron un mixture-of-experts cuyos expertos se especializan por dominio temático, no por patrones gramaticales: permite descartar 3/4 perdiendo solo un punto porcentual.

The Decoder
UK AISI: la IA dobla capacidad ofensiva cada 4 meses
Electrónica

UK AISI: la IA dobla capacidad ofensiva cada 4 meses

El AI Security Institute británico recalculó por segunda vez en tres meses el período de duplicación de los modelos frontera en tareas de ciberseguridad: pasó de 8 meses a menos de 4.7.

The Register
NVIDIA Vera Rubin: red determinista para IA agéntica
IA

NVIDIA Vera Rubin: red determinista para IA agéntica

NVIDIA acopla aceleradores Groq 3 LPX y servidores Vera Rubin NVL72 con un fabric programado por compilador para servir agentes de IA con latencia constante a miles de chips.

NVIDIA Developer
AntAngelMed: el LLM médico open source de 103B parámetros y MoE
IA

AntAngelMed: el LLM médico open source de 103B parámetros y MoE

Un equipo chino libera el LLM médico más grande disponible bajo Apache 2.0, con MoE que activa solo 6,1B parámetros y supera modelos propietarios en HealthBench.

MarkTechPost
Microsoft: agentes IA pierden 25% del contenido en tareas largas
Electrónica

Microsoft: agentes IA pierden 25% del contenido en tareas largas

El paper LLMs Corrupt Your Documents When You Delegate prueba 52 dominios profesionales. Solo Python pasa el umbral de listo para producción según Microsoft Research.

The Register
Sakana AI y NVIDIA aceleran 20% la inferencia de LLMs con TwELL
IA

Sakana AI y NVIDIA aceleran 20% la inferencia de LLMs con TwELL

Un kernel CUDA llamado TwELL aprovecha la sparsity de activaciones para acelerar inferencia 20,5% y entrenamiento 21,9% en GPUs H100, sin perder precisión en benchmarks.

MarkTechPost
Meta y Stanford: BLT recorta hasta 92% el ancho de banda
IA

Meta y Stanford: BLT recorta hasta 92% el ancho de banda

Investigadores de Meta, Stanford y la Universidad de Washington proponen tres técnicas que aceleran la generación del Byte Latent Transformer sin perder calidad de salida.

MarkTechPost
Google detuvo un exploit zero-day desarrollado con IA
IA

Google detuvo un exploit zero-day desarrollado con IA

Un reporte de Google Threat Intelligence Group detalla un ataque Python contra autenticación 2FA en una herramienta open source, con señales delatoras como un puntaje CVSS alucinado.

The Verge
Baidu lanza Ernie 5.1 con 94% menos costo de pre-training
IA

Baidu lanza Ernie 5.1 con 94% menos costo de pre-training

El nuevo modelo de Baidu se destila desde Ernie 5.0 con cerca de un tercio de los parámetros y el 6% del costo de entrenamiento, alcanzando el 4° lugar global del Search Arena con 1.223 puntos.

The Decoder
GPT-5.5 cuesta 49 a 92 por ciento más que su predecesor
IA

GPT-5.5 cuesta 49 a 92 por ciento más que su predecesor

Un análisis de OpenRouter sobre el uso real durante abril de 2026 muestra que el alza real en la factura mensual depende del largo del input y golpea más fuerte a quien usa prompts cortos.

The Decoder
ChatGPT 5.5 Pro produce un paper matemático nivel doctorado en horas
IA

ChatGPT 5.5 Pro produce un paper matemático nivel doctorado en horas

El medallista Fields Timothy Gowers afirma que el modelo de OpenAI resolvió un problema abierto de teoría de números en 17 minutos y construyó un preprint completo sin guía matemática humana.

The Decoder
Claude Code rinde más al pedirle HTML en vez de Markdown
IA

Claude Code rinde más al pedirle HTML en vez de Markdown

Simon Willison se hace eco de un argumento del equipo de Anthropic: pedir respuestas en HTML deja a Claude usar SVG, widgets interactivos y navegación en página, recursos imposibles en Markdown plano.

Simon Willison
LLM From Scratch: entrenar un mini-GPT en una hora con Python
Electrónica

LLM From Scratch: entrenar un mini-GPT en una hora con Python

El proyecto open source de Angelos Papoutsakis baja el listón de nanoGPT y entrega seis módulos para construir y entrenar un LLM básico en un computador común.

Hackaday
Chrome instala Gemini Nano local: 4 GB de LLM sin permiso del usuario
Electrónica

Chrome instala Gemini Nano local: 4 GB de LLM sin permiso del usuario

Google empuja un modelo Gemini Nano de unos 4 GB a cada instalación de Chrome. Promete autocorrección y sugerencias avanzadas, pero ya genera quejas por uso de disco y CPU.

Hackaday
Una réplica de C-3PO con Raspberry Pi 5 que conversa con LLM
Electrónica

Una réplica de C-3PO con Raspberry Pi 5 que conversa con LLM

Samuel Potozkin combinó reconocimiento de voz en tiempo real, un LLM para generar respuestas y síntesis que imita al droide para construir un C-3PO funcional, aunque algo más robótico que el original.

Hackaday
Las matemáticas que hay que entender para entender LLMs
Electrónica

Las matemáticas que hay que entender para entender LLMs

Repaso a la serie de tres artículos de Giles Thomas sobre cómo funcionan logits, embeddings, atención y transformers, la base estadística que conviene dominar antes de hablar de IA generativa.

Hackaday
Alineación de IA: por qué es matemáticamente imposible
IA

Alineación de IA: por qué es matemáticamente imposible

Hector Zenil y colegas demuestran en PNAS Nexus que ningún sistema general puede alinearse con humanos, y proponen reemplazar el control absoluto por un ecosistema de agentes en tensión.

IEEE Spectrum AI
xAI lanza Grok 4.3 con baja de precios y modo agente Imagine
IA

xAI lanza Grok 4.3 con baja de precios y modo agente Imagine

El modelo se enfoca en developers con contexto de un millón de tokens, costos 40-60% menores que Grok 4.20 y razonamiento integrado, aunque queda detrás de los flagships de OpenAI y Anthropic.

The Decoder
Nemotron 3 Nano Omni: Nvidia abre su modelo multimodal
IA

Nemotron 3 Nano Omni: Nvidia abre su modelo multimodal

El modelo procesa texto, imagen, video y audio con 30 mil millones de parámetros y se entrenó con datos sintéticos de Qwen, GPT-OSS, Kimi y DeepSeek-OCR.

The Decoder
OpenClaw: el agente IA local que estalló en GitHub
IA

OpenClaw: el agente IA local que estalló en GitHub

Nvidia presenta NemoClaw, una implementación de referencia que despliega OpenClaw, OpenShell y modelos Nemotron con configuraciones de seguridad endurecidas para empresas.

NVIDIA Blog

Etiquetas relacionadas

Otros temas que aparecen junto a #llm en nuestra cobertura editorial.