[AINews] Gemma 4 supera los 2 millones de descargas

un día tranquilo nos permite respetar el enorme éxito del lanzamiento de Gemma 4

Lo comentamos el jueves pasado, pero el despliegue continuo de Gemma 4 y las críticas positivas durante el fin de semana lo han llevado a alrededor de 2 millones de descargas en su primera semana.

(Por el contrario, Gemma 3 totalizó 6,7 millones de descargas el año pasado, Gemma 2 tuvo 1,4 millones de descargas desde su lanzamiento en junio de 2024, mientras que Qwen 3.5 obtuvo alrededor de 27 millones de descargas, incluido el mes y medio transcurrido desde el lanzamiento de su modelo insignia 397B-A17B).

La conferencia magistral de Gemma 4 sabe transmitirá en vive dentro de 3 días desde Londres, y puedes marcarla ahora como favorita:

Por otra parte, también destacaríamos la exageración del Agente Hermes: nuestros amigos del Turing Post tienen un buen artículo sobre las diferencias entre Hermes y OpenClaw.

Noticias de IA del 4/4/2026 al 6/4/2026. Revisamos 12 subreddits, 544 Twitters y no hay más Discords. El sitio web de AINews le permite buscar todos los números anteriores. Como recordatorio, AINews es ahora una sección de Latent Space. ¡Puedes optar por recibir o no frecuencias de correo electrónico!

La rápida adopción local de Gemma 4 y el momento del modelo abierto en el dispositivo

Gemma 4 está impulsando una fuerte ola de "localidad primero": varias publicaciones señalaron que Gemma 4 sabe está convirtiendo en la modelo número uno/tendencias principales en Hugging Face, con un gran entusiasmo por su usabilidad práctica en lugar de solo su rendimiento en la clasificación; consulte @ClementDelangue, @GlennCameronjr y @Yampeleg. La señal más fuerte fue la rapidez con la que la gente lo ejecutaba en hardware de consumo de Apple: @adrgrondin mostró Gemma 4 E2B en un iPhone 17 Pro a aproximadamente 40 tok/s con MLX; @enjojoyy informó sobre una implementación de iPhone similar; @_philschmid destacó Gemma 4 E2B en AI Edge Gallery usando habilidades para consultas de Wikipedia. Red Hat también publicó tarjetas modelo Gemma 4 31B cuantificadas en formatos de bloque NVFP4 y FP8 con evaluaciones de seguimiento de instrucciones en vive y evaluaciones de razonamiento/visión pendientes, a través de @RedHat_AI. En conjunto, estas publicaciones sugieren que Gemma 4 no es solo otro lanzamiento abierto; sabe está convirtiendo en un punto de referencia para la inferencia de borde, las herramientas de Apple Silicon y la implementación local de baja fricción.

La implicación comercial es la presión sobre las suscripciones pagas a chats y la dependencia de la nube: algunos de los comentarios más virales fueron reduccionistas, pero capturan un cambio real. @AlexEngineerAI argumentó que Gemma 4 ejecutándose localmente cierra la brecha lo suficiente como para hacer que una suscripción a Claude sea menos atractiva para algunos usuarios, mientras que @ben_burtenshaw recordó a la gente que los modelos alojados en HF son de uso gratuito y pueden reemplazar partes del flujo de trabajo de un agente. En el lado de infraestructura, @ollama lanzó Gemma 4 en Ollama Cloud respaldado por GPU NVIDIA Blackwell, poniéndolo a disposición de herramientas como OpenClaw y flujos de trabajo estilo Claude sin autohospedaje. La notable publicación sobre el ecosistema de @osanseviero también subrayó cuán amplia fue la coordinación del lanzamiento (HF, vLLM, llama.cpp, Ollama, NVIDIA, Unsloth, SGLang, Docker, Cloudflare y otros), lo que es un recordatorio de que el “éxito del modelo abierto” depende cada vez más del soporte simultáneo de los sistemas posteriores, no solo de los pesos.

El bucle de agente de mejora automática del agente Hermes, la fricción OpenClaw y el impulso para abrir los datos de seguimiento

Hermes Agent fue la historia de marco de agente dominante en este lote: la narrativa central es que el sistema de Nous está ganando participación mental al combinar memoria persistente, habilidades autogeneradas/refinadas y un ciclo de superación personal más obstinado. El lanzamiento de una habilidad Manim por parte de @NousResearch fue especialmente resonante porque demostró una habilidad de agente que produce artefactos inmediatamente legibles (animaciones técnicas y explicaciones) en lugar de otro resumen en PDF. Esto fue amplificado por demostraciones y reacciones de @ErickSky, @lucatac0, @Sentdex, @casper_hansen_ y @noctus91. Las actualizaciones de productos de @Teknium agregaron carga de habilidades con comandos de barra para los bots de Discord/Telegram, mientras que herramientas comunitarias como Hermes HUD asignaron procesos en vive a paneles tmux y mostraron aprobaciones a través de @aijoey, y surgieron múltiples integraciones de WebUI de @Teknium, @nesquena y @magiknono.

El contraste con OpenClaw sabe centró en la arquitectura y la fragilidad del modelo de negocio: varias publicaciones compararon los dos directamente. @TheTuringPost resumió la distinción como habilidades de autor humano frente a habilidades de autoformación, memoria Markdown frente a pilas de memoria persistente/con capacidad de búsqueda y plano de control de puerta de enlace frente a bucle de mejora automática. Profesionales como @SnuuzyP, @DoctaDG y @spideystreet sabe hicieron eco de ese encuadre, muchos de los cuales citaron una incorporación más fácil y menos manipulación de habilidades manuales. El telón de fondo aquí era una creciente frustración con la limitación de la suscripción de Claude y el tiempo de actividad: @theo informó errores de Claude Code al analizar su propia fuente; @Yuchenj_UW y @ratlimit destacaron cortes; @Yuchenj_UW argumentó que el modelo de suscripción de $20/$200 no coincide estructuralmente con las cargas de trabajo de los agentes 24 horas al día, 7 días a la semana. Esa crítica económica ayuda a explicar el impulso retórico detrás de "El código abierto es inevitable" de @NousResearch.

Un hilo más importante a largo plazo fueron los datos del agente abierto: @badlogicgames lanzó pi-share-hf para publicar sesiones de agente de codificación como conjuntos de datos de Hugging Face con defensas de PII, luego publicó sus propias sesiones a través de @badlogicgames. @ClementDelangue enmarcó esto explícitamente como el ingrediente que falta para los agentes fronterizos de código abierto: la comunidad ya genera los rastros, por lo que debería colaborar con el conjunto de datos. Esto sabe conecta claramente con el artículo Signals de @salman_paracha sobre muestreo/clasificación de trayectorias para interacciones agentes y el argumento de Baseten de que los modelos de mejora automática deberían aprender directamente de los rastros de producción registrados en lugar de requerir entornos de pruebas limpios, a través de @baseten. Esta es posiblemente la tendencia de “agentes” técnicamente más sustantiva aquí: no solo mejores arneses, sino una pila emergente en torno a la captura, curación y capacitación de rastros a partir del uso real.

Nuevas señales de investigación: RL, enrutamiento, evaluación de agentes y pequeños modelos especializados

La eficiencia posterior a la capacitación y RL siguieron siendo áreas sustanciales activas: @TheTuringPost destacó FIPO (Optimización de políticas influenciadas por Future-KL) de Alibaba Qwen, que asigna más crédito a los tokens que afectan fuertemente los pasos futuros; Los resultados informados incluyeron rastros de razonamiento que sabe extendieron desde aproximadamente 4K a 10K+ tokens y ganancias de AIME de alrededor del 50% a ~56–58%, por delante del citado DeepSeekR1-Zero-Math y alrededor o superando a o1-mini dependiendo de la configuración. @finbarrtimbers escribió cómo OLMo 3 pasó de RL sincrónico a asincrónico, produciendo una ganancia de rendimiento 4 veces mayor en tokens/seg. Otros indicadores de papel notables incluyeron RLVR/RLSD autodestilado a través de @_akhaliq y @HuggingPapers, además de MoE con ruta limitada a través de @TheAITimeline, que restringe las rutas de enrutamiento entre capas para mejorar la eficiencia estadística y eliminar pérdidas de equilibrio de carga auxiliar.

La investigación de agentes y puntos de referencia sabe está alejando de las tareas de juguete: @GeZhang86038849 introdujo XpertBench, apuntando explícitamente a la evaluación abierta del flujo de trabajo a nivel de expertos en lugar de puntos de referencia saturados tipo examen. @TheTuringPost compartió una encuesta sobre el uso de herramientas que cubre la progresión desde llamadas a funciones únicas hasta la orquestación a largo plazo, la replanificación, los ciclos de retroalimentación y las preocupaciones sobre la eficiencia, como la latencia y los presupuestos de costos. En los flujos de trabajo de datos/empresariales, @ CShorten30 señaló el Data Agent Benchmark de Shreya Shankar para consultas de varios pasos en sistemas de base de datos heterogéneos. Todas estas son señales de que el diseño de evaluación sabe está poniendo al día con lo que les importa a los creadores de agentes de producción: finalización del flujo de trabajo, manejo de ambigüedades, calidad de orquestación y costo.

Los pequeños modelos especializados continuaron presentando sólidos argumentos de estudio de caso: @DavidGFar lanzó SauerkrautLM-Doom-MultiVec-1.3M, un modelo ModernBERT-Hash de 1.3M de parámetros entrenado en 31K fotogramas de juego humano que superó a LLM mucho más grandes con acceso a API en una tarea de VizDoom mientras sabe ejecutaba en 31 ms en la CPU. El resultado es limitado, pero el punto es importante: los modelos con un alcance apropiado pueden dominar las tareas de control en tiempo real donde la latencia y la arquitectura importan más que el conocimiento mundial amplio. En relación con esto, @MaziyarPanahi impulsó Falcon Perception, un modelo de visión y lenguaje orientado a la segmentación de 0,6 mil millones que supuestamente supera a SAM 3 en sus comparaciones y sabe ejecuta en MacBooks con MLX; @Prince_Canuma y @ivanfioravanti sabe hicieron eco de esto. El tema recurrente es que la especialización + un mejor ajuste de los sistemas pueden superar la escala genérica.

OpenAI y Anthropic: señalización de políticas, escrutinio de la gobernanza y economía informática

El mayor movimiento público de OpenAI fue político, no de producto: la compañía y sus aliados impulsaron un nuevo marco de “Política industrial para la era de la inteligencia”, resumido por @kimmonismus, @OpenAINewsroom y @AdrienLE. Las ideas clave incluyeron un fondo de riqueza pública, beneficios portátiles, programas piloto de semana laboral de 32 horas, un derecho a la IA, una infraestructura de procedencia/auditoría más sólida y guías de contención para modelos peligrosos lanzados. El mensaje estratégico notable es que OpenAI ahora está afirmando públicamente una transición hacia la superinteligencia como un problema de política activa, no como una hipótesis lejana. Las reacciones fueron variadas: algunos lo consideraron inusualmente franco en cuanto a la perturbación, otros lo consideraron prematuro o políticamente conveniente, p. @Dan_Jeffries1 y @jeremyslevin. OpenAI también lanzó una beca de seguridad a través de @OpenAI y @markchen90.

Al mismo tiempo, el escrutinio en torno a Sam Altman y la gobernanza de OpenAI sabe intensificó drásticamente: @RonanFarrow, @NewYorker y extensos resúmenes comunitarios como @ohryansbelt ampliaron una importante investigación del New Yorker. El informe revisó la saga de despidos/reintegros de 2023 con afirmaciones sobre memorandos internos, acusaciones de engaño, manipulación de la junta directiva, preocupaciones sobre los procesos de seguridad y falta de recursos para la superalineación. El rechazo del lado de OpenAI llegó a través de @tszzl, quien dijo que el equipo de alineación sigue siendo uno de los programas más grandes y ricos en computación de la empresa. Por separado, @anissagardizy8 y @kimmonismus informaron tensiones entre Altman y la directora financiera Sarah Friar, especialmente en torno al gasto en informática y la preparación para la OPI.

El contrapunto de Anthropic fue la computación y la escala de ingresos: @AnthropicAI anunció un acuerdo con Google y Broadcom para múltiples gigavatios de capacidad de TPU de próxima generación que entrará en funcionamiento a partir de 2027, para entrenar y dar servicio a los modelos Claude de vanguardia. Anthropic también declaró que sus ingresos por tasa de ejecución han superado los $ 30 mil millones, frente a los $ 9 mil millones a fines de 2025, a través de @AnthropicAI. Esto sabe combina con informes sobre la tensión económica en los laboratorios fronterizos: @kimmonismus citó el informe del WSJ de que los ingresos sabe están disparando, pero los costos de capacitación e inferencia siguen siendo enormes, y OpenAI proyecta un gasto en computación de 121 mil millones de dólares para 2028. Para los ingenieros, la conclusión práctica es sencilla: la carrera fronteriza sabe ve cada vez más obstaculizada no sólo por las ideas de modelos, sino también por la estructura de capital, los contratos informáticos de larga duración y la economía de servicio.

Sistemas e infraestructura: RL más rápido, decodificación MoE más rápida, mejores herramientas GPU/Edge

Varias publicaciones fueron inusualmente concretas sobre las victorias de los sistemas: @cursor_ai informó una generación de tokens MoE 1,84 veces más rápida en las GPU Blackwell con una calidad de salida mejorada a través de "decodificación warp", un resultado directamente relacionado con actualizaciones más frecuentes del modelo Composer. @tri_dao señaló que una ruta rápida de optimización de Muon está llegando a las tarjetas Blackwell de consumo, porque la implementación sabe expresa como matmul + epílogo, lo que permite la reutilización del trabajo del bucle principal. En el lado de RL, @finbarrtimbers proporcionó una autopsia de ingeniería poco común para hacer que la pila RL de OLMo 3 sea asincrónica para un salto de rendimiento 4 veces mayor.

La pila local/Apple y el ecosistema educativo de capacitación/inferencia también siguieron mejorando: @josephjojoe abrió un puerto MLX de ESM-2 para el modelado de proteínas en Apple Silicon, ampliando la experimentación local de bio-LLM. @rasbt agregó una fuente RSS a la Galería de Arquitectura LLM, una pequeña pero útil mejora en la calidad de vida para mantenerse al día con los diseños de modelos. @UnslothAI dijo que su computadora portátil gratuita ahora puede entrenar/ejecutar más de 500 modelos. Para una comprensión más profunda de los sistemas, @levidiamode elogió el Ultra-Scale Playbook de Hugging Face por unificar el paralelismo DP/TP/PP/EP/contexto con evidencia empírica de escalado en hasta 512 GPU.

Tweets principales (por participación)

[...]

[AINews] Gemma 4 supera los 2 millones de descargas

un día tranquilo nos permite respetar el enorme éxito del lanzamiento de Gemma 4

Seguir leyendo

Optimización de memoria para modelos grandes en NVIDIA Jetson

OpenClaw: el agente IA local que estalló en GitHub

NVIDIA impulsa la manufactura con IA en Hannover Messe 2026

Cómo usar DeepSeek V4 con NVIDIA Blackwell y endpoints acelerados