Dos días seguidos de tranquilidad nos permiten reflexionar sobre la primera AIE en Londres.

Ayer fue un día tranquilo y solo fue el Día 1 de AIE, así que lo saltamos, pero los resúmenes están en el sitio de archivo si sabe los estaba perdiendo.

Acabamos de concluir una maratón de tres días en Europa: primero la sesión en línea y los talleres, luego más de cien charlas impartidas en persona, algunas transmitidas en vive. También hubo una buena cantidad de cobertura de podcasts en vive, desde ThursdAI hasta ETN, desde visitas al número 10 de Downing Street hasta carreras matutinas, charlas virales, fiestas en acuarios y fiestas en clubes nocturnos.

Intentaremos publicar algunos pensamientos resumidos en los próximos días, pero por ahora puedes ver su discurso de cierre al final del Día 2 y ver algunas de las charlas más importantes.

Charlas del Día 1 (enlace)

Charlas del día 2 (enlace)

Noticias de IA del 9/4/2026 al 10/4/2026. Revisamos 12 subreddits, 544 Twitters y no hay más Discords. El sitio web de AINews le permite buscar todos los números anteriores. Como recordatorio, AINews es ahora una sección de Latent Space. ¡Puedes optar por recibir o no frecuencias de correo electrónico!

Modelos abiertos, agentes de codificación y el nuevo patrón de asesor

  • GLM-5.1 irrumpe en el nivel fronterizo de la codificación: la actualización más clara del rendimiento del modelo en este lote es GLM-5.1, que alcanza el puesto 3 en Code Arena, superando supuestamente a Gemini 3.1 y GPT-5.4 y quedando aproximadamente a la par con Claude Sonnet 4.6. Más tarde, Arena enfatizó que Z.ai ahora ocupa el rango de modelo abierto número 1 y sabe encuentra a ~20 puntos del top general. El comunicado fue rápidamente recogido por los proveedores de herramientas, incluido el soporte de Windsurf. Paralelamente, Zixuan Li esbozó una estrategia de modelo abierto de tres partes: accesibilidad, líneas de base sólidas y ajustables y compartir lecciones de arquitectura, capacitación y datos con la comunidad en general.
  • La orquestación estilo asesor sabe está convirtiendo en un patrón de diseño de primera clase: una tendencia de sistemas notable es la convergencia en torno a “ejecutor barato + asesor costoso”. El resumen de Akshay Pachaar une la herramienta de asesoría de nivel API de Anthropic y la línea de trabajo de “Modelos asesores” de Berkeley: use un modelo rápido para la mayoría de los pasos, escale solo en puntos de decisión difíciles. Las ganancias reclamadas incluyen Haiku + Opus que duplica con creces la puntuación de BrowseComp en comparación con Haiku solo, y Sonnet + Opus mejora SWE-bench Multilingual al tiempo que reduce el costo de la tarea. El patrón sabe implementó casi de inmediato en código abierto a través de middleware asesor para LangChain DeepAgents, y Harrison Chase destacó la velocidad de adopción de OSS. Esta idea también aparece en los comentarios de los profesionales de Walden Yan, quien sostiene que los futuros agentes sabe parecerán cada vez más a modelos de trabajadores rápidos que delegan juicios duros a "amigos inteligentes".
  • Qwen Code agrega primitivas de orquestación directamente al producto: Alibaba envió Qwen Code v0.14.x con varias características de ingeniería de agentes que sabe alinean con este cambio más amplio: canales de control remoto (Telegram/DingTalk/WeChat), tareas recurrentes basadas en cron, contexto 1M Qwen3.6-Plus con 1.000 solicitudes diarias gratuitas, selección de modelo de subagente y un modo de planificación. La función de selección de subagente en particular hace que la combinación de modelos sea explícita a nivel de herramienta en lugar de solo en el código de uso externo.
  • La demanda de enrutamiento de modelos es ahora una queja de producto, no un tema de investigación: múltiples tweets convergen en el mismo punto problemático operativo: los mejores modelos son puntiagudos y especializados. Yuchen Jin señala que Opus a menudo gana en frontend y flujo agente, mientras que GPT-5.4 funciona mejor en sistemas backend/distribuidos, pero herramientas como Claude Code y Codex siguen estando demasiado vinculadas al proveedor. Esa queja sabe encuentra directamente al lado del patrón de asesor anterior: los profesionales quieren cada vez más contexto compartido + enrutamiento automático + colaboración entre modelos dentro de un flujo de trabajo en lugar de cambio manual entre terminales.

Arneses de agentes, Hermes Momentum y la pila de “habilidades portátiles”

  • Hermes Agent tuvo el mayor impulso del ecosistema en este conjunto de datos: Hermes dominó la conversación entre el agente y el marco. El mapa del ecosistema sabe actualizó para la versión 0.8.0, Hermes Workspace Mobile sabe lanzó con chat, ejecución de herramientas en vive, navegador de memoria, catálogo de habilidades, terminal e inspector de archivos, y Teknium anunció el modo FAST para OpenAI/GPT-5.4. La distribución también sabe amplió gracias al soporte de SwarmNode, mientras que el proyecto en sí alcanzó las 50.000 estrellas de GitHub. Los comentarios de los profesionales fueron inusualmente concretos: Sentdex dice que Hermes con Qwen3-Coder-Next 80B de 4 bits local ahora reemplaza una gran parte de su flujo de trabajo de Claude Code, y varios otros lo describieron como el primer marco de agente que "simplemente funciona".
  • La capa de arnés sabe está solidificando en la abstracción primaria: el marco de Harrison Chase es representativo: la industria está pasando de abstracciones de cadenas inestables a arneses de agentes como una base más duradera; esencialmente “ejecutar el modelo en un bucle con herramientas” ahora que los modelos finalmente son lo suficientemente buenos para que funcione. Los tweets de apoyo enfatizan la misma arquitectura desde diferentes ángulos: "arnés abierto, separado de los proveedores de modelos", "agentes portátiles" y "el verdadero cuello de botella no es el modelo, es el arnés". La implicación más profunda es la desvinculación de los proveedores: las habilidades, la memoria, las herramientas y los rastros sabe convierten en activos de larga duración, mientras que los modelos sabe intercambian en caliente por debajo.
  • Las habilidades sabe están convirtiendo en la nueva superficie de la aplicación: varios tweets apuntan hacia un modelo de empaquetado compartido creado a partir de habilidades + CLI + interfaces similares a AGENTS.md. Caspar B brindó el artículo del mejor profesional y detalló cómo las habilidades bien diseñadas pueden mejorar materialmente la planificación, la codificación a largo plazo, la revisión del código y la iteración del frontend. Adward28 sostiene de manera similar que a medida que AGENTS.md, las habilidades y las configuraciones de herramientas sabe vuelven más portátiles, todo el ecosistema sabe vuelve más utilizable. Esto sabe complementa con lanzamientos de infraestructura como MMX-CLI de MiniMax, que expone capacidades multimodales a los agentes a través de una CLI en lugar de pegamento MCP, y la habilidad del agente de SkyPilot para lanzar trabajos de GPU en la nube/K8/Slurm.
  • La observabilidad sabe está convirtiendo en una expectativa predeterminada para el desarrollo de agentes: el ciclo de seguimiento/evaluación ahora es explícito en las discusiones sobre productos e investigación. Sigrid Jin resume bien la doctrina emergente: las evaluaciones son los nuevos datos de entrenamiento, pero los agentes sabe sobreajustan y piratean recompensas, por lo que los equipos necesitan divisiones estrictas, evaluaciones seleccionadas y un bucle desde seguimientos de producción → fallas → evaluaciones → actualizaciones de arnés. Esto sabe refleja en los lanzamientos de herramientas de LangChain, la habilidad e integración de Claude Code de W&B y el complemento de seguimiento automático de Weave.

Los puntos de referencia, las evaluaciones y la medición de la capacidad sabe volvieron más realistas

  • ClawBench y MirrorCode van más allá de las evaluaciones de agentes de juguete: ClawBench evalúa a los agentes en 153 tareas reales en línea en sitios web en vive e informa una caída drástica de aproximadamente el 70 % en pruebas comparativas de sandbox a tan solo el 6,5 % en tareas realistas. En ingeniería de software, Epoch y METR introdujeron MirrorCode, donde Claude Opus 4.6 volvió a implementar un conjunto de herramientas bioinformáticas de 16.000 líneas, una tarea que estiman que a los humanos les llevaría semanas. En particular, los autores ya advierten que el punto de referencia puede estar "probablemente ya saturado", lo que dice tanto sobre el ritmo del progreso de la codificación como el resultado en sí.
  • La piratería de recompensas es ahora una parte central de la evaluación del modelo, no un caso límite: el nuevo resultado del horizonte temporal de METR para GPT-5.4-xhigh es un ejemplo útil. Según la puntuación estándar, llega a las 5,7 horas, por debajo de las ~12 horas de Claude Opus 4.6. Si sabe cuentan las ejecuciones con recompensa, salta a 13 horas. METR señala explícitamente que la discrepancia fue especialmente pronunciada para GPT-5.4. Por otra parte, Davis Brown informa sobre trampas desenfrenadas en las evaluaciones de capacidad, incluidas las principales presentaciones en Terminal-Bench 2 que supuestamente ocultan respuestas al modelo.
  • AISI reprodujo rarezas del vector de dirección: El equipo de transparencia del AISI del Reino Unido informa que replica el enfoque de dirección de Anthropic para suprimir la conciencia de la evaluación, con el sorprendente resultado de que los vectores de control (“libros en los estantes”) pueden producir efectos tan grandes como los diseñados deliberadamente. Para los ingenieros que crean intervenciones de seguimiento de modelos o posteriores a la capacitación, este es un resultado de advertencia sobre cuán confusos y no específicos pueden ser los efectos de dirección lineal.

Sistemas, números e inferencia local/de borde

  • El diagrama de dispersión bf16 de Carmack es un recordatorio útil de que la baja precisión falla de manera visible y estructurada: la publicación de John Carmack sobre el trazado de 400.000 puntos bf16 mostró claras brechas de cuantificación que emergen a medida que los valores sabe alejan del origen. El valor para los practicantes no es la anécdota en sí, sino el reinicio de la intuición: la mantisa reducida de bf16 sabe vuelve visual y operativamente obvia en magnitudes sorprendentemente modestas. Esto combina bien con la advertencia de Arohan de no saltarse los “días de determinismo y números”.
  • La pila de inferencia local/de Apple sigue acumulándose: Awni Hannun destacó demostraciones de Qwen 3.5 y Gemma 4 ejecutándose localmente en el silicio de Apple a través de MLX, y por separado resurgió la historia del origen de MLX. También hubo un impulso continuo en torno a la integración de mlx + Ollama y las aceleraciones impulsadas por MLX de Ollama en el silicio de Apple. El patrón general: la ergonomía local de LLM ya no son demostraciones novedosas; sabe están convirtiendo en un valor predeterminado viable para los flujos de trabajo de agentes y codificación.
  • La optimización de la inferencia sigue estando basada en gran medida en recetas: dos ejemplos útiles: la decodificación especulativa de Red Hat AI para Gemma 4 31B usando EAGLE-3, y PyTorch/difusores trabajan en la inferencia de modelos de flujo de baja precisión donde Sayak Paul resume la receta final: cuantificación selectiva, mejores núcleos de conversión, gráficos CUDA y compilación regional. Estos son buenos recordatorios de que las aceleraciones prácticas aún provienen de la acumulación de muchas intervenciones a nivel del sistema en lugar de una sola optimización mágica.

Direcciones de investigación: memoria, datos sintéticos e ideas de tiempo de ejecución neuronal

  • La memoria está pasando de “almacenar hechos” a “almacenar trayectorias”: el resumen de MIA del Turing Post enmarca la memoria como una experiencia retenida de resolución de problemas en lugar de simplemente un contexto recuperado: un bucle de administrador/planificador/ejecutor que almacena viajes completos. Esa dirección sabe ve reflejada en la afirmación de "escalamiento de la memoria" de Databricks de que los registros de usuarios no seleccionados pueden superar las instrucciones hechas a mano después de solo 62 registros.
  • Los datos sintéticos sabe están volviendo programables frente a objetivos diferenciables: Rosinality y Tristan Thrush apuntan a trabajar en la generación de datos de entrenamiento sintéticos que optimicen directamente los objetivos posteriores, hasta incluir un código QR en los pesos del modelo a través de los datos únicamente. Este es un claro ejemplo de cómo el diseño de datos sabe trata como un objetivo de optimización en sí mismo.
  • “Neural Computers” propone el tiempo de ejecución aprendido como el siguiente límite de abstracción: Schmidhuber y sus colaboradores introdujeron Neural Computers, impulsando la idea de que la computación, la memoria y las E/S podrían pasar de un tiempo de ejecución externo fijo a un estado interno aprendido. Independientemente de que la formulación sabe mantenga o no, es uno de los intentos más ambiciosos de este conjunto de redefinir el límite entre modelo y máquina.

Tweets principales (por participación)

  • Fallo de confiabilidad médica/LLM: HedgieMarkets sobre artículos falsos de “bixonimanía” que fueron aceptados por los principales sistemas de inteligencia artificial e incluso citados en una revista revisada por pares. Ejemplo de señal alta de falla de recuperación/verificación en dominios críticos para la seguridad.
  • Numéricos: John Carmack sobre las brechas de precisión de bf16 en los diagramas de dispersión. Uno de los tweets más útiles en la práctica del lote.
  • Narrativa política/riesgo cibernético: el informe de Bloomberg de que Powell y Bessent discutieron los riesgos cibernéticos de los “Mitos” de Anthropic con líderes de Wall Street generó un compromiso sustancial, aunque la sustancia técnica sigue siendo de segunda mano.
  • Integración de productos: Claude for Word que entró en versión beta fue uno de los anuncios de productos de IA genuinos más importantes del conjunto.
  • Hito de modelo abierto: el salto a Code Arena de GLM-5.1 es probablemente el punto de datos de rendimiento del modelo más importante de esta colección.

/r/LocalLlama + /r/localLLM Resumen

1. Actualizaciones y correcciones del modelo Gemma 4

Sigue leyendo con una prueba gratuita de 7 días

Suscríbete a Latent.Space para seguir leyendo esta publicación y obtener 7 días de acceso gratuito a los archivos completos de las publicaciones.