un día tranquilo

Algunos lanzamientos notables de modelos de nivel medio, pero afortunadamente la mayoría de las empresas respetaron que hoy es un día terrible para lanzar cualquier cosa. Le daremos puntos a Liquid por el mejor chiste del Día de los Inocentes.

Noticias de IA del 23/03/2026 al 24/03/2026. Revisamos 12 subreddits, 544 Twitters y no hay más Discords. El sitio web de AINews le permite buscar todos los números anteriores. Como recordatorio, AINews es ahora una sección de Latent Space. ¡Puedes optar por recibir o no frecuencias de correo electrónico!

Lanzamientos de codificación de visión y razonamiento de peso abierto: Arcee Trinity-Large-Thinking, Z.ai GLM-5V-Turbo, Falcon Perception y Holo3

  • Trinity-Large-Thinking de Arcee: el mayor lanzamiento de modelo sustancial en este conjunto fue Trinity-Large-Thinking de Arcee, lanzado con pesos abiertos bajo Apache 2.0 y posicionado explícitamente para desarrolladores/empresas que desean inspeccionar, alojar, destilar y post-entrenar sus propios sistemas. Las publicaciones de seguimiento afirman un sólido desempeño agente, incluido el puesto número 2 en PinchBench detrás de Opus 4.6, SOTA en Tau2-Airline y resultados de telecomunicaciones de nivel fronterizo (Arcee, Mark McQuade). OpenRouter destacó la arquitectura como un modelo de 400 B en total/13 B activo y la puso a disposición de inmediato (OpenRouter). Varios socios del ecosistema lo enmarcaron como un hito para el “código abierto estadounidense”, incluidos Prime Intellect, Datology e infra partidarios que enfatizaron que un pequeño equipo sirvió un modelo de clase 400B en puntos de costo de producción (latkins, willccbb, xlr8harder, natolambert).
  • GLM-5V-Turbo de Z.ai: Z.ai presentó GLM-5V-Turbo, un modelo de codificación de visión que maneja de forma nativa imágenes, videos, diseños de documentos y borradores de diseño, preservando al mismo tiempo el rendimiento de la codificación de texto puro. La compañía atribuye las ganancias a la fusión multimodal nativa, un codificador CogViT de próxima generación, RL colaborativo de más de 30 tareas, generación de datos agentes sintéticos y extensiones de cadena de herramientas multimodales para búsqueda/dibujo/lectura web (detalles, estabilidad de codificación de texto). El modelo sabe integró rápidamente en múltiples superficies posteriores, incluidas TRAE, Tabbit y Vision Arena.
  • Falcon Perception y OCR: TII lanzó Falcon Perception, un modelo de segmentación de expresiones de referencia de vocabulario abierto, junto con un modelo OCR de 0,3 mil millones que sabe dice que es competitivo con modelos entre 3 y 10 veces más grandes. El punto de diseño notable es un transformador de fusión temprana que mezcla imágenes y texto de la primera capa en lugar de depender de tuberías de múltiples etapas y fusión tardía.
  • Otras notas sobre el modelo: Holo3 de H Company sabe destacó como una familia de modelos de navegación GUI (A3B/35B, basado en Qwen3.5, licencia gratuita, soporte para Transformers). Una publicación separada elogió un destilado Qwen3.5 27B entrenado en trazas de razonamiento de Claude 4.6 Opus, afirmando que SWE-bench gana sobre Claude Sonnet 4.5, 96,91% HumanEval, menor verbosidad de CoT, usabilidad local de 4 bits y más de 300.000 descargas de HF (Craig Hewitt).

Fuga de código de Claude, problemas operativos y el competitivo mercado de agentes de codificación

  • Lo que expuso la filtración: varias publicaciones convergieron en el análisis de la exposición accidental de la fuente del Código Claude de Anthropic. La síntesis técnica más útil es el largo hilo de ZhihuFrontier, que enfatiza un núcleo de agente minimalista (un único bucle while (verdadero)) con sofisticación incorporada a la gestión del contexto, las herramientas y la instrumentación del producto. Según sabe informa, la filtración mostró una pila de compresión de contexto de 4 capas (HISTORY_SNIP, Microcompact, CONTEXT_COLLAPSE, Autocompact), transmisión más ejecución de herramientas paralelas, reintentos silenciosos en fallas de longitud de salida, una arquitectura modular de más de 40 herramientas sin abstracciones con mucha herencia y un fuerte uso de indicadores de funciones y ablaciones de producción. Un segundo resumen señaló características ocultas que incluyen gestión del presupuesto de tareas, modo AFK, modo rápido "Penguin", razonamiento redirigido y otros ganchos de productos sin terminar (ZhihuFrontier).
  • El dolor operativo importaba más que la filtración para muchos usuarios: junto con la discusión sobre la filtración, muchos desarrolladores sabe quejaron de que Claude simplemente era lento o poco confiable ese día (Teknium, andersonbcdefg). La respuesta de la comunidad también sabe centró en las “mascotas” filtradas y las posibilidades de la interfaz de usuario (meowbooksj), lo que refuerza que el pulido del producto es parte del foso competitivo incluso cuando los patrones de orquestación sabe vuelven legibles.
  • Repercusión de la DMCA: la historia de segundo orden fueron los intentos de eliminación de repositorios demasiado amplios de Anthropic. Theo informó una DMCA contra una bifurcación que no contenía una fuente filtrada; Luego argumentó que la eliminación en sí violaba el procedimiento DMCA (publicación). Posteriormente llegó una corrección de trq212, calificándolo de error de comunicación; el repositorio fue restaurado y Theo reconoció la retractación y la rápida respuesta (restaurado, respuesta oficial).
  • Los clones y alternativas de código abierto están ganando popularidad: la filtración también impulsó la competencia en el ecosistema. Yuchen Jin notó que la bifurcación de Claude Code filtrada alcanzó más de 110.000 estrellas de GitHub en un día. Al mismo tiempo, varios usuarios dijeron que Nous Hermes Agent era más fácil de implementar y operar que las pilas derivadas de OpenClaw o Claude, a menudo citando una configuración casi nula y mejores flujos de trabajo locales (charliehinojosa, VadimStrizheus, Nous). También hay una ola de herramientas en torno a la dirección rápida y la eficiencia, p. Un "Universal CLAUDE.md" que afirma una reducción del 63% en el token de salida, y la especificación Agent Skills de Google que propone una divulgación progresiva para reducir el contexto de referencia en un 90%.

Investigación de sistemas de agentes: memoria, autoorganización, límites de coordinación y seguridad

  • La memoria sabe está convirtiendo en infraestructura de primera clase: MemFactory propone un marco unificado de inferencia/entrenamiento para agentes con memoria aumentada con integración GRPO nativa y reportó ganancias relativas de hasta el 14,8 % con respecto a las líneas de base. Por otra parte, Baseten describió un perceptor de parámetros de 7M que comprime el caché KV 8x mientras retiene más del 90% de retención factual, presentándolo como un camino hacia modelos que "aprenden de la experiencia". Part_harry_ amplió la idea aún más, argumentando que el preentrenamiento en sí mismo es ineficiente en términos de datos porque descartamos el caché KV en cada paso.
  • ¿Los agentes autoorganizados superan a los roles escritos a mano? Un resumen de DAIR destacó el nuevo trabajo en 25 000 tareas con hasta 256 agentes, afirmando que los roles autoorganizados superan las jerarquías predefinidas de planificador/codificador/revisor, con un protocolo de coordinación secuencial +14 % sobre los enfoques centralizados, más de 5000 roles emergentes y modelos abiertos que alcanzan el 95 % de la calidad del modelo cerrado a un costo menor. Esto entra en tensión con una línea teórica separada: el resumen de omarsar0 del nuevo trabajo del MIT sostiene que la planificación delegada de múltiples agentes está teóricamente dominada por un tomador de decisiones centralizado de Bayes cuando los agentes no obtienen acceso a fuentes de información genuinamente diferentes. En la práctica, la síntesis es probable: el multiagente ayuda cuando divide herramientas, entornos o canales de recuperación, no sólo indicaciones.
  • La superficie de ataque de los agentes es la web: un resumen ampliamente compartido de un nuevo documento de DeepMind sobre “Trampas de agentes de IA” replantea la seguridad de los agentes en torno al contenido adversario en páginas web/documentos, no solo en modelos de jailbreak. El hilo cita una inyección de mensajes ocultos en HTML/CSS que tuvo éxito en hasta el 86% de los escenarios y un envenenamiento de la memoria latente que alcanzó más del 80% de éxito de ataque con <0,1% de contaminación, lo cual es material para cualquiera que envíe agentes de exploración/recuperación pesada.
  • La evaluación a largo plazo sabe está enriqueciendo: los nuevos puntos de referencia/herramientas incluyen Kaggle Standardized Agent Exams, YC-Bench para simular una startup en un horizonte de un año y CaP-Gym/CaP-X, un amplio punto de referencia y conjunto de herramientas para robótica agente que abarca 187 tareas de manipulación, 12 modelos de frontera y políticas sin capacitación y mejoradas con RL con código con licencia del MIT (detalles de código abierto).

Capacitación, recuperación e infraestructura: marcos, optimizadores, núcleos y puntos de referencia de RL

  • Maduración de la pila posterior al entrenamiento: muchos enmarcaron el TRL v1.0 de Hugging Face como una unificación significativa del post-entrenamiento abierto (SFT, modelado de recompensas, DPO, GRPO) en un paquete listo para producción (comentario). Un hilo de encuesta complementario de adithya_s_k comparó 16 marcos de RL en orquestación, almacenamiento en búfer de implementación, sincronización de peso, manejo de estancamiento, comportamiento de implementación parcial, soporte LoRA y paralelismo distribuido, útil para equipos que eligen entre TRL, VeRL, SLIME y otros.
  • Optimización y lanzamientos de sistemas: HeavyBall 3.0.0 sabe envió con FSDP, DDP, compilación de extremo a extremo con una aceleración de 2,5 veces, variantes Muon/SOAP más rápidas y nuevos optimizadores. Juntos, AI promovió un informe sobre los núcleos detrás de escena; Dan Fu siguió con un hilo sobre "lo que hace un vicepresidente de Kernels". En el lado del DSL de bajo nivel, maharshii argumentó que CuTeDSL reduce materialmente la barrera a los kernels personalizados al permitir PTX en línea directamente en Python, evitando gimnasia de diseño opaco.
  • La evidencia de recuperación continúa favoreciendo la interacción tardía: varias publicaciones reiteraron que la recuperación de múltiples vectores/interacción tardía supera a las incrustaciones de un solo vector, incluso después de un ajuste fino, con mayor solidez contra el olvido catastrófico (interacción tardía, visualización en escalera). También hubo una continua frustración porque "RAG" sabe ha convertido en un término general sobrecargado en lugar de referirse a un artículo antiguo específico (interacción tardía).
  • Puntos de referencia y superficies de eficiencia: Arena agregó gráficos de frontera de Pareto en texto, visión, búsqueda, documento y código, haciendo que las compensaciones entre precio y rendimiento sean más explícitas. En cuanto a la inferencia estandarizada, Lambda y NVIDIA señalaron a MLPerf Inference v6.0 como la mejor lente para la productividad real de una fábrica de IA que las especificaciones máximas de los chips.

Plataformas de desarrollador, límites de tarifas y herramientas UX

  • Restablecimiento del uso del Codex de OpenAI: el anuncio de plataforma más importante desde el punto de vista práctico para los ingenieros en activo fue la nota de Thsottiaux de que OpenAI restableció los límites de uso del Codex en todos los planes, citando límites de velocidad elevados y una purga simultánea de cuentas fraudulentas que recuperó la computación. Esto fue rápidamente amplificado por los usuarios que interpretaron la generosidad del límite de tarifas como un eje competitivo directo en el mercado de agentes de codificación (reach_vb, Yuchen Jin). Más tarde, Thsottiaux también aclaró que el núcleo del Codex pretende ser de código abierto porque el ecosistema aún es joven y mutuamente informativo (publicación).
  • Documentos listos para agentes y superficies de plataforma: LangChain incorporó el chat en sus documentos basándose en documentos completos, base de conocimientos y código OSS. Juntos, la IA abrió las habilidades de 12 agentes para que Claude Code y Codex puedan llamar a sus API con los ID de modelo y los modismos de SDK correctos. OpenAI Devs también mostró una integración lineal más estrecha en la aplicación Codex para mantener los tickets sincronizados con el trabajo del código.
  • Calidad de vida de infraestructura y almacenamiento: SkyPilot agregó soporte nativo de datos VAST para montajes directos de conjuntos de datos de alta velocidad en servidores informáticos heterogéneos, y Hugging Face implementó depósitos de almacenamiento persistentes para espacios. Tinker agregó ventanas de contexto más largas de hasta 256k para modelos abiertos seleccionados, ampliando su atractivo para RL y experimentación a largo plazo.

Tweets principales (por participación)

  • Restablecimiento de los límites del Codex de OpenAI: Thsottiaux restableció los límites de tarifas del Codex en todos los planes, vinculándolos explícitamente tanto a picos inexplicables de los límites de tarifas de los usuarios como a la aplicación de medidas antifraude que liberaron la computación.
  • Lanzamiento de GLM-5V-Turbo: el anuncio de Z.ai fue uno de los lanzamientos técnicos más importantes del día: un modelo de codificación multimodal dirigido a agentes GUI, codificación visual y flujos de trabajo de agentes.
  • Discurso sobre la filtración de Claude Code: el hilo DMCA de Theo y la nota de Yuchen Jin sobre el proyecto filtrado que supera las 110.000 estrellas de GitHub capturaron la rapidez con la que la exposición de la fuente sabe tradujo en un impulso de ecosistema abierto.
  • Arcee Trinity-Large-Thinking: El lanzamiento de Arcee y el resumen de la arquitectura de OpenRouter generaron un compromiso inusualmente fuerte para un modelo de razonamiento de peso abierto, lo que sugiere un apetito real por lanzamientos abiertos serios con sede en EE. UU.
  • Falcon Perception: el lanzamiento de Falcon Perception sabe destacó en el lado multimodal por su arquitectura simple de fusión temprana y su tamaño de modelo OCR inusualmente pequeño en relación con el rendimiento declarado.

/r/LocalLlama + /r/localLLM Resumen

1. Análisis y filtración del código fuente de Claude

[...]