[AINews] Los precios del H100 se están derritiendo *ARRIBA*

un día tranquilo nos permite informar una importante tendencia de GPU

En GTC 2022, NVIDIA anunció la arquitectura Hopper y los primeros H100 comenzaron a implementarse en octubre de ese año. Dos años después, en octubre de 2024, publicamos un artículo popular sobre el ciclo de depreciación del precio de alquiler del H100, que habíamos observado que iba más rápido que los ciclos anteriores y teorizamos que sabe trataba de una ligera dinámica de estallido de burbuja debido a una demanda temporalmente inflada. Si bien es cierto por el momento (tocó fondo después del shock de DeepSeek R1, no duró; desde diciembre de 2025, el mercado de alquiler de H100 ha subido MUY:

Esto lo corrobora Dylan en Dwarkesh diciendo que los H100 valen más hoy que hace 3 años, y seguramente está relacionado con la escasez general de chips y la inflexión del modelo/agente de razonamiento de diciembre de 2025, y la utilidad de un chip de 4 años ahora con modelos de razonamiento y software de inferencia mucho mejores significa que el chip en sí es mucho más valioso de lo que habían supuesto los programas iniciales de depreciación de 4 a 7 años.

Si está acostumbrado a la vanguardia de la tokenómica de los centros de datos, debe esperar que esto tenga implicaciones muy significativas en los modelos de negocio de los centros de datos y las GPU... Siempre y cuando continúe.

Noticias de IA del 26/03/2026 al 27/03/2026. Revisamos 12 subreddits, 544 Twitters y no hay más Discords. El sitio web de AINews le permite buscar todos los números anteriores. Como recordatorio, AINews es ahora una sección de Latent Space. ¡Puedes optar por recibir o no frecuencias de correo electrónico!

El sistema “Mythos” filtrado de Anthropic y el nuevo nivel Capybara

Fortune corrobora un nivel más alto de Anthropic por encima de Opus: @M1Astra conservó una publicación "Claude Mythos" ahora eliminada, y varias publicaciones de seguimiento citan un informe de Fortune de que Anthropic está introduciendo Capybara, descrito como un nuevo nivel por encima de Opus y "más grande y más inteligente" que Claude Opus 4.6. Los informes resumidos por @scaling01, @Yuchenj_UW y @kimmonismus dicen que Capybara publica puntuaciones sustancialmente mejores en codificación, razonamiento académico y ciberseguridad, con una implementación limitada por preocupaciones de costo y seguridad.

La intensidad de la computación es el tema central: varios carteles infieren que Anthropic sabe está inclinando fuertemente hacia la escala, con especulaciones en torno a un modelo de clase de parámetros de ~10T a partir de comentarios anteriores de Dario, aunque eso sigue sin confirmarse en comentarios externos; consulte @ scaling01 y @Yuchenj_UW. Por otra parte, el informe del Financial Times transmitido por @FirstSquawk dice que Google está cerca de financiar el centro de datos de Anthropic, lo que refuerza que la competencia fronteriza está cada vez más determinada por el poder y el gasto de capital en lugar de solo algoritmos.

La tensión de infraestructura fue visible en producción: la filtración sabe produjo en medio de un día difícil para la disponibilidad de Anthropic, con quejas generalizadas de los usuarios sobre errores 529/elevados de @dejavucoder, @iScienceLuvr y otros. La conclusión práctica es que Anthropic parece estar equilibrando ambiciones de escalamiento agresivo con una dotación de servicios aún ajustada.

Modelos de codificación abiertos, inferencia local y el impulso continuo de GLM-5.1

GLM-5.1 está aumentando la presión sobre los modelos de codificación cerrados: Zhipu anunció la disponibilidad de GLM-5.1 para todos los usuarios del plan de codificación a través de @Zai_org, junto con documentos para uso de los agentes en @Zai_org. La reacción de la comunidad lo enmarcó como otra señal de que los modelos chinos de codificación abiertos o semiabiertos de alta gama están cerrando la brecha: @kimmonismus, @XFreeze y el análisis más amplio de la tabla de clasificación de Arena, @arena, apuntan a una brecha entre abierto y cerrado mucho más estrecha que hace un año.

La economía de la implementación local sigue mejorando: un tema recurrente en los tweets es que los modelos locales ahora son "lo suficientemente buenos" para muchos flujos de trabajo. Los ejemplos incluyen a @TheGeorgePu cambiando una costosa suscripción TTS por una configuración local de Qwen 3.5 14B, @LottoLabs informando una sólida economía para Qwen 27B con Hermes Agent y @0xSero comprimiendo Qwen3.5-35B lo suficiente como para ajustar el contexto completo en 24 GB de VRAM con una caída promedio de rendimiento de aproximadamente 1 %.

El trabajo de cuantificación y caché sigue siendo habilitadores clave: @iotcoi envió una bifurcación TurboQuant vLLM con rutas de escritura Triton KV fusionadas y atención de decodificación, apuntando a Qwen3.5-35B AWQ, contexto de 1M y caché de 4M KV. Mientras tanto, @bnjmn_marie comparó los formatos Qwen3.5 27B en RTX Pro 6000/B200/H100, con INT4 emergiendo como la mejor opción de inferencia en hardware de clase RTX Pro 6000.

Pero TurboQuant ahora está bajo disputa activa: la controversia de investigación más fuerte en el conjunto proviene de @gaoj0017 y una aclaración más larga @gaoj0017, alegando que el artículo ICLR 2026 TurboQuant de Google tergiversó a RaBitQ en teoría y evaluación comparativa, incluidas comparaciones injustas entre CPU y GPU. Esto no invalida el valor de ingeniería de TurboQuant, pero sí arroja dudas sobre algunas de las afirmaciones comparativas publicitadas.

Los agentes sabe están convirtiendo en productos, no en demostraciones.

Hermes Agent está emergiendo como el punto focal del agente abierto: el impulso de producto más consistente en el conjunto de datos pertenece a Hermes Agent de Nous Research. @NousResearch integró Hugging Face como un proveedor de inferencia de primera clase con 28 modelos seleccionados y acceso a muchos más, mientras que @ClementDelangue enmarcó esto como un paso hacia agentes abiertos con memoria, acceso persistente a la máquina y elección de modelo. Los informes de usuarios de @fancylancer3991, @PolackJack y @alexcovo_eth enfatizan una menor fricción y una mejor persistencia que las configuraciones con mucha automatización del navegador como OpenClaw.

La infraestructura del agente está madurando en torno a los seguimientos, las evaluaciones y la depuración: @ClementDelangue de Hugging Face solicitó conjuntos de datos de seguimiento de agentes abiertos, y el seguimiento apunta al Protocolo de datos del agente de @yueqi_song. LangChain impulsó un conjunto de materiales orientados a la producción: una lista de verificación de preparación para la evaluación del agente @LangChain, guía de interfaz de usuario estilo IDE de Deep Agents @LangChain_JS y entornos LangSmith Prompt Hub para una rápida promoción/reversión @LangChain. La dirección es clara: la pila está pasando de “chatbot con herramientas” a primitivos del ciclo de vida del software para agentes.

Los puntos de referencia de los agentes están comenzando a reflejar cargas de trabajo reales: Artificial Analysis presentó AA-AgentPerf a través de @ArtificialAnlys, centrado en trayectorias reales de los agentes de codificación, longitudes de secuencia de más de 100 000 y rendimiento expresado como usuarios simultáneos por acelerador/por kW/por $/por rack. Esta es una abstracción más relevante para la implementación que los puntos de referencia de tokens sintéticos y debería ser útil para los equipos que comparan sistemas de aceleración para servicios con muchos agentes.

Agentes de codificación, complementos de Codex y flujos de trabajo de software multiagente

El ecosistema Codex de OpenAI está cambiando hacia la automatización nativa del espacio de trabajo: los desarrolladores de OpenAI destacaron los complementos del Codex y una galería de casos de uso a través de @OpenAIDevs, mientras que Box envió un complemento del Codex para automatizar los flujos de trabajo a través del contenido de Box @Box. La opinión de los usuarios de @theo, @nickbaumann_ y @reach_vb sugiere que el centro de gravedad sabe está moviendo desde el mensaje/respuesta a espacios de trabajo persistentes, sistemas de problemas, terminales, flujos de relaciones públicas y complementos.

El patrón de UX ganador es cada vez más “gestión de flotas para software”: @VibeMarketer_ capturó bien el patrón emergente: tarjetas tipo kanban, árboles de trabajo aislados, tareas propiedad de agentes y revisión basada en diferencias. Las herramientas relacionadas incluyen el nuevo panel de agente-navegador de @ctatedev para la depuración de sesiones de navegador en tiempo real y un amplio entusiasmo por los sistemas SWE multiagente de comentarios adyacentes de Cognition/Devin como @JTLonsdale y @cognition.

Composer 2 y las evaluaciones de codificación a largo plazo están elevando el listón: la discusión sobre CursorBench es en su mayoría indirecta aquí, pero @cwolferesearch señala las fortalezas del punto de referencia: sesiones de codificación reales, indicaciones poco especificadas, dimensiones de calidad más amplias y una mediana de 181 líneas cambiadas por tarea. Se trata de un diseño de referencia más saludable que las tareas de juguetes estáticos y sabe alinea con el giro más amplio hacia la evaluación de agentes a largo plazo.

Investigación y sistemas: modelos mundiales, robótica, habla e infraestructura multimodal

Meta envió una práctica aceleración de SAM 3.1: @AIatMeta lanzó SAM 3.1, una actualización directa de SAM 3 con multiplexación de objetos, que permite hasta 16 objetos en un solo paso hacia adelante. Meta dice que esto duplica aproximadamente el rendimiento de video de 16 a 32 FPS en un H100 para cargas de trabajo de objetos medianos, lo cual es significativo para canales de segmentación de video accesibles.

Tanto los modelos mundiales como la robótica tuvieron lanzamientos abiertos notables: @LiorOnAI destacó el documento/repositorio LeWorldModel de LeCun como un modelo de mundo pequeño y abierto diseñado para hacer que el colapso representacional sea matemáticamente imposible a través de SIGReg, afirmando una planificación 48 veces más rápida y ~200 veces menos tokens. En cuanto a los datos de robótica, @UnitreeRobotics abrió el UnifoLM-WBT-Dataset, un conjunto de datos de teleoperación de cuerpo entero humanoide del mundo real destinado a actualizaciones continuas.

Habla/audio abierto sigue siendo una de las categorías abiertas más saludables: el nuevo modelo 2B Apache-2.0 Transcribe de Cohere obtuvo grandes elogios de @victormustar y mediciones de rendimiento de @vanstriendaniel, quien informa 33 horas de audio transcritas en 12 minutos en un A100. El artículo Voxtral TTS de Mistral fue marcado por @qtnx_, y aparecieron demostraciones locales/de navegador de @sophiamyang y @nickfrosst.

Las pilas de robótica abierta también son cada vez más reproducibles: AI2 lanzó MolmoBot, una suite de manipulación robótica abierta entrenada completamente en simulación, con código, datos de entrenamiento, proceso de generación y evaluaciones disponibles a través de @allen_ai. Esto complementa el conjunto de datos de Unitree e indica un progreso continuo hacia una investigación en robótica replicable fuera de los laboratorios más importantes.

Tweets principales (por participación)

Fuga Antrópica/Carpincho: @Yuchenj_UW en Carpincho fue el elemento técnico más interesante, resumiendo el nuevo nivel por encima de Opus y sus ganancias de referencia reportadas.

Tratamiento del cáncer de perro asistido por IA de Paul Conyngham: @sama compartió una historia sobre el uso de ChatGPT y herramientas relacionadas para ayudar a diseñar un protocolo de vacuna de ARNm para el cáncer de perro, que sabe convirtió en un importante punto de discusión sobre la medicina personalizada basada en IA.

Crítica de TurboQuant: @gaoj0017 generó una participación inusualmente alta por una disputa sobre la metodología del documento, probablemente porque desafía un documento de sistemas muy promocionado.

Lanzamiento de GLM-5.1: @Zai_org anunciando una amplia disponibilidad de GLM-5.1 aterrizó con fuerza, reforzando el interés sostenido en los modelos de codificación abierta.

Infraestructura abierta para agentes: @OpenAIDevs en complementos Codex y @NousResearch en la integración de Hugging Face en Hermes Agent fueron los lanzamientos de producto/infraestructura más claros con amplia relevancia para los desarrolladores.