[AINews] El último suspiro de la humanidad

un día tranquilo nos permite reflexionar sobre el trabajo en la época de la IA

Un tema que ha surgido una y otra vez en Latent Space y AI Engineer es cuánto más duro parece estar trabajando todo el mundo:

(amigo del programa) Aaron Levie informa que "la IA no está provocando que nadie trabaje menos en este momento y, al igual que la gente de Silicon Valley, siente que sus equipos están más ocupados que nunca".

Tyler Cowen sostiene, desde un punto de vista económico, que debería trabajar mucho más duro AHORA MISMO, ya sea que crea que la IA reducirá su valor O aumentará su valor.

Simon Last de Notion comentó en el grupo de hoy que ha vuelto a tener noches de insomnio y trabajar 24 horas al día, 7 días a la semana por primera vez desde que abandonó el entrenamiento del modelo ML, pero esta vez debido a la ansiedad del token de la capa del agente.

¿Cómo puede ser cierto que “los agentes están haciendo más trabajo y, sin embargo, todos trabajan más duro”? ¿Cómo puede ser cierto que Claude Mythos sabe haya utilizado internamente durante 2 meses y, sin embargo, Claude siga bajando? ¿Cómo puede ser cierto que los laboratorios de modelos y agentes sean más productivos que nunca y, sin embargo, adquieran y contraten más que nunca?

Un simple ejercicio de reflexión que hemos hecho antes es el “problema de Turquía”, donde, basándose en evidencia real y una abundancia de datos históricos, los pavos deberían concluir que la vida es fantástica y que toda la humanidad está preparada para hacer que los pavos estén bien alimentados hasta donde lo han experimentado. Los pesimistas turcos serían alarmistas y chiflados y luego serían ignorados. Hasta Acción de Gracias.

¿Son los ingenieros, o todos los trabajadores del conocimiento en general, pavos en este escenario? ¿Nuestra “elasticidad” y valor del trabajo deberían ser cada vez más positivos, hasta llegar a un punto de cruce en el que nos convertimos en caballos? Ahora que SWE-Bench está saturado (con SWE-Bench Pro pronto lo estará, Mythos está en 78%) y GDPval califica a GPT 5.4 como mejor o igual que los expertos humanos el 83% del tiempo en la mayoría de los sectores de la economía, ¿qué queda?

Notion está trabajando en el último examen de Notion. Greg y Francois han establecido ARC-AGI-3. Estoy trabajando en la próxima frontera de las evaluaciones de codificación. Pero todo parece algo discutible si el hardware es el destino y AGI está, como era de esperar, a un supercúmulo de 20 GW de distancia...

…¿o quedan problemas más valiosos?

Noticias de IA del 3/4/2026 al 4/4/2026. Revisamos 12 subreddits, 544 Twitters y no hay más Discords. El sitio web de AINews le permite buscar todos los números anteriores. Como recordatorio, AINews es ahora una sección de Latent Space. ¡Puedes optar por recibir o no frecuencias de correo electrónico!

Tweets principales (por participación)

Las “Skills” de Chrome de Google convierten las indicaciones en flujos de trabajo de navegador reutilizables: Google introdujo Skills en Chrome, permitiendo a los usuarios guardar las indicaciones de Gemini como acciones de un solo clic que sabe ejecutan en la página actual y las pestañas seleccionadas. Google también envió una biblioteca de Skills listas para usar, lo que hace que este historial sea más que rápido: es efectivamente una agencia de usuario final liviana dentro del navegador.

HYWorld 2.0 de Tencent posiciona los modelos mundiales como generadores de escenas 3D editables, no modelos de video: antes del lanzamiento, @DylanTFWang presentó HYWorld 2.0 como un modelo mundial 3D de código abierto y listo para motor que genera escenas 3D editables a partir de una sola imagen.

Google DeepMind lanzó Gemini Robotics-ER 1.6: el nuevo modelo, anunciado por @GoogleDeepMind, mejora el razonamiento visual/espacial para robótica, agrega un razonamiento físico más seguro y está disponible en Gemini API/AI Studio. Las publicaciones de seguimiento destacan un 93 % de éxito en la lectura de instrumentos y un mejor manejo de limitaciones físicas como líquidos y objetos pesados.

OpenAI amplió el acceso confiable para Cyber con GPT-5.4-Cyber: OpenAI dice que GPT-5.4-Cyber es una versión mejorada de GPT-5.4 para flujos de trabajo de seguridad defensiva, disponible para defensores autenticados de nivel superior bajo su programa Trusted Access.

Hugging Face lanzó “Kernels” en el Hub: @ClementDelangue anunció un nuevo tipo de repositorio para kernels de GPU, con artefactos precompilados que coinciden con combinaciones exactas de GPU/PyTorch/OS y afirmaron aceleraciones de 1,7 a 2,5 veces sobre las líneas base de PyTorch.

Cursor describió un sistema de optimización CUDA de múltiples agentes creado con NVIDIA: @cursor_ai dice que su sistema de ingeniería de software de múltiples agentes entregó una aceleración geomedia del 38% en 235 problemas CUDA en 3 semanas, un ejemplo concreto de agentes que sabe aplican a la optimización de sistemas en lugar de andamios de aplicaciones.

Infraestructura de agentes: Hermes, agentes profundos y arneses de producción

Hermes Agent sabe está convirtiendo en una pila de agentes locales abierta y seria, con confiabilidad y memoria como diferenciadores: varias publicaciones convergieron en el mismo tema: los usuarios están migrando desde alternativas a Hermes Agent porque es más duradero para trabajos de larga duración. El proyecto envió una actualización sustancial v0.9.0 con interfaz de usuario web, cambio de modelo, integración de iMessage/WeChat, copia de seguridad/restauración y compatibilidad con Android-via-tmux a través de @AntoineRSX, mientras que Tencent destacó una implementación de Lighthouse con un solo clic para alojamiento en la nube siempre activo con integraciones de mensajería. En cuanto a la memoria, hermes-lcm v0.2.0 de @SteveSchoettler agrega administración de contexto sin pérdidas con almacenamiento de mensajes persistentes, resúmenes de DAG y herramientas para expandir el contexto compactado. Las publicaciones de la comunidad de @Teknium, @aiqiang888 y otros refuerzan que la ventaja clave de Hermes es menos el coeficiente intelectual del modelo en bruto que la estabilidad operativa, la extensibilidad y la capacidad de implementación.

LangChain está impulsando a los “agentes profundos” hacia sistemas asíncronos, multiinquilino e implementables: la versión deepagents 0.5 agrega subagentes asíncronos, compatibilidad con archivos multimodales y mejoras en el almacenamiento en caché. Las publicaciones relacionadas enfatizan que la implementación de deepagents es una alternativa abierta al alojamiento de agentes administrados, con un próximo trabajo en torno a la memoria con alcance de usuario/agente/org y aislamiento personalizado de subprocesos de autenticación/por usuario a través de @LangChain y @sydneyrunkle. El patrón interesante aquí es un cambio de las “demostraciones de agentes” a preocupaciones de plataforma: arrendamiento, aislamiento, tareas de larga duración y superficies de integración como Salesforce y servidores respaldados por Agent Protocol.

El diseño de arneses sabe está convirtiendo en un tema de ingeniería de primera clase: múltiples publicaciones argumentaron que el rendimiento del agente depende al menos tanto del andamio como del modelo. @Vtrivedy10 presentó el caso más claro a favor de los arneses abiertos para tareas específicas por encima de la ideología (“delgado versus grueso”), mientras que @kmeanskaran enfatizó el diseño del flujo de trabajo, el cambio de memoria y el control de salida de herramientas por encima de la persecución de modelos fronterizos. Esto sabe alinea con @ClementDelangue solicitando un mapeo seleccionado desde los modelos hasta sus mejores arneses de codificación/agente, lo cual es cada vez más necesario a medida que los modelos abiertos sabe diversifican.

Robótica, modelos del mundo y generación 3D

Gemini Robotics-ER 1.6 de Google es un paso notable en la producción del razonamiento incorporado: el lanzamiento de @GoogleDeepMind enfatiza una mejor comprensión visual/espacial, el uso de herramientas y el razonamiento de restricciones físicas. Los seguimientos señalan una detección de riesgo de lesiones humanas un 10 % mejor, compatibilidad con la lectura de indicadores analógicos complejos y disponibilidad en la API; @_philschmid destacó un 93 % de éxito en las tareas de lectura de instrumentos. Esto sabe parece menos a un modelo básico de robótica y más a una API de razonamiento incorporado orientada al desarrollador.

Los modelos mundiales están pasando de demostraciones cinematográficas a artefactos espaciales editables: el avance HYWorld 2.0 de Tencent sabe contrastó explícitamente con los sistemas de generación de video al enmarcar la salida como una escena 3D real que es editable y está lista para el motor. En el lado web, Spark 2.0 de @sparkjsdev envió un sistema LoD transmitible para splats gaussianos 3D, dirigido a más de 100 millones de mundos splat en WebGL2 en dispositivos móviles, web y realidad virtual. En conjunto, esto sugiere que la pila de “3D generado por IA” está madurando desde la generación de contenido hasta la representación interactiva y el uso posterior.

La generación 3D abierta está avanzando en topología, UV, rigging y animación: @DeemosTech presentó SATO, un modelo autorregresivo para topología y generación UV, mientras que @yanpei_cao lanzó AniGen, que genera formas 3D, esqueletos y pesos de revestimiento a partir de una imagen. Estos son significativos porque el cuello de botella en la producción de pipelines 3D rara vez es "¿sabe puede generar una malla?"; sabe trata de si el recurso está lo suficientemente estructurado como para animarlo, texturizarlo y editarlo.

Modelos, puntos de referencia y sistemas especializados