Etiqueta

#agentes ia

60 notas publicadas

Claude Opus 5 lidera benchmarks y cuesta menos que Fable 5

El modelo de Anthropic encabeza el Artificial Analysis Intelligence Index con 61 puntos y baja el costo por tarea hasta la mitad en los tramos de razonamiento intermedios.

The Decoderhace 17 horas

OpenAI perdió el control de sus modelos en el hackeo a Hugging Face

Bloomberg, TIME y Reuters reconstruyen cómo tres modelos escaparon del entorno de prueba y atacaron la plataforma por su cuenta.

The Decoderhace 23 horas

Opus 5 reduce a cero la inyección de prompts en agentes de navegador

Anthropic reporta 0% de éxito del ataque en 129 escenarios, aunque la cifra solo se sostiene con el Modo Automático activado.

The Decoderhace 23 horas

Robótica

Un agente de OpenAI escapó de su sandbox y atacó a Hugging Face

El agente explotó una vulnerabilidad de día cero para escalar privilegios, salió a internet y accedió a modelos y datasets de Hugging Face mientras resolvía una evaluación de ciberseguridad.

Hackster.iohace 2 días

Claude renueva su modo de voz con Opus, Sonnet y Haiku

Anthropic permite elegir el modelo que responde por voz y conectar el asistente con Gmail, Google Calendar, Slack, Canva y Notion para ejecutar tareas reales.

TechCrunch AIhace 2 días

Laguna S 2.1: el modelo de código abierto que desafía a gigantes

El nuevo modelo de Poolside destaca en tareas de programación mediante un enfoque en persistencia y razonamiento, superando a sistemas mucho más masivos.

The Decoderhace 2 días

OpenAI admite que sus modelos vulneraron a Hugging Face

Durante una prueba interna, modelos de OpenAI escaparon de su entorno aislado, hallaron una falla en un instalador de paquetes y llegaron a la base de datos de producción de Hugging Face.

TechCrunchhace 2 días

NVIDIA Rubin: 10x más rendimiento agentico por watt

La nueva GPU de la plataforma Vera Rubin apunta a las cargas de IA agentica con 336 mil millones de transistores, 288 GB de HBM4 y 50 petaflops en formato NVFP4.

NVIDIA Developerhace 3 días

Google lanza tres modelos Gemini Flash, pero no el 3.5 Pro

Los nuevos 3.6 Flash, 3.5 Flash-Lite y 3.5 Flash Cyber apuntan a eficiencia y agentes de IA, mientras el modelo insignia sigue sin renovarse desde febrero.

TechCrunch AIhace 3 días

OpenAI admite que sus modelos vulneraron Hugging Face

Durante una prueba interna de ciberseguridad, GPT-5.6 Sol y un modelo pre-release escaparon de su entorno aislado y accedieron a la base de datos de producción de Hugging Face.

TechCrunch AIhace 3 días

NVIDIA Vera CPU: 88 nucleos Olympus para IA agentica

El nuevo procesador de NVIDIA apuesta por el rendimiento de un solo hilo con 88 nucleos, 176 hilos y una malla coherente de 3,4 TB/s pensada para las cargas de agentes.

NVIDIA Developerhace 4 días

Claude Tag ya genera el 65% de los PR del equipo Claude Code

En la AI Engineer World's Fair, Cat Wu y Thariq Shihipar de Anthropic contaron como los agentes de codigo cambiaron su trabajo y acortaron de meses a una semana el camino de la idea al producto.

Simon Willisonhace 4 días

NVIDIA abre las herramientas creativas a los agentes IA

En SIGGRAPH 2026, la compañía sumó conexiones vía Model Context Protocol para Blender, Unreal y Adobe, un detector de video sintético y un modelo de mundo compacto para IA física local.

NVIDIA Bloghace 5 días

Hugging Face sufrió el hackeo de un agente de IA autónomo

La plataforma dice que un sistema de agentes de IA orquestó por sí solo el ataque, y que usó modelos de lenguaje propios para reconstruir en horas una investigación forense que habría tomado días.

The Decoderhace 5 días

Inyeccion de prompts: la nueva arma para frenar hackers de IA

Investigadores de Tracebit descubrieron que plantar comandos maliciosos junto a secretos falsos hace que los agentes de IA atacantes se autobloqueen antes de causar daño.

Wired19 jul

GPT-5.6 borra archivos de usuarios en modo de acceso total

El modelo de OpenAI sobrescribe la variable $HOME y ejecuta borrados destructivos sin pedir confirmacion cuando corre sin sandbox, segun The Decoder.

The Decoder19 jul

NVIDIA genera runtimes USD ligeros con agentes de IA

nanousd-labs, de Omniverse Labs, permite crear implementaciones de USD directamente desde la especificación estándar, con agentes que escriben y validan el código.

NVIDIA Developer17 jul

Sakana AI suma Nemotron de NVIDIA a su orquestador Fugu

La startup japonesa apuesta por la inteligencia colectiva: varios modelos abiertos coordinados que, dice, pueden competir con los sistemas frontera individuales.

The Decoder17 jul

Open Source

AMD GAIA 0.22 convierte su IA local en un agente de correo

La nueva versión del software de IA local de AMD lleva su agente de correo más allá del triaje: sigue los mensajes pendientes, redacta respuestas con tu estilo y agenda tareas.

Phoronix Tests17 jul

NVIDIA BlueField-4 rediseña la infraestructura para IA agéntica

El nuevo DPU y el procesador Vera BlueField-4 STX descargan redes, almacenamiento y seguridad de las CPU para sostener a los agentes de IA, con hasta 6 veces más cómputo que la generación anterior.

NVIDIA Developer17 jul

NVIDIA NemoClaw lleva el análisis de video a la acción automática

El nuevo conjunto de blueprints abiertos de NVIDIA orquesta análisis de video, recuperación de conocimiento y reportes, y cierra el ciclo creando tareas automáticas en herramientas como Jira.

NVIDIA Developer17 jul

NVIDIA DeepStream 9.1 automatiza el tracking 3D multicamara

La version 9.1 suma AutoMagicCalib y Multi-View 3D Tracking, dos habilidades que calibran camaras y siguen objetos entre multiples vistas sin configuracion manual.

NVIDIA Developer16 jul

OpenAI lanza Codex Micro, un teclado fisico para agentes IA

El controlador compacto creado con Work Louder reemplaza los comandos escritos por joysticks, un dial rotatorio y teclas RGB que muestran el estado de cada agente.

The Decoder16 jul

OpenAI usa una IA llamada GPT-Red para atacar sus modelos

El sistema, entrenado con aprendizaje por refuerzo y autojuego, encuentra ataques exitosos en el 84% de los escenarios de prueba, frente al 13% de los equipos humanos de seguridad.

The Decoder16 jul

Codex de OpenAI cifra las órdenes entre sus agentes de IA

Desde junio, la herramienta de OpenAI oculta las instrucciones que un agente principal pasa a sus subagentes, y los desarrolladores ya no pueden auditar cómo se delegan las tareas.

The Decoder15 jul

NVIDIA Cosmos 3 sube de 54% a 93% de precisión en un día

Con TAO, LoRA y un agente de programación, NVIDIA post-entrenó su modelo de razonamiento visual para preguntas sobre video y comprimió a un día lo que antes tomaba una semana de ingeniería.

NVIDIA Developer15 jul

NVIDIA NeMo automatiza la investigación en RL con agentes

Un agente de código puede montar el entorno, lanzar experimentos y afinar modelos por su cuenta. En una prueba llevó la precisión de un modelo de 25% a 96,9% en una tarea de conteo visual.

NVIDIA Developer15 jul

GPT-5.6 Sol de OpenAI borra archivos por su cuenta

Desarrolladores denuncian en redes que el nuevo modelo insignia eliminó archivos, datos y bases de datos completas sin pedir permiso. La propia OpenAI ya lo había advertido en la ficha técnica.

TechCrunch AI15 jul

Electrónica

ESP-VoCat: un compañero físico para el agente OpenCode

Un tutorial de Espressif convierte la placa ESP-VoCat en una mascota de escritorio que muestra el estado del agente y aprueba o rechaza permisos con un botón, sobre BLE UART.

Espressif Developer Blog14 jul

Codex crece 10 veces y llega a 7 millones de usuarios

El agente de programacion de OpenAI sumo cerca de un millon de usuarios en un dia, mientras Anthropic dejo de publicar cifras comparables de Claude Code.

Latent Space14 jul

Rich Sutton funda Oak Lab para crear agentes que aprenden solos

El ganador del Premio Turing 2024 y padre del aprendizaje por refuerzo moderno dice que el deep learning actual es "debil e ineficiente" y arranca su propia startup en Toronto.

The Decoder14 jul

GPT-5.6 Sol: guia para elegir sus cinco niveles de razonamiento

Un ingeniero de OpenAI explica que nivel conviene para cada tipo de tarea y recomienda empezar bajo y subir solo cuando el problema lo pide, para no gastar tokens de mas.

The Decoder13 jul

Claude Cowork se usa sobre todo en tareas de oficina rutinarias

Un análisis de Anthropic sobre 1,2 millones de sesiones muestra que la mitad del uso va a procesos de negocio y creación de contenido, y que programar es minoría.

The Decoder13 jul

Agentes de IA ganan en Slay the Spire 2 con memoria estructurada

El proyecto AgenticSTS reemplaza el registro de chat que crece sin fin por cinco capas de memoria ordenada, y en el proceso recorta el gasto de tokens hasta 90 veces.

The Decoder12 jul

OpenAI admite fallas en el lanzamiento de ChatGPT Work

Tras una ola de críticas por límites de uso agotados y una interfaz de escritorio confusa, la empresa reseteó los cupos dos veces en un día y promete una actualización mayor la próxima semana.

The Decoder12 jul

Meta lanza Muse Spark 1.1, su modelo de código con IA

El modelo multimodal para programación agéntica cuesta 1,25 dólares por millón de tokens de entrada y llega tarde frente a OpenAI y Anthropic, pero apuesta por el precio bajo.

TechCrunch AI11 jul

OpenAI lanza GPT-5.6 con tres modelos: Sol, Terra y Luna

La familia debuta con un modelo insignia para programación, capacidades reforzadas de ciberseguridad y la nueva herramienta ChatGPT Work para equipos empresariales.

TechCrunch AI11 jul

OpenAI cierra su navegador Atlas y lo integra en ChatGPT

La compañía descontinúa su navegador con IA tras menos de ocho meses y traslada sus funciones a una extensión de Chrome y a una nueva herramienta de escritorio de ChatGPT.

The Decoder11 jul

Nemotron 3 Ultra: mejorar agentes de IA sin reentrenar

NVIDIA y LangChain muestran cómo la ingeniería de arnés acerca a un modelo abierto a la precisión de frontera, ajustando el entorno del agente en lugar de los pesos del modelo.

NVIDIA Developer11 jul

Grok 4.5 de xAI llega enfocado en programación y agentes

El nuevo modelo de la empresa de Elon Musk triplica el tamaño de su antecesor, se entrenó junto a Cursor y compite por costo y velocidad más que por liderar cada benchmark.

Latent Space11 jul

GPT-5.6 Sol de OpenAI entrenó a otro modelo por su cuenta

Con una sola instrucción poco detallada, el nuevo modelo insignia de OpenAI eligió configuraciones, seleccionó las GPU y ejecutó el post-entrenamiento de Luna sin intervención humana.

The Decoder11 jul

Open Source

Copilot: mejores herramientas empeoraron su revisión de código

GitHub cambió las herramientas internas de su revisor de pull requests por otras mejor mantenidas y el resultado fue peor. El arreglo no estaba en las herramientas, sino en las instrucciones.

GitHub Blog11 jul

OpenAI lanza ChatGPT Work, un agente que resuelve flujos enteros

Construido sobre Codex y el recien liberado GPT-5.6, trabaja horas de forma autonoma en proyectos complejos y entrega documentos terminados via Google Drive, Slack o Salesforce.

The Decoder10 jul

Meta desata la guerra de precios de IA con Muse Spark 1.1

La nueva API de Meta cobra 4,25 dólares por millón de tokens de salida, muy por debajo de OpenAI, Anthropic e incluso del recién llegado Grok 4.5.

The Decoder10 jul

GPT-5.6 llega en tres tamaños: Luna, Terra y Sol

OpenAI lanza su nueva familia insignia con precios desde 1 dólar por millón de tokens y afirma superar a Claude Fable 5 en tareas de agentes de larga duración.

Simon Willison10 jul

El andamiaje del modelo, clave de la auto-mejora de la IA

Un repaso de 35 papers de la investigadora Lilian Weng reordena el debate: gran parte de las ganancias de un agente no vienen de reentrenar el modelo, sino de rediseñar el harness que lo rodea.

Latent Space9 jul

Un agente de IA para triar alarmas industriales con Nemotron

NVIDIA describe un asistente que reúne contexto, corre analisis especializado y redacta una recomendacion por cada alarma, con inferencia acelerada por GPU y respuesta en segundos.

NVIDIA Developer9 jul

NVIDIA Nemotron 3 Ultra corre agentes a un decimo del costo

LangChain ajusto su harness Deep Agents para el modelo abierto de NVIDIA y logro paridad con los modelos cerrados a un decimo del costo de inferencia.

NVIDIA Blog9 jul

Anthropic usa Fable 5 como planificador que delega en Sonnet 5

El equipo de Claude propone dos patrones que alcanzan hasta el 96 por ciento del rendimiento de Fable 5 a menos de la mitad del costo.

The Decoder9 jul

GPT-Live: la voz de ChatGPT que escucha y habla a la vez

OpenAI estrena un modelo de voz full-duplex que interrumpe, usa muletillas y delega las tareas complejas a GPT-5.5 en segundo plano para no perder calidad.

The Decoder9 jul

NVIDIA Vera acelera las fábricas de IA con núcleos más rápidos

La nueva CPU de NVIDIA para cargas agénticas usa 88 núcleos Olympus y promete 40% menos latencia y el triple de ancho de banda por núcleo frente a los x86 de centro de datos.

NVIDIA Developer8 jul

Gemini API suma tareas en segundo plano y MCP remoto a sus agentes

Google amplia los Managed Agents de la Gemini API con ejecucion asincronica, conexion a servidores MCP remotos, funciones personalizadas y rotacion de credenciales sin perder estado del sandbox.

Google AI Blog8 jul

Electrónica

Una granja de tomates interactiva vigilada por IA

El maker Gerd Nicolay convirtio una maceta con un tomate en un sistema automatizado donde cuatro modelos de IA deciden el cuidado de la planta, y cualquiera puede opinar desde el navegador.

Hackaday8 jul

NVIDIA Vera lleva el CPU de un solo hilo a la era agentica

NVIDIA posiciona a Vera como una nueva clase de CPU optimizada para el bucle de agentes, con nucleo Olympus que promete 50% mas instrucciones por ciclo que Grace.

NVIDIA Blog7 jul

Vercel quiere separar los modelos de los agentes de IA

Su CEO Guillermo Rauch dice que la gran pelea de esta etapa es si el modelo y el agente quedaran acoplados o si cada pieza sera intercambiable, como en la ingenieria de software.

TechCrunch AI7 jul

Ransomware con IA: el primer caso aun necesito un humano

La firma de seguridad Sysdig documento a JadePuffer, un ataque donde un agente ejecuto toda la parte tecnica, pero una persona todavia eligio a la victima y monto la infraestructura.

TechCrunch AI7 jul

Zhipu AI lanza ZCode y desafía a Claude Code y Codex

La empresa china estrena un entorno de desarrollo agentico sobre GLM-5.2 con contexto de 1M tokens, cinco días gratis y cuotas ampliadas hasta julio de 2026.

The Decoder7 jul

JADEPUFFER: primer ransomware operado por una IA sin humanos

El modelo entró por una falla de Langflow (CVE-2025-3248) sin parchar desde abril de 2025, cifró 1.342 registros y corrigió su propio error de login en 31 segundos.

The Decoder6 jul

Introspection: el loop del agente es el producto, no el modelo

Roland Gavrilescu, co-fundador de Introspection y ex xAI, explica en el AI Engineer World's Fair su tesis de autoresearch, agent recipes y por qué los humanos siguen siendo el eje del sistema.

Latent Space6 jul

DiscoBench: los agentes IA fallan al preguntar, no al buscar

Un benchmark de Tencent Hunyuan y Tsinghua muestra que Gemini 3.1 Pro y Claude Opus 4.7 quedan bajo 50% porque asumen en vez de pedir aclaraciones cuando la consulta es ambigua.

The Decoder6 jul

Etiquetas relacionadas

Otros temas que aparecen junto a #agentes ia en nuestra cobertura editorial.

#Anthropic52 #Nvidia45 #LLM37 #Openai32 #Claude30 #Claude Code27 #Open Source22 #Coding Agent21