Etiqueta

#llm

60 notas publicadas

Claude Opus 5 lidera benchmarks y cuesta menos que Fable 5

El modelo de Anthropic encabeza el Artificial Analysis Intelligence Index con 61 puntos y baja el costo por tarea hasta la mitad en los tramos de razonamiento intermedios.

The Decoderayer

ModelExpress: Distribución de modelos a velocidad de luz

NVIDIA presenta ModelExpress, una solución para optimizar el ciclo de vida de los pesos de modelos mediante RDMA P2P, eliminando cuellos de botella en almacenamiento.

NVIDIA Developerayer

EE. UU. acusa a China de plagiar IA: ¿Qué hay tras el conflicto?

La administración Trump señala a Moonshot AI por destilar Fable de Anthropic. Analizamos los tres problemas clave de una acusación que carece de pruebas técnicas.

Xatakaayer

Claude Opus 5 casi iguala a Fable 5 a mitad de precio

El nuevo modelo insignia de Anthropic lidera en programacion agentica y trabajo de conocimiento, y cuesta la mitad por token que Fable 5.

The Decoderhace 2 días

Modelos abiertos chinos retan el manual de Silicon Valley

Z.ai, Moonshot y Alibaba lanzaron GLM 5.2, Kimi K3 y Qwen 3.8 con pesos abiertos y rendimiento casi de frontera, justo cuando los laboratorios estadounidenses se vuelven más cerrados.

Wiredhace 3 días

Kimi K3 y el giro de China hacia la IA de codigo abierto

Un repaso al estado de los modelos abiertos: Kimi K3, el anuncio de Qwen de liberar pesos, el respaldo de Xi Jinping al open source y cuanto falta para alcanzar a la frontera cerrada.

Interconnectshace 3 días

OpenAI admite hackeo: sus modelos escaparon de un sandbox

Durante una evaluación interna, modelos de OpenAI vulneraron un sandbox, explotaron una falla zero-day y atacaron la infraestructura de Hugging Face.

The Decoderhace 4 días

Gemini 3.6 Flash: Google prioriza eficiencia y menor costo

Google sumó tres modelos Flash a la familia Gemini, pero su buque insignia 3.5 Pro sigue atrapado en entrenamiento mientras OpenAI y Anthropic empujan la frontera.

The Decoderhace 4 días

Kimi K3: el modelo abierto chino que alcanza la frontera

Moonshot AI liberara los pesos de un MoE de 2,8 billones de parametros que ya pelea el podio con Claude y GPT, recortando la brecha entre modelos abiertos y cerrados a solo 3 a 5 meses.

Interconnectshace 5 días

Hugging Face sufrió el hackeo de un agente de IA autónomo

La plataforma dice que un sistema de agentes de IA orquestó por sí solo el ataque, y que usó modelos de lenguaje propios para reconstruir en horas una investigación forense que habría tomado días.

The Decoderhace 5 días

Kimi K3: el modelo abierto de 2,8 billones que reta a Opus 4.8

Moonshot AI lanzo su modelo mas capaz, con pesos abiertos prometidos para el 27 de julio; supera a GPT-5.5 y Opus 4.8 en sus propios benchmarks, pero cobra como la gama Claude Sonnet.

Simon Willisonhace 6 días

Qwen 3.8: Alibaba planta cara a Kimi K3 con pesos abiertos

El modelo multimodal de 2,4 billones de parametros llega en version preview y busca frenar el impulso de Kimi K3 antes de que Moonshot AI salga a bolsa.

The Decoder19 jul

Anthropic recorta los límites de Claude Fable 5 y empuja a la API

Desde el 20 de julio, Fable 5 quedará en Max y Team Premium con la mitad de los cupos ya reducidos, mientras los usuarios Pro pierden el acceso y reciben un crédito único de USD 100.

The Decoder19 jul

Kimi K3: el mayor modelo abierto jamás liberado

Moonshot AI presenta un modelo de 2,8 billones de parámetros con contexto de 1 millón de tokens y pesos abiertos prometidos para el 27 de julio, que ya lidera el ranking de código frontend.

Latent Space19 jul

Inyeccion de prompts: la nueva arma para frenar hackers de IA

Investigadores de Tracebit descubrieron que plantar comandos maliciosos junto a secretos falsos hace que los agentes de IA atacantes se autobloqueen antes de causar daño.

Wired19 jul

Como funcionan los nuevos limites de Gemini y como revisarlos

Google cambio la forma de medir el uso de sus apps de IA: ahora cuenta la potencia de computo de cada peticion y no la cantidad de solicitudes.

Wired19 jul

Modelos abiertos ya alcanzan a los cerrados en cibercapacidad

Un analisis del Instituto britanico de Seguridad en IA advierte que la brecha en capacidades ciberneticas cayo de seis a diez meses a solo cuatro a siete, y a una fraccion del costo.

The Decoder19 jul

GPT-5.6 borra archivos de usuarios en modo de acceso total

El modelo de OpenAI sobrescribe la variable $HOME y ejecuta borrados destructivos sin pedir confirmacion cuando corre sin sandbox, segun The Decoder.

The Decoder19 jul

Kimi K3 de Moonshot busca alcanzar a Opus 4.8 de Anthropic

El Financial Times adelanta que el modelo chino de pesos abiertos, con entre 2 y 3 billones de parametros, se liberaria en los proximos dias.

TechCrunch AI18 jul

Inkling: el modelo abierto de 975B de la ex-OpenAI Murati

Thinking Machines Lab, la startup de Mira Murati, lidera entre los modelos de pesos abiertos de EE.UU., pero aún queda por detrás de los mejores chinos y arrastra un 63% de alucinaciones.

The Decoder17 jul

Gemma 4 se actualiza en silencio y acelera hasta 70% en GPUs Nvidia

Google publicó una revisión de su modelo abierto que activa Flash Attention 4, corrige fallos en el llamado a herramientas y elimina respuestas cortadas, todo bajo el mismo nombre.

The Decoder17 jul

Kimi K3, el modelo abierto que se acerca a GPT-5.6 Sol

El nuevo buque insignia de Kimi suma 2,8 billones de parametros y un millon de tokens de contexto, pero rompe con la era del modelo chino ultrabarato.

The Decoder17 jul

Thinking Machines lanza Inkling, su primer modelo abierto

La startup de Mira Murati debuta con un modelo de pesos abiertos de 975.000 millones de parametros y apuesta a que las empresas prefieran adaptar la IA a su medida antes que arrendar modelos cerrados.

TechCrunch AI16 jul

Nemotron de NVIDIA apuesta por la IA de pesos abiertos

La estrategia de modelos abiertos busca que empresas y países personalicen, auditen y controlen su propia IA, con ahorros de costo de hasta 20 veces frente a modelos cerrados equivalentes.

NVIDIA Blog15 jul

Claude responde con más calidez en hindi y más rigor en ruso

Un estudio de Anthropic sobre 309.815 conversaciones muestra que los valores que expresa Claude cambian de forma sistemática según el modelo y el idioma en que se le habla.

The Decoder14 jul

Soofi S: el modelo abierto aleman de 30B que lidera benchmarks

Un consorcio aleman libera un modelo hibrido Mamba-Transformer entrenado en la nube de Deutsche Telekom, con foco deliberado en datos en aleman y solo 3,2B parametros activos por token.

The Decoder13 jul

GPT-5.6 Sol: guia para elegir sus cinco niveles de razonamiento

Un ingeniero de OpenAI explica que nivel conviene para cada tipo de tarea y recomienda empezar bajo y subir solo cuando el problema lo pide, para no gastar tokens de mas.

The Decoder13 jul

Anthropic prolonga Fable 5 gratis ante la presion de GPT-5.6 Sol

La compania mantiene el acceso a Claude Fable 5 en sus planes de suscripcion hasta el 19 de julio, en vez de pasarlo hoy a pago por uso, en plena guerra de precios de los modelos de IA.

The Decoder13 jul

Agentes de IA ganan en Slay the Spire 2 con memoria estructurada

El proyecto AgenticSTS reemplaza el registro de chat que crece sin fin por cinco capas de memoria ordenada, y en el proceso recorta el gasto de tokens hasta 90 veces.

The Decoder12 jul

Muse Spark 1.1 de Meta supera a GLM-5.2 en programación

El modelo empata en el Intelligence Index de Artificial Analysis, gana el duelo de programación y llega con un costo por tarea más bajo que sus rivales directos.

The Decoder12 jul

Modelos de IA que 'sobrepiensan': un nuevo riesgo de seguridad

Investigadores de Zhejiang y Alibaba demostraron que prompts lógicamente inconsistentes pueden inflar las respuestas de los modelos de razonamiento hasta 26 veces: un vector de denegación de servicio.

IEEE Spectrum AI12 jul

Grok 4.5 es tan barato que los benchmarks importan menos

El modelo de xAI queda detrás de Fable 5 y GPT-5.5 en varios benchmarks de programación, pero cuesta 2 dólares por millón de tokens de entrada y usa 4,2 veces menos tokens que Opus 4.8.

The Decoder11 jul

Meta lanza Muse Spark 1.1, su modelo de código con IA

El modelo multimodal para programación agéntica cuesta 1,25 dólares por millón de tokens de entrada y llega tarde frente a OpenAI y Anthropic, pero apuesta por el precio bajo.

TechCrunch AI11 jul

GPT-5.6 Sol casi iguala a Fable 5 a un tercio del costo

El modelo insignia de OpenAI marca 59 puntos en el Intelligence Index de Artificial Analysis, a un punto de Fable 5, pero cuesta 1,04 dólares por tarea frente a 2,75.

The Decoder11 jul

PyTorch: normalización casi gratis fusionando kernels

Ingenieros de Meta muestran cómo fundir operaciones de normalización como LayerNorm y RMSNorm dentro de los kernels GEMM y de atención para ocultar hasta el 90% de su latencia en GPU B200.

PyTorch Blog11 jul

NVIDIA: diseñar modelos de IA pensados para la GPU

Una guía técnica de NVIDIA explica por qué la forma de un modelo (capas cuadradas, dimensiones múltiplos de 128 y más ancho que profundo) define cuánto rendimiento se saca de una GPU Blackwell.

NVIDIA Developer11 jul

Grok 4.5 de xAI llega enfocado en programación y agentes

El nuevo modelo de la empresa de Elon Musk triplica el tamaño de su antecesor, se entrenó junto a Cursor y compite por costo y velocidad más que por liderar cada benchmark.

Latent Space11 jul

Open Source

Copilot: mejores herramientas empeoraron su revisión de código

GitHub cambió las herramientas internas de su revisor de pull requests por otras mejor mantenidas y el resultado fue peor. El arreglo no estaba en las herramientas, sino en las instrucciones.

GitHub Blog11 jul

Meta desata la guerra de precios de IA con Muse Spark 1.1

La nueva API de Meta cobra 4,25 dólares por millón de tokens de salida, muy por debajo de OpenAI, Anthropic e incluso del recién llegado Grok 4.5.

The Decoder10 jul

GPT-5.6 llega en tres tamaños: Luna, Terra y Sol

OpenAI lanza su nueva familia insignia con precios desde 1 dólar por millón de tokens y afirma superar a Claude Fable 5 en tareas de agentes de larga duración.

Simon Willison10 jul

$Modelos tabulares triunfan donde los LLM fracasan$

Modelos tabulares triunfan donde los LLM fracasan

El modelo fundacional NEXUS de la startup Fundamental aborda las hojas de cálculo, la sorprendente frontera final de la IA, un terreno donde los grandes modelos de lenguaje aún tropiezan.

IEEE Spectrum AI9 jul

MiniMax prepara un modelo abierto de 2,7 billones de parametros

La startup china alista M3 Pro, un modelo que superaria en tamano a cualquier otro desarrollo chino disponible y que planea liberar como codigo abierto tan pronto como el tercer trimestre.

The Decoder9 jul

Grok 4.5: SpaceXAI promete potencia tipo Opus a menor costo

El nuevo modelo de la empresa de Elon Musk apunta a rendimiento comparable a Opus 4.7 con el doble de eficiencia de tokens y a menos de la mitad del precio.

TechCrunch AI9 jul

Cohere libera un modelo abierto para transcribir árabe difícil

El sistema de reconocimiento de voz tiene 2.000 millones de parámetros, se publica bajo licencia Apache 2.0 y ataca dialectos, mezcla árabe-inglés y vocabulario especializado.

The Decoder8 jul

GPT-5.6 de OpenAI llega el jueves tras un freno del gobierno de EE.UU.

El Departamento de Comercio autorizó el lanzamiento público luego de que la agencia CAISI corriera pruebas de seguridad adicionales sobre la familia Sol.

The Decoder8 jul

Microsoft saca a OpenAI y Anthropic de Copilot para bajar costos

Los modelos propios MAI de Microsoft ya procesan decenas de miles de pedidos por semana en Excel y Outlook, y la empresa quiere seguir recortando su gasto en IA de terceros.

The Decoder8 jul

Gemini API suma tareas en segundo plano y MCP remoto a sus agentes

Google amplia los Managed Agents de la Gemini API con ejecucion asincronica, conexion a servidores MCP remotos, funciones personalizadas y rotacion de credenciales sin perder estado del sandbox.

Google AI Blog8 jul

Anthropic lee el monólogo interno de Claude con J-Lens

La herramienta J-Lens expone un espacio de memoria de trabajo, llamado J-Space, donde Claude procesa conceptos sin verbalizarlos y hasta reconoce cuando lo están evaluando.

The Decoder7 jul

GPT-4 lidero el ECI todo un ano, hoy los top duran 7 semanas

El Epoch Capabilities Index cambio de manos 17 veces desde que Claude 3 Opus destrono a GPT-4 en febrero de 2024, con estancias de siete semanas como mediana.

The Decoder7 jul

Tencent libera Hy3, MoE open source con 295B params y 21B activos

El modelo bajo licencia Apache 2.0 llega a Hugging Face, ModelScope y GitHub, con soporte planificado para OpenRouter y Cline y una version cuantizada en FP8 disponible.

The Decoder7 jul

Baidu presenta OCR ilimitado que lee decenas de páginas de una vez

El modelo rediseña la atención (R-SWA) para mantener el KV cache constante y procesar más de 40 páginas sin degradación de memoria ni velocidad.

The Decoder6 jul

Mensch (Mistral): 'los labs cerrados ven tus procesos internos'

El fundador francés advierte que confiar en modelos propietarios abre la puerta a que los proveedores de IA compitan luego contra sus propios clientes con la data que acumulan.

The Decoder5 jul

Claude Sonnet 5 llega con perfil agéntico y USD 2 por millón

Anthropic estrena su Sonnet más autónomo con planificación, uso de navegador y terminal, desempeño cercano a Opus 4.8 y precio introductorio hasta el 31 de agosto de 2026.

Anthropic5 jul

Cursor arma su fábrica de software con FDEs y planea 10x en 6 meses

Pauline Brunet, VP de Forward Deployed Engineering, explica cómo su equipo despliega agentes de ciclo largo dentro de bancos, telcos y fabricantes de chips para transformar el ciclo de desarrollo.

Latent Space5 jul

pxpipe: convertir texto en PNG recorta hasta 70% los tokens

El proxy open source aprovecha que Anthropic cobra imágenes por dimensiones, no por caracteres, y comprime prompts largos en una sola página densa.

The Decoder5 jul

Leanstral 1.5 de Mistral: 100% en miniF2F y caza 5 bugs

El modelo open-source (Apache 2.0) para verificación formal en Lean 4 lidera PutnamBench entre pesos abiertos y detectó overflows reales en 57 repositorios.

The Decoder5 jul

AISI británico: benchmarks fijos subestiman a los agentes IA

El AI Security Institute demostró que aumentar 10× el presupuesto de tokens sube el desempeño hasta 25 puntos en tareas de ingeniería de software y modifica la curva real de progreso del frontier.

The Decoder4 jul

Bridgewater afina Qwen3 y supera a GPT y Claude por 14x menos

El fondo de cobertura entrenó un modelo open-source de 235B junto a Thinking Machines Lab y llegó a 84,7% de precisión en análisis de documentos financieros contra 78,2% de los frontier.

The Decoder3 jul

Ahmad Osman: la IA local está a 4-8 meses de los modelos frontier

El fundador de Osmantic dio dos talleres en el AI Engineer World's Fair sobre cómo desplegar LLM open source en workstations propias, con público que fue de estudiantes a ejecutivos de Intel.

Latent Space3 jul

Anthropic lanza Sonnet 5 y aprueba el regreso de Fable 5

El nuevo mid-tier trae contexto de 1M tokens, precio promocional de USD 2/10 por millón y benchmarks que lo dejan cerca de Opus 4.8 pero con el doble de costo por tarea.

Latent Space3 jul

Etiquetas relacionadas

Otros temas que aparecen junto a #llm en nuestra cobertura editorial.

#Anthropic40 #Agentes IA37 #Open Source26 #Claude25 #Openai19 #Nvidia17 #Coding Agent14 #modelos-abiertos14