Saltar al contenido
Etiqueta

#multimodal

12 notas publicadas

Gemma 4 12B: el nuevo modelo multimodal sin encoder de Google
IA

Gemma 4 12B: el nuevo modelo multimodal sin encoder de Google

Google DeepMind presenta Gemma 4 12B, un modelo de 12 mil millones de parámetros diseñado para ejecutar inteligencia multimodal avanzada directamente en tu laptop.

Google DeepMind
StepFun lanza Step 3.7 Flash, VLM MoE de 198B en NVIDIA
IA

StepFun lanza Step 3.7 Flash, VLM MoE de 198B en NVIDIA

El modelo Mixture-of-Experts con 11B parámetros activos, contexto 256K y entrada multimodal nativa corre en NVIDIA NIM, TensorRT-LLM, vLLM y SGLang.

NVIDIA Developer
ByteDance: preguntar a un LMM enseña mejor que transcribir
IA

ByteDance: preguntar a un LMM enseña mejor que transcribir

MMProLong, un modelo de 7B parámetros, supera a InternVL3-38B y Gemma3-27B en documentos de hasta 512.000 tokens entrenándose con pares pregunta-respuesta en vez de OCR puro.

The Decoder
Gemini Omni de Google convierte imagen, audio y texto en video
IA

Gemini Omni de Google convierte imagen, audio y texto en video

Anunciado en Google I/O 2026, Omni Flash genera clips de 10 segundos con avatares verificables, marca de agua SynthID y razonamiento conjunto sobre múltiples modalidades.

TechCrunch AI
Gemini Omni Flash: video generativo editable por conversación
IA

Gemini Omni Flash: video generativo editable por conversación

DeepMind libera el primer modelo de la familia Omni a suscriptores AI Plus, Pro y Ultra. Combina imagen, audio, video y texto, con marca SynthID en cada clip y avatares con tu propia voz.

Google DeepMind
Thinking Machines lanza TML-Interaction-Small, su MoE de voz
IA

Thinking Machines lanza TML-Interaction-Small, su MoE de voz

El nuevo modelo es un Mixture-of-Experts de 276B parámetros con 12B activos, entrenado desde cero para diálogo en tiempo real con audio y video integrados, en microturnos de 200 ms.

Latent Space
Nemotron 3 Nano Omni: Nvidia abre su modelo multimodal
IA

Nemotron 3 Nano Omni: Nvidia abre su modelo multimodal

El modelo procesa texto, imagen, video y audio con 30 mil millones de parámetros y se entrenó con datos sintéticos de Qwen, GPT-OSS, Kimi y DeepSeek-OCR.

The Decoder
NVIDIA Nemotron 3 Nano Omni unifica video, audio e imagen en un modelo
IA

NVIDIA Nemotron 3 Nano Omni unifica video, audio e imagen en un modelo

El nuevo modelo de 30B con arquitectura mixture-of-experts apunta a reemplazar las pilas fragmentadas de visión, voz y lenguaje dentro de los sistemas agénticos.

NVIDIA Developer
NVIDIA lanza Nemotron 3 Nano Omni, modelo omnimodal para agentes de IA
IA

NVIDIA lanza Nemotron 3 Nano Omni, modelo omnimodal para agentes de IA

La arquitectura de mezcla de expertos de 30B parámetros unifica visión, audio y texto en un solo modelo, con un rendimiento hasta 9 veces superior al de otros modelos omni abiertos.

NVIDIA Blog
Claude se integra directamente con Photoshop, Blender y Ableton
IA

Claude se integra directamente con Photoshop, Blender y Ableton

Anthropic también anunció su membresía como patrocinadora corporativa del Blender Development Fund, con un aporte de al menos 240.000 euros anuales para sostener el software libre.

The Verge
GPT-Image-2 redefine las posibilidades creativas de la IA
IA

GPT-Image-2 redefine las posibilidades creativas de la IA

Latent Space analiza cómo GPT-Image-2 va más allá del marketing y demuestra capacidades multimodales que redefinen lo que puede hacer un modelo generativo.

Latent Space
Google prueba 'Ask YouTube', un buscador conversacional con IA
IA

Google prueba 'Ask YouTube', un buscador conversacional con IA

'Ask YouTube' genera páginas de resultados al estilo de AI Mode, disponible primero para suscriptores Premium en EE.UU.

The Verge

Etiquetas relacionadas

Otros temas que aparecen junto a #multimodal en nuestra cobertura editorial.