Punto clave de esta nota

Gemini 3.5 Flash entrega más de 280 tokens por segundo, 70% más rápido que Gemini 3 Flash y el más veloz en su clase de inteligencia.

Punto clave de esta nota

En tareas de agentes necesita 49 turnos por tarea, más que cualquier rival, y eleva el costo total 75% sobre Gemini 3.1 Pro.

Gemini 3.5 Flash es 5,5 veces más caro que su predecesor

Al grano

Gemini 3.5 Flash entrega más de 280 tokens por segundo, 70% más rápido que Gemini 3 Flash y el más veloz en su clase de inteligencia.
Cuesta USD 1,50 por millón de tokens de entrada y USD 9,00 por millón de salida: el triple que el predecesor.
En tareas de agentes necesita 49 turnos por tarea, más que cualquier rival, y eleva el costo total 75% sobre Gemini 3.1 Pro.

Google DeepMind liberó Gemini 3.5 Flash, la nueva versión de su familia Flash que históricamente se posicionó como la alternativa rápida y económica frente a los modelos Pro. El upgrade es real en velocidad e inteligencia, pero llega con un costo de operación 5,5 veces mayor que el predecesor en pruebas de Artificial Analysis, según un análisis con acceso anticipado al modelo.

La ventana de contexto se mantiene en 1 millón de tokens. Lo que cambió radicalmente es el precio por token y, sobre todo, cuántos tokens necesita el modelo para resolver una tarea.

¿Cuánto cuesta realmente Gemini 3.5 Flash?

El precio por token se triplicó. Google ahora cobra USD 1,50 por millón de tokens de entrada y USD 9,00 por millón de tokens de salida, frente a los USD 0,50 y USD 3,00 que costaba Gemini 3 Flash. Por token, sigue siendo más barato que Gemini 3.1 Pro (USD 2,00 y USD 12,00).

El problema aparece en la práctica. En tareas de agentes, Gemini 3.5 Flash consume tantos tokens adicionales que el costo total termina 75% más alto que el del propio Gemini 3.1 Pro, de acuerdo con la firma Artificial Analysis.

Google no está solo en esta movida. Anthropic subió de forma encubierta entre 30% y 40% el costo efectivo de Opus 4.7 sobre su predecesor por mayor consumo de tokens. OpenAI fue más lejos con GPT-5.5: el salto fue de 50% a 90% sobre 5.4, en su caso porque subió el precio base aunque el consumo bajó. Google subió ambas variables al mismo tiempo.

Para los desarrolladores, el precio bruto por token está dejando de ser una métrica útil aislada. Lo que importa hoy es la eficiencia: cuántos tokens necesita un modelo para terminar el trabajo.

¿Es más inteligente que Gemini 3 Flash?

En el Artificial Analysis Intelligence Index, Gemini 3.5 Flash anota 55 puntos, nueve más que el modelo anterior. Lo deja por delante de Grok 4.3 high (53) y Claude Sonnet 4.6 max (52). Las mejoras aparecen en casi todas las categorías evaluadas, aunque como siempre los benchmarks capturan escenarios específicos y el desempeño real solo se ve con uso prolongado en tareas cotidianas.

En AA Omniscience, que mide precisión de conocimiento y tendencia a alucinar, el modelo mejora 11 puntos. La tasa de alucinación cae al 61%, 31 puntos porcentuales menos que Gemini 3 Flash. Suena impresionante hasta que se mira a los líderes: MiMo-V2.5-Pro y Grok 4.3 high están en apenas 25%. Gemini 3.5 Flash recorta diferencias, pero sigue lejos del podio.

¿Por qué gasta tantos tokens en agentes?

Las tareas agénticas fueron históricamente el punto débil de Gemini, y es justamente donde 3.5 Flash más mejora. En GDPval-AA, que mide tareas reales con acceso a web y shell, alcanzó un Elo de 1.656, un salto enorme sobre Gemini 3 Flash (1.204) y Gemini 3.1 Pro (1.314). Queda apenas por debajo de GPT-5.4 xhigh (1.674).

Ese rendimiento se paga caro. Gemini 3.5 Flash necesita en promedio 49 turnos por tarea, más que cualquier otro modelo evaluado. Claude Opus 4.7 max usa 45, GPT-5.4 xhigh 40, y Gemini 3.1 Pro solo 23. Todos esos pasos extra disparan el consumo de tokens de entrada.

El consumo de tokens de salida cambió poco: 73 millones contra 72 millones de Gemini 3 Flash. Los responsables del costo total son los tokens de entrada, que empujan al Flash por encima del Pro en cuenta final pese a tener precio unitario más bajo.

Programación: el flanco más débil

La programación es donde se piden modelos rápidos, capaces y baratos, y donde Gemini 3.5 Flash se queda corto. En el Artificial Analysis Coding Index, que combina Terminal-Bench Hard y SciCode, anota apenas 45 puntos. Lejos de Gemini 3.1 Pro Preview (55), más lejos aún de GPT-5.5 xhigh (59) y GPT-5.4 xhigh (57). También lo superan Claude Opus 4.7 max (53) y Claude Sonnet 4.5 max (51).

Para un modelo que iguala a esos rivales en el índice general de inteligencia, la brecha es notable. Las fortalezas están claramente en lo agéntico y multimodal, pero coding es uno de los casos de uso más importantes de la IA agéntica, lo que limita el valor práctico de esas mejoras.

La ventaja real: velocidad y multimodalidad

Gemini 3.5 Flash supera los 280 tokens de salida por segundo, alrededor de un 70% más rápido que Gemini 3 Flash. Ningún otro modelo con inteligencia similar se acerca a esa tasa de salida.

A diferencia de muchos rivales, soporta también entrada de video y audio, además de texto e imágenes. Claude Opus 4.7, Grok 4.3 y GPT-5.5 están limitados a entrada de imagen, según Artificial Analysis. En el benchmark multimodal MMMU-Pro, Gemini 3.5 Flash anota 84%, el resultado más alto registrado hasta la fecha. Google se queda con los dos primeros puestos: Gemini 3.1 Pro es segundo con 82%.

El nuevo cálculo de ROI

El alza de precios refleja un cambio más profundo. Los modelos actuales están pensados para tareas complejas y multi-paso donde planifican solos, usan herramientas e iteran. Ese comportamiento agéntico requiere mucho más cómputo por tarea que un chatbot simple.

A menos que el costo de inferencia del hardware caiga al mismo ritmo que sube el cómputo por tarea, los precios de los modelos más fuertes van a seguir trepando. Para casos simples seguirán existiendo modelos viejos más baratos u opciones pequeñas como Gemini 3.1 Flash-Lite.

Para las empresas, el retorno de inversión en IA se vuelve más difícil de medir. Tareas aisladas como generación de código o traducción se evalúan con tiempos de entrega y costos de dotación, pero el trabajo de conocimiento es más nebuloso. ¿Cómo se pone número a un mejor informe estratégico o una decisión terminada en la mitad del tiempo? ¿Y qué pasa con los costos posteriores: el tiempo dedicado a revisar errores o el aprendizaje que no ocurre cuando la IA hace el trabajo?

Esas ganancias de productividad tienden a diluirse entre departamentos, aparecen tarde y son difíciles de separar de otros factores. Pagar por modelos más caros es una apuesta a que las ganancias de eficiencia compensen y a que el trabajo asistido por IA sea la nueva normalidad.

Gemini 3.5 Flash es 5,5 veces más caro que su predecesor

Al grano

Por qué importa

¿Cuánto cuesta realmente Gemini 3.5 Flash?

¿Es más inteligente que Gemini 3 Flash?

¿Por qué gasta tantos tokens en agentes?

Programación: el flanco más débil

La ventaja real: velocidad y multimodalidad

El nuevo cálculo de ROI

Seguir leyendo

Google libera Gemini 3.5: el modelo de la era de los agentes

Gemini 3.5 Flash integra computer use nativo y reta a Operator

Gemini Omni y Gemini 3.5 Flash: 9 demos en Google I/O 2026

Gemini 3.5 Flash llega con foco agentic y supera a 3.1 Pro

→Al grano

✦Por qué importa

¿Cuánto cuesta realmente Gemini 3.5 Flash?

¿Es más inteligente que Gemini 3 Flash?

¿Por qué gasta tantos tokens en agentes?

Programación: el flanco más débil

La ventaja real: velocidad y multimodalidad

El nuevo cálculo de ROI

Seguir leyendo

Google libera Gemini 3.5: el modelo de la era de los agentes

Gemini 3.5 Flash integra computer use nativo y reta a Operator

Gemini Omni y Gemini 3.5 Flash: 9 demos en Google I/O 2026

Gemini 3.5 Flash llega con foco agentic y supera a 3.1 Pro

Al grano

Por qué importa