Simon Willison, una de las voces más leídas del análisis técnico independiente de modelos de IA, publicó hoy su lectura del lanzamiento de Gemini 3.5 Flash en Google I/O 2026. Tres elementos llamaron su atención: el modelo se saltó la fase preview y entró directo a general availability, el precio subió de manera significativa respecto a la generación anterior, y Google está empujando este modelo más caro como motor de todos sus productos de consumo.
¿Qué cambió respecto a la familia Flash anterior?
Willison rastreó las novedades en la documentación para desarrolladores What's new in Gemini 3.5 Flash. Los puntos técnicos clave:
- Model ID:
gemini-3.5-flash - Knowledge cut-off: enero de 2025
- Input tokens máximos: 1.048.576 (≈1M)
- Output tokens máximos: 65.536
- Mismo set de features de plataforma que la serie 3.x, con una baja notable: no incluye
computer use, la herramienta que permite al modelo controlar interfaces gráficas directamente.
Google también empezó a empujar una Interactions API nueva, hoy en beta, que Willison interpreta como respuesta directa a las OpenAI Responses: manejo de historial conversacional del lado del servidor, en lugar de tener que serializar y devolver todo el contexto en cada llamada.
¿Cuánto subió el precio y por qué importa?
Esta es la parte más sustantiva del análisis. Gemini 3.5 Flash llega con un incremento de precio importante respecto a la familia Flash anterior:
| Modelo | Input USD/1M | Output USD/1M | Multiplicador vs 3.5 Flash |
|---|---|---|---|
| Gemini 3.5 Flash | 1,50 | 9,00 | 1× (baseline) |
| Gemini 3 Flash Preview | ~0,50 | ~3,00 | 3× más barato |
| Gemini 3.1 Flash-Lite | ~0,25 | ~1,50 | 6× más barato |
| Gemini 3.1 Pro | 2,00 | 12,00 | apenas 33% más caro |
El dato bomba: el precio de 3.5 Flash se acerca peligrosamente al de 3.1 Pro. Y Google adelantó que 3.5 Pro llega en junio "presumiblemente a un precio todavía mayor", anota Willison.
Esto encaja en un patrón más amplio. Willison cita:
- GPT-5.5 de OpenAI: 2× el precio de GPT-5.4
- Claude Opus 4.7 de Anthropic: ≈1,46× el de Opus 4.6, considerando el nuevo tokenizador
La lectura del autor es directa: "se siente como que los tres grandes laboratorios de IA están testeando la tolerancia al precio de sus clientes de API". La era de modelos cada vez más baratos por unidad de inteligencia parece quedar atrás.
¿Cuánto cuesta realmente correr un benchmark hoy?
Willison destaca un dataset útil de Artificial Analysis: el costo total de correr el benchmark proprietario de la firma contra distintos modelos. Esa cifra captura tokenización, reasoning tokens y volumen real, no solo el precio nominal por millón.
| Modelo | Costo del benchmark (USD) |
|---|---|
| Claude Opus 4.7 (Adaptive Reasoning, Max Effort) | 5.117,14 |
| GPT-5.5 (xhigh) | 3.357,00 |
| Gemini 3.5 Flash (high) | 1.551,60 |
| Claude Opus 4.7 (Non-reasoning, High Effort) | 1.217,23 |
| GPT-5.5 (medium) | 1.199,14 |
| Gemini 3.1 Pro Preview | 892,28 |
| Gemini 3 Flash Preview (Reasoning) | 278,26 |
| Gemini 3.1 Flash-Lite Preview | 93,60 |
El detalle revelador: correr el benchmark con 3.5 Flash (high) salió más caro que con 3.1 Pro Preview. Un modelo "Flash" que cuesta más que el Pro de la generación anterior cambia el sentido tradicional de la jerarquía Flash/Pro de Google.
¿Por qué Google lo regala en sus productos si subió el precio?
Acá está la contradicción aparente que Willison subraya. Pese al incremento de precio en la API, Google hizo de 3.5 Flash el modelo por defecto en la app Gemini y en AI Mode de Google Search, ambos productos gratuitos para el consumidor a nivel global.
La hipótesis razonable: Google subsidia el costo de inferencia para usuarios finales mientras carga la tarifa completa a los clientes de API. El movimiento le da a Google control sobre la experiencia del consumidor (modelo bueno, latencia baja) mientras monetiza al desarrollador.
¿Qué pasa con el "pelícano en bicicleta"?
Willison mantiene su test informal favorito: pedirle al modelo "genera un SVG de un pelícano andando en bicicleta". Reportó el resultado completo en GitHub. La salida vino con un fondo negro, murciélagos sobrevolando una luna estilizada y un pelícano "con muy buen pico" pero con un cuadro de bicicleta torcido y sin la barra del pedal a la rueda trasera. Los comentarios en el código incluían <!-- Pelican Eye / Sunglasses (Cool Retro Aviators) -->.
El comentario más memorable, de un usuario llamado hedgehog en Hacker News: "ese pelícano parece estar en Miami para una conferencia de cripto".
El costo total de la generación: 11 tokens de input, 14.403 tokens de output, casi 13 centavos de dólar.
Datos clave en una mirada
- Precio: USD 1,50/M input, USD 9/M output (3× más que 3 Flash Preview, 6× más que 3.1 Flash-Lite).
- Cercanía a Pro: ~25% más barato que Gemini 3.1 Pro en la API.
- Capacidades: 1M tokens input, 65K output, sin
computer use. - Modelos de pricing comparables: Claude Opus 4.7 ≈1,46× su predecesor, GPT-5.5 2× GPT-5.4.
- Distribución: gratis para consumidores en app Gemini y AI Mode de Search.
- Benchmark Artificial Analysis: USD 1.551,60 para 3.5 Flash (high), más caro que 3.1 Pro Preview (USD 892,28).




