Satya Nadella, CEO de Microsoft, está ahora advirtiendo sobre el "token-maxing", el uso acrítico de los modelos de IA más potentes para cada tarea posible.
"La verdad dura es que el costo marginal del aumento de productividad tiene que coincidir con el costo marginal del token", dijo Nadella en una entrevista con el podcast Hard Fork. Los modelos frontier no deberían gastarse en problemas cotidianos, argumenta, y el token-maxing puro no llevará al crecimiento económico real. Aun así, admite: "Yo también soy un token-maxer. Es adictivo."
¿Por qué Nadella habla de esto justo ahora?
La advertencia llega en un momento donde la industria está pasando por una transición visible: los agentes autónomos ya no son demos de conferencia, están corriendo en producción dentro de empresas grandes. Cuando cada llamado de agente puede invocar un modelo frontier, los costos por turno se multiplican rápido. Para Microsoft, que paga la cuenta tanto por su uso interno de modelos OpenAI como por lo que cobra a clientes de Azure y Copilot, el margen entre costo de inferencia y valor percibido por el cliente se está apretando.
¿Qué cambia en el rol del desarrollador?
Pese a la advertencia, Nadella tiene una visión amplia para la programación que igual va a quemar muchos tokens: los desarrolladores no escribirán código directamente. En su lugar, supervisarán cientos o miles de agentes de IA. Llama a esta nueva habilidad central "cognitive coverage": entender profundamente el código que escribieron los agentes.
"Tengo un repositorio lleno de código escrito por agentes. Estoy entendiendo cognitivamente qué pasó", dijo el ejecutivo.
Eso aún requiere educación en ciencias de la computación, según Nadella, pero el trabajo en sí cambiará de manera profunda. La conversación se mueve desde "¿qué función tengo que escribir?" hacia "¿qué hicieron mis agentes y cómo verifico que no rompieron nada?".
¿Qué significa para presupuestos de IA en empresas?
El comentario de Nadella ordena una conversación que en muchas empresas todavía es vaga. Hay un patrón visible: equipos de producto que enrutan el 100% de sus llamadas a un modelo frontier "para no pensar". Eso funciona en un piloto, pero rompe el caso de negocio cuando el volumen sube. La regla práctica que se está consolidando entre quienes ya operan agentes en producción es enrutar por tier: clasificación barata con un modelo chico, generación crítica con frontier, validación con un modelo intermedio.
El reconocimiento de "soy un token-maxer también" no es solo simpático. Es una advertencia interna: si el CEO de Microsoft cae en la tentación, los equipos sin presión de costos también la van a tener.




