En vísperas de Google I/O 2026, cuando se esperaban los próximos lanzamientos de Gemini, la novedad más duradera del día no vino de un anuncio corporativo. Vino de un blog personal: las notas de Vlad Feinberg sobre cómo prepararse para un trabajo en un frontier lab, específicamente para roles de pretraining. La pieza es Google/TPU-céntrica, pero la receta aplica de forma transversal a los grandes laboratorios.

¿Qué es lo que realmente buscan los frontier labs?

Feinberg referencia el Scaling handbook de DeepMind del año pasado, y deja claro que el trabajo a nivel kernel es una parte central del perfil técnico que buscan estos laboratorios:

"El cuello de botella más grande y el loop más interno de todo el trabajo en LLM es el trabajo de performance que vuelve prácticos los cambios abstractos y lógicos del modelo. Cada proyecto necesita gente que pueda ajustar los LLMs a nivel de kernel. Es una habilidad que se puede adquirir y es el camino más directo a los laboratorios."

Hay una mención sorpresiva a los DSL para desarrollo de kernels, y a pesar de ubicarse en el nivel más bajo del stack, Feinberg también destaca el trabajo en agentes, con ejemplos como autoresearch y AlphaEvolve.

¿Cuál es el ejercicio que sirve como test real?

El verdadero filtro de contratación, según Feinberg, no es el currículum: son dos ejercicios concretos al final de su post.

  • Ejercicio 1: derivar las leyes de Chinchilla para esta arquitectura. Ver cómo difieren entre modelos densos y MoE. Programar la solución desde cero en JAX a mano si se quiere realmente la experiencia de aprendizaje.
  • Ejercicio 2: asumiendo que se usó jax.lax.ragged_dot para la capa MoE, escribir un kernel Pallas que le gane a ragged_dot cuando F > D, fusionando las proyecciones up y down. Encontrar un setting donde el forward pass mida una ganancia de velocidad real y explicar por qué está ahí.

Quien pueda enseñar esto al resto de la comunidad, sugiere Feinberg, califica directamente como speaker para los workshops de la conferencia AI Engineer.

Qué se está consolidando en agentes y código

El recap del día también deja varias pistas sobre la dirección del trabajo en agentes:

  • LangChain posiciona LangSmith Engine como el loop de CI/CD que les faltaba a los agentes: detecta fallas automáticamente desde trazas de producción, agrupa problemas y propone fixes y evals. La compañía también destaca SmithDB como capa de datos para observabilidad y evaluación de agentes con baja latencia.
  • Cognition lanzó Devin Auto-Triage, un primer respondedor permanente para bugs, alertas e incidentes, con memoria de largo plazo y estructura manager-subagente que genera PRs. Modal lo describe como más útil que las automatizaciones internas habituales de triage.
  • Anthropic publicó buenas prácticas para correr Claude Code en monorepos de varios millones de líneas, sistemas legacy y microservicios, sumó diagnósticos de prompt cache y dejó el modo Fast por defecto en Opus 4.7 para reducir latencia.
  • OpenAI expandió Codex con un plugin para Zoom, ejecución remota desde móvil y escritorio, y soporte de "keep your Mac awake" para que los jobs largos sigan corriendo desde el teléfono.

El patrón es claro: menos "chat con un agente", más automatización persistente atada a trazas, memoria y evaluaciones, con supervisión remota.

Lanzamientos de modelos: lo que se mueve esta semana

  • Cursor anunció Composer 2.5 como su modelo más fuerte hasta ahora, con mejor sostenimiento de tareas largas y seguimiento más confiable de instrucciones. La empresa además reveló una jugada estratégica más profunda: entrenamiento desde cero de un modelo mucho más grande con SpaceXAI, usando 10 veces más cómputo total y acceso a Colossus 2 (millones de equivalentes H100).
  • Alibaba Qwen sumó nuevos resultados en Arena: Qwen3.7 Max Preview llegó al #13 global en texto (#7 Math, #9 Expert, #9 Software & IT, #10 Coding), mientras que Qwen3.7 Plus Preview alcanzó el #16 global en visión. Eso ubica a Alibaba como #6 en texto y #5 en visión entre todos los laboratorios trackeados.
  • ByteDance liberó como open source Lance, un modelo multimodal unificado para entendimiento, generación y edición de imagen y video, con 3B video + 3B image + 3B decoder.

¿Y la inferencia local? El soporte MTP en llama.cpp

Georgi Gerganov anunció soporte MTP para la familia Qwen3.6 en llama.cpp, lo que generó ganancias de throughput notables. En un test reportado, Qwen3.6-27B denso pasó de 25 tok/s a 45 tok/s (+78%) en una GPU A10G usando flags de draft-MTP. Es una de las brechas más grandes cerradas entre inferencia local y hospedada para cargas de coding y asistentes generales en hardware comodín.

Para quien esté en LatAm pensando en un perfil para frontier labs, el mensaje práctico es directo: JAX, Pallas y kernels MoE. No es un curso, no es un certificado: es el ejercicio que el propio Feinberg propone como filtro. Quien lo resuelve y lo documenta tiene la puerta abierta.