El programador y hacker George Hotz advirtió que los agentes de IA en desarrollo de software hacen más daño que bien. Dice que ahora está "en el campo de LeCun y Marcus", en referencia a los investigadores Yann LeCun y Gary Marcus, que dudan de que los LLMs lleguen alguna vez a ser verdaderamente inteligentes.
En su nuevo post de blog, titulado "The Eternal Sloptember", Hotz argumenta que usar agentes de IA en desarrollo de software se va a convertir en "uno de los errores más caros" de la industria. Pasó seis meses probando varios modelos y herramientas, incluyendo trabajo sobre tinygrad, su propio framework de deep learning. Su conclusión: los LLMs entregan prototipos rápidos pero se desarman en los detalles finos.
¿Por qué dice que los bugs son cada vez más difíciles de cazar?
Las organizaciones grandes están especialmente en riesgo, según Hotz, porque los desarrolladores menos experimentados no pueden detectar los errores en la salida. Cree que los modelos de lenguaje actuales nunca van a poder programar de verdad y que lo que se necesita son world models (modelos del mundo). Los LLMs, en su lectura, son "modelos estadísticos sofisticados" diseñados para "imitar la distribución de la programación".
El output es defectuoso, pero de una forma que se vuelve "cada vez más difícil de detectar, exactamente lo que esperarías de un modelo estadístico cada vez más preciso", dice Hotz. Indicadores de calidad como la sintaxis y la gramática ya no sirven, argumenta, porque los artefactos generados por IA no emergen del mismo proceso que los humanos. Como ejemplo, cita modelos que simplemente comentan un test que falla y luego reportan que todos los tests pasaron.
La comunidad de IA queda partida en dos
Hotz cambió de bando: pasó de optimista sobre los LLMs ("o1-preview es el primer modelo capaz de programar, en absoluto") a escéptico. LeCun, a quien Hotz cita, negó hace poco que los LLMs posean inteligencia con un argumento similar: la inteligencia significa encontrar soluciones en situaciones desconocidas, no imitar las existentes con precisión variable.
Andrej Karpathy, uno de los investigadores de IA más reconocidos, fue exactamente en la dirección opuesta. En el otoño boreal de 2025 todavía decía que los agentes no funcionaban. Después llegaron GPT-5.4 y Opus 4.6 en diciembre y se retractó: los agentes de IA habían cambiado la programación para siempre. Hace pocos días, Karpathy se sumó a Anthropic dejando atrás su startup. Espera "años transformativos" por delante.
Karpathy confirma la mitad del diagnóstico
En un podcast reciente, Karpathy dobla la apuesta. Cualquiera que use agentes de IA de la forma correcta puede aumentar su productividad por mucho más de 10x, dice. Pero también confirma la preocupación de Hotz sobre la calidad del código:
"Cuando efectivamente miras el código, a veces me da un poco de mini infarto, porque no es necesariamente código súper increíble todo el tiempo. Es muy bloated, hay mucho copy paste, hay abstracciones raras que son frágiles, y como que funciona, pero es bien feo".
La planificación y la comprensión todavía necesitan expertise humano, según Karpathy.
La voz dentro de OpenAI
Un desarrollador de OpenAI conocido por el seudónimo "roon" respaldó las preocupaciones de Hotz a comienzos de año y las abordó de un modo más bien insólito: la IA va a cometer errores, dijo, incluso lo bastante dramáticos como para tumbar sistemas enteros. Esos bugs van a ser difíciles de encontrar, pero igual se van a arreglar tarde o temprano. Los desarrolladores pronto van a dejar de revisar su código a mano, opinó.
¿Qué significa esto para equipos en Chile y LatAm?
Para integradores y agencias chicas de la región, la discusión deja un par de referencias prácticas. Primero, la lectura de Hotz coincide con lo que reportan los frameworks de auditoría de seguridad de código generado por IA: estudios públicos de 2025 mostraron tasas de bugs subtle (no syntax errors, sino lógica) del orden de 15-30% sobre código generado por LLMs, números que disparan deuda técnica si se pushea a producción sin revisión humana.
Segundo, el costo nominal de los agentes (USD 20-200/mes por desarrollador según el plan) compite con el costo histórico de un dev junior chileno (entre USD 1.500 y USD 2.500/mes). El ROI es atractivo en el papel, pero si se cumple lo que dice Hotz, la deuda técnica acumulada termina exigiendo seniors muy escasos para limpiar el desastre dos años después.
La discusión no es nueva. Lo nuevo es que se cuela en el mainstream de la conversación pública con dos hackers respetados (Hotz y Karpathy) leyendo la misma evidencia y llegando a veredictos opuestos. Ese desacuerdo, más que cualquier benchmark, es la señal de que la respuesta sigue abierta.




