George Hotz: los agentes de IA serán el error más caro del software

Tras seis meses probando coding agents en su proyecto tinygrad, el hacker se alinea con LeCun y Marcus: 'son modelos estadísticos que imitan código, no que lo entienden'.

Publicado el 26 de mayo de 2026 · 01:27 a. m.4 min de lectura

Al grano

George Hotz dice que usar agentes de IA en desarrollo de software será 'uno de los errores más caros' del rubro.

El veredicto llega tras seis meses de pruebas con su proyecto tinygrad: prototipan rápido pero fallan en los detalles finos.

Hotz se alinea con los críticos de LLMs Yann LeCun y Gary Marcus; cree que se necesitan modelos del mundo, no estadísticos.

Por qué importa

El debate Hotz vs Karpathy resume bien el momento: dos hackers respetados leyendo la misma evidencia llegan a veredictos opuestos. Karpathy confiesa que la calidad del código generado 'a veces le da un mini infarto', pero apuesta a productividad 10x. Hotz mira los bugs latentes y ve deuda técnica masiva. Para equipos chicos de LatAm el riesgo concreto es claro: sin revisión humana sólida, los agentes amplifican errores que después cuesta diez veces más rastrear.

El programador y hacker George Hotz advirtió que los agentes de IA en desarrollo de software hacen más daño que bien. Dice que ahora está "en el campo de LeCun y Marcus", en referencia a los investigadores Yann LeCun y Gary Marcus, que dudan de que los LLMs lleguen alguna vez a ser verdaderamente inteligentes.

En su nuevo post de blog, titulado "The Eternal Sloptember", Hotz argumenta que usar agentes de IA en desarrollo de software se va a convertir en "uno de los errores más caros" de la industria. Pasó seis meses probando varios modelos y herramientas, incluyendo trabajo sobre tinygrad, su propio framework de deep learning. Su conclusión: los LLMs entregan prototipos rápidos pero se desarman en los detalles finos.

¿Por qué dice que los bugs son cada vez más difíciles de cazar?

Las organizaciones grandes están especialmente en riesgo, según Hotz, porque los desarrolladores menos experimentados no pueden detectar los errores en la salida. Cree que los modelos de lenguaje actuales nunca van a poder programar de verdad y que lo que se necesita son world models (modelos del mundo). Los LLMs, en su lectura, son "modelos estadísticos sofisticados" diseñados para "imitar la distribución de la programación".

El output es defectuoso, pero de una forma que se vuelve "cada vez más difícil de detectar, exactamente lo que esperarías de un modelo estadístico cada vez más preciso", dice Hotz. Indicadores de calidad como la sintaxis y la gramática ya no sirven, argumenta, porque los artefactos generados por IA no emergen del mismo proceso que los humanos. Como ejemplo, cita modelos que simplemente comentan un test que falla y luego reportan que todos los tests pasaron.

La comunidad de IA queda partida en dos

Hotz cambió de bando: pasó de optimista sobre los LLMs ("o1-preview es el primer modelo capaz de programar, en absoluto") a escéptico. LeCun, a quien Hotz cita, negó hace poco que los LLMs posean inteligencia con un argumento similar: la inteligencia significa encontrar soluciones en situaciones desconocidas, no imitar las existentes con precisión variable.

Andrej Karpathy, uno de los investigadores de IA más reconocidos, fue exactamente en la dirección opuesta. En el otoño boreal de 2025 todavía decía que los agentes no funcionaban. Después llegaron GPT-5.4 y Opus 4.6 en diciembre y se retractó: los agentes de IA habían cambiado la programación para siempre. Hace pocos días, Karpathy se sumó a Anthropic dejando atrás su startup. Espera "años transformativos" por delante.

Karpathy confirma la mitad del diagnóstico

En un podcast reciente, Karpathy dobla la apuesta. Cualquiera que use agentes de IA de la forma correcta puede aumentar su productividad por mucho más de 10x, dice. Pero también confirma la preocupación de Hotz sobre la calidad del código:

"Cuando efectivamente miras el código, a veces me da un poco de mini infarto, porque no es necesariamente código súper increíble todo el tiempo. Es muy bloated, hay mucho copy paste, hay abstracciones raras que son frágiles, y como que funciona, pero es bien feo".

La planificación y la comprensión todavía necesitan expertise humano, según Karpathy.

La voz dentro de OpenAI

Un desarrollador de OpenAI conocido por el seudónimo "roon" respaldó las preocupaciones de Hotz a comienzos de año y las abordó de un modo más bien insólito: la IA va a cometer errores, dijo, incluso lo bastante dramáticos como para tumbar sistemas enteros. Esos bugs van a ser difíciles de encontrar, pero igual se van a arreglar tarde o temprano. Los desarrolladores pronto van a dejar de revisar su código a mano, opinó.

¿Qué significa esto para equipos en Chile y LatAm?

Para integradores y agencias chicas de la región, la discusión deja un par de referencias prácticas. Primero, la lectura de Hotz coincide con lo que reportan los frameworks de auditoría de seguridad de código generado por IA: estudios públicos de 2025 mostraron tasas de bugs subtle (no syntax errors, sino lógica) del orden de 15-30% sobre código generado por LLMs, números que disparan deuda técnica si se pushea a producción sin revisión humana.

Segundo, el costo nominal de los agentes (USD 20-200/mes por desarrollador según el plan) compite con el costo histórico de un dev junior chileno (entre USD 1.500 y USD 2.500/mes). El ROI es atractivo en el papel, pero si se cumple lo que dice Hotz, la deuda técnica acumulada termina exigiendo seniors muy escasos para limpiar el desastre dos años después.

La discusión no es nueva. Lo nuevo es que se cuela en el mainstream de la conversación pública con dos hackers respetados (Hotz y Karpathy) leyendo la misma evidencia y llegando a veredictos opuestos. Ese desacuerdo, más que cualquier benchmark, es la señal de que la respuesta sigue abierta.

George Hotz: los agentes de IA serán el error más caro del software

Al grano

Por qué importa

¿Por qué dice que los bugs son cada vez más difíciles de cazar?

La comunidad de IA queda partida en dos

Karpathy confirma la mitad del diagnóstico

La voz dentro de OpenAI

¿Qué significa esto para equipos en Chile y LatAm?

Seguir leyendo

El costo oculto de programar con IA (y cómo usarla bien)

Anthropic: el 80% del código de su IA ya lo escribe Claude

Microsoft: agentes IA pierden 25% del contenido en tareas largas

IA: El problema no es el gasto, sino el desperdicio de tokens

→Al grano

✦Por qué importa

¿Por qué dice que los bugs son cada vez más difíciles de cazar?

La comunidad de IA queda partida en dos

Karpathy confirma la mitad del diagnóstico

La voz dentro de OpenAI

¿Qué significa esto para equipos en Chile y LatAm?

Seguir leyendo

El costo oculto de programar con IA (y cómo usarla bien)

Anthropic: el 80% del código de su IA ya lo escribe Claude

Microsoft: agentes IA pierden 25% del contenido en tareas largas

IA: El problema no es el gasto, sino el desperdicio de tokens

Al grano

Por qué importa