Los estudiantes que usaron IA terminaron sus tareas más rápido y con mejores notas. En los exámenes, sin embargo, sus puntajes cayeron hasta un 24%, y la brecha completa en las pruebas de acceso solo se hizo visible unos dos años después.

Un nuevo estudio del centro de China documenta pérdidas de aprendizaje entre estudiantes de secundaria que usan IA. Los investigadores analizaron 30 meses de datos panel de más de 26 mil estudiantes de séptimo a duodécimo grado en un condado de más de un millón de habitantes. La base cubre exámenes mensuales, notas y tiempos de tarea, y las pruebas de acceso a la secundaria (Zhongkao) y a la universidad (Gaokao).

El uso autorreportado de IA subió desde cerca de cero hasta un 80% en el periodo analizado, con un salto que coincide con los lanzamientos de DeepSeek V2.5 en septiembre de 2024 y DeepSeek R1 en enero de 2025. Las herramientas más populares fueron Doubao, DeepSeek, ChatGLM, Ernie Bot y Qwen.

Mejor tarea, peores exámenes

Seis meses después de empezar a usar IA, las notas de tarea subieron un 18% y el tiempo promedio por trabajo cayó de 64 a 45 minutos. Al mismo tiempo, los puntajes en exámenes mensuales cerrados bajaron un 20%.

El efecto en las pruebas de acceso fue igual de grande, pero se acumuló más lento. El rendimiento en pruebas regulares cayó dentro del primer semestre, pero el impacto pleno en las pruebas de acceso tardó cerca de dos años en manifestarse, con caídas de entre 18% y 24%. Los estudios de corto plazo, según los autores, se pierden ese costo diferido del aprendizaje.

El estudio aprovecha que los estudiantes descubrieron la IA por su cuenta en momentos distintos. Los autores usan un diseño de diferencias en diferencias, un método que mide el cambio de un grupo tratado antes y después de una intervención, y le resta el cambio del mismo periodo en un grupo de comparación no tratado.

Cuatro de cada cinco usuarios crónicos muestran signos de outsourcing

Después de más de cinco meses de uso, cerca del 81% de los estudiantes terminaba su tarea en menos de 50 minutos, más rápido incluso que los estudiantes que no usaban IA. Consiguieron notas altas en tarea, pero se hundieron en los exámenes. Esa combinación (tiempos breves, notas de tarea altas, puntajes de examen bajos) sugiere que esos estudiantes estaban delegando el trabajo a la IA, escriben los autores.

Los usuarios de IA que dedicaron a la tarea un tiempo parecido al de sus compañeros sin IA, en cambio, sacaron notas equivalentes en exámenes y mejores notas de tarea. Ese grupo no mostró señales de selección positiva por rendimiento previo, lo que sugiere que la IA no daña por defecto. El daño llega principalmente cuando reemplaza el pensamiento independiente.

Las ciencias sociales, las más golpeadas

Los ramos de ciencias sociales como política y geografía cayeron 27% en promedio, STEM 22%, inglés 17% y chino 9%. Es un dato relevante porque la mayoría de los experimentos previos se enfocaba en matemáticas, programación y lenguas extranjeras.

El impacto también varió por grupo. Los estudiantes más jóvenes de la secundaria baja perdieron más que los mayores (24% versus 17%), y los hombres fueron golpeados más duro que las mujeres (21,6% versus 18,4%), diferencia que el estudio atribuye sobre todo a un uso más intenso de IA entre los varones.

Los estudiantes de mejor desempeño fueron los más afectados: el tercio superior mostró un efecto de menos 24%, contra menos 16% en el tercio inferior. También apareció un patrón dosis-respuesta claro. Los alumnos que usaron IA hasta una hora por semana perdieron cerca de 5%, mientras que los que la usaron cinco horas o más perdieron 30%.

¿Por qué casi nadie hizo sonar la alarma?

La penalización estimada de aprendizaje bajó de cerca del 25% a comienzos de 2023 hasta 16% en junio de 2025. La reducción también apareció en un grupo fijo de adoptantes tempranos, lo que sugiere cierta adaptación por parte de estudiantes y profesores, aunque las pérdidas no desaparecieron.

El estudio explica por qué la reacción ha sido tibia. Los profesores suelen ver a un estudiante solo en un ramo, donde una caída del 20% no es inusual por sí misma. El efecto agregado sobre el promedio del condado recién alcanzó cerca de menos 10% en junio de 2025, porque pocos estudiantes llevaban tiempo suficiente con IA para acumular el daño. Los propios estudiantes suelen no conectar los puntos, y confunden el esfuerzo mental del aprendizaje independiente con una señal de que están aprendiendo mal.

Como contramedidas, el estudio sugiere entregar a los estudiantes información creíble sobre el costo de largo plazo del outsourcing, poner más peso a los exámenes presenciales y registrar el tiempo de completar la tarea en vez de la nota. La IA erosiona el valor de la tarea como señal, y entre los usuarios de IA con tareas sobre el promedio, mayores notas de tarea predicen peores puntajes de examen.

Andrej Karpathy ha argumentado que los colegios deberían dejar de perseguir las tareas hechas con IA y trasladar la mayor parte de la evaluación al aula. Su razonamiento se alinea con lo que muestra este estudio. Cuando los estudiantes saben que serán evaluados sin IA, se mantienen motivados para aprender el material.

Un patrón que se repite en otros estudios

El patrón coincide con hallazgos de otras investigaciones recientes. Un estudio de Anthropic mostró que participantes que aprendieron nuevas destrezas de programación con ayuda de IA sacaron un 17% menos en pruebas posteriores de conocimiento, sin ahorrar tiempo real. El resultado dependía del uso: quienes copiaban las respuestas de la IA rindieron peor, mientras que quienes la usaron para entender mejor las tareas no mostraron esa caída.

Un estudio de la Swiss Business School encontró un vínculo negativo entre uso de IA y pensamiento crítico. Otro estudio de investigadores en universidades de Estados Unidos y Reino Unido mostró que las personas que tratan a la IA principalmente como una máquina de respuestas son las que más rápido pierden habilidades cognitivas.

Un análisis de UC Berkeley sobre más de 500 mil notas mostró que la proporción de A en cursos con carga fuerte de escritura y programación subió 13 puntos porcentuales desde el lanzamiento de ChatGPT. También ahí el efecto se concentró en tareas no supervisadas, mientras que los exámenes presenciales no mostraron ganancias comparables.