En la era digital actual, el rol de la Wayback Machine del Internet Archive se ha vuelto indispensable, especialmente cuando el contenido web desaparece o es alterado discretamente para ocultar detalles relevantes. Recientemente, ha surgido una nueva preocupación vinculada al scraping de datos para entrenar sistemas de IA. Esta es, al menos, la justificación ofrecida por cientos de medios para bloquear los web crawlers de la plataforma. [Andrew Deck] y [Hanaa’ Tameez] de [Nieman Lab] detallaron recientemente el impacto y las razones proporcionadas por más de 340 medios locales.
¿Por qué los medios bloquean el archivo digital?
Algunos medios, como The Baltimore Banner, insisten en que bloquean los crawlers únicamente por temor a que los chatbots de LLM citen de forma inapropiada su contenido. Mientras tanto, otros como The Atlantic han implementado políticas estrictas contra todo tipo de scraping. Curiosamente, estos mismos medios suelen permitir que servicios comerciales de archivo, como ProQuest y LexisNexis, indexen su contenido, lo que sugiere una clara motivación financiera detrás de la decisión.
¿Qué consecuencias tendrá este bloqueo para los investigadores?
Independientemente de las razones, el efecto directo es que, cuando el contenido se modifica o desaparece debido a migraciones de sistemas, ventas o quiebras, los investigadores que dependen de la Wayback Machine se ven obligados a recurrir a servicios de pago. Esto elimina el enfoque de acceso libre y gratuito a la información que caracteriza al proyecto. A largo plazo, esto dejará grandes vacíos en el archivo histórico, haciendo que la cobertura de noticias sea cada vez más fragmentada e incompleta.
Para quienes deseen apoyar la causa, existe una petición abierta en SaveTheArchive.com donde los usuarios pueden registrar su firma. Vía CNX Software.




