Bloquear el Archivo de Internet no detendrá la IA, pero borrará el registro histórico de la web

17/04/2026 | Opinión

Imaginen a un editor de periódicos anunciando que ya no permitirá que las bibliotecas conserven copias de su periódico.

Eso es, en esencia, lo que ha comenzado a suceder en línea en los últimos meses. El Archivo de Internet, la biblioteca digital más grande del mundo, ha preservado periódicos desde su lanzamiento a mediados de la década de 1990. La misión del Archivo es preservar la web y hacerla accesible al público. Para ello, la organización opera la Wayback Machine, que ahora contiene más de un billón de páginas web archivadas y es utilizada diariamente por periodistas, investigadores y tribunales.

Pero en los últimos meses, The New York Times comenzó a bloquear el acceso del Archivo a su sitio web, utilizando medidas técnicas que van más allá de las reglas tradicionales de robots.txt de la web. Esto corre el riesgo de eliminar un registro en el que historiadores y periodistas se han basado durante décadas. Otros periódicos, incluido The Guardian, parecen estar siguiendo el mismo camino.

Durante casi tres décadas, historiadores, periodistas y el público en general han confiado en Internet Archive para preservar los sitios de noticias tal como aparecieron en línea. Esas páginas archivadas suelen ser el único registro fiable de cómo se publicaron originalmente las noticias. En muchos casos, los artículos se editan, modifican o eliminan, a veces abiertamente, a veces no. Internet Archive se convierte a menudo en la única fuente para ver esos cambios. Cuando las grandes editoriales bloquean los rastreadores de Internet Archive, ese registro histórico comienza a desaparecer.

Según The Times, esta medida se debe a la preocupación por el uso que hacen las empresas de IA de contenido informativo. Las editoriales buscan controlar cómo se utiliza su trabajo, y varias, incluido The Times, están demandando a empresas de IA por si entrenar modelos con material protegido por derechos de autor infringe la ley. Existen argumentos sólidos para considerar que dicho entrenamiento constituye un uso legítimo.

Sea cual sea el resultado de estas demandas, bloquear a los archivistas sin ánimo de lucro es una respuesta equivocada. Organizaciones como Internet Archive no desarrollan sistemas de IA comerciales. Preservan un registro de nuestra historia. Desactivar esa preservación en un intento por controlar el acceso de la IA podría, en esencia, destruir décadas de documentación histórica por una disputa que bibliotecas como el Archivo no iniciaron ni buscaron.

Si las editoriales excluyen al Archivo, no solo limitan a los bots, sino que borran el registro histórico.

El archivo y la búsqueda son legales

Hacer que el material sea consultable es un uso legítimo bien establecido. Los tribunales han reconocido desde hace tiempo que a menudo es imposible crear un índice consultable sin hacer copias del material original. Por eso, cuando Google copió libros enteros para crear una base de datos consultable, los tribunales lo reconocieron correctamente como un claro uso legítimo. La copia tuvo un propósito transformador: facilitar el descubrimiento, la investigación y nuevas perspectivas sobre las obras creativas.

El Archivo de Internet funciona con el mismo principio. Así como las bibliotecas físicas conservan periódicos para futuros lectores, el Archivo conserva el registro histórico de la web. Investigadores y periodistas lo utilizan a diario. Según el personal del Archivo, Wikipedia, por sí sola, enlaza con más de 2,6 millones de artículos de noticias conservados en el Archivo, en 249 idiomas. Y este es solo un ejemplo. Innumerables blogueros, investigadores y periodistas dependen del Archivo como un registro estable y fidedigno de lo publicado en línea.

Los mismos principios legales que protegen a los motores de búsqueda deben proteger también a los archivos y bibliotecas. Incluso si los tribunales imponen límites al entrenamiento de la IA, la ley que protege la búsqueda y el archivo web ya está bien establecida.

El Archivo de Internet ha preservado el registro histórico de la web durante casi treinta años. Si las grandes editoriales comienzan a obstaculizar esta misión, los futuros investigadores podrían descubrir que grandes porciones de ese registro histórico simplemente han desaparecido. Existen disputas reales sobre el entrenamiento de la IA que deben resolverse en los tribunales. Pero sacrificar el registro público para librar esas batallas sería un error profundo, y posiblemente irreversible.

Joe Mullin

Fuente: Electronic Frontier Foundation (EFF)

[CIDAF-UCM]