Los editores de noticias están bloqueando la Wayback Machine de Internet Archive

0 3 5 minutos de lectura

The New York Times, CNN, USA Today, The Guardian y al menos otras 241 organizaciones de noticias en nueve países han tomado medidas para restringir los rastreadores de archivos, y el propio director del archivo calificó la decisión de "daños colaterales" en una guerra que en realidad no se trata de ellos.

Internet Archive ha archivado más de un billón de páginas web desde 1996. El tribunal lo citó. Los periodistas lo utilizan para demostrar que los artículos han sido editados después de su publicación. Los historiadores la consideran una fuente primaria. Es, según la mayoría de las mediciones, uno de los proyectos de infraestructura de información pública más importantes de la era de Internet.

Y ahora está siendo bloqueado sistemáticamente por los editores de noticias cuyo trabajo preserva, debido a un problema del que esos editores no son realmente culpables: las empresas de inteligencia artificial están utilizando contenido de noticias archivado para entrenar modelos sin permiso ni pago.

Según un análisis realizado por la startup de detección de IA Originality AI, 23 publicaciones de noticias importantes están bloqueando ia_archiverbot, el principal rastreador web utilizado para Internet Archive Wayback Machine.

💜 de tecnología de la UE

Los últimos rumores de la escena tecnológica de la UE, una historia de nuestro sabio fundador Boris y algo de arte de inteligencia artificial dudoso. Es gratis, todas las semanas, en tu bandeja de entrada. Regístrate ahora!

En total, 241 sitios de noticias en nueve países rechazan explícitamente al menos uno de los cuatro robots de rastreo en el archivo. USA Today Co., la editorial de periódicos más grande de Estados Unidos, es responsable de una gran parte de los sitios bloqueados, eliminando efectivamente cientos de publicaciones locales de los registros históricos.

Mark Graham, director de Wayback Machine, ha implementado lo que el New York Times describe como unbloque duro' A partir de finales de 2025.

El argumento de las organizaciones de noticias es coherente incluso si las consecuencias son preocupantes. Las empresas de inteligencia artificial necesitan grandes cantidades de texto de alta calidad para entrenar modelos de lenguaje de gran tamaño.

El contenido de noticias archivado es solo eso: escritura estructurada, fechada, de calidad y de alta calidad acumulada durante décadas. Wayback Machine de Internet Archive hace que una gran cantidad de ese contenido sea accesible a través de interfaces API y URL, una fuente ideal para canales de capacitación de modelos.

Un análisis del Washington Post de 2023 encontró que los datos del Internet Archive aparecían en los principales conjuntos de datos de entrenamiento de IA. Para los editores que ya están involucrados en demandas de derechos de autor contra OpenAI, Perplexity y otros, el archivo es un vacío en su defensa.

"El problema es que el contenido del Times en Internet Archive está siendo utilizado por empresas de inteligencia artificial en violación de las leyes de derechos de autor para competir directamente con nosotros". dijo el portavoz del Times, Graham James.

"El Times invierte enormes recursos en producir periodismo original y ese trabajo no debe utilizarse sin nuestro permiso".

The Guardian, que fue más cauteloso, limitó en lugar de bloquear completamente el acceso al archivo después de publicar sus propios registros de que el archivo era un rastreador frecuente.

Robert Hahn, jefe de asuntos comerciales de The Guardian, expresó especial preocupación por la API del archivo. "Muchas de estas empresas de IA buscan bases de datos de contenido estructuradas y fácilmente disponibles". el dijo "La API de Internet Archive habría sido un lugar obvio para conectar sus propias máquinas y extraer IP".

Mark Graham, director de Wayback Machine, llama a esta situación exactamente como es. "Somos daños colaterales" el dijo

El Archivo ha tomado sus propias medidas: califica y limita las descargas masivas, bloquea o impide las descargas masivas de cierto material del sitio y mantiene controles para limitar las extracciones automáticas a gran escala.

Graham sostiene que esto significa que los argumentos de los editores para bloquear los rastreadores de archivos son "infundados", ya que el riesgo es que las empresas de inteligencia artificial accedan al material archivado a través de la interfaz del archivo, que el propio archivo controla y restringe, no rastreando el archivo y almacenando el contenido.

El Archivo dialoga activamente con los editores para encontrar acuerdos viables. El propio The Guardian dice que está "trabajando directamente con Internet Archive" para implementar sus límites de acceso, en lugar de imponer bloques rígidos unilaterales.

Pero la posición del archivo, de que es una institución de preservación neutral, no un canal de capacitación en IA, no aborda completamente las preocupaciones de los editores de que terceros puedan acceder a sus datos independientemente de los propios propósitos del archivo.

El problema con la respuesta de los editores es que la herramienta que están utilizando bloquea los rastreadores de archivos. La IA tiene ramificaciones que se extienden más allá de las empresas.

Cuando un artículo de noticias deja de archivarse, se vuelve editable sin responsabilidad. Los editores pueden, y lo hacen, revisar silenciosamente las historias después de su publicación: corrigiendo errores, suavizando afirmaciones, eliminando citas.

Wayback Machine es la herramienta principal que utilizan los periodistas para documentar estos cambios. Joe Mullin de The Electronic Frontier Foundation dejó clara la apuesta:

"El Internet Archive a menudo se convierte en la única fuente para ver estos cambios. Hay disputas reales sobre el entrenamiento de la IA que deben resolverse en los tribunales. Pero sacrificar el registro público para librar esas batallas sería un error profundo y quizás irreversible".

Wikipedia enlaza a más de 2,6 millones de artículos de noticias archivados por Wayback Machine en 249 idiomas. El tribunal utilizó las páginas archivadas como prueba. Los periodistas los han utilizado para demostrar que las agencias gubernamentales han cambiado las declaraciones oficiales después de su publicación.

La decisión de USA Today Co. de bloquear el acceso eliminó efectivamente a cientos de periódicos locales del registro histórico, en un momento en que el periodismo local ya está en crisis, y cada artículo guardado representa documentación que puede no existir en ningún otro lugar.

Una petición organizada por Fight for the Future, firmada por más de 100 periodistas en activo, rechazó la tendencia del bloqueo y describió a Wayback Machine como una herramienta que "preserva los registros públicos en un momento en el que muchos medios de comunicación importantes se preguntan si permitirlo".

Nieman Lab informó sobre la petición a mediados de abril; En lugar de resolverse, el conflicto ahora está aumentando.

Aún así, la disputa de Wayback Machine es una versión comprimida de un problema estructural que recorre todo el debate sobre los derechos de autor de la IA. Instituciones diseñadas para el interés público, una biblioteca digital, estándares web abiertos y archivos de acceso público se están convirtiendo en el camino de menor resistencia para las empresas de IA que buscan datos de capacitación, a medida que la extracción directa por parte de las empresas de IA es cada vez más bloqueada, demandada y medida.

El resultado es que cuanto más se resisten directamente los editores y los titulares de derechos a la formación en IA, más presión se ejerce sobre la infraestructura pública que no pueden controlar.

Como dijo Michael Nelson, científico informático de la Universidad Old Dominion, al Laboratorio Nieman: "Los rastreos generales y el Internet Archive son ampliamente considerados 'buenos' y utilizados por 'malos' como OpenAI. En la aversión de todos a no ser regulados por LLM, creo que los buenos son daños colaterales".

La EFF concluyó que la respuesta adecuada no era bloquear el archivo sino demandar directamente a las empresas de IA.

“Existen disputas reales sobre el entrenamiento en IA que deben resolverse en los tribunales."

De hecho, los editores han hecho precisamente eso: la demanda del Times contra OpenAI está en curso. Pero concluyen que esperar a que los tribunales resuelvan estas disputas es demasiado lento y, mientras tanto, están optando por la opción más rápida y contundente de bloquear el archivo.

Source link

Redacción - ACN 3 horas hace

0 3 5 minutos de lectura