Sites de notícias bloqueiam o Internet Archive por temerem uso de dados no treino de redes neurais
O aumento da popularidade da inteligência artificial começou, de forma inesperada, a comprometer a atuação de um dos principais “guardiões da história digital”: o Internet Archive. A organização, que há mais de 30 anos preserva páginas da web e mantém acesso público a esse material, vem encontrando cada vez mais sites que impedem o arquivamento do próprio conteúdo.
No centro dessa preservação está o Wayback Machine, serviço operado pelo Internet Archive e considerado a maior “máquina do tempo” pública da internet, usada para consultar versões antigas de sites. O funcionamento depende de web crawlers que capturam e guardam páginas automaticamente. Esse acervo é amplamente utilizado por jornalistas, investigadores, pesquisadores e historiadores - sobretudo em apurações que envolvem censura e desinformação.
Só que, agora, o acesso a esse conteúdo vem encolhendo. Estimativas de analistas indicam que 241 sites de notícias, em 9 países, já proibiram de forma parcial ou total que suas páginas sejam arquivadas. Entre os exemplos citados estão The New York Times e Reddit. Uma parcela expressiva das restrições vem de veículos controlados pela Gannett, maior grupo editoral dos Estados Unidos.
Algumas redações adotam barreiras ainda mais específicas. O The Guardian, por exemplo, não impede diretamente os crawlers, mas oculta seus textos dentro da interface do Wayback Machine e também limita o acesso via API, o que reduz a disponibilidade prática do arquivo para o público.
A motivação central está ligada à IA. Empresas de mídia temem que reportagens e outros materiais estejam sendo aproveitados para treinar grandes modelos de linguagem sem autorização. A preocupação é que o arquivo possa virar um caminho alternativo de coleta, permitindo que companhias de tecnologia cheguem a conteúdo protegido por direitos autorais.
Ao mesmo tempo, os próprios veículos recorrem ao Internet Archive no dia a dia. Em uma carta aberta, organizações como a Electronic Frontier Foundation ressaltam que “sem o Internet Archive uma parte significativa da história do jornalismo já teria sido perdida”. O arquivo segue como uma das poucas ferramentas capazes de registrar alterações em declarações públicas, capturar publicações removidas e preservar outros rastros digitais.
O Internet Archive afirma que vem implementando medidas para reduzir abusos, incluindo limitações contra download em massa de dados. Ainda assim, a confiança por parte de editoras e publicadores tem diminuído. Representantes do setor reconhecem que o problema é estrutural: tecnologias criadas para preservar conhecimento passaram a ser exploradas de maneiras que não estavam previstas no projeto original.
O cenário se torna ainda mais delicado porque não existe uma alternativa completa ao Wayback Machine. Se a restrição de acesso a fontes relevantes continuar avançando, o resultado pode ser a perda gradual de arquivos digitais - especialmente no noticiário, área em que conteúdos são frequentemente apagados ou modificados.
Com isso, a internet corre o risco de enfraquecer a própria capacidade de manter sua história. Caso a tendência atual se mantenha, uma parte significativa do passado digital pode ficar fora de alcance já nos próximos anos.
Comentários
Ainda não há comentários. Seja o primeiro!
Deixar um comentário