Em uma análise separada conduzida esta semana, o jornalista de dados Ben Welsh descobriu que pouco mais de um quarto dos sites de notícias que ele pesquisou (294 de 1.167 publicações principalmente em inglês, baseadas nos EUA) estão bloqueando o Applebot-Extended. Em comparação, Welsh descobriu que 53% dos sites de notícias em sua amostra bloqueiam o bot da OpenAI. O Google introduziu seu próprio bot específico para IA, o Google-Extended, em setembro passado; ele é bloqueado por quase 43% desses sites, um sinal de que o Applebot-Extended ainda pode estar sob o radar. Como Welsh disse à WIRED, no entanto, o número tem “aumentado gradualmente” desde que ele começou a procurar.
Galês tem um projeto em andamento monitorando como os veículos de notícias abordam os principais agentes de IA. “Um pouco de divisão surgiu entre os editores de notícias sobre se eles querem ou não bloquear esses bots”, ele diz. “Não tenho a resposta para o porquê de cada organização de notícias ter tomado essa decisão. Obviamente, podemos ler sobre muitos deles fazendo acordos de licenciamento, onde estão sendo pagos em troca de deixar os bots entrarem — talvez isso seja um fator.”
No ano passado, o The New York Times relatado que a Apple estava tentando fechar acordos de IA com editoras. Desde então, concorrentes como OpenAI e Perplexity anunciaram parcerias com uma variedade de veículos de notícias, plataformas sociais e outros sites populares. “Muitas das maiores editoras do mundo estão claramente adotando uma abordagem estratégica”, diz o fundador da Originality AI, Jon Gillham. “Acho que em alguns casos, há uma estratégia de negócios envolvida — como reter os dados até que um acordo de parceria esteja em vigor.”
Há algumas evidências que apoiam a teoria de Gillham. Por exemplo, os sites da Condé Nast costumavam bloquear os rastreadores da web da OpenAI. Depois que a empresa anunciou uma parceria com a OpenAI na semana passada, ela desbloqueou os bots da empresa. (A Condé Nast se recusou a comentar oficialmente esta história.) Enquanto isso, a porta-voz do Buzzfeed, Juliana Clifton, disse à WIRED que a empresa, que atualmente bloqueia o Applebot-Extended, coloca todos os bots rastreadores da web de IA que consegue identificar em sua lista de bloqueio, a menos que seu proprietário tenha firmado uma parceria — normalmente paga — com a empresa, que também é dona do Huffington Post.
Como o robots.txt precisa ser editado manualmente, e há tantos novos agentes de IA estreando, pode ser difícil manter uma lista de bloqueio atualizada. “As pessoas simplesmente não sabem o que bloquear”, diz o fundador do Dark Visitors, Gavin King. O Dark Visitors oferece um serviço freemium que atualiza automaticamente o robots.txt do site de um cliente, e King diz que os editores constituem uma grande parte de seus clientes por causa de preocupações com direitos autorais.
Robots.txt pode parecer o território arcano dos webmasters — mas, dada sua importância descomunal para os editores digitais na era da IA, agora é o domínio dos executivos de mídia. A WIRED descobriu que dois CEOs de grandes empresas de mídia decidem diretamente quais bots bloquear.
Alguns veículos notaram explicitamente que bloqueiam ferramentas de raspagem de IA porque atualmente não têm parcerias com seus proprietários. “Estamos bloqueando o Applebot-Extended em todas as propriedades da Vox Media, como fizemos com muitas outras ferramentas de raspagem de IA quando não temos um acordo comercial com a outra parte”, diz Lauren Starke, vice-presidente sênior de comunicações da Vox Media. “Acreditamos em proteger o valor do nosso trabalho publicado.”