Por Katie Paul
(Reuters) - Várias empresas de inteligência artificial estão contornando um padrão comum da web usado por editoras para bloquear a extração de conteúdo de seus sites para uso em sistemas de inteligência artificial generativa, informou a startup de licenciamento de conteúdo TollBit às editoras.
A carta às editoras vista pela Reuters nesta sexta-feira, que não cita o nome das empresas de IA ou das editoras afetadas, surge em meio a uma disputa pública entre a startup de pesquisa de IA Perplexity e o veículo de mídia Forbes envolvendo o mesmo padrão da web e um debate mais amplo entre empresas de tecnologia e mídia sobre o valor do conteúdo na era da IA generativa.
A editora de mídia de negócios acusou publicamente a Perplexity de plagiar suas matérias investigativas em resumos gerados por IA sem citar a Forbes ou pedir sua permissão.
Uma investigação da Wired publicada esta semana descobriu que a Perplexity provavelmente contornou os esforços para bloquear seu rastreador de web por meio do Protocolo de Exclusão de Robôs, ou "robots.txt" -- um padrão amplamente aceito destinado a determinar quais partes de um site podem ser rastreadas.
A Perplexity recusou um pedido da Reuters para comentar a disputa.
A TollBit, uma startup em estágio inicial, está se posicionando como uma intermediária entre empresas de IA ávidas por conteúdo e editoras dispostas a fechar acordos de licenciamento com elas.
A empresa rastreia o tráfego de IA para os sites das editoras e usa análises para ajudar os dois lados a chegar a um acordo sobre as taxas a serem pagas pelo uso de diferentes tipos de conteúdo.
Por exemplo, as editoras podem optar por definir taxas mais altas para "conteúdo premium, como as últimas notícias ou insights exclusivos", diz a empresa em seu site.
A empresa diz que tinha 50 sites ativos em maio, embora não os tenha nomeado.
De acordo com a carta da TollBit, a Perplexity não é a única infratora que parece estar ignorando o "robots.txt".
A TollBit disse que suas análises indicam que "vários" agentes de IA estão ignorando o protocolo, uma ferramenta padrão usada pelas editoras para indicar quais partes do site podem ser rastreadas.
O protocolo "robots.txt" foi criado em meados da década de 1990 como uma forma de evitar a sobrecarga de sites com rastreadores da web. Embora não exista um mecanismo de aplicação legal, historicamente tem havido uma ampla conformidade na web.
Mais recentemente, o "robots.txt" se tornou uma ferramenta importante usada pelos editores para impedir que as empresas de tecnologia absorvam seu conteúdo gratuitamente para uso em sistemas de IA generativos que podem imitar a criatividade humana e resumir artigos instantaneamente.
As empresas de IA usam o conteúdo para treinar seus algoritmos e para gerar resumos de informações em tempo real.
Algumas editoras, incluindo o New York Times, processaram as empresas de IA por violação de direitos autorais em relação a esses usos. Outras estão assinando contratos de licenciamento com as empresas de IA abertas a pagar pelo conteúdo, embora as partes frequentemente discordem sobre o valor dos materiais. Muitos desenvolvedores de IA argumentam que não infringiram nenhuma lei ao acessá-los gratuitamente.
A Thomson Reuters, proprietária da Reuters News, está entre as que fecharam acordos para licenciar conteúdo de notícias para uso por modelos de IA.