ChatGPT: grandes jornais bloqueiam robô para 'pesca' de textos

No início de agosto, a OpenIA
, empresa responsável pelo site ChatGPT,
anunciou a ferramenta GPTBot, que visava alimentar o acervo da inteligência artificial através da coleta de textos na internet. Entretanto, com a chegada da ferramenta, grandes empresas de informação começaram um movimento de bloqueio, tendo como prerrogativa a proteção dos direitos autorais.

O GPTBot é um web crawler — um software automatizado, que tem como objetivo vasculhar a internet para a coleta de informações. Com isso, ele ‘pesca’ imagens, textos, links e diversos elementos das páginas que ele visita.

Um levantamento feito pela ferramenta detectora de plágios, Originality.ai
, mostra que 15% das mil páginas mais importantes do mundo bloquearam seus sites para impedir que o GPTBot conseguisse acessar. Até o dia 22 de agosto, cerca de 70 sites haviam aderido ao método. Entre os principais portais citados pela pesquisa, estão: Amazon.com, Quora.com, NYTimes.com, Shutterstock.com, Wikihow.com
e CNN.com.

Um porta-voz da agência de notícias Reuters disse ao jornal The Guardian: “A propriedade intelectual é a força vital dos nossos negócios, e precisamos proteger os direitos autorais do nosso conteúdo”.

Segundo uma pesquisa feita pela Universidade do Estado da Pensilvânia (Penn State), nos Estados Unidos, a ferramenta da OpenAI pode possibilitar três tipos diferentes de plágio: o de transcrição literal, o de paráfrase e a utilização de um conceito/ideia que nao menciona a autoria. Os resultados da pesquisa foram publicados Revista Pesquisa, desenvolvida pela Fapesp. Segundo o estudo, o caso piora quando os parâmetros usados para ensinar a IA crescem.

Ao todo, o grupo analisou mais de 200 mil textos que haviam sido gerados pela IA GPT-2, sobre a temática da Covid-19. Nele, foram utilizados dois tipos de modelos: os pré-treinados, que se baseiam no amplo espectro de dados, e os de ajuste fino, que tiveram sua programação reajustada pela equipe visando limitar a análise de dados.

Os resultados mostram que os conteúdos gerados pelos pré-treinados possuíam transcrições literais com maior frequência. Já nos refinados, a prevalência era de paráfrases e apropriação de conceitos sem autoria.

Além da Originality.ai
, outras ferramentas são utilizadas para identificar plágios em textos criados por IA. A própria OpenAI criou uma plataforma chamada GPT-2 Output Detector
, além de sites como a Writer AI Content Detector
e a Content at Scale
. Mas vale ressaltar que tais ferramentas estão mudando dia a dia, sendo necessário´contante atualização no modo de identificar tais textos.

Qual a solução?

Para os veículos de comunicação, o que ocorre é um “roubo” de conteúdos. O diretor da divisão de notícias do jornal francês Le Figaro, Bertrand Gié, acredita que os veículos querem ter “acordos de licença e pagamento” pelas informações que estão sendo utilizadas.

Acordos do tipo já começaram a ser feitos, como o caso da agência de notícias Associated Press (AP), dos Estados Unidos. Em julho, a empresa fechou um acordo com a OpenAI para que ficasse autorizada a coleta de arquivos desde 1985. Para isso, a empresa teve que ceder o acesso à tecnologia de IA para a agência. A OpenAI também fechou um acordo de US$ 5 milhões ao American Journalism Project, uma associação que apoia os veículos jornalísticos do país.

Mas nem todos os portais pensam da mesma maneira. O The New York Times foi um dos mais recentes a bloquear a ferramenta e estudar uma possível ação judicial por direitos autorais. O jornal bloqueou o uso de textos, fotografias, imagens, ilustrações, designs, áudio e vídeos e vídeo pela empresa. Caso venha acontecer o processo, o veículo deve se juntar a três autores, que estão processando a OpenAI desde julho por uso de conteúdo protegido por direitos autorais para treinar o ChatGPT.

Reprodução/TozziniFreire Advogados

Carla do Couto Hellu Battilana, sócia de TozziniFreire Advogados na área de Cybersecurity & Data Privacy

Direitos autorais no Brasil

No Brasil, não existe legislação específica acerca desses direitos autorais sobre proteção de criações intelectuais. Sendo assim, há a necessidade de analisar caso a caso. A sócia da TozziniFreire Advogados na área de Cybersecurity & Data Privacy, Carla do Couto Hellu Battilana, explica que nos casos de possível plágio em textos feitos por IAs, deve-se entender se a ferramenta ‘leu’ e ‘interpretou’ a informação que está disponível na internet, criando assim um novo texto.

“Ocorre que, conforme a tecnologia vai avançando, principalmente a IA, vamos nos deparando com questões mais complexas, onde fica difícil até mesmo avaliar se houve uma violação ou não”, afirma Battilana

“Como se trata de um assunto relativamente ‘novo’, ainda temos desafios e discussões pela frente quando se trata desse tipo de demanda. Fato é que hoje já temos leis que tratam de direito de autor e da proteção a criações intelectuais, assim como dispositivos legais cíveis e penais que amparam a reparação e a proteção de eventuais direitos violados”, diz a advogada.

Dentre os modos legais que têm sido discutidos, há o Marco Legal da Inteligência Artificial — o PL 2338/2023
. Nele, as pautas acerca das questões de direitos autorais e afins são levadas em consideração. O Marco Legal ainda não foi aprovado, mas Battilana garante que os dispositivos legais disponíveis conseguem fazer com que “aquele que tenha o seu direito comprovadamente violado possa buscar meios judiciais de repará-lo”. Ela ressalta, porém, que o principal desafio é a comprovação.

Como bloquear?

A OpenAI mostra como os sites podem impedir que seus conteúdos sejam ‘pescados’ pelo GPTBot
. Para isso, basta incorporar uma linha de código no arquivo “ robots.txt
” do site, evitando a coleta de dados.

Para isso, você adiciona o GPTBot ao arquivo robots.txt
do site, usando o User-agent
como ” GPTBot
“, e o Disallow
como ” /
“. Você também pode personalizar os acessos para partes específicas do site, deixando claro no Disallow o quais partes estão liberadas.

Essa não é a primeira vez que a discussão por direitos autorais sob conteúdos criados por inteligências artificiais ganha notoriedade. No início do ano, a empresa Getty Images — que possui um grande banco de imagens —, processou a IA Stable Diffusion por supostamente usar imagens com direitos autorais para treinar o sistema.

Fonte