Detecção de conteúdo gerado por Inteligência Artificial

O CopySpider não possui detecção de conteúdo gerado por sistemas de Inteligência Artificial baseados em modelos de Linguagem Natural e Redes Neurais (Large Language Models - LLM). Este artigo apresenta alguns testes e conclusões sobre o assunto.

Sugere-se ao leitor um nivelamento mínimo de como funcionam as redes neurais, em especial as LLM [1].

Sobre a detecção feita por humanos

A equipe de desenvolvimento fez estudos e, no momento em que se escreve esse artigo, salientamos alguns aspectos que podem ser importantes aos interessados no assunto:

  • O conteúdo gerado por I.A. tende a ser genérico.
  • Quanto mais técnico e refinado o conteúdo, maior a imprecisão do conteúdo artificial.
  • Não é possível apresentar referências bibliográficas confiáveis para o texto gerado por I.A.

Nos testes realizados, esses aspectos foram suficientes para uma simples leitura permitir identificar trechos de texto gerados por I.A.

Essa afirmativa é importante, pois assim como a detecção de plágio, a detecção de conteúdo artificial não exime o avaliador da tarefa de leitura, integral ou mesmo parcial, do trabalho sob análise.

Outro aspecto importante é que a generalidade do texto artificial é incompatível com o esperado por artigos acadêmicos, técnicos ou científicos. Talvez funcione bem para trechos gerais e de ligação entre seções, mas, ao se aprofundar nos temas e assuntos em foco, o conteúdo artificial rapidamente torna-se frágil e detectável.

Conteúdo artificial e plágio

O conteúdo artificial não pode ser classificado diretamente como plágio, exceto nos casos nos quais é possível encontrar a origem do conteúdo artificial [2].

Nos testes que a equipe CopySpider realizou, constatou-se dois comportamentos principais:

  • Quanto mais genérico o texto testado, ou seja, obtido de I.A. e sem manipulações, maior a chance de se encontrar as origens do conteúdo.
  • Quanto mais refinado o conteúdo, com a inserção autoral de novos argumentos ou análises, menor a chance de deteção.

Esses resultados eram esperados e permitem concluir que: no primeiro caso, o comportamento da detecção comporta-se como o antigo "copiar e colar". No segundo caso, o conteúdo artificial pode servir de guia inicial da estrutura do texto, mas o que importa é a quantidade de conteúdo autoral que foi inserido, exigindo um esforço considerável do autor.

No entanto, em ambos os casos, a leitura do texto irá chamar a atenção do leitor/avaliador de que o conteúdo não possui referências, ou seja, não se liga a outras fontes, tornando o conteúdo estanque. Um teste de consistência das referências apresentadas pode identificar a tentativa de criação de ligações inexistentes.

Falsos-positivos

Um problema grave de sistemas de detecção de plágio são os resultados classificados como falhos, ou seja, aponta-se uma característica imprópria ao conteúdo em análise. 

Resultados desse tipo podem criar graves problemas ao se apontar o trabalho de alguém como plágio e uma verificação posterior demonstrar que o resultado é incorreto.

No caso de deteção de conteúdo artificial, a equipe CopySpider verificou que vários sistemas que afirmam ter precisão na detecção apresentaram, na verdade, altos índices de falsos-positivos em seus resultados.

Por "altos índices", considere que houve falha em todos os testes que fizemos com oito sistemas diferentes detectores de I.A. Em especial, o alto índice de falsos-positivos é identificado até mesmo na ferramenta do ChatGPT para a detecção de conteúdo artificial [2].

Roteiro para o leitor reproduzir falsos positivos.

O leitor pode reproduzir os testes de falsos positivos que fizemos. Segue um roteiro.

  1. Utilize o texto de algum site relevante que provavelmente foi utilizado na base de treinamento dos sistemas de I.A. Por exemplo: Wikipedia, NASA, The New Yourk Times, etc.
  2. Peça ao sistema de detecção avaliar alguns parágrafos do site/página selecionado.
  3. Avalie a percentagem classificada como conteúdo gerado por I.A.

Sugestão para a tentativa de detecção

Sugere-se aos interessados criarem documentos de amosta com conteúdo gerado por I.A. com os temas que estejam no tema de interesse, para então realizar uma análise comparativa de arquivos locais dessas amostras com os documentos sob suspeita.

No CopySpider, pode-se utilizar as análises locais de tipo "Um contra Todos" ou "Todos contra Todos".

Por fim, a equipe de desenvolvedores do CopySpider ressalta a necessidade de precaução dos usuários que façam uso dessas ferramentas que prometem a deteção de conteúdo oriundo de modelos derivados de LLM, principalmente relacionado aos graves problemas derivados de resultados contendo falsos-positivos.


Veja também:
[1] Entendendo Como ChatGPT Funciona - Rodando sua Própria IA 
[2] O plágio encoberto em textos do ChatGPT
 

 

Palavras-chave

Como ver se tem plágio no texto? Melhor detector de plágio gratuito? Software para identificar plágio. Como verificar plágio online grátis?; busca por plágio; programa anti-plágio gratuito; ferramenta anti-plágio; detector de plágio grátis; similaridade de texto; semelhança entre documentos; detector de cópia; busca por cópia; detecção de plágio; suspeita de plágio; copiar colar; ctrl c ctrl v; cópia entre arquivos; trabalho acadêmico; monografia; artigo científico.