Qual o percentual aceitável para ser considerado plágio?

A técnica de determinação da semelhança entre documentos empregada no CopySpider não pode ser interpretada como uma medida de plágio.

Sobre a definição de plágio, indicamos o estudo do conteúdo disponível em plagiarism.org.

A partir da versão 2.6.0, o CopySpider utiliza a combinação de três índices de similaridade:

  • Índice de similaridade antigo
  • Novo índice de similaridade
  • Índice de agrupamento

O índice antigo possui um limite de 3% para indicação de possível existência de cópias indevidas (plágio) entre documentos. Este limite foi determinado por pesquisas internacionais sobre os temas anti plagiarism (anti plágio) e document similarity (semelhança de documentos). Para mais detalhes, veja as referências ao final dessa página.

Também a partir da versão 2.6.0, para cada um dos índices de similaridade, o CopySpider passa a classificar o índice de semelhança em três categorias:

  • Alto
  • Moderado
  • Baixo

Sugere-se que a análise dos ítens do relatório siga a ordem dos índices em Alto, Moderado e Baixo, mas não deixando de verificar os casos com semelhança menos expressivas.

Para se ter uma ideia do comportamento dos novos índices, considere, por exemplo, um documento A (de entrada) com 500 trechos e outro documento B (encontrado na internet) com 1000 trechos. Considere também que a comparação desses trechos determinou que apenas 100 deles são comuns, ou seja, 100 termos do documento A foram encontrados no Documento B. Logo, o cálculo dos índices seria:

  • Antigo:
    S = (Trechos Comuns) / (Trechos Distintos) = 100 / (500 + 1000 - 100) = 0,0714 (7,14%).
  • Novo:
    S = (Trechos Comuns) / (Trechos Doc. A) = 100 / 500 = 0,2 (20%).

Note que o índice antigo pode trazer um erro nas conclusões sobre similaridade, uma vez que 7,14% dos trechos do documento A não foram encontrados no documento B. O índice antigo tem origem no conceito de intercessão e únião de conjuntos e pode causar confusões, embora o mesmo tenha sido alvo de várias pesquisas científicas e não pode ser desconsiderado.

Por outro lado, o novo índice de semelhança está mais adequado ao "sentimento" de semelhança esperada pelo usuário entre os documentos A e B, uma vez que, de fato, 20% dos trechos do documento A foram encontrados no documento B.

O novo Índice de Agrupamento verifica se esses 100 trechos em comum estão agrupados ou esparsos no documento A. Esse novo recurso do CopySpider promete encontrar semelhança quando apenas um parágrafo é semelhante dentre muitos outros, facilitando a análise do usuário.

Por fim, é importante ressaltar: a conclusão sobre um documento ter ou não plágio de outros é de inteira responsabilidade do usuário (avaliador) ao analisar os resultados determinados pelo CopySpider.

Para mais detalhes, Indicamos algumas referências de apoio:

TEIXEIRA, C. M.; CICOGNA, M. A.; MORAIS, M. R. Software para detecção de textos com plágio baseado em busca pela internet. Anuário da Produção de Iniciação Científica Discente, [S.l.], v. 14, n. 24, p. 221-241, 2014. Disponível em: <http://sare.anhanguera.com/index.php/anuic/article/view/7564/1703>. Acesso em: 20 maio 2014.

LYON, C. M.; MALCOLM, J. A.; DICKERSON, R. G. Detecting short passages of similar text in large document collections. 2001. Disponível em: <https://uhra.herts.ac.uk/dspace/bitstream/2299/1695/1/901890.pdf>. Acesso em 20 maio 2014.

 

Veja também:

Qual o percentual aceitável para ser considerado plágio?

Variação nos resultados de semelhança


Palavras-chave

Como ver se tem plágio no texto? Melhor detector de plágio gratuito? Software para identificar plágio. Como verificar plágio online grátis?; busca por plágio; programa anti-plágio gratuito; ferramenta anti-plágio; detector de plágio grátis; similaridade de texto; semelhança entre documentos; detector de cópia; busca por cópia; detecção de plágio; suspeita de plágio; copiar colar; ctrl c ctrl v; cópia entre arquivos; trabalho acadêmico; monografia; artigo científico.