A técnica de determinação da semelhança entre documentos empregada no CopySpider não pode ser interpretada como uma medida de plágio.
Sobre a definição de plágio, indicamos o estudo do conteúdo disponível em plagiarism.org.
A partir da versão 2.6.0, o CopySpider utiliza a combinação de três índices de similaridade:
- Índice de similaridade antigo
- Novo índice de similaridade
- Índice de agrupamento
O índice antigo possui um limite de 3% para indicação de possível existência de cópias indevidas (plágio) entre documentos. Este limite foi determinado por pesquisas internacionais sobre os temas anti plagiarism (anti plágio) e document similarity (semelhança de documentos). Para mais detalhes, veja as referências ao final dessa página.
Também a partir da versão 2.6.0, para cada um dos índices de similaridade, o CopySpider passa a classificar o índice de semelhança em três categorias:
- Alto
- Moderado
- Baixo
Sugere-se que a análise dos ítens do relatório siga a ordem dos índices em Alto, Moderado e Baixo, mas não deixando de verificar os casos com semelhança menos expressivas.
Para se ter uma ideia do comportamento dos novos índices, considere, por exemplo, um documento A (de entrada) com 500 trechos e outro documento B (encontrado na internet) com 1000 trechos. Considere também que a comparação desses trechos determinou que apenas 100 deles são comuns, ou seja, 100 termos do documento A foram encontrados no Documento B. Logo, o cálculo dos índices seria:
- Antigo:
S = (Trechos Comuns) / (Trechos Distintos) = 100 / (500 + 1000 - 100) = 0,0714 (7,14%). - Novo:
S = (Trechos Comuns) / (Trechos Doc. A) = 100 / 500 = 0,2 (20%).
Note que o índice antigo pode trazer um erro nas conclusões sobre similaridade, uma vez que 7,14% dos trechos do documento A não foram encontrados no documento B. O índice antigo tem origem no conceito de intercessão e únião de conjuntos e pode causar confusões, embora o mesmo tenha sido alvo de várias pesquisas científicas e não pode ser desconsiderado.
Por outro lado, o novo índice de semelhança está mais adequado ao "sentimento" de semelhança esperada pelo usuário entre os documentos A e B, uma vez que, de fato, 20% dos trechos do documento A foram encontrados no documento B.
O novo Índice de Agrupamento verifica se esses 100 trechos em comum estão agrupados ou esparsos no documento A. Esse novo recurso do CopySpider promete encontrar semelhança quando apenas um parágrafo é semelhante dentre muitos outros, facilitando a análise do usuário.
Por fim, é importante ressaltar: a conclusão sobre um documento ter ou não plágio de outros é de inteira responsabilidade do usuário (avaliador) ao analisar os resultados determinados pelo CopySpider.
Para mais detalhes, Indicamos algumas referências de apoio:
TEIXEIRA, C. M.; CICOGNA, M. A.; MORAIS, M. R. Software para detecção de textos com plágio baseado em busca pela internet. Anuário da Produção de Iniciação Científica Discente, [S.l.], v. 14, n. 24, p. 221-241, 2014. Disponível em: <http://sare.anhanguera.com/index.php/anuic/article/view/7564/1703>. Acesso em: 20 maio 2014.
LYON, C. M.; MALCOLM, J. A.; DICKERSON, R. G. Detecting short passages of similar text in large document collections. 2001. Disponível em: <https://uhra.herts.ac.uk/dspace/bitstream/2299/1695/1/901890.pdf>. Acesso em 20 maio 2014.
Veja também: