A técnica de determinação da semelhança entre documentos empregada no CopySpider não pode ser interpretada como uma medida de plágio.
Sobre a definição de plágio, indicamos o estudo do conteúdo disponível em plagiarism.org.
O limite de 3% contido no CopySpider para indicação de possível existência de cópias indevidas (plágio) entre documentos está apoiada em pesquisas internacionais sobre os temas anti plagiarism (anti plágio) e document similarity (semelhança de documentos).
Também é importante destacar que o limite de 3% não está diretamente relacionado à comparação de conteúdo, texto e parágrafos, dos arquivos. Por exemplo, ao encontrar um resultado de 10% de similaridade entre um documento de entrada A e outro B disponível na internet, isto não significa que 10% do documento A foi encontrado no conteúdo do documento B.
O limite de 3% está relacionado à comparação e identificação de trechos raros entre os documentos A e B. Os trechos raros são sequências de palavras que aparecem poucas vezes, geralmente apenas uma, em cada documento.
Por exemplo, considere um documento A com 500 trechos e outro documento B com 1000 trechos. Caso o documento A tenha seu conteúdo totalmente copiado do documento B, a estatística de termos semelhantes é igual a:
S = (Trechos Comuns) / (Trehcos Distintos) = 500 / (500 + 1000 - 500) = 0,5 ou 50%
Note que 50% é bastante diferente dos 100% que muitos usuários esperam, fato esse que nos é perguntando com certa frequência. Observe também que a similaridade de documentos totalmente copiados pode ser muito menor do que 100%, caso os documentos possuam tamanhos bastante diferentes.
Mas por qual motivo utilizar essa forma de cálculo de semelhança? A resposta: a pesquisa científica que serviu de base na construção da técnica de solução do CopySpider. Quando o CopySpider encontra um conjunto comum de 3% ou mais de trechos raros, baseando-se em artigos científicos já publicados sobre esse assunto, conclui-se que é grande a chance do conteúdo dos documentos terem cópias, o que pode ser interpretado posteriormente como plágio (veja também este FAQ).
Mas é importante ressaltar: a conclusão sobre um documento ter ou não plágio de outros é de inteira responsabilidade do usuário (avaliador) ao analisar os resultados determinados pelo CopySpider.
Para mais detalhes, Indicamos algumas referências de apoio:
TEIXEIRA, C. M.; CICOGNA, M. A.; MORAIS, M. R. Software para detecção de textos com plágio baseado em busca pela internet. Anuário da Produção de Iniciação Científica Discente, [S.l.], v. 14, n. 24, p. 221-241, 2014. Disponível em: <http://sare.anhanguera.com/index.php/anuic/article/view/7564/1703>. Acesso em: 20 maio 2014.
LYON, C. M.; MALCOLM, J. A.; DICKERSON, R. G. Detecting short passages of similar text in large document collections. 2001. Disponível em: <https://uhra.herts.ac.uk/dspace/bitstream/2299/1695/1/901890.pdf>. Acesso em 20 maio 2014.