Semelhança x Plágio
A técnica de determinação da semelhança entre documentos empregada no CopySpider não pode ser interpretada como uma medida de plágio. Essa afirmação esteve em nosso FAQ desde o início da distribuição do CopySpider.
Para nivelamento, sobre a definição de plágio, indicamos o estudo do conteúdo disponível em plagiarism.org.
A partir da versão 2.6.0, o CopySpider utiliza a combinação de três índices de similaridade:
- Índice de similaridade antigo
- Novo índice de similaridade
- Índice de agrupamento
Índice de Similaridade Antigo
O Índice Antigo de Similaridade utilizado pelo CopySpider, até a sua versão 2.5.6, possui um limite de 3% que indica de que há uma chance maior da existência de cópias de trechos entre documentos.
S = (Trechos Comuns) / (Trechos Distintos)
Um erro muito comum dos usuários é interromper a análise apenas com o resultado do índice antigo: se for abaixo de 3% "não há plagio", se for acima "há plágio".
Este limite foi determinado por pesquisas internacionais sobre os temas anti plagiarism (anti plágio) e document similarity (semelhança de documentos). Para mais detalhes, veja as referências ao final dessa página.
A forma de cálculo do índice antigo tem origem nos conceitos de intercessão e únião de conjuntos e pode causar confusões, embora o mesmo tenha sido alvo de várias pesquisas científicas e não pode ser desconsiderado.
O índice antigo tem dois problemas a se destacar:
- O resultado numérico não trás uma interpretação direta do que o mesmo significa.
- O índice sofre grandes distorções quando os arquivos sendo comparados possuem tamanhos bastante diferentes.
Novo Índice de Similaridade
Na tentativa de mudar o comportamento dos usuários do CopySpider em associar o índice de semelhança com um "índice de plágio", a partir da versão 2.6.0, um Novo Índice de Similaridade foi criado, mais simples e de interpretação direta de seus resultados numéricos:
S = (Trechos Comuns) / (Trechos Documento em Análise)
O novo índice tem uma relação direta com o resultado numérico apresentado como, por exemplo, S = 10% significa que 10 em cada 100 dos trechos do documento em análise foram encontrados no documento candidato.
Para esse novo índice, o CopySpider passa a classificar o índice de semelhança em três categorias:
- Baixo: (S < 10%)
- Moderado: (10% ≤ S < 30%)
- Alto: (30% ≤ S)
Sugere-se que a análise dos ítens do relatório siga a ordem dos índices em Alto, Moderado e Baixo, mas não deixando de verificar os casos com semelhança menos expressivas.
Índice de Agrupamento
Um novo Índice de Agrupamento foi criado para complementar os resultados obtidos com o novo índice de similaridade. Esse índice calcula, utilizando as mesmas categorias de semelhança, se os termos comuns estão dispersos ou agrupados. O objetivo aqui é ajudar o usuário ter uma rápida resposta se os termos comuns estão ou não agrupados, uma vez que o agrupamento normalmente indica maiores chances de existir cópia entre os documentos.
Comparação dos Índices
Para se ter uma ideia do comportamento dos novos índices em relação ao antigo, considere, por exemplo, um documento A (de entrada) com 500 trechos e outro documento B (encontrado na internet) com 1000 trechos. Considere também que a comparação desses trechos determinou que apenas 100 deles são comuns, ou seja, 100 termos do documento A foram encontrados no Documento B. Logo, o cálculo dos índices seria:
- Índice Antigo:
S = (Trechos Comuns) / (Trechos Distintos) = 100 / (500 + 1000 - 100) = 0,0714 (7,14%). - Índice Novo:
S = (Trechos Comuns) / (Trechos Doc. A) = 100 / 500 = 0,2 (20%).
Note que o índice antigo pode trazer um erro nas conclusões sobre similaridade, uma vez que não somente 7,14% dos trechos do documento A foram encontrados no documento B.
Agora, veja o que acontece se o documento B tivesse 10000 trechos, mantendo-se o mesmo número de trechos em comum (100) com o documento A (500):
- Índice Antigo:
S = (Trechos Comuns) / (Trechos Distintos) = 100 / (500 + 10000 - 100) = 0,0096 (0,96%). - Índice Novo:
S = (Trechos Comuns) / (Trechos Doc. A) = 100 / 500 = 0,2 (20%).
Observe como a diferença do tamanho dos arquivos A e B distorce os resultados do índice de semelhança antigo, uma vez que para o mesmo número de termos em comum o índice antigo determinou resultados de 7,14% para 0,96%, o que facilmente poderia confundir as conclusões sobre a semelhança dos documentos.
Esses exemplos ilustram a motivação da criação do novo índice de semelhança, mais estável e adequado ao que o usuário precisa para poder analisar se existe ou não um problema de plágio.
O novo índice de semelhança está mais alinhado ao "sentimento" de semelhança esperada pelo usuário. Neste exemplo com os documentos A e B, de fato, 20% dos trechos do documento A foram encontrados no documento B, independentemente do tamanho do documento B.
De modo complementar, o novo índice de agrupamento verifica se esses 100 trechos em comum estão agrupados ou esparsos no documento A. Esse novo recurso do CopySpider promete encontrar semelhança quando apenas um parágrafo é semelhante dentre muitos outros, facilitando a análise do usuário.
Veja um exemplo hipotético com 10 trechos/palavras comuns, retirado da Wikipedia, com diferentes níveis de agrupamento:
- Índice de agrupamento Baixo:
A Wikipédia é um projeto de enciclopédia colaborativa, universal e multilíngue estabelecido na internet sob o princípio wiki. Tem como propósito fornecer um conteúdo livre, objetivo e verificável??, que todos possam editar e melhorar. O projeto é definido pelos princípios fundadores e o conteúdo é disponibilizado sob a licença Creative Commons BY-SA e pode ser reutilizado sob a mesma licença, desde que respeitando os termos de uso. Todos podem publicar conteúdo on-line desde que criem uma conta e sigam as regras básicas, como verificabilidade ou notoriedade.
- Índice de agrupamento Alto:
A Wikipédia é um projeto de enciclopédia colaborativa, universal e multilíngue estabelecido na internet sob o princípio wiki. Tem como propósito fornecer um conteúdo livre, objetivo e verificável??, que todos possam editar e melhorar. O projeto é definido pelos princípios fundadores e o conteúdo é disponibilizado sob a licença Creative Commons BY-SA e pode ser reutilizado sob a mesma licença, desde que respeitando os termos de uso. Todos podem publicar conteúdo on-line desde que criem uma conta e sigam as regras básicas, como verificabilidade ou notoriedade.
Conclusões
Os novos índices de semelhança do CopySpider versão 3.0 corrigem problemas e vícios de nossos usuários, aumentando a qualidade dos resultados ao mesmo tempo que impede problemas derivados de erros de interpretação dos mesmos.
Por fim, é importante ressaltar: a conclusão sobre um documento ter ou não plágio de outros é de inteira responsabilidade do usuário (avaliador) ao analisar os resultados determinados pelo CopySpider.
Referências
Para mais detalhes, Indicamos algumas referências de apoio:
TEIXEIRA, C. M.; CICOGNA, M. A.; MORAIS, M. R. Software para detecção de textos com plágio baseado em busca pela internet. Anuário da Produção de Iniciação Científica Discente, [S.l.], v. 14, n. 24, p. 221-241, 2014. Disponível em: <http://sare.anhanguera.com/index.php/anuic/article/view/7564/1703>. Acesso em: 20 maio 2014.
LYON, C. M.; MALCOLM, J. A.; DICKERSON, R. G. Detecting short passages of similar text in large document collections. 2001. Disponível em: <https://uhra.herts.ac.uk/dspace/bitstream/2299/1695/1/901890.pdf>. Acesso em 20 maio 2014.
Veja também: