Semelhança x Plágio
A técnica de determinação da semelhança entre documentos empregada no CopySpider não pode ser interpretada como uma medida de plágio. Essa afirmação esteve em nosso FAQ desde o início da distribuição do CopySpider.
Para nivelamento, sobre a definição de plágio, indicamos o estudo do conteúdo disponível em plagiarism.org.
A partir da versão 2.6.0, o CopySpider utiliza a combinação de três índices de similaridade:
- Índice de similaridade antigo
- Novo índice de similaridade
- Índice de agrupamento
Esse ítem de nosso FAQ tenta demonstrar como os índices são calculados e exemplos de seu comportamento. Para mais detalhes de como interpretar os resultados, veja esse ítem.
Como notação, considere:
- Documento de entrada: aquele que você escolhe para análise do CopySpider, principalmente no Modo de Busca na Web.
- Documento candidato: aquele que o CopySpider encontra na internet para testar a similaridade com o documento de entrada.
Índice de Similaridade Antigo
O Índice Antigo de Similaridade, agora achamado de Antigo, foi utilizado pelo CopySpider até a sua versão 2.5.6. Nessas versões, utilizava-se um limite de 3% para indicar que haveria uma chance maior da existência de cópias de trechos entre documentos.
S = (Trechos Comuns) / (Trechos Distintos)
Este limite foi determinado por pesquisas internacionais sobre os temas anti plagiarism (antiplágio) e document similarity (semelhança de documentos). Para mais detalhes, veja as referências ao final dessa página.
A forma de cálculo do índice antigo tem origem nos conceitos de intercessão e união de conjuntos e pode causar confusões, embora o mesmo tenha sido utilizado e aferido em várias pesquisas científicas, logo não pode ser desconsiderado.
O índice antigo tem dois problemas a se destacar:
- O resultado numérico não tem uma interpretação direta da relação de termos comuns com o documento em análise (documento de entrada).
- O índice sofre grandes distorções quando os documentos sendo comparados possuem tamanhos bastante diferentes.
Somado a esses problemas, um erro muito comum dos usuários que utilizavam as versões anteriores é o interromper a análise apenas com o resultado do índice antigo:
- se for abaixo de 3%, "não há plagio".
- se for acima de 3%, "há plágio".
Se forma empírica e equivocada, notamos que os usuários criavam dois critérios qualitativos associados ao limite de 3%:
- Aprovado (S < 3%).
- Reprovado (S > 3%).
Esses problemas e vícios motivaram e convenceram a Equipe do CopySpider a dimensionar mudanças no software, com o objetivo principal de proteger os usuários do mau uso da ferramenta.
Novo Índice de Similaridade
Na tentativa de mudar o comportamento dos usuários do CopySpider em associar o índice de semelhança com um "índice de plágio", a partir da versão 2.6.0, um Novo Índice de Similaridade (Si) foi criado, mais simples e de interpretação direta de seus resultados numéricos:
Si = (Trechos Comuns) / (Trechos Documento em Análise)
O novo índice tem uma relação direta com o resultado numérico apresentado. Por exemplo, Si = 10% significa que 10 em cada 100 trechos do documento de entrada foram encontrados no documento candidato.
Para esse novo índice, o CopySpider passa a classificar a semelhança em três categorias:
- Baixa: (Si < 10%)
- Moderada: (10% ≤ Si < 30%)
- Alta: (30% ≤ Si)
Note que, em comparação ao Índice Antigo, a classificação qualitativa agora oferece um nível intermediário. Embora no início isso possa preocupar alguns usuários, com o tempo é fácil notar que essa melhoria torna o processo de análise não "binário".
Sugere-se que a análise dos itens do relatório siga a ordem dos índices em Alto, Moderado e Baixo, mas não deixando de verificar os casos com semelhança menos expressivas.
Índice de Agrupamento
Um novo Índice de Agrupamento (Sg) foi criado para complementar os resultados obtidos com o novo índice de similaridade. Esse índice classifica, utilizando as mesmas categorias de semelhança, se os termos comuns estão dispersos ou agrupados. O objetivo é ajudar o usuário ter uma rápida resposta se os termos comuns estão ou não agrupados, uma vez que o agrupamento normalmente indica maiores chances de existir cópia entre os documentos.
Exemplos de Comparação dos Índices
Para se ter uma ideia do comportamento dos novos índices em relação ao antigo, considere, por exemplo, um documento A (de entrada) com 500 trechos e outro documento B (candidato encontrado na internet). Considere que a comparação dos trechos de cada documento determinou que apenas 100 deles são comuns, ou seja, 100 termos do documento A foram encontrados no Documento B.
Os exemplos a seguir vão comparar os índices novo e antigo, variando-se o tamanho do documento B.
Arquivos com tamanhos próximos
Suponha que o documento B tenha o mesmo tamanho do documento A, ou seja, 500 trechos:
- Índice Antigo:
S = (Trechos Comuns) / (Trechos Distintos) = 100 / (500 + 500 - 100) = 0,1111 (11,11%). - Índice Novo:
Si = (Trechos Comuns) / (Trechos Doc. A) = 100 / 500 = 0,2 (20%).
Note que o índice antigo pode trazer um erro nas conclusões sobre similaridade, uma vez que não somente 11,11% dos trechos do documento A foram encontrados no documento B. Por outro lado, o resultado numérico do novo índice tem uma interpretação direta da quantidade de termos em comum: 20% dos trechos do documento A foram encontrados no documento B, independentemente do tamanho de B.
Nos exemplos a seguir, lembre-se que o novo índice de similaridade é Si = 20%.
Arquivo candidato maior que o de entrada
Veja o que acontece caso o documento B tenha o dobro do tamanho do documento A, ou seja, 1000 trechos:
- Índice Antigo:
S = (Trechos Comuns) / (Trechos Distintos) = 100 / (500 + 1000 - 100) = 0,0714 (7,14%).
Alguns usuários do CopySpider já poderiam concluir que o índice de semelhança está muito alto e que deve "haver plágio" no documento A.
Arquivo de entrada maior que o candidato
No caso do documento B ter a metade (250 trechos) do tamanho do documento A:
- Índice Antigo:
S = (Trechos Comuns) / (Trechos Distintos) = 100 / (500 + 250 - 100) = 0,1538 (15,38%).
Mais uma vez, alguns usuários ficariam ainda mais preocupados com o alto valor numérico do índice antigo de similaridade, mesmo que os dois exemplos anteriores sejam exatametne iguais do ponto de vista da similaridade do documento A.
Arquivo candidato muito maior que o de entrada
Esse efeito de distorção pode ficar ainda mais evidente. Suponha que o documento B tivesse 10000 trechos:
- Índice Antigo:
S = (Trechos Comuns) / (Trechos Distintos) = 100 / (500 + 10000 - 100) = 0,0096 (0,96%).
Observe como a diferença do tamanho dos arquivos A e B distorce os resultados do índice de semelhança antigo, uma vez que para o mesmo número de termos em comum, o índice antigo determinou resultados que variam de 15,38% a 0,96%. Esse efeito poderia facilmente confundir as conclusões sobre a semelhança dos documentos, principalmente para os usuários que não compreendessem com mais detalhes o funcionamento desse cálculo.
De fato, o novo índice Si permanece constante em todos esses exemplos anteriores, com valor igual a 20%. Isso agrega estabilidade nas interpretações e análises realizadas pelos usuários do CopySpider versão 3.
Vícios no uso do índice antigo
Para demonstrar como vícios no uso do índice antigo de similaridade, muitos usuários teriam concluído que "há plágio" em todos os exemplos anteriores que determinaram S > 3%.
Com efeito de risco ainda maior, estaria no exemplo no qual a semelhança do índice antigo ficou abaixo do limite S < 3%. Esse é um exemplo no qual o usuário poderia concluir que não há nenhuma tarefa adicional e entregar um trabalho com 20% de termos em comum com outro documento na internet. Em outras palavras, são casos assim que poderiam trazer grandes transtornos aos autores que tivessem o trabalho reprovado com o índice antigo com valores numéricos bem baixos.
Vale destacar que o novo índice de similaridade com valor de 20% representa uma similaridade de nível Moderada. Conforme esperado pela Equipe CopySpider, essa nova graduação com qualificadores Baixo, Moderado e Alto ajuda o usuário se desvincular de possíveis vícios antigos, eliminando uma análise que era antes puramente binária, de Aprovado ou Reprovado.
Motivação para a mudança nos índices
Esses exemplos ilustram a motivação da criação do novo índice de semelhança, mais estável e adequado ao que o usuário precisa para poder analisar se existe ou não um problema de plágio.
O novo índice de semelhança está mais alinhado ao "sentimento" de semelhança esperada pelo usuário. Em todos os exemplos anteriores com os documentos A e B, de fato, 20% dos trechos do documento A foram encontrados no documento B, independentemente do tamanho do documento B.
Utilizando o Novo Índice de Agrupamento
De modo complementar aos exemplos anteriores, o novo índice de agrupamento verifica se os 100 trechos em comum possuem uma localização agrupada ou esparsa no documento A. Esse novo recurso do CopySpider promete encontrar semelhança quando apenas um parágrafo é semelhante dentre muitos outros, facilitando a análise do usuário.
Veja um exemplo hipotético com 10 trechos/palavras comuns, retirado da Wikipedia, com diferentes níveis de agrupamento:
- Índice de agrupamento Baixo:
A Wikipédia é um projeto de enciclopédia colaborativa, universal e multilíngue estabelecido na internet sob o princípio wiki. Tem como propósito fornecer um conteúdo livre, objetivo e verificável??, que todos possam editar e melhorar. O projeto é definido pelos princípios fundadores e o conteúdo é disponibilizado sob a licença Creative Commons BY-SA e pode ser reutilizado sob a mesma licença, desde que respeitando os termos de uso. Todos podem publicar conteúdo on-line desde que criem uma conta e sigam as regras básicas, como verificabilidade ou notoriedade.
- Índice de agrupamento Alto:
A Wikipédia é um projeto de enciclopédia colaborativa, universal e multilíngue estabelecido na internet sob o princípio wiki. Tem como propósito fornecer um conteúdo livre, objetivo e verificável??, que todos possam editar e melhorar. O projeto é definido pelos princípios fundadores e o conteúdo é disponibilizado sob a licença Creative Commons BY-SA e pode ser reutilizado sob a mesma licença, desde que respeitando os termos de uso. Todos podem publicar conteúdo on-line desde que criem uma conta e sigam as regras básicas, como verificabilidade ou notoriedade.
Esse novo recurso será útil para os usuários identificarem rapidamente textos com as seguintes características:
- Cópia integral de parágrafos de outros documentos.
- Cópia "mascarada" de parágrafos de outros documentos
- Citações diretas.
- Referências bibliográficas.
Um erro muito comum que encontramos em vídeos e textos da internet afirma o seguinte:
Para enganar um software antiplágio, basta trocar palavras pelos seus sinônimos, preencher trechos com mais palavras, inverter a ordem das frases, etc.
O novo índice de agrupamento é muito poderoso para demonstrar que tais técnicas são ineficientes com o CopySpider, uma vez que o agrupamento dos trechos copiados ainda permanece após a aplicação dessas técnicas de "máscara". Para diminuir artificialmente o índice de agrupamento, o autor fica forçado a praticamente reescrever com suas palavras todo o texto original, o que acaba por eliminar qualquer chance do mesmo ser classificado como cópia e/ou plágio.
Observação: Alguns usuários reclamam que os softwares antiplágio marcam como trechos semelhantes o conteúdo de citações diretas e referências bibliográficas. Essa é uma interpretação errada dos resultados. Para o avaliador, é bastante importante poder identificar tais trechos quando os mesmos foram encontrados em outros documentos, até para que ele possa formar um julgamento se o documento em análise possui, ou não, o problema de plágio.
Conclusões
Os novos índices de semelhança do CopySpider versão 3 corrigem problemas e vícios de nossos usuários, aumentando a qualidade dos resultados ao mesmo tempo que impede problemas derivados de erros de interpretação dos mesmos.
Por fim, é importante ressaltar: a conclusão sobre um documento ter ou não plágio de outros é de inteira responsabilidade do usuário (avaliador) ao analisar os resultados determinados pelo CopySpider.
Referências
Para mais detalhes, Indicamos algumas referências de apoio:
TEIXEIRA, C. M.; CICOGNA, M. A.; MORAIS, M. R. Software para detecção de textos com plágio baseado em busca pela internet. Anuário da Produção de Iniciação Científica Discente, [S.l.], v. 14, n. 24, p. 221-241, 2014. Disponível em: <http://sare.anhanguera.com/index.php/anuic/article/view/7564/1703>. Acesso em: 20 maio 2014.
LYON, C. M.; MALCOLM, J. A.; DICKERSON, R. G. Detecting short passages of similar text in large document collections. 2001. Disponível em: <https://uhra.herts.ac.uk/dspace/bitstream/2299/1695/1/901890.pdf>. Acesso em 20 maio 2014.
Veja também: