Semelhança x Plágio

A técnica do CopySpider de determinação da semelhança entre documentos não pode ser interpretada como uma medida de plágio. Essa afirmação esteve em nosso FAQ desde o início da distribuição do CopySpider.

Para nivelamento, sobre a definição de plágio, indicamos o estudo do conteúdo disponível em plagiarism.org.

A partir da versão 2.6.0, o CopySpider utiliza a combinação de três índices de similaridade:

Índice de similaridade antigo
Novo índice de similaridade
Índice de agrupamento

Esse ítem de nosso FAQ tenta demonstrar como os índices são calculados e apresenta alguns exemplos comparativos. Para mais detalhes de como interpretar os resultados desses índices, veja esse ítem.

Como notação, considere:

Documento de entrada: aquele que você escolhe para análise do CopySpider, principalmente no Modo de Busca na Web.
Documento candidato: aquele que o CopySpider encontra na internet para testar a similaridade com o documento de entrada.

Índice de Similaridade Antigo

O Índice Antigo de Similaridade, agora achamado de antigo, foi utilizado pelo CopySpider até a sua versão 2.5.6. Nessas versões, utilizava-se um limite de 3% para indicar ao usuário que o resultado teria uma chance maior da existência de cópias de trechos entre documentos.

S = (Trechos Comuns) / (Trechos Distintos)

Este limite foi determinado por pesquisas internacionais sobre os temas anti plagiarism (antiplágio) e document similarity (semelhança de documentos). Para mais detalhes, veja as referências ao final dessa página.

A forma de cálculo do índice antigo tem origem nos conceitos de intercessão e união de conjuntos e pode causar confusões, embora o mesmo tenha sido utilizado e aferido em várias pesquisas científicas. Por esse motivo, o mesmo não pode ser desconsiderado.

O índice antigo tem dois problemas a se destacar:

O resultado numérico não tem uma interpretação direta da relação entre a quantidade de termos em comum do documento em análise (documento de entrada).
O índice sofre grandes distorções quando os documentos sendo comparados possuem tamanhos diferentes.

Somado a esses problemas, um erro muito comum dos usuários que utilizavam as versões anteriores é o de interromper a análise apenas com o resultado do índice antigo:

se for abaixo de 3%, "não há plagio".
se for acima de 3%, "há plágio".

Se forma empírica e equivocada, notamos que os usuários criavam dois critérios qualitativos associados ao limite de 3%:

Aprovado (S < 3%).
Reprovado (S > 3%).

Esses problemas e vícios motivaram a Equipe do CopySpider a dimensionar mudanças no software, com o objetivo principal de proteger os usuários do mau uso da ferramenta.

Novo Índice de Similaridade

Na tentativa de mudar o comportamento dos usuários do CopySpider em associar o índice de semelhança com um "índice de plágio", a partir da versão 2.6.0, um Novo Índice de Similaridade (Si) foi criado, mais simples e de interpretação direta de seus resultados numéricos:

Si = (Trechos Comuns) / (Trechos Documento em Análise)

O novo índice tem uma relação direta com o resultado numérico apresentado. Por exemplo, Si = 10% significa que 10 em cada 100 trechos do documento de entrada foram encontrados no documento candidato.

Para esse novo índice, o CopySpider passa a classificar a semelhança em três categorias:

Baixa: (Si < 10%)
Moderada: (10% ≤ Si < 30%)
Alta: (30% ≤ Si)

Note que, em comparação ao Índice Antigo, a classificação qualitativa agora oferece um nível intermediário. Embora no início isso possa preocupar alguns usuários, com o tempo é fácil notar que essa melhoria elimina o caráter "binário" da classificação dos resutlados.

Sugere-se que a análise dos itens do relatório siga a ordem dos índices em Alto, Moderado e Baixo, não deixando de verificar os casos com semelhança menos expressivas.

Índice de Agrupamento

Um novo Índice de Agrupamento (Sg) foi criado para complementar os resultados obtidos com o novo índice de similaridade. Esse índice classifica, utilizando as mesmas categorias de semelhança, se os termos comuns estão dispersos ou agrupados. O objetivo é ajudar o usuário ter uma rápida resposta se os termos comuns estão ou não agrupados, uma vez que o agrupamento normalmente indica maiores chances de existir cópia entre os documentos.

Exemplos de Comparação dos Índices

Para se ter uma ideia do comportamento dos novos índices em relação ao antigo, considere, por exemplo, um documento A (de entrada) com 500 trechos e outro documento B (candidato encontrado na Internet). Considere que a comparação dos trechos de cada documento determinou que apenas 100 deles são comuns, ou seja, 100 termos do documento A foram encontrados no Documento B.

Os exemplos a seguir vão comparar os índices novo e antigo, variando-se o tamanho do documento B.

Arquivos com tamanhos próximos

Suponha que o documento B tenha o mesmo tamanho do documento A, ou seja, 500 trechos:

Índice Antigo:
S = (Trechos Comuns) / (Trechos Distintos) = 100 / (500 + 500 - 100) = 0,1111 (11,11%).
Índice Novo:
Si = (Trechos Comuns) / (Trechos Doc. A) = 100 / 500 = 0,2 (20%).

Note que o índice antigo pode trazer um erro nas conclusões sobre similaridade, uma vez que não somente 11,11% dos trechos do documento A foram encontrados no documento B. Por outro lado, o resultado numérico do novo índice tem uma interpretação direta da quantidade de termos em comum: 20% dos trechos do documento A foram encontrados no documento B, independentemente do tamanho de B.

Nos exemplos a seguir, lembre-se que o novo índice de similaridade é Si = 20%.

Arquivo candidato maior que o de entrada

Veja o que acontece caso o documento B tenha o dobro do tamanho do documento A, ou seja, 1000 trechos:

Índice Antigo:
S = (Trechos Comuns) / (Trechos Distintos) = 100 / (500 + 1000 - 100) = 0,0714 (7,14%).

Alguns usuários do CopySpider já poderiam concluir que o índice de semelhança está muito alto e que deve "haver plágio" no documento A.

Arquivo de entrada maior que o candidato

No caso do documento B ter a metade (250 trechos) do tamanho do documento A:

Índice Antigo:
S = (Trechos Comuns) / (Trechos Distintos) = 100 / (500 + 250 - 100) = 0,1538 (15,38%).

Mais uma vez, alguns usuários ficariam ainda mais preocupados com o alto valor numérico do índice antigo de similaridade, mesmo que os dois exemplos anteriores sejam exatamente iguais do ponto de vista da similaridade do documento A.

Arquivo candidato muito maior que o de entrada

Esse efeito de distorção pode ficar ainda mais evidente. Suponha que o documento B tivesse 10000 trechos:

Índice Antigo:
S = (Trechos Comuns) / (Trechos Distintos) = 100 / (500 + 10000 - 100) = 0,0096 (0,96%).

Observe como a diferença do tamanho dos arquivos A e B distorce os resultados do índice de semelhança antigo, uma vez que para o mesmo número de termos em comum, o índice antigo determinou resultados que variam de 15,38% a 0,96%. Esse efeito poderia facilmente confundir as conclusões sobre a semelhança dos documentos, principalmente para os usuários que não compreendessem com mais detalhes o funcionamento desse cálculo.

De fato, o novo índice Si permanece constante em todos esses exemplos anteriores, com valor igual a 20%. Isso agrega estabilidade nas interpretações e análises realizadas pelos usuários do CopySpider versão 3.

Vícios no uso do índice antigo

Para demonstrar como vícios no uso do índice antigo de similaridade, muitos usuários teriam concluído que "há plágio" em todos os exemplos anteriores que determinaram S > 3%.

Com efeito ainda mais danoso ao usuário, destaca-se o exemplo no qual a semelhança do índice antigo ficou abaixo do limite S < 3%. Esse é um exemplo no qual o usuário poderia concluir que não há nenhuma tarefa adicional e aprovar um trabalho com 20% de termos em comum com outro documento na internet. Em outras palavras, são casos assim que poderiam trazer grandes transtornos aos autores que tivessem o trabalho reprovado, em etapas externas ao CopySpider, com o índice antigo apresentando valores numéricos baixos.

Vale destacar que o novo índice de similaridade com valor de 20% representa uma similaridade de nível Moderada. Conforme esperado pela Equipe CopySpider, essa nova graduação com qualificadores Baixo, Moderado e Alto ajuda o usuário se desvincular de possíveis vícios antigos, eliminando uma análise que era antes puramente "binária": Aprovado ou Reprovado.

Motivação para a mudança nos índices

Esses exemplos ilustram a motivação da criação do novo índice de semelhança, mais estável e adequado ao que o usuário precisa para poder analisar se existe ou não um problema de plágio.

O novo índice de semelhança está mais alinhado ao "sentimento" de semelhança esperada pelo usuário. Em todos os exemplos anteriores com os documentos A e B, de fato, 20% dos trechos do documento A foram encontrados no documento B, independentemente do tamanho do documento B.

Novas Cores para Apresentar Semelhança

A partir da versão 3.3.0, as marcações de termos comuns possuem duas cores, as quais estão diretamente relacionadas aos dois novos índices de semelhança:

Amarelo: termos em comum que fazem parte do cálculo do Novo Índice de Semelhança (Si).
Vermelho: termos em comum que estão agrupados, fazendo parte do cálculo do Índice de Agrupamento (Sg).

Veja um exemplo de como funcionam as cores na identificação dos padrões de semelhança.

Arquivo de entrada
Esse é apenas um texto de exemplo para demonstrar a identificação de termos semelhantes, quando estão (ou não) agrupados.
Arquivo candidato
Para demonstrar a identificação de falhas em setores da mídia de armazenamento, durante o treinamento das equipes de análise de consistência de dados, quando os mesmos ocorrem com certa frequência, é importante preparar um relatório de falhas. Logo, não se deve ter como única fonte de análise apenas um texto de exemplo do sistema de log quando os primeiros arquivos forem marcados como corrompidos.

Note que no exemplo os trechos semelhantes não caracterizam cópia devido ao fato de não haver agrupamento dos mesmos no documento candidato. Em versões anteriores à versão 3.3.0, esses trechos seriam marcados com a cor vermelha, o que não ajudava o usuário no processo de análise de semelhanças.

Importante: os trechos marcados com a cor amarela são comuns aos dois documentos, mas não aparecem agrupados. Portanto, são apenas trechos comuns da língua ou do assunto em análise, não devendo ser interpretados como cópia e/ou plágio.

Utilizando o Novo Índice de Agrupamento

De modo complementar aos exemplos anteriores, o novo índice de agrupamento verifica se os 100 trechos em comum possuem uma localização agrupada ou esparsa no documento A. Esse novo recurso do CopySpider promete encontrar semelhança quando apenas um parágrafo é semelhante dentre muitos outros, facilitando a análise do usuário.

Veja um exemplo hipotético com 10 trechos/palavras comuns, retirado da Wikipedia, com diferentes níveis de agrupamento:

Índice de Agrupamento Baixo:
A Wikipédia é um projeto de enciclopédia colaborativa, universal e multilíngue estabelecido na internet sob o princípio wiki. Tem como propósito fornecer um conteúdo livre, objetivo e verificável?, que todos possam editar e melhorar. O projeto é definido pelos princípios fundadores e o conteúdo é disponibilizado sob a licença Creative Commons BY-SA e pode ser reutilizado sob a mesma licença, desde que respeitando os termos de uso. Todos podem publicar conteúdo on-line desde que criem uma conta e sigam as regras básicas, como verificabilidade ou notoriedade.
Índice de Agrupamento Moderado:
A Wikipédia é um projeto de enciclopédia colaborativa, universal e multilíngue estabelecido na internet sob o princípio wiki. Tem como propósito fornecer um conteúdo livre, objetivo e verificável?, que todos possam editar e melhorar. O projeto é definido pelos princípios fundadores e o conteúdo é disponibilizado sob a licença Creative Commons BY-SA e pode ser reutilizado sob a mesma licença, desde que respeitando os termos de uso. Todos podem publicar conteúdo on-line desde que criem uma conta e sigam as regras básicas, como verificabilidade ou notoriedade.
Índice de Agrupamento Alto:
A Wikipédia é um projeto de enciclopédia colaborativa, universal e multilíngue estabelecido na internet sob o princípio wiki. Tem como propósito fornecer um conteúdo livre, objetivo e verificável?, que todos possam editar e melhorar. O projeto é definido pelos princípios fundadores e o conteúdo é disponibilizado sob a licença Creative Commons BY-SA e pode ser reutilizado sob a mesma licença, desde que respeitando os termos de uso. Todos podem publicar conteúdo on-line desde que criem uma conta e sigam as regras básicas, como verificabilidade ou notoriedade.

Características que são rapidamente identificadas

Esse novo recurso será útil para os usuários identificarem rapidamente textos com as seguintes características:

Cópia integral de parágrafos de outros documentos.
Cópia "mascarada" de parágrafos de outros documentos.
Citações indiretas copiadas de outros documentos.
Citações diretas corretamente formatadas.
Referências bibliográficas.

Observação: alguns usuários reclamam que os softwares antiplágio (veja, não somente o CopySpider) marcam como trechos semelhantes o conteúdo de citações diretas e referências bibliográficas. Essa é uma interpretação errada dos resultados desses softwares. Para o avaliador é bastante importante poder identificar tais trechos quando os mesmos foram encontrados em outros documentos, até para que ele possa formar um julgamento se o documento em análise possui, ou não, o problema de plágio.

Técnicas de dissimulação de softwares antiplágio

Um erro muito comum que encontramos em vídeos e textos da internet afirma o seguinte:

Para enganar um software antiplágio, basta trocar palavras pelos seus sinônimos, preencher trechos com mais palavras, inverter a ordem das frases, etc.

O novo índice de agrupamento é muito poderoso para demonstrar que tais técnicas são ineficientes com o CopySpider, uma vez que o agrupamento dos trechos copiados ainda permanece em níveis Moderado ou Alto após a aplicação dessas técnicas de "máscara".

Para diminuir, artificialmente, o índice de agrupamento, o autor fica forçado a praticamente reescrever com suas próprias palavras todo o texto copiado, o que acaba por eliminar qualquer chance do conteúdo ser classificado como cópia e/ou plágio do documento original.

Considerações Finais

Os novos índices de semelhança do CopySpider versão 3 corrigem problemas e vícios de nossos usuários, aumentando a qualidade da análise dos resultados, ao mesmo tempo que impede problemas derivados de erros de interpretação do funcionamento do software.

Por fim, é importante ressaltar: a conclusão sobre um documento ter ou não plágio de outros é de inteira responsabilidade do usuário (avaliador) ao analisar os resultados determinados pelo CopySpider.

Referências

Para mais detalhes, Indicamos algumas referências de apoio:

TEIXEIRA, C. M.; CICOGNA, M. A.; MORAIS, M. R. Software para detecção de textos com plágio baseado em busca pela internet. Anuário da Produção de Iniciação Científica Discente, [S.l.], v. 14, n. 24, p. 221-241, 2014. Disponível em: <http://sare.anhanguera.com/index.php/anuic/article/view/7564/1703>. Acesso em: 20 maio 2014.

LYON, C. M.; MALCOLM, J. A.; DICKERSON, R. G. Detecting short passages of similar text in large document collections. 2001. Disponível em: <https://uhra.herts.ac.uk/dspace/bitstream/2299/1695/1/901890.pdf>. Acesso em 20 maio 2014.

Veja também:

Plágio e Citações

Como interpretar os índices de semelhança?

Variação nos resultados de semelhança

Ajuda: Analisando o resultado do CopySpider