Em linhas gerais, o CopySpider tem seu funcionamento descrito pelo seguinte processo:
- Fingerprinting.
- Web search.
- Web links filter.
- Download of candidates.
- Collusion analysis.
- Reports.
Para entender cada um dos passos, apresentamos uma descrição com mais informações sobre o processo de funcionamento do CopySpider.
- Fingerprinting
Ao receber um documento de entrada para ser testado, o CopySpider analisa todo o documento e cria uma estrutura de dados com informações relevantes e que serão utilizadas no processo de busca por documentos semelhantes. Esta técnica de análise recebe o nome de fingerprinting. Quanto mais representativo for o fingerprint de um documento, mais ágil e precisa será a busca por documentos semelhantes, propiciando a descoberta de cópias indevidas.
- Web search
De posse do fingerprint do documento de entrada, o CopySpider realiza uma série de consultas na internet. Cada consulta é analisada e seus resultados são armazenados numa segunda estrutura de dados, que recebe o nome de web links filter.
- Web links filter
De posse dos web links, o CopySpider aplica um filtro de seleção dos mais relevantes, identificando nos resultados quais são os documentos que possuem a maior chance de serem semelhantes ao documento de entrada.
- Download of candidates
Para cada documento candidato, o CopySpider tenta realizar o download do mesmo.
- Collusion analysis
De posse dos documentos candidatos, o CopySpider realiza um segundo processo de comparação, aplicando uma técnica denominada de collusion analysis. Este segundo passo de comparação é muito rápido, pois os documentos candidatos e o de entrada estão com suas informações em memória. Esta etapa determina um diferencial importante do CopySpider, pois aumenta-se a precisão da identificação de semelhanças dos resultados. Esta segunda comparação, detalhada, rápida, realizada em memória, não compromete o tempo computacional total.
- Reports
Por fim, o CopySpider monta relatórios com marcação em cores dos trechos do documento de entrada que foram encontrados em outros documentos (candidatos). É neste ponto que o usuário do software pode tomar as suas decisões sobre classificar o documento em teste como tendo, ou não, trechos que são cópias ou com referências incorretas.
Veja também:
- Qual o percentual aceitável para ser considerado plágio?
- Qual o tempo de verificação de um documento?