Teste de duplicidades parciais

Informações do conceito

Comando FUZZYDUP

É possível testar um campo de caracteres na tabela ativa para detectar se existem valores quase idênticos (duplicidades parciais). Como opção, você pode incluir valores idênticos (duplicidades exatas) nos resultados de saída, assim como valores quase idênticos.

Uma mensagem aparece no log se um ou mais grupos de duplicidades parciais nos resultados de saída atinge o tamanho máximo. Para obter mais informações, consulte Controlando o tamanho dos resultados de duplicidades parciais.

Aumento da eficácia do teste de duplicidades parciais

Você pode aprimorar significativamente a eficácia do teste de duplicidades parciais incorporando uma ou mais das seguintes técnicas:

  • ordenação de elementos individuais em valores de campos de teste
  • remoção de elementos genéricos dos valores de campos de teste
  • concatenação de campos de teste

Para obter mais informações, consulte Funções do ajudante de duplicidades parciais e Concatenação de campos.

Redução do tempo de execução e do tamanho dos resultados de saída

O recurso de duplicidades parciais utiliza bastante o processador, pois cada valor em um campo de teste precisa ser comparado com cada valor subsequente no campo.

Se sua análise permitir, use métodos como filtragem ou extração de subconjuntos de registros para limitar o tamanho do conjunto de dados testado. Conjuntos de dados menores reduzem o tempo geral de execução e também ajudam a controlar o tamanho dos resultados de saída.

Etapas

Nota

Informações detalhadas são exibidas após as etapas. Consulte Opções da caixa de diálogo Duplicidades parciais.

  1. Selecione Analisar > Duplicidades parciais.
  2. Na guia Principal, realize uma das seguintes ações:
    • Selecione o campo para teste na lista suspensa Duplicidades parciais em.
    • Clique em Duplicidades parciais em para selecionar o campo ou criar uma expressão.

      Dica

      A criação de uma expressão é a forma como você concatena campos de teste, remove elementos genéricos dos valores de campos de teste ou ordena elementos individuais em valores de campos de teste. Para obter mais informações, consulte Funções do ajudante de duplicidades parciais e Concatenação de campos.

  3. Opcional. Selecione um ou mais campos em Listar Campos para incluir qualquer campo adicional nos resultados de saída, ou clique em Listar Campos para selecionar campos, Adicionar tudo ou criar uma expressão.

    Campos adicionais podem fornecer contexto útil para os resultados e ajudar a verificar se as duplicidades parciais referenciam a mesma entidade real.

    Nota

    O campo selecionado para teste de duplicidades parciais é exibido automaticamente no começo de todo registro de resultados e não precisa ser selecionado especificamente em Listar campos.

  4. Especifique um Limite de diferença para controlar o valor da diferença entre duplicidades parciais.

    A configuração é explicada abaixo.

  5. Execute uma das seguintes ações:
    • Especifique uma Porcentagem de diferença para controlar a porcentagem com a qual cada duplicidade parcial pode ser diferente.
    • Desmarque Porcentagem de diferença para desativá-la.

    A configuração é explicada abaixo.

  6. Execute uma das seguintes ações:
    • Especifique um Tamanho do resultado (%) para definir o tamanho máximo do conjunto de resultados relativos ao tamanho do campo de teste.
    •  Desmarque Tamanho do resultado (%) para desativá-lo.

    A configuração é explicada abaixo.

  7. Se desejar incluir duplicidades exatas, assim como duplicidades parciais, nos resultados de saída, selecione Incluir Duplicidades Exatas.

    Para obter mais informações, consulte Como as duplicidades parciais são agrupadas.

  8. Se existirem registros na exibição atual que você desejar excluir do processamento, insira uma condição na caixa de texto Se ou clique em Se para criar uma instrução IF usando o Construtor de expressões.

    A instrução IF considera todos os registros na exibição e filtra aqueles que não atendem à condição especificada.

  9. Se você estiver conectado a uma tabela do servidor, execute uma das seguintes ações:
    • Selecione Local para salvar a tabela de saída na mesma localização que o projeto ou para especificar um caminho ou navegar para uma pasta local diferente.
    • Deixe Local desmarcado para salvar a tabela de saída na pasta Prefixo em um servidor.
    • Nota

      Para obter resultados de saída produzidos da análise ou do processamento das tabelas do servidor do Analytics Exchange, selecione Local. Não é possível desmarcar a configuração Local para importar tabelas de resultados para o Analytics Exchange.

  10. Execute uma das seguintes ações:
    • Na caixa de texto Para, especifique o nome da tabela do Analytics que conterá os resultados de saída.
    • Clique em Para e selecione uma tabela existente na caixa de diálogo Salvar ou Salvar arquivo como para substituir ou anexar à tabela.

    Você também pode especificar um caminho do arquivo absoluto ou relativo ou navegar para uma pasta diferente para salvar ou anexar a tabela em uma localização diferente da localização do projeto. Por exemplo: C:\Resultados\Saída.fil ou Resultados\Saída.fil.

    Independentemente de onde você salvar ou anexar a tabela, ela será adicionada ao projeto aberto se já não estiver no projeto.

    Se o Analytics preencher um nome de tabela, você poderá aceitar o nome preenchido ou alterá-lo.

    Nota

    Os nomes de tabela do Analytics são limitados a 64 caracteres alfanuméricos, sem contar a extensão .FIL. O nome pode incluir o caractere de sublinhado ( _ ) mas nenhum outro caractere especial e nenhum espaço. O nome não pode começar com um número.

  11. Selecione Usar tabela de saída se você quiser que a tabela de saída seja aberta automaticamente após a conclusão da operação.

  12. Clique em OK.
  13. Se o prompt de substituição aparecer, selecione a opção adequada.

Opções da caixa de diálogo Duplicidades parciais

A tabela abaixo fornece informações detalhadas sobre as opções da caixa de diálogo Duplicidades parciais.

Opções – Caixa de diálogo Duplicidades parciais Descrição
Limite de diferença

O valor permitido de diferença entre duplicidades parciais.

Especifique um número de 1 a 10. Aumentar o Limite de Diferença aumenta o número de caracteres que pode diferir entre pares de duplicidades parciais, o que aumenta o tamanho dos resultados.

Para obter mais informações, consulte Como as configurações diferenciais funcionam.

Porcentagem de diferença

A porcentagem de cada duplicidade parcial pode ser diferente.

Especifique uma porcentagem de 1 a 99. Aumentar a Porcentagem de Diferença aumenta a porcentagem com a qual uma duplicidade parcial pode ser diferente, o que aumenta o tamanho dos resultados.

Se você desativar a Porcentagem de Diferença, os resultados de saída não levarão em consideração a porcentagem de uma duplicidade parcial que seja diferente. Os resultados serão maiores do que ao usar Porcentagem de Diferença com qualquer configuração.

Para obter mais informações, consulte Como as configurações diferenciais funcionam.

Tamanho do resultado (%)

O tamanho máximo dos resultados em relação ao tamanho do campo de teste.

Especifique uma porcentagem de 1 a 1000 (mil). Essa opção permite que você encerre a operação de duplicidades parciais automaticamente, caso o tamanho do conjunto de resultados ultrapasse o que você considera útil.

Por exemplo, para um teste com 50.000 valores, um Tamanho do resultado (%) de 1 encerrará o processo se o conjunto de resultados ultrapassar 500 duplicidades parciais. Nenhuma tabela de saída será produzida se a operação for encerrada.

Se desativar o Tamanho do resultado (%), o Analytics não impõe nenhum limite no tamanho dos resultados.

Cuidado

Desativar o Tamanho do resultado (%) pode produzir conjuntos de dados indevidamente grandes que levam muito tempo para serem processados ou exceder a capacidade de memória, o que encerra o processamento. Desative essa opção apenas se estiver confiante de que o conjunto de resultados terá um tamanho gerenciável.

Para obter mais informações, consulte Controlando o tamanho dos resultados de duplicidades parciais.