Funções do ajudante de duplicidades parciais

Duas funções do Analytics ajudam a tornar as duplicidades parciais mais eficientes:

  • SORTWORDS( )
  • OMIT( )

Você pode usar as duas funções separadamente ou combinadas.

Uma terceira função, ISFUZZYDUP( ), oferece a opção de identificar duplicidades parciais para um valor específico em vez de para um campo inteiro.

Função SORTWORDS

Ao usar o recurso de duplicidades parciais, use a função SORTWORDS( ) para criar uma expressão ou um campo calculado que ordena sequencialmente elementos individuais em valores de campos de teste.

A ordenação de elementos, como os componentes de um endereço, reduz a importância da posição física dos elementos em comparações de duplicidades parciais. A maior eficácia obtida permite usar um valor muito menor de Limite de diferença e produzir um conjunto de resultados mais concentrado e menor, contendo menos falsos positivos.

Para obter informações detalhadas, consulte Função SORTWORDS( ). Para obter mais informações sobre o Limite de diferença, consulte Como as configurações diferenciais funcionam.

Para ver um vídeo com uma visão geral de SORTWORDS( ), consulte Correspondência parcial usando SORTWORDS() (somente em inglês).

Exemplo

Os dois valores seguintes exigiriam um Limite de diferença de pelo menos 22 para serem incluídos nos resultados de saída de duplicidades parciais:

  • 125 SW 39TH ST, Suite 100
  • Suite 100, 125 SW 39TH ST

O maior Limite de diferença permitido é 10. Portanto, o recurso de duplicidades parciais nunca identificaria os dois valores como duplicidades parciais entre si. No entanto, eles são claramente o mesmo endereço.

Em comparação, se você usar SORTWORDS( ) para criar uma expressão ou um campo calculado que ordena elementos de endereço individuais, um Limite de diferença de apenas 2 seria necessário para retornar os dois endereços como duplicidades parciais entre si:

  • 100 125 39TH ST, SW Suite
  • 100, 125 39TH ST SW Suite

Função OMIT

Ao usar o recurso de duplicidades parciais, use a função OMIT( ) para criar uma expressão ou um campo calculado que remove elementos genéricos dos valores dos campos de teste.

A remoção de elementos como símbolos de hifens, vírgulas e sinais, ou de palavras ou abreviações, como "Inc.", "Rua" ou "R.", concentra as comparações de duplicidades parciais somente na parte dos valores de teste em que uma diferença significativa pode ocorrer. A maior eficácia obtida permite usar um valor muito menor de Limite de diferença e produzir um conjunto de resultados mais concentrado e menor, contendo menos falsos positivos.

Para obter informações detalhadas, consulte Função OMIT( ). Para obter mais informações sobre o Limite de diferença, consulte Como as configurações diferenciais funcionam.

Exemplo

Os dois valores seguintes exigem um Limite de diferença de pelo menos 8 para serem incluídos nos resultados de saída de duplicidades parciais:

  • Intercity Couriers Corporation
  • Inter-city Couriers Corp.

Um Limite de diferença de 8 poderia produzir um conjunto de resultados grandes e não concentrado, com muitos falsos positivos. No entanto, um Limite de diferença menor faria com que os dois valores não fossem detectados como duplicidades parciais entre si.

Em comparação, se você usar OMIT( ) para criar uma expressão ou campo calculado que remove elementos genéricos como "Companhia" e "Comp.", um Limite de diferença de apenas 1 retornaria os dois nomes como duplicidades parciais entre si:

  • Intercity Couriers
  • Inter-city Couriers

Função ISFUZZYDUP

Após usar o recurso de duplicidade parcial e revisar os resultados, é possível usar a função ISFUZZYDUP( ) para produzir uma única lista exaustiva de duplicidades parciais para um valor específico nos resultados. Você pode executar essa etapa adicional para valores que parecem ter relevância especial para o objetivo da análise.

Exaustiva significa que todos os valores dentro do grau especificado de diferença do valor de teste são retornados, independentemente de sua posição no campo de teste relativo ao valor de teste.

Por projeto, o recurso de duplicidades parciais organiza os resultados de saída em grupos não exaustivos. Os resultados, no total, são exaustivos, mas os grupos individuais podem ou não ser exaustivos. Essa abordagem evita que os resultados de saída sejam muito grandes e não gerenciáveis.

Os grupos não exaustivos podem ser suficientes para o objetivo da sua análise. Se não forem, é possível usar ISFUZZYDUP( ) para produzir resultados exaustivos para valores individuais.

Para obter informações detalhadas, consulte Função ISFUZZYDUP( ). Para obter mais informações sobre grupos não exaustivos, consulte Como as duplicidades parciais são agrupadas.