あいまい重複のヘルパー関数

Analytics の 次の 2 つの関数を使用すると、あいまい重複機能がより効果を発揮します。

  • SORTWORDS( )
  • OMIT( )

2 つの関数は別々に使用するか組み合わせて使用できます。

3 つ目の関数 ISFUZZYDUP( ) では、フィールド全体ではなく、特定の値のあいまい重複を特定できます。

SORTWORDS 関数

あいまい重複機能を使用するときには、SORTWORDS( ) 関数を使用して、テスト フィールド値の個別の要素を連続する順序に並べ替える式または演算フィールドを作成します。

住所の構成要素などの要素を並べ替えると、あいまい重複比較における要素の物理位置の重要度が低下します。結果として、効果が改善され、大幅に低い相違のしきい値を使用し、誤検出が少なく、絞り込まれた小さい結果セットを生成できます。

詳細については、SORTWORDS( ) 関数を参照してください。[相違のしきい値]の詳細については、設定による動作の違いを参照してください。

SORTWORDS( ) の概要を説明する動画については、「Fuzzy Matching Using SORTWORDS()」(英語のみ)をご覧ください。

次の 2 つの値では、22 以上の相違のしきい値をあいまい重複出力結果に含める必要があります。

  • 125 SW 39TH ST, Suite 100
  • Suite 100, 125 SW 39TH ST

許可される最大の相違のしきい値は 10 であるため、あいまい重複機能は 2 つの値を相互のあいまい重複として特定しません。それらは明確に同じ住所です。

対照的に、SORTWORDS( ) を使用して、個別の住所の要素を並べ替える式または演算フィールドを作成する場合、相違のしきい値 2 のみが 2 つの住所を相互のあいまい重複として返します。

  • 100 125 39TH ST, SW Suite
  • 100, 125 39TH ST SW Suite

OMIT 関数

あいまい重複機能を使用するときには、OMIT( ) 関数を使用して、テスト フィールド値から汎用要素を削除する式または演算フィールドを作成します。

ハイフン、カンマ、数値記号、"Inc."、"Street"、"St." などの単語や略語といった要素を削除すると、あいまい重複比較が、有意な相違が発生する可能性があるテスト値の部分にのみ集中します。結果として、効果が改善され、大幅に低い相違のしきい値を使用し、誤検出が少なく、絞り込まれた小さい結果セットを生成できます。

詳細については、OMIT( ) 関数を参照してください。[相違のしきい値]の詳細については、設定による動作の違いを参照してください。

次の 2 つの値では、8 以上の相違のしきい値をあいまい重複出力結果に含める必要があります。

  • Intercity Couriers Corporation
  • Inter-city Couriers Corp.

相違のしきい値 8 では、焦点が定まらない大きな結果のセットが生成され、その結果のほとんどが誤検出となるでしょう。ただし、相違のしきい値では、2 つの値が相互のあいまい重複として検出されないようにすることができます。

対照的に、OMIT( ) を使用して、"Corporation" や "Corp." などの汎用要素を削除する式または演算フィールドを作成する場合、相違のしきい値 1 のみが 2 つの名前を相互のあいまい重複として返します。

  • Intercity Couriers
  • Inter-city Couriers

ISFUZZYDUP 関数

あいまい重複機能を使用して結果を確認後、ISFUZZYDUP( ) 関数を使用し、結果の特定の値に対するあいまい重複の単一かつ完全な一覧を出力することができます。分析目標に特に関連していると思われる値に対して、この追加のステップを実施できます。

「網羅的」とは、検査値から指定された相違の度合いの範囲内であれば、検査値に関連する検査フィールド内の位置に関係なく、すべての値が返されることを意味します。

設計では、あいまい重複機能は、網羅的ではないグループの出力結果を整理します。結果は全体として網羅的ですが、個々のグループはそうでない場合もあります。このアプローチでは、出力結果が大きくなりすぎて管理できなくなる状況を防止できます。

完全でないグループでも、分析の目的を果たしている可能性があります。そうでない場合は、ISFUZZYDUP( ) を使用して、個々の値に対する完全な結果を生成することができます。

詳細については、ISFUZZYDUP( ) 関数を参照してください。完全でないグループの詳細については、あいまい重複をグループ化する方法を参照してください。