あいまい重複分析

あいまい重複は、実体としては同一の可能性があるほぼ同一の文字値です。たとえば、以下の 4 つの値はすべて同じ会社である可能性があります。

  • Intercity Couriers
  • Inter-city Couriers
  • Intercity Couriers Inc.
  • Intrecity Couriers

あいまい重複の原因としてよく挙げられるのは、タイプミスやスペルミス、データの書式設定の相違、および異なるデータ入力規則などのデータ入力エラーです。ほぼ同一の値を意図的に作成することは、不正を意味する可能性があります。あいまい重複は、一貫性のある実体を基準とするデータに依存するデータ分析の妨げになります。

曖昧結合と曖昧重複

曖昧重複機能は、単一の Analytics テーブルの単一のフィールドの値を分析します。曖昧一致を使用するには、2 つの Analytics テーブルのフィールドを組み合わせて、新しい 3 番目のテーブルにします。曖昧結合を参照してください。

機能の仕組み

Analytics のあいまい重複では、テーブルの特定の文字フィールドをテストし、フィールドに含まれるあいまい重複を特定できます。出力結果は、指定した相違の度合いに基づいてあいまい重複をグループ化します。相違の度合いを調整すると、出力グループの数とサイズ、グループ メンバー間の相違の量を制御できます。

あいまい重複グループ メンバーが実際に同一のエンティティを参照しているかどうかを確認するには、テスト フィールド以外のフィールドの重複テストといった追加の分析を実行しなければならない場合もあります。

メモ

あいまい重複の検査は、厳密な重複の特定よりも複雑です。あいまい重複間の相違の度合いを制御する設定や、あいまい重複を出力結果でどのようにグループ化するかを制御する設定を理解しておけば、この機能を最大限に利用することができます。

あいまい重複の出力結果

以下は、あるテーブルの Last Name フィールドに対してあいまい重複の検査を実行した出力結果の例です。

出力結果は、236 として特定されたグループに配置されます。各グループの先頭にあるあいまい重複の元のレコード番号は、グループの識別に使用されます。たとえば、"Janson" は元のテーブルでレコード番号 3 の名前です。この "Janson" は元のテーブルのレコード順序に従い、グループ内で 1 番目の値となるため、そのグループは "グループ 3" として分類されます。詳細については、あいまい重複をグループ化する方法を参照してください。

あいまい重複機能は文字に基づく比較を使用します。

2 つの値を比較する場合、あいまい重複機能は単語ベースではなく文字ベースでの比較を実行します。この機能では、単語間の空白やスペースを文字として扱い、個々の単語間を区別しません。値内の単語数に関係なく、その値を切れ目のない単独文字列として扱います。

この方法の実装は、データの性質や[あいまい重複]ダイアログ ボックスで指定した設定の違いによって、人間の目にはあいまい重複と思われる値でも出力結果に含まれない可能性があります。

次の名前を考えます。

  • "JW Smith" と "John William Smith"
  • "Diamond Tire" と "Diamond Tire & Auto"

1 番目の例は、同じ名前の 2 つのバージョンで、ファースト ネームとミドル ネームを頭文字で略したものと、略さずに記述したものです。2 番目の例は、会社名を短いバージョンと長いバージョンで記述しています。

これらのペアはいずれも、相違の設定をかなりゆるくしないとあいまい重複として出力されません。設定をゆるくすることは、多くの誤検知も出力されてしまう弊害も生じます。

あいまい重複機能は、例に挙げたそれぞれのペアを単純に 2 つの文字列として処理します。それぞれの例で、対となる 2 つの文字列の長さは大きく異なるので、文字レベルで判断すると、文字列は互いに大きく異なります。

詳細については、設定による動作の違いを参照してください。

あいまい重複分析の効果の改善

目的の結果を得るには、あいまい重複の主機能に加え、テスト データ セットのサイズの制限、あいまい重複のヘルパー関数の使用、検査フィールドの連結が必要となる場合もあります。

次の表は、あいまい重複分析の効果を改善するためのさまざまな手法についてまとめています。

ヘルパー関数の詳細については、あいまい重複のヘルパー関数を参照してください。

手法

Analytics 機能

詳細

検査するデータ セットのサイズを制限する

フィルター

データのサブセットを抽出

分析対象として有効なレコードのみを処理することで実行時間を短縮する

テスト フィールド値の個別の要素を並べ替える

SORTWORDS( ) 関数

テスト値の個別の要素の物理的な配置の重要度を最小化することで、結果のサイズを減らし、精度を高める

メモ

あいまい重複機能は文字に基づく比較を使用しますが、テスト値の単語または要素を並べ替えると、比較対象の文字列の間により関連性を持たせながら文字を配置することができます。

テスト フィールド値から汎用要素を削除する

OMIT( ) 関数

意味のある相違が生じる可能性があるテスト値の部分のみを分析の対象とすることで、サイズを減らし、結果の精度を高める

テスト値の一意性を高めるためにフィールドを連結する

加算演算子(+)を使用した Analytics 式

テストする値の一意性を高めることで、サイズを減らし、結果の精度を高める(一意性を高める値は、2 つ以上のフィールドを連結することで生成できます)

あいまい重複出力結果で、特定の値のあいまい重複の単一かつ網羅的なリストを生成する

ISFUZZYDUP( ) 関数

分析の目的に特に関連の深い出力値を対象に、あいまい重複の便利で完全な一覧を生成する

テスト フィールドの並べ替えが必要かどうか

あいまい重複のフィールドをテストするために、フィールドを並べ替える必要はありません。テストの前にテスト フィールドでテーブルを並べ替えても、あいまい重複処理の効果が上がることはありません。ただし、出力結果を見やすくするため、また[あいまい重複]ダイアログ ボックスには[あらかじめ並べ替える]オプションがないことから、事前に検査フィールドを並べ替えてもよいでしょう。

メモ

テスト フィールド値を並べ替えても効果は上がりませんが、住所などの複数の要素を含むフィールド値の個別の要素を並べ替えると、効果が大幅に向上することがあります。詳細については、あいまい重複のヘルパー関数を参照してください。

完全な重複を含める

あいまい重複を検査する場合、出力結果に完全な重複も含めることができます。完全な重複のみを検索することが目的であれば、"重複の検索" 機能を使用してください。詳細については、重複の検査を参照してください。