あいまい重複分析

あいまい重複は、実体としては同一の可能性があるほぼ同一の文字値です。たとえば、以下の 4 つの値はすべて同じ会社である可能性があります。

Intercity Couriers
Inter-city Couriers
Intercity Couriers Inc.
Intrecity Couriers

あいまい重複の原因としてよく挙げられるのは、タイプミスやスペルミス、データの書式設定の相違、および異なるデータ入力規則などのデータ入力エラーです。ほぼ同一の値を意図的に作成することは、不正を意味する可能性があります。あいまい重複は、一貫性のある実体を基準とするデータに依存するデータ分析の妨げになります。

曖昧結合と曖昧重複

曖昧重複機能は、単一の Analytics テーブルの単一のフィールドの値を分析します。曖昧一致を使用するには、2 つの Analytics テーブルのフィールドを組み合わせて、新しい 3 番目のテーブルにします。曖昧結合を参照してください。

機能の仕組み

Analytics のあいまい重複では、テーブルの特定の文字フィールドをテストし、フィールドに含まれるあいまい重複を特定できます。出力結果は、指定した相違の度合いに基づいてあいまい重複をグループ化します。相違の度合いを調整すると、出力グループの数とサイズ、グループメンバー間の相違の量を制御できます。

あいまい重複グループメンバーが実際に同一のエンティティを参照しているかどうかを確認するには、テストフィールド以外のフィールドの重複テストといった追加の分析を実行しなければならない場合もあります。

メモ

あいまい重複の検査は、厳密な重複の特定よりも複雑です。あいまい重複間の相違の度合いを制御する設定や、あいまい重複を出力結果でどのようにグループ化するかを制御する設定を理解しておけば、この機能を最大限に利用することができます。

あいまい重複の出力結果

以下は、あるテーブルの Last Name フィールドに対してあいまい重複の検査を実行した出力結果の例です。

出力結果は、2、3、6 として特定されたグループに配置されます。各グループの先頭にあるあいまい重複の元のレコード番号は、グループの識別に使用されます。たとえば、"Janson" は元のテーブルでレコード番号 3 の名前です。この "Janson" は元のテーブルのレコード順序に従い、グループ内で 1 番目の値となるため、そのグループは "グループ 3" として分類されます。詳細については、あいまい重複をグループ化する方法を参照してください。

あいまい重複機能は文字に基づく比較を使用します。

2 つの値を比較する場合、あいまい重複機能は単語ベースではなく文字ベースでの比較を実行します。この機能では、単語間の空白やスペースを文字として扱い、個々の単語間を区別しません。値内の単語数に関係なく、その値を切れ目のない単独文字列として扱います。

この方法の実装は、データの性質や［あいまい重複］ダイアログボックスで指定した設定の違いによって、人間の目にはあいまい重複と思われる値でも出力結果に含まれない可能性があります。

例

次の名前を考えます。

"JW Smith" と "John William Smith"
"Diamond Tire" と "Diamond Tire & Auto"

1 番目の例は、同じ名前の 2 つのバージョンで、ファーストネームとミドルネームを頭文字で略したものと、略さずに記述したものです。2 番目の例は、会社名を短いバージョンと長いバージョンで記述しています。

これらのペアはいずれも、相違の設定をかなりゆるくしないとあいまい重複として出力されません。設定をゆるくすることは、多くの誤検知も出力されてしまう弊害も生じます。

あいまい重複機能は、例に挙げたそれぞれのペアを単純に 2 つの文字列として処理します。それぞれの例で、対となる 2 つの文字列の長さは大きく異なるので、文字レベルで判断すると、文字列は互いに大きく異なります。

詳細については、設定による動作の違いを参照してください。