あいまい重複をグループ化する方法

あいまい重複操作では、データを処理するときに検査フィールドを下方(後方)へ順に移動します。この操作では、フィールドの 1 番目の値を後続の各値と比較し、次にフィールドの 2 番目の値を後続の各値と比較するというように、すべての値がその後続の各値と比較されるまで、そのフィールドをループします。前(上方)の値と比較されることはありません。

あいまい重複操作では、指定されている相違の設定に基づいて、2 つの比較値があいまい重複かどうかを判断します(相違の設定に関する詳細については、設定による動作の違いを参照してください)。2 つの値があいまい重複の場合、これらの値は共に同じグループに入れられます。重複するあいまい重複は表示されません(これについては後で説明します)。あいまい重複操作の結果には、複数のグループが含まれる可能性があります。

グループ所有者とグループ メンバー

グループ内の 1 番目のあいまい重複が、グループの制御値であり所有者です。これは単に、検査対象のフィールドにおけるグループ メンバーの中で最初に現れる値を基準にしているだけです。検査フィールドに同じデータが複数存在しているが、それらが別々に格納されている場合は、グループ所有者が異なる別々のグループが作成されます。

グループはグループ所有者のレコード番号によって識別されます。以下の例は、[]フィールドのテスト結果を示します。"Janson" は(相違の設定に基づいて)グループを形成します。この "Janson" は元のテーブルでレコード番号が 3 なので、グループは「グループ 3」となります。

グループ所有者は、正確な値である必要はありません。

グループ所有者は、正確な値または基準となる値である必要はありません。これは単に、指定された相違の度合いに基づく値が、グループの形成の処理で測定または計算されるということです。グループの全メンバーはそのグループ所有者の、指定された相違の度合いの範囲内にあります。メンバーが互いに、指定された相違の度合いの範囲内にあるかどうかはわかりません。

以下の図は、上記の出力テーブルの結果を視覚的に表したものです。相違のしきい値が 1 ということは、グループのメンバーはグループ所有者と最大 1 文字まで異なってもよいことを意味します。あいまい重複のいくつかが、複数のグループに現れていることに注意してください。

完全な結果と完全でない結果

結果のサイズが大きくなり過ぎないようにするため、あいまい重複機能は完全でないグループを生成するよう設計されています。「完全でない」とは、あいまい重複の個々のグループには、そのグループ所有者の指定された相違の度合いの範囲内にある、検査フィールドのすべてのあいまい重複が含まれない可能性があることを意味します。ただし、グループ所有者が検査フィールド内の別の値のあいまい重複である場合は、2 つの値が結果の(グループ所有者と関連があるグループに限らず)どこかのグループに一緒に現れます。このため、グループは完全ではない可能性がありますが、全体の結果は完全です。

分析において、検査フィールド内の特定の値に対するあいまい重複の、単一かつ完全な一覧を生成することが重要な場合は、この目的のために ISFUZZYDUP( ) 関数を使用することができます。詳細については、あいまい重複のヘルパー関数を参照してください。

グループ形成の詳細

あいまい重複機能では、既に前のグループのグループ所有者に伴って出現した値は、以降のグループから除外することによって、完全でないグループを作成します。この方法によって、グループ形成では余分なあいまい重複のペアの数が減るので、結果全体のサイズを制御するのに役立ちます。

グループ形成を管理する規則については、後で例を挙げて説明します。

ルール 説明
所有者とメンバーの関係は非相互的

あいまい重複操作では、検査フィールドを下方(後方)へ順に移動するので、グループ所有者は、フィールド内でそのグループ所有者の下(後続)に現れるあいまい重複のみと関連付けられます。グループ所有者の前に現れるあいまい重複とは関連付けられません。

グループ所有者は、既にその上で現れる 1 つ以上のグループのメンバーである可能性があります。ただし、その逆はありません。上方(前方)にあるグループの所有者は、後続グループのメンバーにはなりません。値がグループの所有者になった場合、その値はそれ以降のグループに現れることはありません。

上記の例では、グループ 6 の所有者である "Jansen" は、前の 2 つのグループのメンバーです。しかし、それら 2 つののグループの所有者("Hansen" と "Janson")は、"Jansen" のあいまい重複であるにもかかわらず、グループ 6 のメンバーではありません。

2 つの値が前のグループのメンバーであり、値の 1 つがその後続グループの所有者となる場合は、その 2 つの値が共に後続グループに入ることはありません。

上記の例では、"Jansen"、"Jansan" および "Jansn" はすべてグループ 3 のメンバーです。"Jansen"がグループ 6 の所有者になった場合、"Jansan" と "Jansn" は、共にあいまい重複であり、それらが検査フィールドで "Jansen" の後方に現れるとしても、そのグループには入りません。

2 つの値が前のグループのメンバーであり、どちらの値もその後続グループの所有者とならない場合は、その 2 つの値は共に後続グループに入ることができます。

上記の例では、"Hanson" と "Jansen" はグループ 2グループ 3 の両方に出現します。この場合、相違の度合いが、2 つの値間ではなく、それぞれのグループの所有者から測定されるので、複数のグループへ一緒に現れることになります。

メモ

2 番目および 3 番目の規則には例外があります。実行時に、あいまい重複操作では値を一時的に格納します。これらの一時的な値のために割り当てられる容量がいっぱいになった場合、1 つ以上の重複するグループ メンバーを持つグループ所有者が出力されることがあります(所有者とメンバーは前のグループに一緒に現れています)。あいまい重複グループ用に指定する最大サイズを小さくすると、この余分な重複が起こりやすくなります。

あいまい重複によるデータ処理とグループ形成

以下の表は、上記の例のレコード単位の処理を示します。データは降順で処理されます。冗長性を減らすため、前のグループのグループ所有者と一緒に出現した値はグループから除外されます。

(相違の設定: 相違のしきい値 = 1, 相違のパーセント = 99)

レコード数 あいまい重複が見つかりました 出力結果

1

Ronson

 

 

 

 

2

Hansen

Hanssen, Hanson, Jansen

グループ 2

グループ所有者: Hansen

グループメンバー: Hanssen、Hanson、Jansen

3

Janson

Hanson, Jansen, Jansan, Jansn

グループ 3

グループ所有者: Janson

グループメンバー: Hanson、Jansen、Jansan、Jansn

4

Hanssen

 

 

 

 

5

Hanson

 

 

 

 

6

Jansen

Jansan, Janszen, Jansn

グループ 6

グループ所有者: Jansen

グループメンバー: Janszen

7

Jansan

Jansn

 

 

 

8

Janszen

 

 

 

 

9

Jansn

 

 

 

 

結果に完全な重複を含める

あいまい重複操作では、データを処理するときに必ず完全な重複を含めますが、[あいまい重複]ダイアログ ボックスの[完全な重複を含める]オプションを選択していなければ、その完全な重複は結果から除去されます。

正確な重複には、あいまい重複と同じグループ形式ルールが適用されます。前のグループのグループ所有者と一緒に出現したメンバーはグループから除外されます。グループの所有者と除外された値が完全重複の場合、その除外された値は所有者のグループに入れる必要があるように思えるかもしれません。しかし、2 つの値は共に前のグループに入っているので、この除外はグループの形成規則に合致しています。

以下の表は、正確な重複の処理を示します。データは降順で処理されます。

  • "Ronson(3)" は "Ronson(4)" とグループを形成しません。これら 2 つの値は既にグループ 1 に入っているからです。
  • "Jansen(9)" は "Jansen(8)" で形成されたグループからは除外されます。これら 2 つの値は既にグループ 2 とグループ 5 に入っているからです。

(相違の設定: 相違のしきい値 = 1, 相違のパーセント = 99, 完全な重複を含める = Y)

レコード数 検出されたあいまい重複と完全重複 出力結果

1

Ronson

Ronson (3), Ronson (4)

グループ 1

グループ所有者: Ronson

グループメンバー: Ronson (3)、Ronson (4)

2

Hansen

Hanssen, Hanson, Jansen (8), Jansen (9)

グループ 2

グループ所有者: Hansen

グループメンバー: Hanssen、Hanson、Jansen (8)、Jansen (9)

3

Ronson

Ronson (4)

 

4

Ronson

 

 

5

Janson

Hanson, Jansen (8), Jansen (9), Jansan, Jansn

グループ 5

グループ所有者: Janson

グループメンバー: Hanson、Jansen (8)、Jansen (9)、Jansan、Jansn

6

Hanssen

 

 

7

Hanson

 

 

8

Jansen

Jansen (9), Jansan, Janszen, Jansn

グループ 8

グループ所有者: Jansen

グループメンバー: Janszen

9

Jansen

Jansan, Janszen, Jansn

グループ 9

グループ所有者: Jansen

グループメンバー: Janszen

10

Jansan

Jansn

 

11

Janszen

 

 

12

Jansn