あいまい重複の検査

コンセプト情報

FUZZYDUP コマンド

アクティブなテーブル内の 1 つの文字フィールドを検査し、ほぼ同一の値(あいまい重複)が存在するかどうかを検出することかできます。任意で、ほぼ同一の値だけでなく、厳密に同一(完全な重複)の値も出力結果に含めることができます。

出力結果に含まれる 1 つ以上のあいまい重複グループのサイズが最大サイズに達した場合には、ログにメッセージが表示されます。詳細については、あいまい重複の結果のサイズ制御を参照してください。

あいまい重複テストの効果の改善

次の手法を 1 つ以上取り入れると、あいまい重複テストの効果を大幅に高めることができます。

  • テスト フィールド値の個別の要素を並べ替える
  • テスト フィールド値から汎用要素を削除する
  • テスト フィールドを連結する

詳細については、あいまい重複のヘルパー関数フィールドの連結を参照してください。

実行時間と出力結果のサイズを減らす

あいまい重複機能は、検査フィールドの値を、そのフィールドの後続の各値と比較する必要があるため、プロセッサを消費します。

分析に支障がなければ、レコードのフィルターリングやサブセット抽出などの方法を利用して、検査対象のデータ セットのサイズを制限してください。データ セットのサイズを抑えることで、全体的な実行速度も上がり、また出力結果のサイズの制御にも役立ちます。

手順

メモ

手順の後に詳細情報が表示されます。[あいまい重複]ダイアログ ボックス オプションを参照してください。

  1. 分析 > あいまい重複]の順にクリックします。
  2. メイン]タブで、次のいずれかを行います。
    • あいまい重複の対象]ドロップダウン リストから、検査の対象となるフィールドを選択します。
    • あいまい重複の対象]をクリックして、フィールドを選択するか、または式を作成します。

      ヒント

      式の作成は、テスト フィールドを連結したり、テスト フィールド値から汎用要素を削除したり、テスト フィールド値の個別の要素を並べ替えたりする方法です。詳細については、あいまい重複のヘルパー関数フィールドの連結を参照してください。

  3. 省略可能。結果に任意の追加フィールドを含めるには、[フィールドの一覧]リストから 1 つ以上のフィールドを選択します。または[フィールドの一覧]をクリックして、フィールドを選択したり、フィールドを[すべて追加]したり、式を作成したりすることもできます。

    フィールドを追加することで、結果に有用な前後関係を提供でき、また、曖昧重複が実体としては同一のものを指しているかどうかの検証にも役立ちます。

    メモ

    あいまい重複の検査対象に選択したフィールドは、結果レコードの先頭に自動的に表示されるので、[フィールドの一覧]で特に選択する必要はありません。

  4. あいまい重複間の相違の量を制御するには[相違のしきい値]を指定します。

    設定は次の説明のとおりです。

  5. 次のいずれかを実行します。
    • 相違のパーセント]を指定すると、各あいまい重複における相違の割合を制御することができます。
    • 相違のパーセント]オプションのチェックをオフにすると、このオプション指定は無効になります。

    設定は次の説明のとおりです。

  6. 次のいずれかを実行します。
    • 結果サイズ (%)]で、検査フィールドのサイズに対する結果の最大サイズを指定します。
    • 結果サイズ (%)]オプションのチェックをオフにすると、このオプション指定は無効になります。

    設定は次の説明のとおりです。

  7. 結果にあいまい重複だけでなく厳密な重複も含めるようにしたい場合は、[完全な重複を含める]オプションを選択します。

    詳細については、あいまい重複をグループ化する方法を参照してください。

  8. 現在のビューの中に処理から除外したいレコードがある場合は、[If]テキスト ボックスに条件を指定します。直接入力するか、または[If]ボタンをクリックし、式ビルダーを利用して IF ステートメントを作成します。

    IF ステートメントは、ビュー内のすべてのレコードを判断し、指定された条件を満たさないレコードを除外します。

  9. サーバー テーブルに接続されている場合は、次のいずれかを実行します。
    • プロジェクトと同じ場所に出力テーブルを保存する、パスを指定する、または別のローカル フォルダーへ移動する場合は、[ローカル]を選択します。
    • サーバーの Prefix フォルダーに出力テーブルを保存する場合は、[ローカル]を選択解除されたままにしておきます。
    • メモ

      出力結果が Analytics Exchange のサーバー テーブルの分析や処理から生成される場合は、[ローカル]を選択します。[ローカル]の設定は、結果テーブルを Analytics Exchange へインポートする場合に選択解除することはできません。

  10. 次のいずれかを実行します。
    • 保存先]テキスト ボックスで、出力結果を含める Analytics テーブルの名前を指定します。
    • 保存先]ボタンをクリックして、[保存]または[ファイルを保存する名前]ダイアログ ボックスで既存のテーブルに上書きまたは追加する場合はそのテーブルを選択します。

    また、絶対ファイル パスや相対ファイル パスを指定したり、別のフォルダーへ移動したり、プロジェクトの場所以外の場所にテーブルを保存したり、その場所にあるテーブルに追加したりすることもできます。たとえば、C:\Results\Output.fil または Results\Output.fil のように指定します。

    保存または追加するテーブルの場所に関係なく、そのテーブルが開いているプロジェクトにまだ存在しないときは、プロジェクトに追加されます。

    Analytics によってテーブル名があらかじめ設定されている場合は、その設定されている名前を受け入れることも、あるいは変更することもできます。

    メモ

    Analytics のテーブル名は、最長で 64 文字の英数字(拡張子 .FIL を含まない)に制限されます。名前にはアンダースコア文字(_)を使用できますが、他の特殊文字やスペースは使用できません。名前の先頭を数字にすることはできません。

  11. 処理の完了時に、出力テーブルを自動的に開くようにするには、[出力テーブルの使用]をオンにします。

  12. OK]をクリックします。
  13. 上書きを確認するメッセージが表示されたら、適切なオプションを選択します。

[あいまい重複]ダイアログ ボックス オプション

次の表は、[あいまい重複]ダイアログ ボックスのオプションの詳細を示します。

オプション – [あいまい重複]ダイアログ ボックス 説明
相違のしきい値

あいまい重複間で許可される相違の量。

1 から 10 までの数値を指定します。[相違のしきい値]の値を大きくすると、あいまい重複の各値間で許容される相違の文字数が多くなり、結果のサイズが大きくなります。

詳細については、設定による動作の違いを参照してください。

相違のパーセント

各あいまい重複における相違の割合。

1 から 99 までのパーセントを指定します。[相違のパーセント]の値を大きくすると、あいまい重複の値に対して許容される相違の割合が高くなり、結果のサイズが大きくなります。

相違のパーセント]オプションをオフにすると、あいまい重複における相違の割合は結果に考慮しません。この結果のサイズは、[相違のパーセント]オプションを使用して値を設定したときよりも大きくなります。

詳細については、設定による動作の違いを参照してください。

結果サイズ (%)

検査フィールドのサイズに対する結果の最大サイズ。

1 から 1000 までのパーセントを指定します。このオプションを使用すると、結果のサイズが、有用と考えられるサイズを超えたときにあいまい重複操作を自動的に終了させることができます。

たとえば、50,000 個の値を持つ検査フィールドの場合、[結果サイズ (%)]に 1 を設定すると、結果のあいまい重複数が 500 を超えた場合に処理が終了します。処理が終了した場合、出力テーブルは作成されません。

結果サイズ (%)]オプションをオフにすると、結果のサイズに制限がなくなります。

注意

結果サイズ (%)]オプションをオフにすると、過度に大きな結果セットが生成され、処理時間が非常に長くなったり、使用可能なメモリの超過を引き起こして、処理が終了してしまう可能性があります。結果が、対処できる妥当なサイズであると確信している場合にのみ、このオプションをオフにしてください。

詳細については、あいまい重複の結果のサイズ制御を参照してください。