测试模糊重复

概念信息

FUZZYDUP 命令

您可以测试活动表中的字符域以检测是否存在几乎相同的值(模糊重复)。您可以选择在输出结果中包括相同的值(完全匹配重复)及几乎相同的值。

如果结果中的一个或多个模糊重复组达到最大大小,日志中会出现一则消息。有关详细信息,请参见控制模糊重复结果的大小

改进模糊重复测试的有效性

通过采用下列一个或多个技巧,您可以显著提高模糊重复测试的有效性:

  • 对测试域值中的各个元素进行排序
  • 从测试域值中移除通用元素
  • 连接测试域

要了解更多信息,请参考模糊重复帮助功能连接域

减少执行时间和输出结果的大小

模糊重复功能需要占用大量处理器空间,因为测试域中的每个值都需要与域中的各个后续值进行对比。

如果分析允许,请使用过滤或提取记录子集的方法来限制测试数据集的大小。减小数据集可减少总执行时间,还有助于控制输出结果的大小。

步骤

说明

完成上述步骤之后,将会显示详细信息。请参见“模糊重复”对话框选项

  1. 选择分析 > 模糊重复
  2. 主要选项卡上,执行以下操作之一:
    • 启用模糊重复列表中选择要测试的域。
    • 单击启用模糊重复以选择该域或创建表达式。

      提示

      连接测试域,从测试域值中移除通用元素,或者对测试域值中的各个元素进行排序的方法是创建表达式。有关详细信息,请参见模糊重复帮助功能连接域

  3. 可选。选择一或多个域列表,以在输出结果中包含所有其他域,或者单击域列表选择域,全部添加各域,或创建一个表达式。

    其他域可以为结果提供有用的上下文,并且可帮助验证模糊重复是否引用同一现实实体。

    说明

    为模糊重复测试选择的域会自动显示在任何结果记录的开头,不需要在域列表下专门选定。

  4. 指定差异阈值以控制模糊重复之间的差异量。

    下面解释了该设置。

  5. 执行以下操作之一:
    • 指定差异比例以控制可能存在差异的每个模糊重复的百分比。
    • 取消选择差异比例可将其关闭。

    下面解释了该设置。

  6. 执行以下操作之一:
    • 指定结果大小 (%) 以设置相对于测试域大小的最大结果大小。
    • 取消选择结果大小 (%) 可将其关闭。

    下面解释了该设置。

  7. 如果希望在结果中包括完全匹配重复以及模糊重复,请选择包括完全匹配重复

    有关详细信息,请参见如何对模糊重复分组

  8. 如果当前视图中有想要从处理中排除的记录,请在如果文本框中输入一个条件,或单击如果使用表达式生成器创建 IF 声明。

    IF 声明中考虑到了视图中的所有记录,滤除那些不满足指定条件的记录。

  9. 如果还没有连接到服务器表,请执行以下操作之一:
    • 选择本地将输出表保存到与项目相同的位置,或者指定一个路径或导航到不同的本地文件夹。
    • 使本地保持未选中状态,以便将输出表保存到服务器上的 Prefix 文件夹中。
    • 说明

      对于从 Analytics Exchange 服务器表的分析或处理中产生的输出结果,请选择本地。您不能取消选择本地设置以将结果表导入到 Analytics Exchange。

  10. 执行以下操作之一:
    • 文本框中,指定将包含输出结果的 Analytics 表的名称。
    • 单击,然后在保存文件另存为对话框中选择一个现有表以覆盖或附加到该表。

    您还可以指定一个绝对或相对路径,或导航到一个不同的文件夹,将表保存或附加到与项目位置不同的位置。例如:C:\Results\Output.filResults\Output.fil

    无论将表保存或附加到何处,打开项目时,如果项目中还没有此表,会将其添加到项目中。

    如果 Analytics 预填充了一个表名称,您可以接受预填充的名称或更改它。

    说明

    Analytics 表名称限制为 64 个字母数字字符,且不包括 .FIL 扩展名。该名称可以包括下划线字符 ( _ ),但不能包括其他特殊字符或任何空格。该名称不能以数字开头。

  11. 如果您想让输出表在操作完成后自动打开,请选择使用输出表

  12. 单击确定
  13. 如果覆盖提示出现,请选择合适的选项。

“模糊重复”对话框选项

下表提供了有关“模糊重复”对话框中选项的详细信息。

选项 –“模糊重复”对话框 描述
差异阈值

模糊重复之间的允许差异量。

请指定一个从 1 到 10 的数字。提高差异阈值会提高模糊重复对之间不同的字符数量,这样会提高结果的大小。

有关详细信息,请参见差异设置工作原理

差异比例

每个模糊重复的可以存在差异的百分比。

请指定一个从 1 到 99 的百分比。提高差异比例会提高模糊重复可以不同的百分比,这会提高结果的大小。

如果您关闭差异比例,则结果不会考虑模糊重复中存在差异的百分比。结果会比您使用任何设置的差异比例时要大。

有关详细信息,请参见差异设置工作原理

结果大小 (%)

相对于测试域大小的结果最大大小。

请指定一个从 1 到 1000(一千)的百分比。如果结果大小超出了您认为有用的范围,该选项允许您自动结束模糊重复操作。

例如,对于有 50,000 个值的测试域,如果结果模糊重复超出 500 个,结果大小 (%)为 1 将结束处理。如果处理被终止,则不会生成任何输出表。

如果您关闭结果大小 (%),则 Analytics 不会对结果大小进行任何限制。

注意

关闭结果大小 (%) 可能会生成过大的结果集且需要很长时间进行处理,也可能导致超出可用内存而终止处理。仅在您认为该结果属于可管理的大小时,才关闭该选项。

有关详细信息,请参见控制模糊重复结果的大小