模糊重复帮助功能

两个 Analytics 函数可帮助模糊重复功能提高效率:

  • SORTWORDS( )
  • OMIT( )

您可以单独或者结合使用这两个函数。

第三个函数 ISFUZZYDUP( ) 使您可以选择为特定值而不是整个域识别模糊重复值。

SORTWORDS 函数

使用模糊重复功能时,可使用 SORTWORDS( ) 函数创建可按顺序对测试域值中的各个元素进行排序的表达式或者计算域。

对地址的组成部分等元素进行排序可降低元素的物理位置在模糊重复比较中的重要性。在有效性方面产生的改进使您可以使用低得多的差异阈值,并且生成更小、更有针对性且包含更少误报的结果集。

有关详细信息,请参见SORTWORDS( ) 函数。有关差异阈值的更多信息,请参见 差异设置工作原理

要观看提供 SORTWORDS( ) 概览的视频,请参见使用 SORTWORDS( ) 进行模糊匹配(仅限英语)。

示例

下列两个值需要最小为 22 的差异阈值才能被包括在模糊重复输出结果中:

  • 125 SW 39TH ST, Suite 100
  • Suite 100, 125 SW 39TH ST

允许的最大差异阈值是 10,因此模糊重复功能永远不会将这两个值识别为相互的模糊重复值。尽管它们明显是相同的地址。

相比之下,如果您使用 SORTWORDS( ) 创建一个对各个地址元素进行排序的表达式或者计算域,则差异阈值 2 会将这两个地址返回为彼此的模糊重复项:

  • 100 125 39TH ST, SW Suite
  • 100, 125 39TH ST SW Suite

OMIT 函数

使用模糊重复功能时,可使用 OMIT( ) 函数创建一个从测试域值中移除通用元素的表达式或者计算域。

移除连字符、逗号和数字符号等元素以及 "Inc."、"Street" 或 "St." 等单词或缩写,可使模糊重复比较专注于测试值中可能发生有意义差异的部分。在有效性方面产生的改进使您可以使用低得多的差异阈值,并且生成更小、更有针对性且包含更少误报的结果集。

有关详细信息,请参见OMIT( ) 函数。有关差异阈值的更多信息,请参见 差异设置工作原理

示例

下列两个值需要最小为 8 的差异阈值才能被包括在模糊重复输出结果中:

  • Intercity Couriers Corporation
  • Inter-city Couriers Corp.

差异阈值 8 可能生成包含很多误报的大型松散结果集。但是,较低的差异阈值会使这两个值免于被检测为彼此的模糊重复值。

相比之下,如果您使用 OMIT( ) 创建一个可移除 "Corporation" 和 "Corp." 等通用元素的表达式或者计算域,则差异阈值 1 会将这两个名称返回为彼此的模糊重复值:

  • Intercity Couriers
  • Inter-city Couriers

ISFUZZYDUP 函数

使用模糊重复功能并查看结果后,您可以使用 ISFUZZYDUP( ) 函数输出结果中特定值的模糊重复值的单个穷尽列表。对于与您的分析目标似乎特别相关的值,您可以采取这一附加步骤。

详尽是指将返回指定测试值差异程度内的所有值,无论它们在测试域中相对于测试值的位置如何。

按照设计,模糊重复功能在非穷尽组中组织输出结果。结果总的来说是穷尽的,但单个组未必是。此方法可防止输出结果变得超大和不可控。

非详尽的组可能足以满足您的分析目标。如果它们不能满足,您可以使用 ISFUZZYDUP( ) 为各个值生成穷尽的结果。

有关详细信息,请参见ISFUZZYDUP( ) 函数。有关非穷尽组的详细信息,请参见如何对模糊重复分组