Funciones de ayuda de duplicados inexactos
Dos funciones de Analytics ayudan a hacer la característica de duplicados inexactos más efectiva:
- SORTWORDS( )
- OMIT( )
Puede usar las dos funciones por separado o combinadas.
Una tercera función, ISFUZZYDUP( ), le da la opción de identificar los duplicados inexactos para un valor específico en lugar de hacerlo para un campo completo.
Función SORTWORDS
Al utilizar la función duplicados inexactos, use la función SORTWORDS( ) para crear una expresión o un campo calculado que ordene secuencialmente los elementos individuales en valores de campo de prueba.
Ordenar los elementos, como los componentes de un domicilio, reduce la importancia de la posición física de los elementos en las comparaciones de los duplicados inexactos. La mejora que se obtiene en la efectividad le permite usar un Umbral de diferencia mucho menor y generar un conjunto de resultados más pequeño y concentrado, con una menor cantidad de falsos positivos.
Si desea obtener información detallada, consulte Función SORTWORDS( ). Para obtener más información acerca del Umbral de diferencia, consulte Cómo funciona la configuración de diferencia.
Si desea ver un video con una descripción general de SORTWORDS( ), vea Fuzzy Matching Using SORTWORDS() (Coincidencias inexactas con SORTWORDS()) (solo disponible en inglés).
Ejemplo
Los dos valores siguientes requerirían un Umbral de diferencia de al menos 22 para ser incluidos en los resultados de salida de duplicados inexactos:
- 125 SW 39TH ST, Suite 100
- Suite 100, 125 SW 39TH ST
El Umbral de diferencia máximo permitido es 10; por lo tanto, la función de duplicados inexactos jamás identificará estos dos valores como duplicados inexactos entre sí. Aun cuando, claramente, son el mismo domicilio.
Por el contrario, si usa SORTWORDS( ) para crear una expresión o un campo calculado que ordene los elementos individuales de un domicilio, un Umbral de diferencia de solo 2 devolvería los dos domicilios como duplicados inexactos:
- 100 125 39TH ST, SW Suite
- 100, 125 39TH ST SW Suite
Función OMIT
Al utilizar la función duplicados inexactos, use la función OMIT( ) para crear una expresión o un campo calculado que quite los elementos genéricos de los valores del campo de prueba.
La eliminación de los elementos como guiones, comas, signos, palabras o abreviaturas, como "Inc.", "Street" o "St.", concentra la comparación de los duplicados inexactos únicamente en la porción de los valores de prueba donde puede aparecer una diferencia significativa. La mejora que se obtiene en la efectividad le permite usar un Umbral de diferencia mucho menor y generar un conjunto de resultados más pequeño y concentrado, con una menor cantidad de falsos positivos.
Si desea obtener información detallada, consulte Función OMIT( ). Para obtener más información acerca del Umbral de diferencia, consulte Cómo funciona la configuración de diferencia.
Ejemplo
Los dos valores siguientes requieren un Umbral de diferencia de al menos 8 para ser incluidos en los resultados de salida de duplicados inexactos:
- Intercity Couriers Corporation
- Inter-city Couriers Corp.
Un Umbral de diferencia de 8 podría generar un conjunto de resultados grande y desenfocado, con un elevado nivel de falsos positivos. Sin embargo, un Umbral de diferencia menor impediría la detección de los dos valores como duplicados inexactos.
Por el contrario, si usa OMIT( ) para crear una expresión o un campo calculado que quite los elementos genéricos, como "Corporation" y "Corp.", un Umbral de diferencia de solo 1 devolvería los dos nombres como duplicados inexactos:
- Intercity Couriers
- Inter-city Couriers
Función ISFUZZYDUP
Después de utilizar la función de duplicados inexactos y revisar los resultados, puede utilizar la función ISFUZZYDUP( ) para obtener una lista exhaustiva de duplicados inexactos para un valor específico de los resultados. Puede realizar este paso adicional para los valores que parecen ser de especial importancia para sus objetivos de análisis.
Exhaustivo significa que todos los valores dentro del grado de diferencia especificado del valor de prueba se devuelven, independientemente de su posición en el campo de prueba relativo al valor de prueba.
Por diseño, la función de duplicados inexactos organiza los resultados de la salida en grupos no exhaustivos. Los resultados, en total, son exhaustivos, pero los grupos individuales pueden no serlo. Este enfoque impide que los resultados de la salida sean demasiado grandes e inmanejables.
Los resultados no exhaustivos pueden ser suficientes para los fines de su análisis. Si no lo son, puede utilizar ISFUZZYDUP( ) para generar resultados exhaustivos para valores individuales.
Si desea obtener información detallada, consulte Función ISFUZZYDUP( ). Si desea obtener más información acerca de los grupos no exhaustivos, consulte Cómo se agrupan los duplicados inexactos.