Cómo se agrupan los duplicados inexactos
Al procesar datos, la operación de duplicados inexactos baja secuencialmente por el campo de prueba. La operación compara el primer valor del campo con cada valor subsiguiente, luego compara el segundo valor del campo con cada valor subsiguiente, y así sucesivamente, pasando por todo el campo hasta que todos los valores se han comparado con cada valor subsiguiente. No compara valores con valores anteriores.
Con cada comparación, la operación determina si los dos valores comparados son duplicados inexactos basándose en la configuración de diferencia que usted especificó. (Si desea obtener información acerca de los ajustes de diferencias, consulte Cómo funciona la configuración de diferencia). Si ambos valores son duplicados inexactos, se los coloca juntos en un grupo. Las coincidencias redundantes se suprimen (se explica más adelante en este tema). Los resultados de la operación de duplicados inexactos pueden contener varios grupos.
Propietario de grupo y miembros de grupos
El primer duplicado inexacto de un grupo es el valor de control o ‘el propietario’ del grupo basándose únicamente en el hecho de que entre los miembros del grupo aparece primero en el campo que prueba. Un campo de prueba que contiene los mismos datos pero en orden distinto produciría diferentes propietarios de grupo, y grupos constituidos de forma diferente.
El grupo se identifica utilizando el número de registro del propietario del grupo. El siguiente ejemplo muestra los resultados de poner a prueba un campo Apellido. “Janson” conforma un grupo (sobre la base de la configuración de la diferencia) y “Janson” es el número de registro 3 de la tabla original; por lo tanto, el grupo se convierte en el Grupo 3.
El propietario del grupo no es necesariamente el valor correcto.
El propietario del grupo no es necesariamente el valor ‘correcto’ o canónico. Es simplemente el valor a partir del cual se mide o calcula el grado de diferencia que ha especificado en el proceso de formación del grupo. Todos los miembros de un grupo se encuentran dentro del grado de diferencia especificado del propietario del grupo. Los miembros pueden o no estar dentro del grado de diferencia especificado respectivo.
El siguiente diagrama ofrece una representación visual de los resultados de la tabla de salida anterior. El Umbral de diferencia es 1, lo que significa que los miembros del grupo pueden diferir del propietario del grupo en un máximo de un (1) carácter. Tenga en cuenta que algunos de los duplicados inexactos aparecen en más de un grupo.
Resultados exhaustivos en comparación con los no exhaustivos
Para evitar que los resultados sean tan grandes que se vuelvan imposibles de manejar, la función de duplicados inexactos está diseñada para generar grupos que sean no exhaustivos. No exhaustivos significa que grupos de duplicados inexactos individuales pueden no contener todos los duplicados inexactos en un campo de prueba que estén dentro del grado de diferencia especificado del propietario del grupo. Sin embargo, si un propietario de un grupo es un duplicado inexacto de otro valor en el campo de prueba, los dos valores aparecerán juntos en un grupo en los resultados, pero no necesariamente en el grupo asociado con el propietario del grupo. Por lo tanto, los grupos pueden ser no exhaustivos, pero los resultados, en su totalidad, son exhaustivos.
Si para su análisis es importante generar un lista única y exhaustiva de duplicados inexactos para un valor específico del campo de prueba, puede usar la función ISFUZZYDUP( ). Si desea obtener más información, consulte Funciones de ayuda de duplicados inexactos.
Formación de grupos en detalle
La función duplicados inexactos crea resultados no exhaustivos excluyendo valores de un grupo si han aparecido con el propietario del grupo en un grupo anterior. Este enfoque de la formación de grupos reduce el número de pares redundantes de duplicados inexactos y ayuda a controlar el tamaño general de los resultados.
Las reglas que rigen la formación de grupos se explica abajo, con ejemplos asociados.
| Regla | Explicación |
|---|---|
| La relación propietario-miembro no es recíproca. |
Debido a que la operación de duplicados inexactos baja secuencialmente por el campo de prueba, los propietarios de grupos se asocian sólo con los duplicados inexactos que aparecen debajo de ellos en el campo, no con ninguno que aparezca por encima de ellos. En muchos casos, un propietario de grupo es un miembro de uno o más grupos que aparecen encima de él. Sin embargo, lo contrario no es cierto. Los propietarios de los grupos de arriba no son miembros del grupo subsiguiente. Una vez que un valor se convierte en propietario de un grupo, nunca aparece en un grupo subsiguiente. En el ejemplo anterior, el propietario del Grupo 6, “Jansen”, es miembro de dos grupos anteriores, pero los propietarios de esos grupos (“Hansen” y “Janson”), aunque son duplicados inexactos de “Jansen”, no son miembros del Grupo 6. |
| Si dos valores son miembros de un grupo anterior, no se colocarán juntos en un grupo subsiguiente si uno de los valores es el propietario del grupo subsiguiente. |
En el ejemplo anterior, “Jansen”, “Jansan” y “Jansn” son miembros del Grupo 3. Cuando “Jansen” se convierte en el propietario del Grupo 6, “Jansan” y “Jansn” no se colocan en el grupo, aunque ambos son duplicados inexactos que aparecen debajo de “Jansen” en el campo de prueba. |
| Si dos valores son miembros de un grupo anterior, pueden aparecer juntos en un grupo subsiguiente si ninguno de los valores es el propietario del grupo subsiguiente. |
En el ejemplo anterior, “Hanson” y “Jansen” aparecen tanto en el Grupo 2 como en el Grupo 3. En esta instancia, la aparición conjunta en más de un grupo puede ocurrir porque el grado de diferencia se mide a partir de los propietarios de grupos respectivos, no entre ellos. |
Nota
En ocasiones, puede haber excepciones a la segunda y tercera reglas. Durante la ejecución, la operación de duplicados inexactos almacena valores temporales. Si el espacio asignado a estos valores temporales se llena, el resultado puede ser algunos propietarios de grupos con uno o más miembros de grupos que son redundantes. (El propietario y el integrante aparecen juntos en un grupo anterior). Cuanto más pequeño sea el tamaño máximo especificado para los grupos de duplicados inexactos, mayor es la probabilidad de que ocurra esta redundancia.
Procesamiento de datos de duplicados inexactos y formación de grupos
La siguiente tabla muestra el procesamiento del ejemplo anterior registro por registro. Los datos se procesan en secuencia descendente. Para reducir la redundancia, los valores se excluyen si han aparecido con el propietario del grupo en un grupo anterior.
(Configuración de la diferencia: Umbral de diferencia = 1, Porcentaje de diferencia = 99)
| Número del registro | Apellido | Duplicados inexactos encontrados | Resultados de la salida |
|---|---|---|---|
|
1 |
Ronson |
|
|
|
2 |
Hansen |
Hanssen, Hanson, Jansen |
Grupo 2 Propietario del grupo: Hansen Miembros del grupo: Hanssen, Hanson, Jansen |
|
3 |
Janson |
Hanson, Jansen, Jansan, Jansn |
Grupo 3 Propietario del grupo: Janson Miembros del grupo: Hanson, Jansen, Jansan, Jansn |
|
4 |
Hanssen |
|
|
|
5 |
Hanson |
|
|
|
6 |
Jansen |
Jansan, Janszen, Jansn |
Grupo 6 Propietario del grupo: Jansen Miembros del grupo: Janszen |
|
7 |
Jansan |
Jansn |
|
|
8 |
Janszen |
|
|
|
9 |
Jansn |
|
|
Incluir duplicados exactos en los resultados
Al procesar datos, la operación de duplicados inexactos siempre incluye duplicados exactos pero los filtra fuera de los resultados a menos que seleccione Incluir duplicados exactos en el cuadro de diálogo Duplicados inexactos.
Los duplicados exactos siguen las mismas reglas de formación de grupos que los duplicados inexactos. Se los excluye de un grupo si han aparecido con el propietario del grupo en un grupo anterior. Si el propietario del grupo y el valor excluido son duplicados exactos, puede parecer que el valor excluido debe estar en el grupo del propietario. Sin embargo, la exclusión es consistente con las reglas de formación de grupos debido a que los dos valores han estado juntos en un grupo anterior.
La siguiente tabla muestra el procesamiento de los duplicados exactos. Los datos se procesan en secuencia descendente.
- “Ronson (3)” no forma un grupo con “Ronson (4)” porque los dos valores ya están juntos en el Grupo 1.
- “Jansen (9)” se excluye del grupo formado por “Jansen (8)” porque ambos valores ya están juntos en el Grupo 2 y el Grupo 5.
(Configuración de la diferencia: Umbral de diferencia = 1, Porcentaje de diferencia = 99, Incluir duplicados exactos = Y)
| Número del registro | Apellido | Duplicados inexactos y duplicados exactos encontrados | Resultados de la salida |
|---|---|---|---|
|
1 |
Ronson |
Ronson (3), Ronson (4) |
Grupo 1 Propietario del grupo: Ronson Miembros del grupo: Ronson (3), Ronson (4) |
|
2 |
Hansen |
Hanssen, Hanson, Jansen (8), Jansen (9) |
Grupo 2 Propietario del grupo: Hansen Miembros del grupo: Hanssen, Hanson, Jansen (8), Jansen (9) |
|
3 |
Ronson |
Ronson (4) |
|
|
4 |
Ronson |
|
|
|
5 |
Janson |
Hanson, Jansen (8), Jansen (9), Jansan, Jansn |
Grupo 5 Propietario del grupo: Janson Miembros del grupo: Hanson, Jansen (8), Jansen (9), Jansan, Jansn |
|
6 |
Hanssen |
|
|
|
7 |
Hanson |
|
|
|
8 |
Jansen |
Jansen (9), Jansan, Janszen, Jansn |
Grupo 8 Propietario del grupo: Jansen Miembros del grupo: Janszen |
|
9 |
Jansen |
Jansan, Janszen, Jansn |
Grupo 9 Propietario del grupo: Jansen Miembros del grupo: Janszen |
|
10 |
Jansan |
Jansn |
|
|
11 |
Janszen |
|
|
|
12 |
Jansn |
|
|