Regroupement des doublons approximatifs

Lors du traitement de données, l'opération de doublons approximatifs parcourt le champ de test de manière séquentielle. L'opération compare la première valeur du champ avec chaque valeur suivante, puis compare la deuxième valeur du champ avec chaque valeur suivante, etc., en parcourant le champ jusqu'à ce que toutes les valeurs aient été comparées avec chaque valeur suivante. Elle ne compare pas les valeurs avec des valeurs précédentes.

Pour chaque comparaison, l'opération détermine si les deux valeurs comparées sont des doublons approximatifs en se basant sur les paramètres de différence spécifiés. (Pour plus d'informations sur les paramètres de différence, consultez la section Application des paramètres de différence.) Si les deux valeurs sont des doublons approximatifs, elles sont regroupées dans un groupe. Les correspondances redondantes sont supprimées (décrites plus loin dans cette section). Les résultats d'une opération de doublons approximatifs peuvent contenir plusieurs groupes.

Propriétaire du groupe et membres du groupe

Le premier doublon approximatif d'un groupe correspond à la valeur de contrôle ou « propriétaire » du groupe basée uniquement sur le fait qu'elle apparaît en premier parmi les membres du groupe du champ testé. Un champ de test contenant les mêmes données mais trié différemment peut générer différents propriétaires de groupe et donc des groupes constitués différemment.

Le groupe est identifié par le numéro d'enregistrement du propriétaire du groupe. L'exemple ci-après illustre les résultats du test d'un champ Nom. Janson forme un groupe (basé sur les paramètres de différence), Janson porte le numéro d'enregistrement 3 dans la table d'origine, et le groupe devient donc le Groupe 3.

Le propriétaire du groupe n'est pas nécessairement la valeur correcte

Le propriétaire du groupe n'est pas nécessairement la valeur correcte ou canonique. Il s'agit simplement de la valeur à partir de laquelle le degré de différence spécifié est mesuré ou calculé dans le processus de formation du groupe. Tous les membres d'un groupe sont compris dans le degré de différence spécifié du propriétaire du groupe. Les membres peuvent ou non être compris dans le degré de différence spécifié les uns par rapport aux autres.

Le schéma ci-dessous propose une représentation visuelle des résultats de sortie dans la table de sortie. Le Seuil de différence est défini sur 1, ce qui signifie que les membres du groupe peuvent varier du propriétaire du groupe de un (1) caractère maximum. Notez que certains doublons approximatifs apparaissent dans plusieurs groupes.

Résultats exhaustifs et non exhaustifs

Pour empêcher que les résultats ne deviennent trop nombreux et qu'il ne soit plus possible de les gérer, la fonctionnalité de doublons approximatifs est conçue pour générer des groupes non exhaustifs. Non exhaustifs signifie qu'un groupe de doublons approximatifs peut ne pas contenir tous les doublons approximatifs compris dans le degré de différence du propriétaire du groupe d'un champ de test. Toutefois, si le propriétaire d'un groupe est un doublon approximatif d'une autre valeur du champ de test, les deux valeurs sont regroupées dans un groupe des résultats, mais pas nécessairement dans le groupe associé au propriétaire. Les groupes peuvent donc ne pas être exhaustifs, mais les résultats, au total, sont exhaustifs.

Si la génération d'une seule liste exhaustive de doublons approximatifs pour une valeur spécifique du champ de test est importante pour votre analyse, vous pouvez utiliser la fonction ISFUZZYDUP( ) pour le faire. Pour plus d’informations, consultez la rubrique Fonctions d'aide des doublons approximatifs.

Formation de groupe en détail

La fonction de doublons approximatifs crée des groupes non exhaustifs en excluant des valeurs d'un groupe si elles apparaissent avec le propriétaire d'un groupe précédent. Cette approche de formation de groupe réduit le nombre de paires de doublons approximatifs redondantes et permet de mieux contrôler la taille des résultats.

Les règles régissant la formation de groupe sont expliquées ci-dessous, accompagnées d'exemples.

Règle Explication
La relation propriétaire/membre n'est pas réciproque

Étant donné que l'opération de doublons approximatifs parcourt le champ de test de manière séquentielle, les propriétaires de groupes sont associés aux doublons approximatifs qui les suivent dans le champ uniquement, et non à ceux qui apparaissent au-dessus d'eux.

Dans de nombreux cas, un propriétaire est un membre d'un ou de plusieurs groupes qui apparaissent au-dessus de lui. L'inverse n'est cependant pas vrai. Les propriétaires de groupes précédents ne sont pas membres du groupe suivant. Lorsqu'une valeur devient un membre d'un groupe, elle n'apparaît jamais dans un groupe suivant.

Dans l'exemple précédent, le propriétaire du Groupe 6, Jansen, est un membre de deux groupes précédents, mais les propriétaires de ces groupes (Hansen et Janson), même s'ils correspondent à des doublons approximatifs de Jansen, ne sont pas des membres du Groupe 6.

Si deux valeurs sont des membres d'un groupe précédent, elles ne sont pas regroupées dans un groupe suivant si l'une des valeurs est le propriétaire du groupe suivant

Dans l'exemple ci-dessus, Jansen, Jansan et Jansn sont tous membres du Groupe 3. Lorsque Jansen devient le propriétaire du Groupe 6, Jansan et Jansn ne sont pas placés dans le groupe, même s'il s'agit de doublons approximatifs qui apparaissent sous Jansen dans le champ de test.

Si deux valeurs sont des membres d'un groupe précédent, elles peuvent apparaître dans un groupe suivant si aucune des valeurs n'est le propriétaire du groupe suivant

Dans l'exemple ci-dessus, Hanson et Jansen apparaissent ensemble dans le Groupe 2 et le Groupe 3. Dans ce cas de figure, le regroupement dans plusieurs groupes est possible car le degré de différence est mesuré par rapport aux propriétaires des groupes respectifs et non entre les deux valeurs.

Remarque

Des exceptions peuvent éventuellement s'appliquer aux deuxième et troisième règles. Pendant l'exécution, l'opération de doublons approximatifs enregistre des valeurs temporaires. Si l'espace alloué à ces valeurs temporaires est épuisé, certains propriétaires de groupes peuvent alors contenir un ou plusieurs membres de groupe redondants. (Le propriétaire et le membre apparaissent dans un groupe précédent.) Plus la taille maximale des groupes de doublons approximatifs spécifiée est faible et plus cette redondance est susceptible de se produire.

Traitement de données de doublons approximatifs et formation de groupe

Le tableau ci-après montre le traitement enregistrement par enregistrement de l'exemple ci-dessus. Les données sont traitées dans l'ordre décroissant. Pour éviter les redondances, les valeurs sont exclues d'un groupe si elles sont apparues avec le propriétaire du groupe dans un groupe précédent.

(Paramètres de différence : Seuil de différence = 1, Pourcentage de différence = 99)

Numéro d'enregistrement Nom Doublons approximatifs détectés Résultats de sortie

1

Ronson

 

 

 

 

2

Hansen

Hanssen, Hanson, Jansen

Groupe 2

Propriétaire du groupe : Hansen

Membres du groupe : Hanssen, Hanson, Jansen

3

Janson

Hanson, Jansen, Jansan, Jansn

Groupe 3

Propriétaire du groupe : Janson

Membres du groupe : Hanson, Jansen, Jansan, Jansn

4

Hanssen

 

 

 

 

5

Hanson

 

 

 

 

6

Jansen

Jansan, Janszen, Jansn

Groupe 6

Propriétaire du groupe : Jansen

Membre du groupe : Janszen

7

Jansan

Jansn

 

 

 

8

Janszen

 

 

 

 

9

Jansn

 

 

 

 

Inclusion des doublons exacts dans les résultats

Lors du traitement des données, l'opération de doublons approximatifs inclut toujours les doublons exacts mais les filtre dans les résultats si vous ne cochez pas la case Inclure les doublons exacts dans la boîte de dialogue Doublons approximatifs.

Les doublons exacts sont soumis aux mêmes règles de formation de groupe que les doublons approximatifs. Ils sont exclus d'un groupe s'ils sont apparus avec le propriétaire du groupe dans un groupe précédent. Si le propriétaire du groupe et la valeur exclue sont des doublons exacts, la valeur exclue peut apparaître dans le groupe du propriétaire. Toutefois, l'exclusion applique les règles de formation de groupe car les deux valeurs sont regroupées dans un groupe précédent.

Le tableau ci-dessous montre le traitement des doublons exacts. Les données sont traitées dans l'ordre décroissant.

  • « Ronson (3) » ne forme pas de groupe avec « Ronson (4) » car les deux valeurs sont déjà dans le groupe 1.
  • « Jansen (9) » est exclus du groupe formé par « Jansen (8) » car les deux valeurs sont déjà dans le groupe 2 et dans le groupe 5.

(Paramètres de différence : Seuil de différence = 1, Pourcentage de différence = 99, Inclure les doublons exacts = Y)

Numéro d'enregistrement Nom Doublons approximatifs et doublons exacts trouvés Résultats de sortie

1

Ronson

Ronson (3), Ronson (4)

Groupe 1

Propriétaire du groupe : Ronson

Membres du groupe : Ronson (3), Ronson (4)

2

Hansen

Hanssen, Hanson, Jansen (8), Jansen (9)

Groupe 2

Propriétaire du groupe : Hansen

Membres du groupe : Hanssen, Hanson, Jansen (8), Jansen (9)

3

Ronson

Ronson (4)

 

4

Ronson

 

 

5

Janson

Hanson, Jansen (8), Jansen (9), Jansan, Jansn

Groupe 5

Propriétaire du groupe : Janson

Membres du groupe : Hanson, Jansen (8), Jansen (9), Jansan, Jansn

6

Hanssen

 

 

7

Hanson

 

 

8

Jansen

Jansen (9), Jansan, Janszen, Jansn

Groupe 8

Propriétaire du groupe : Jansen

Membre du groupe : Janszen

9

Jansen

Jansan, Janszen, Jansn

Groupe 9

Propriétaire du groupe : Jansen

Membre du groupe : Janszen

10

Jansan

Jansn

 

11

Janszen

 

 

12

Jansn