Recherche de doublons

Information de concept

Commande DUPLICATES

Les doublons dans un ou plusieurs champs, ou les enregistrements dupliqués, peuvent être le résultat d'erreurs d'entrée de données ou d'activité frauduleuse comme la ventilation des transactions par carte de crédit pour éviter tout examen approfondi.

Conditions requises pour les valeurs uniques

Les champs qui ne doivent jamais contenir de doublons sont ceux dans lesquels les valeurs identifient les enregistrements de façon unique. Par exemple, une table d'employés ne doit jamais contenir de numéros d'employés en doublons, car chaque numéro doit identifier un employé unique.

Doublons valides

Les valeurs en doublons peuvent aussi être valides. Par exemple, une table de transactions peut contenir des numéros clients en doublons suite à plusieurs transactions effectuées par les mêmes clients.

Différents types de tests de doublons

Vous pouvez utiliser Analytics pour tester la recherche de doublons des façons suivantes :

Champ d'application des tests Utilisez ce test dans les cas suivants :
Sur un seul champ

Toutes les valeurs d'un champ particulier doivent être uniques, comme les numéros d'employés ou les numéros de chèque.

Avec au moins deux champs associés

L'unicité n'est pas une condition requise dans des champs pris isolément, mais il s'agit d'une condition requise dans certains champs associés.

Exemple

Dans un fichier de paie concernant une année, le champ de numéro d'employé et le champ de date de paie vont contenir plusieurs doublons. Les employés reçoivent leur paie toutes les deux semaines ; plusieurs employés sont payés à la même date.

Toutefois, chaque employé doit uniquement apparaître une fois à une date donnée. En cas de doublon entre les champs combinés Numéro de l'employé et Date de règlement, il se peut qu'un employé ait été payé deux fois pour la même période de paie.

Tous les champs d'un enregistrement

Recherchez la présence de doublons dans des enregistrements entièrement dupliqués, dans lesquels chaque champ d'un enregistrement est dupliqué. Des enregistrements entièrement dupliqués peuvent apparaître suite à une erreur d'entrée de données ou suite à d'autres irrégularités de transaction.

Tri et doublons

En règle générale, vous ne devez rechercher les doublons qu'à l'aide d'un ou plusieurs champs clés triés. Les valeurs dupliquées dans un champ clé ne sont trouvées que si elles sont immédiatement adjacentes.

Si vous recherchez les doublons à l'aide d'un champ clé non trié, les valeurs dupliquées non adjacentes ne sont pas identifiées comme doublons. S'il existe au moins deux clusters de la même valeur en doublon, ils sont signalés comme doublons, mais dans des groupes distincts.

En fonction de l'objectif de votre analyse, il peut être utile de rechercher les doublons sur un champ clé non trié. Par exemple, vous pouvez ne rechercher que les valeurs en double qui sont immédiatement adjacentes dans la table source et ignorer les valeurs en double qui ne sont pas adjacentes.

Inclure le champ Numéro de groupe dans la table de sortie

Vous avez la possibilité d'inclure le champ Numéro de groupe dans la la table de sortie des doublons. Le champ attribue un numéro incrémenté séquentiellement à chaque groupe unique de doublons. La possibilité de référencer des groupes de doublons par numéro peut s'avérer utile lorsque vous analysez des données dans la table de sortie.

Le filtre duplique la table de sortie par numéro de groupe.

Vous utilisez plusieurs champs clés combinés pour lancer un test de recherche des enregistrements en double sur une table des comptes fournisseurs.

  • numéro fournisseur
  • numéro de facture
  • date de facture
  • montant de la facture

Vous souhaitez filtrer la table de sortie des doublons apparaissant afin que seuls certains groupes de doublons fassent l'objet d'un traitement supplémentaire.

Créer un filtre en utilisant la combinaison de champs clés serait laborieux. Par exemple :

SET FILTER TO ((No_Fournisseur = "11475") AND (No_Facture = "8752512") AND (Date_Facture = `20191021`) AND (Montant_Facture = 7125.80)) OR ((No_Fournisseur = "12130") AND (No_Facture = "589134") AND (Date_Facture = `20191117`) AND (Montant_Facture = 10531.71)) OR ((No_Fournisseur = "13440") AND (No_Facture = "5518912") AND (Date_Facture = `20191015`) AND (Montant_Facture = 11068.20))

Au lieu de cela, vous obtenez le même résultat en créant un filtre basé sur le numéro de groupe :

SET FILTER TO MATCH(GROUP_NUM; 3 ; 8; 11)

Étapes

Vous pouvez tester un ou plusieurs champs de la table active afin de déterminer s'il existe des doublons au niveau des valeurs ou d'enregistrements entiers.

Supprimer des doublons

Vous pouvez utiliser l'opération de totalisation pour supprimer les doublons de valeurs ou d'enregistrements d'un jeu de données et enregistrer les valeurs ou enregistrements uniques restants dans une nouvelle table Analytics.