Recherche de doublons approximatifs
Information de concept
Vous pouvez tester un champ de type caractère dans la table active pour détecter la présence ou non de valeurs quasiment identiques (doublons approximatifs). Vous pouvez éventuellement inclure des valeurs identiques (doublons exacts) dans les résultats de sortie ainsi que des valeurs quasiment identiques.
Un message s'affiche dans la trace si un ou plusieurs groupes de doublons approximatifs des résultats atteignent la taille maximale. Pour plus d'informations, consultez la section Contrôle de la taille des résultats de doublons approximatifs.
Améliorer l'efficacité des tests de recherche de doublons approximatifs
Vous pouvez sensiblement améliorer l'efficacité des tests de recherche de doublons approximatifs en incorporant une ou plusieurs des techniques suivantes :
- trier les éléments individuels dans les valeurs des champs tests
- supprimer des éléments génériques des valeurs de champs tests
- concaténer des champs test
Pour plus d'informations, consultez les sections Fonctions d'aide des doublons approximatifs et Concaténation de champs.
Réduction de la durée d'exécution et de la taille des résultats de sortie
La fonction de doublons approximatifs utilise le processeur de manière intensive car chaque valeur du champ de test doit être comparée à chaque valeur suivante du champ.
Si votre analyse le permet, utilisez des méthodes comme le filtrage ou l'extraction de sous-ensembles d'enregistrements pour limiter la taille des données à tester. Des jeux de données inférieurs diminuent la durée d'exécution globale et permettent également de contrôler la taille des résultats de sortie.
Étapes
Remarque
Des informations détaillées s'affichent après les étapes. Consultez la rubriqueOptions de la boîte de dialogue Doublons approximatifs.
- Sélectionnez Analyser > Doublons approximatifs.
- Dans l'onglet Principal, effectuez l'une des opérations suivantes :
- Sélectionnez le champ à tester dans la liste Doublons approximatifs sur.
- Cliquez sur Doublons approximatifs sur pour sélectionner le champ ou créer une expression.
Astuce
Créer une expression, c'est concaténer des champs tests, supprimer des éléments génériques des valeurs des champs tests ou trier les éléments individuels des valeurs des champs tests. Pour plus d'informations, consultez les sections Fonctions d'aide des doublons approximatifs et Concaténation de champs.
- Facultatif. Utilisez l'option Lister les champs une ou plusieurs fois pour inclure tous les champs supplémentaires dans les résultats, ou cliquez sur Lister les champs pour sélectionner les champs, pour Tout inclure ou pour créer une expression.
D'autres champs peuvent fournir un contexte utile pour les résultats et permettent de vérifier si les doublons approximatifs font référence à la même entité réelle.
Remarque
Le champ sélectionné pour la recherche de doublons approximatifs s'affiche automatiquement au début de tous les enregistrements de résultats et ne doit pas forcément être spécifiquement sélectionné sous l'option Lister les champs.
- Spécifiez un Seuil de différence pour contrôler le degré de différence entre les doublons approximatifs.
Le paramètre est expliqué ci-dessous.
- Effectuez l'une des actions suivantes :
- Spécifiez un Pourcentage de différence pour contrôler le pourcentage de différence de chaque doublon approximatif.
- Décochez la case Pourcentage de différence pour le désactiver.
Le paramètre est expliqué ci-dessous.
- Effectuez l'une des actions suivantes :
- Spécifiez une Taille du résultat (%) pour définir la taille maximale des résultats par rapport à la taille du champ de test.
- Décochez la case Taille du résultat (%) pour la désactiver.
Le paramètre est expliqué ci-dessous.
- Si vous souhaitez inclure les doublons exacts et approximatifs dans les résultats, cochez la case Inclure les doublons exacts.
Pour plus d'informations, consultez la section Regroupement des doublons approximatifs.
-
Si vous souhaitez exclure du traitement certains enregistrements de la vue en cours, saisissez une condition dans la zone de texte Si, ou cliquez sur Si pour créer une instruction IF à l'aide du Générateur d'expression.
L'instruction IF prend en compte tous les enregistrements de la vue et exclue ceux qui ne correspondent pas à la condition spécifiée.
- Si vous êtes connecté à une table de serveur, effectuez l'une des opérations suivantes :
- Sélectionnez Local pour enregistrer la table de sortie dans le même emplacement que le projet, ou pour indiquer un chemin ou naviguer vers un autre répertoire local.
- Laissez l'option Local désactivée pour enregistrer la table de sortie dans le répertoire Préfixe sur un serveur.
Remarque
Pour les résultats générés par une analyse ou le traitement des tables du serveur Analytics Exchange, sélectionnez Local. Vous ne pouvez pas décocher le paramètre Local pour importer des tables de résultats vers Analytics Exchange.
- Effectuez l'une des actions suivantes :
- Dans la zone de texte Vers, indiquez le nom de la table Analytics qui contiendra les résultats de sortie.
- Cliquez sur Vers et sélectionnez une table existante dans la boîte de dialogue Enregistrer ou Enregistrer sous pour remplacer ou ajouter les résultats à la table.
Vous pouvez également indiquer un chemin de fichier absolu ou relatif, ou naviguer vers un répertoire différent, pour enregistrer ou ajouter la table dans un emplacement différent de celui du projet. Par exemple : C:\Résultats\Sortie.fil ou Résultats\Sortie.fil.
Quelle que soit la table d'enregistrement ou d'ajout des résultats, cette table est ajoutée au projet ouvert si elle ne s'y trouve pas déjà.
Si Analytics prérenseigne le nom de la table, vous pouvez l'accepter ou le modifier.
Remarque
La longueur des noms des tables Analytics est limitée à 64 caractères alphanumériques, sans l’extension .FIL. Le nom peut inclure le caractère de soulignement ( _ ), mais aucun autre caractère spécial ni espace. Le nom ne peut pas commencer par un chiffre.
-
Sélectionnez Utiliser la table de sortie pour que la table de sortie s'ouvre automatiquement une fois l'opération terminée.
- Cliquez sur OK.
- Si un message vous invitant à remplacer le fichier apparaît, sélectionnez l'option appropriée.
Options de la boîte de dialogue Doublons approximatifs
Le tableau ci-dessous fournit des informations détaillées sur les options disponibles dans la boîte de dialogue Doublons approximatifs.
| Options - Boîte de dialogue Doublons approximatifs | Description |
|---|---|
| Seuil de différence |
Le montant admissible de différence entre doublons approximatifs. Spécifiez un chiffre compris entre 1 et 10. Augmentez le Seuil de différence pour augmenter le nombre de caractères pouvant varier entre des paires de doublons approximatifs, et augmenter ainsi la taille des résultats. Pour plus d'informations, consultez la section Application des paramètres de différence. |
| Pourcentage de différence |
Le pourcentage de différence de chaque doublon approximatif. Spécifiez un pourcentage compris entre 1 et 99. Augmentez le Pourcentage de différence pour augmenter le pourcentage de différence d'un doublon approximatif, et augmenter ainsi la taille des résultats. Si vous désactivez le Pourcentage de différence, les résultats ne prennent pas en compte de pourcentage de différence d'un doublon approximatif. Les résultats sont plus importants que lorsque vous utilisez une quelconque valeur de Pourcentage de différence. Pour plus d'informations, consultez la section Application des paramètres de différence. |
| Taille du résultat (%) |
La taille maximale des résultats par rapport à la taille du champ de test. Spécifiez un pourcentage compris entre 1 et 1 000 (mille). Cette option vous permet de configurer l'arrêt automatique de l'opération de doublons approximatifs si la taille des résultats est supérieure à la taille jugée utile. Par exemple, pour un champ de test contenant 50 000 valeurs, une Taille du résultat (%) de 1 arrête le traitement lorsque les résultats dépassent 500 doublons approximatifs. Aucune table de sortie n'est générée si le traitement est arrêté. Si vous désactivez Taille du résultat (%), Analytics n'impose aucune limite de taille des résultats.Analytics Attention La désactivation de la Taille du résultat (%) peut générer un ensemble de résultats extrêmement important dont le traitement peut être très long ou entraîner un dépassement de la mémoire disponible et ainsi arrêter le traitement. Ne désactivez cette option que si vous savez que la taille des résultats pourra être gérée. Pour plus d'informations, consultez la section Contrôle de la taille des résultats de doublons approximatifs. |