Commande OUTLIERS

Information de concept

Identification des valeurs aberrantes

Identifie les valeurs statistiques aberrantes dans un champ numérique. Des valeurs aberrantes peuvent être identifiées pour le champ dans son ensemble ou pour des groupes distincts basés sur les valeurs identiques contenues dans un ou plusieurs champs clés de type caractère, numérique ou DateHeure.

Syntaxe

OUTLIERS {AVERAGE|MEDIAN} {PKEY champ_clé <...n>|PKEY ALL <EXCLUDE nom_champ <...n>>|NOKEY} ON champ_numérique <OTHER champ <...n>|OTHER ALL <EXCLUDE nom_champ <...n>>> NUMSTDEV nombre_écarts_types <IF test> <TO {SCREEN|nom_table}> <PRESORT> <WHILE test> <FIRST plage|NEXT plage> <OPEN>

Remarque

Vous ne pouvez pas exécuter la commande OUTLIERS localement par rapport à une table de serveur.

Vous devez indiquer en entier le nom de la commande OUTLIERS. Vous ne pouvez pas l'abréger.

Paramètres

Nom Description
AVERAGE | MEDIAN

Méthode de calcul du point central des valeurs dans champ_numérique (le champ de la valeur aberrante.

  • AVERAGE calculez la moyenne des valeurs
  • MEDIAN calculez la médiane des valeurs

Le point central est calculé pour l'un ou l'autre des éléments suivants :

  • soit pour le champ numérique dans son ensemble
  • soit pour les valeurs numériques de chaque groupe de champs clés

Le point central est utilisé par la suite pour calculer l'écart type du champ numérique ou de chaque groupe.

Remarque

Si vous indiquez MEDIAN, champ_numérique doit être trié. Utilisez PRESORT si champ_numérique n'est pas déjà trié.

Astuce

Si les données dans lesquelles vous recherchez des valeurs aberrantes sont sensiblement faussées, MEDIAN peut produire des résultats plus représentatifs du volume de données.

PKEY champ_clé <...n> | PKEY ALL | NOKEY

Un ou plusieurs champs de type caractère, numérique ou DateHeure à utiliser pour regrouper les données dans le tableau.

Si vous spécifiez NOKEY, les données ne sont pas regroupées et les valeurs aberrantes sont identifiées au niveau du champ.

Remarque

Les champs clés doivent être triés. Utilisez PRESORT si un ou plusieurs champs ne sont pas déjà triés.

  • PKEY champ_clé utilise le(s) champ(s) spécifié(s) pour regrouper les données dans la table

    Les champs multiples doivent être séparés par des espaces, et peuvent être des types de données différents.

    Si vous spécifiez plusieurs champs, vous avez créé des groupes imbriqués dans la table de sortie. L'imbrication suit l'ordre dans lequel vous indiquez les champs.

    Pour chaque groupe, un écart-type est calculé pour les valeurs numériques du groupe dans champ_numérique. L'écart type du groupe est utilisé comme référence pour identifier les valeurs aberrantes du groupe.

  • PKEY ALL utilise tous les champs de la table pour regrouper les données dans la table

    Si vous spécifiez tous les champs, vous créez des groupes imbriqués dans la table de sortie. L'imbrication suit l'ordre dans lequel les champs apparaissent dans le format de table.

    Pour chaque groupe, un écart-type est calculé pour les valeurs numériques du groupe dans champ_numérique. L'écart type du groupe est utilisé comme référence pour identifier les valeurs aberrantes du groupe.

    Remarque

    Le regroupement en fonction de tous les champs comprend champ_numérique, ce qui peut ne pas être logique. Vous pouvez utiliser EXCLUDE pour exclure champ_numérique du regroupement.

  • NOKEY ne regroupe pas les données dans la table

    Un écart type est calculé pour champ_numérique dans sa globalité. L'écart type du champ est utilisé comme référence pour identifier les valeurs aberrantes du champ.

EXCLUDE nom_champ

optionnel

Valide uniquement pour le regroupement des données de table à l'aide de PKEY ALL.

Le ou les champs à exclure de la commande. EXCLUDE vous permet de personnaliser PKEY ALL, en excluant les champs spécifiés.

EXCLUDE doit suivre immédiatement PKEY ALL. Par exemple :

PKEY ALL EXCLUDE champ_1 champ_2
ON champ_numérique

Champ numérique à examiner pour y rechercher des valeurs aberrantes. Vous ne pouvez examiner qu'un seul champ à la fois.

Les valeurs aberrantes sont les valeurs sortant des limites supérieure et inférieure définies par l'écart type du champ ou groupe ou par un multiple spécifié de l'écart type.

AUTRE champ <...n> | OTHER ALL

optionnel

Un ou plusieurs champs supplémentaires à inclure dans la sortie.

  • OTHER champ <...n> inclut le(s) champ(s) spécifié(s)

    Les champs sont inclus dans l'ordre dans lequel vous les faites figurer dans la liste.

  • OTHER ALL inclut tous les champs de la table qui ne sont pas spécifiés comme champs clés ou champs valeurs aberrantes

    Les champs sont inclus dans l'ordre où ils apparaissent dans le format de table.

Remarque

Les champs clés et le champ de la valeur aberrante sont inclus automatiquement dans la table de sortie et ne doivent pas être spécifiés à l'aide de OTHER.

EXCLUDE nom_champ

optionnel

Valide uniquement lors de l'utilisation de OTHER ALL.

Le ou les champs à exclure de la commande. EXCLUDE vous permet de personnaliser OTHER ALL, en excluant les champs spécifiés.

EXCLUDE doit suivre immédiatement OTHER ALL. Par exemple :

OTHER ALL EXCLUDE champ_1 champ_2
NUMSTDEV nombre_écarts_types

Dans champ_numérique, nombre d'écarts types compris entre la moyenne ou la médiane et les limites supérieure et inférieure de valeurs aberrantes. Vous pouvez spécifier un entier positif ou une valeur numérique décimale (0,5; 1; 1,5; 2 . . . )

La formule permettant de créer des limites de valeurs aberrantes est la suivante :

moyenne/médiane ± (nombre_écarts_types * écart type)

Remarque

L'écart type est un indicateur de dispersion d'un jeu de données, c'est-à-dire qu'il indique dans quelle mesure les valeurs s'étalent. Le calcul des valeurs aberrantes utilise l'écart type de la population.

Exemple de limites de valeurs aberrantes

NUMSTDEV 2

définit, pour champ_numérique dans son ensemble, ou pour chaque groupe de champs clés :

  • une limite supérieure de valeurs aberrantes située à 2 écarts types au-dessus de la moyenne ou de la médiane

    moyenne/médiane + (2 * écarts types)

  • une limite inférieure de valeurs aberrantes située à 2 écarts types en dessous de la moyenne ou de la médiane

    moyenne/médiane – (2 * écarts types)

Toutes les valeurs supérieures à la limite supérieure ou inférieures à la limite inférieure sont considérées comme des valeurs aberrantes dans les résultats de sortie.

Remarque

Pour le même jeu de données, à mesure que vous augmentez la valeur dans nombre_écarts_types, vous diminuez peut-être le nombre de valeurs aberrantes renvoyé.

IF test

optionnel

Expression conditionnelle qui doit être vraie afin de traiter chaque enregistrement. La commande est exécutée uniquement sur les enregistrements remplissant la condition.

Remarque

La condition IF est évaluée uniquement par rapport aux enregistrements restant dans une table après application des options relevant du champ d'application (WHILE, FIRST, NEXT).

TO SCREEN | nom_table

optionnel

Emplacement vers lequel envoyer les résultats de la commande :

  • SCREEN : affiche les résultats dans la zone d'affichage d'Analytics

    Astuce

    Vous pouvez cliquer sur n'importe quelle valeur de résultat liée dans la zone d'affichage pour explorer jusqu'à l'enregistrement ou aux enregistrements associés dans la table source.

  • nom_table enregistre les résultats dans une table Analytics

    Indiquez nom_table sous forme de chaîne entre guillemets avec une extension de fichier .FIL. Par exemple : TO "Sortie.FIL"

    Par défaut, le fichier de données de table (.FIL) est enregistré dans le dossier contenant le projet Analytics.

    Utilisez un chemin de fichier absolu ou relatif pour enregistrer le fichier de données dans un autre dossier existant :

    • TO "C:\Sortie.FIL"
    • TO "Résultats\Sortie.FIL"

    Remarque

    La longueur des noms des tables est limitée à 64 caractères alphanumériques, sans l'extension .FIL. Le nom peut inclure le caractère de soulignement ( _ ), mais aucun autre caractère spécial ni espace. Le nom ne peut pas commencer par un chiffre.

PRESORT

optionnel

Effectue une opération de tri avant l'exécution de la commande.

Astuce

Si le(s) champ(s) approprié(s) de la table d'entrée sont déjà triés, vous pouvez gagner du temps de traitement en évitant d'indiquer PRESORT.

Si vous indiquez PRESORT et: Trie par :
PKEY, AVERAGE
  • champ(s) clé(s)
  • champ(s) clé(s) champ_numérique (si champ_numérique est calculé)

    Remarque

    Le tri d'un champ_numérique calculé est une condition technique interne d'Analytics.

PKEY, MEDIAN

champ(s) clé(s) puis par champ_numérique

NOKEY, AVERAGE

aucun tri

NOKEY, MEDIAN champ_numérique
WHILE test

optionnel

Expression conditionnelle qui doit être vraie afin de traiter chaque enregistrement. La commande est exécutée jusqu'à ce que la condition soit évaluée comme fausse ou lorsque la fin de la table est atteinte.

Remarque

Si vous utilisez WHILE conjointement avec FIRST ou NEXT, le traitement des enregistrements s'arrête dès qu'une limite est atteinte.

FIRST plage | NEXT plage

optionnel

Le nombre d'enregistrements à traiter :

  • FIRST pour commencer le traitement à partir du premier enregistrement jusqu'à ce que le nombre d'enregistrements spécifié soit atteint
  • NEXT pour commencer le traitement à partir de l'enregistrement actuellement sélectionné jusqu'à ce que le nombre d'enregistrements spécifié soit atteint

Utilisez plage pour indiquer le nombre d'enregistrements à traiter.

Si vous ignorez FIRST et NEXT, tous les enregistrements sont traités par défaut.

OPEN

optionnel

Ouvre la table créée par la commande après l'exécution de la commande. Valide uniquement lorsque la commande crée une table de sortie.

Exemples

Identifier les montants de transactions sortant de l'ordinaire

Vous souhaitez identifier les montants des transactions sortant de l'ordinaire dans toute la table Ar dans Exemple de projet.acl.

Vous décidez de définir les limites des valeurs aberrantes sur 3 fois l'écart type du champ Montant. Le test renvoie 16 valeurs aberrantes dans la table de 772 enregistrements.

OPEN Comptes_clients
OUTLIERS AVERAGE NOKEY ON Montant NUMSTDEV 3 PRESORT TO "Valeurs_aberrantes_Client.fil" OPEN

Vous réitérez le test, mais vous augmentez le multiple de l'écart type en le faisant passer à 3,5. Le test renvoie désormais 6 valeurs aberrantes car les limites des valeurs aberrantes sont bien plus loin du point centrale des valeurs dans le champ Montant.

OPEN Comptes_clients
OUTLIERS AVERAGE NOKEY ON Montant NUMSTDEV 3,5 PRESORT TO "Valeurs_aberrantes_Client.fil" OPEN

Identifier les montants des transactions sortant de l'ordinaire pour chaque client

Pour chaque client de la table Ar dans Exemple de projet.acl, vous souhaitez identifier les montants des transactions sortant de l'ordinaire.

Vous décidez de définir les limites des valeurs aberrantes sur 3 fois l'écart type du groupe de transactions de chaque client.

OPEN Comptes_clients
OUTLIERS AVERAGE PKEY Num ON Montant NUMSTDEV 3 PRESORT TO "Valeurs_aberrantes_Comptabilité_Client.fil" OPEN

Le test renvoie 7 valeurs aberrantes. L'écart type et la moyenne sont mentionnés pour chaque groupe de transactions de chaque client :

  Numéro client (No) Montant de trans STDEV AVERAGE Numéro de groupe
1 065003 4 954,64 1015,58 833,83 1
2 262001 3 567,34 772,44 438,81 2
3 262001 (2 044,82) 772,44 438,81 2
4 376005 (931,55) 411,18 484,57 3
5 501657 5 549,19 1332,80 441,14 4
6 811002 3 409,82 634,20 672,10 5
7 925007 3 393,87 736,48 906,16 6

Identification des valeurs aberrantes pour le client 262001

Le client 262001 présente 101 transactions dans la table Ar ; deux d'entre elles sont signalées comme étant des valeurs aberrantes car elles dépassent les limites des valeurs aberrantes correspondant à ce client-là :

Valeur aberrante Limite inférieure Limite supérieure Valeur aberrante
(2 044,82) (1 878,51) 2 756,13 3 567,34

Mode de calcul des limites des valeurs aberrantes pour le client 262001

Les limites des valeurs aberrantes correspondent à la moyenne de toutes les transactions du client 262001, plus ou moins le multiple spécifié de l'écart type des transactions :

Moyenne de toutes les transactions du client 262001 438,81
Multiple spécifié de l'écart type 3
Écart type des transactions 772,44

438,81 ± (3 * 772,44)

= 438,81 ± 2 317,32

= (1 878,51) (limite inférieure)

= 2 756,13 (limite supérieure)

Utilisation de MEDIAN pour identifier les montants des transactions sortant de l'ordinaire pour chaque client

Vous utilisez MEDIAN, plutôt que AVERAGE, pour effectuer le même test de recherche de valeurs aberrantes que celui effectué dans l'exemple précédent.

OPEN Comptes_clients
OUTLIERS MEDIAN PKEY Num ON Montant NUMSTDEV 3 PRESORT TO "Valeurs_aberrantes_Comptabilité_Client_Médiane.fil" OPEN

Le test renvoie 10 valeurs aberrantes au lieu des 7 renvoyées lors du test précédent. Selon la nature des données, MEDIAN et AVERAGE peuvent renvoyer des résultats quelque peu différents :

  Numéro client (No) Montant de trans STDEV MEDIAN Numéro de groupe
1 065003 4 954,64 1015,58 663,68 1
2 262001 (2 044,82) 772,44 450,67 2
3 262001 3 567,34 772,44 450,67 2
4 376005 (931,55) 411,18 517,16 3
5 501657 4 426,14 1332,80 146,80 4
6 501657 5 549,19 1332,80 146,80 4
7 811002 3 409,82 634,20 624,53 5
8 925007 2 972,78 736,48 717,88 6
9 925007 3 030,71 736,48 717,88 6
10 925007 3 393,87 736,48 717,88 6

Mode de calcul des limites des valeurs aberrantes pour chaque client

Les limites des valeurs aberrantes correspondent à la valeur médiane des transactions de chaque client, plus ou moins le multiple spécifié de l'écart type des transactions.

Par exemple, pour le client 262001 : 450,67 ± (3 * 772,44)

Remarques

Pour plus d'informations sur le fonctionnement de cette commande, consultez Identification des valeurs aberrantes.

Ajouter des champs de limites de valeurs aberrantes à la table de résultats

Analytics ajoute automatiquement les champs calculés STDEV et AVERAGE ou MEDIAN à la table de résultats de valeurs aberrantes. Par ailleurs, vous trouverez peut-être utile d'ajouter deux champs calculés affichant les limites des valeurs aberrantes utilisées pour identifier les valeurs aberrantes dans la table de résultats.

  1. Ouvrez la table Résultats des valeurs aberrantes.
  2. Collez cette expression dans la ligne de commande Analytics, modifiez-la si besoin, et appuyez sur Entrée :
    DEFINE FIELD Limite_inférieure COMPUTED AVERAGE - (nombre_écarts_types * STDEV)
    • Pour nombre_écarts_types, substituez le multiple de l'écart type réel que vous avez utilisé.
    • Si vous avez utilisé la médiane au lieu de la moyenne comme point central, substituez MEDIAN à AVERAGE.
  3. Collez cette expression dans la ligne de commande Analytics, modifiez-la si besoin, et appuyez sur Entrée :
    DEFINE FIELD Limite_supérieure COMPUTED AVERAGE + (nombre_écarts_types * STDEV)
    • Pour nombre_écarts_types, substituez le multiple de l'écart type réel que vous avez utilisé.
    • Si vous avez utilisé la médiane au lieu de la moyenne comme point central, substituez MEDIAN à AVERAGE.
  4. Cliquez dans la vue avec le bouton droit de la souris et sélectionnez Ajouter des colonnes.
  5. Dans la liste Champs disponibles, double-cliquez sur Limite_inférieure et sur Limite_supérieure pour les ajouter à la liste Champs sélectionnés.
  6. Cliquez sur OK.
  7. Facultatif. Replacez les champs ajoutés en faisant glisser les en-têtes des colonnes.