Méthode ‎outliers()‎

Identifie les valeurs statistiques aberrantes dans une colonne numérique. Des valeurs aberrantes peuvent être identifiées pour la colonne dans son ensemble ou pour des groupes distincts basés sur les valeurs identiques contenues dans une ou plusieurs colonnes clés.

Syntaxe

nom_cadre_données.outliers(keys = ["colonne_clé", "...n"]|None, on = "colonne_numérique", distance = nombre_écarts_types, method = mean|median)

Paramètres

NomDescription
keys = ["colonne_clé", "...n"] | None
  • key_columnLa ou les colonnes clés à utiliser pour grouper les données dans le cadre de données

    Pour chaque groupe, un écart-type est calculé pour les valeurs numériques du groupe dans numeric_column. L'écart type du groupe est utilisé comme référence pour identifier les valeurs aberrantes du groupe.

    Si vous effectuez un regroupement selon plusieurs colonnes, c'est que vous avez créé des groupes imbriqués. L'ordre de l'imbrication suit l'ordre dans lequel vous indiquez les colonnes.

    Les colonnes clés sont placées le plus à gauche dans le cadre de données de sortie.

    Note

    La méthode outliers() trie automatiquement le cadre de données par rapport aux colonnes clés avant d'identifier des valeurs aberrantes.

  • AucunLes données ne sont pas regroupées et les valeurs aberrantes sont identifiées pour colonne_numérique dans son ensemble

    Un écart-type est calculé pour numeric_column dans son ensemble. L'écart type de la colonne est utilisé comme référence pour identifier les valeurs aberrantes de la colonne.

on = "colonne_numérique"

Colonne numérique à examiner pour y rechercher des valeurs aberrantes. Vous ne pouvez examiner qu'une seule colonne à la fois.

Les valeurs aberrantes sont les valeurs sortant des limites supérieure et inférieure définies par l'écart type du groupe ou de la colonne ou par un multiple spécifié de l'écart type.

distance = nombre_écarts_types

Dans colonne_numérique, nombre d'écarts types compris entre la moyenne ou la médiane et les limites supérieure et inférieure de valeurs aberrantes. Vous pouvez spécifier un entier positif ou une valeur numérique décimale (0,5; 1; 1,5; 2 . . . )

La formule permettant de créer des limites de valeurs aberrantes est la suivante :

moyenne/médiane ± (nombre_écarts_types * écart type)

Note

L'écart type est un indicateur de dispersion d'un jeu de données, c'est-à-dire qu'il indique dans quelle mesure les valeurs s'étalent. Le calcul des valeurs aberrantes utilise l'écart type de la population.

Exemple de limites de valeurs aberrantes

distance = 2

définit, pour colonne_numérique dans son ensemble, ou pour chaque groupe de colonnes clés :

  • une limite supérieure de valeurs aberrantes située à 2 écarts types au-dessus de la moyenne ou de la médiane

    moyenne/médiane + (2 * SD)

  • une limite inférieure de valeurs aberrantes située à 2 écarts types en dessous de la moyenne ou de la médiane

    moyenne/médiane – (2 * SD)

Toutes les valeurs supérieures à la limite supérieure ou inférieures à la limite inférieure sont considérées comme des valeurs aberrantes dans les résultats de sortie.

Note

Pour le même jeu de données, à mesure que vous augmentez la valeur dans nombre_écarts_types, vous diminuez peut-être le nombre de valeurs aberrantes renvoyé.

method = mean | median

facultatif

Méthode de calcul du point central des valeurs dans colonne_numérique (la colonne valeur aberrante).

  • moyenneCalcule la moyenne des valeurs
  • médianeCalcule la médiane des valeurs

Le point central est calculé pour l'un ou l'autre des éléments suivants :

  • soit pour les valeurs numériques de chaque groupe de colonnes clés
  • soit pour la colonne numérique dans son ensemble

Le point central est utilisé par la suite pour calculer l'écart type de chaque groupe ou de la colonne numérique dans son ensemble.

Si vous omettez method, c'est la valeur de moyenne par défaut qui est utilisée.

Astuce

Si les données dans lesquelles vous recherchez des valeurs aberrantes sont sensiblement faussées, le recours à la médiane peut produire des résultats plus représentatifs du volume de données.

Valeurs renvoyées

Un cadre de données HCL.

Exemples

Identifier les montants de transactions sortant de l'ordinaire

Dans l'intégralité d'un cadre de données Accounts receivable, vous souhaitez identifier les montants des transactions sortant de l'ordinaire.

Vous décidez de définir les limites des valeurs aberrantes sur 3 fois l'écart type de la colonne Amount. Le test renvoie 16 valeurs aberrantes dans le cadre de données de 772 lignes.

outliers_ar = accounts_receivable.outliers(keys = None, on = "Amount", distance = 3, method = "mean")

Vous réitérez le test, mais vous augmentez le multiple de l'écart type en le faisant passer à 3,5. Le test renvoie désormais 6 valeurs aberrantes car les limites des valeurs aberrantes sont bien plus loin du point central des valeurs dans la colonne Amount.

outliers_ar = accounts_receivable.outliers(keys = None, on = "Amount", distance = 3.5, method = "mean")

Identifier les montants des transactions sortant de l'ordinaire pour chaque client

Pour chaque client d'un cadre de données accounts receivable, vous souhaitez identifier les montants des transactions sortant de l'ordinaire.

Vous décidez de définir les limites des valeurs aberrantes sur 3 fois l'écart type du groupe de transactions de chaque client.

outliers_customer_ar = accounts_receivable.outliers(keys = ["CustNum"], on = "Amount", distance = 3, method = "mean")

Le test renvoie 7 valeurs aberrantes. La moyenne et l'écart-type sont mentionnés pour chaque groupe de transactions de chaque client :

numéro de groupeNumClientMontantmoyennestdevdistance
1650034 954,64833,831015,583
12620013 567,34438,81772,443
1262001(2 044,82)438,81772,443
2376005(931,55)484,57411,183
35016575 549,19441,141332,803
48110023 409,82672,10634,203
59250073 393,87906,16736,483

Identification des valeurs aberrantes pour le client 262001

Le client 262001 présente 101 transactions dans le cadre de données Accounts receivable ; deux d'entre elles sont signalées comme étant des valeurs aberrantes car elles dépassent les limites des valeurs aberrantes correspondant à ce client-là :

Valeur aberranteLimite inférieureLimite supérieureValeur aberrante
(2 044,82)(1 878,51)2 756,133 567,34

Mode de calcul des limites des valeurs aberrantes pour le client 262001

Les limites des valeurs aberrantes correspondent à la moyenne de toutes les transactions du client 262001, plus ou moins le multiple spécifié de l'écart type des transactions :

moyenne de toutes les transactions du client 262001438,81
Multiple spécifié de l'écart type3
Écart type des transactions772,44

438,81 ± (3 * 772,44)

= 438,81 ± 2 317,32

= (1 878,51) (limite inférieure)

= 2 756,13 (limite supérieure)

Utilisation de la médiane pour identifier les montants des transactions sortant de l'ordinaire pour chaque client

Vous utilisez la médiane, plutôt que la moyenne, pour effectuer le même test de recherche de valeurs aberrantes que celui effectué dans l'exemple précédent.

outliers_customer_ar_median = accounts_receivable.outliers(keys = ["CustNum"], on = "Amount", distance = 3, method = "median")

Le test renvoie 10 valeurs aberrantes au lieu des 7 renvoyées lors du test précédent. Selon la nature des données, la médiane et la moyenne peuvent renvoyer des résultats quelque peu différents :

numéro de groupeNumClientMontantmédianestdevdistance
1650034 954,64663,681015,583
12620013 567,34450,67772,443
1262001(2 044,82)450,67772,443
2376005(931,55)517,16411,183
35016574 426,14146,801332,803
35016575 549,19146,801332,803
48110023 409,82624,53634,203
59250072 972,78717,88736,483
59250073 030,71717,88736,483
59250073 393,87717,88736,483

Mode de calcul des limites des valeurs aberrantes pour chaque client

Les limites des valeurs aberrantes correspondent à la valeur médiane des transactions de chaque client, plus ou moins le multiple spécifié de l'écart type des transactions.

Par exemple, pour le client 262001 : 450,67 ± (3 * 772,44)

Remarques

Toutes les colonnes du cadre de données d'entrée sont automatiquement incluses dans le cadre de données de sortie. Les colonnes qui ne sont pas directement impliquées dans le calcul des valeurs aberrantes sont positionnées le plus à droite dans le cadre de données de sortie.