Commande CLUSTER

Information de Concept

Mise en cluster des données

Regroupe les enregistrements en clusters selon des valeurs similaires dans un ou plusieurs champs numériques. Les clusters peuvent être unidimensionels ou multidimensionnels.

Note

La commande CLUSTER n'est pas prise en charge si vous exécutez Analytics sur un ordinateur 32 bits. Le calcul requis par la commande utilise le processeur de manière intensive et convient mieux aux ordinateurs 64 bits.

Syntaxe

CLUSTER ON champ_clé <...n> KVALUE nombre_de_clusters ITERATIONS nombre_itérations INITIALIZATIONS nombre_initialisations <SEED valeur_départ> <OTHER champ < ...n>|OTHER ALL> TO nom_table <IF test> <WHILE test> <FIRST plage|NEXT plage> OPEN {aucun_mot_clé|NOCENTER|NOSCALE}

Paramètres

Nom Description
ON champ_clé <...n>

Un ou plusieurs champs numériques à regrouper. Les champs multiples doivent être séparés par des espaces.

KVALUE nombre_de_clusters

Nombre de clusters générés dans les résultats de sortie.

Pour de plus amples informations, consultez la section Choix du nombre de clusters (valeur K).

ITERATIONS nombre_itérations Nombre maximum de fois où le calcul des clusters est ré-effectué.
INITIALIZATIONS nombre_initialisations

Nombre de fois permettant de générer un premier ensemble de centroïdes aléatoires.

SEED valeur_départ

facultatif

Valeur de départ à utiliser pour lancer le générateur de nombres aléatoires dans Analytics.

Si vous omettez SEED, Analytics sélectionne aléatoirement la valeur de départ.

OTHER champ <...n> | OTHER ALL

facultatif

Un ou plusieurs champs supplémentaires à inclure dans la sortie.

  • OTHER champ <...n>Incluez le(s) champ(s) spécifié(s)

    Les champs sont inclus dans l'ordre dans lequel vous les énumérez.

  • OTHER ALLIncluez tous les champs dans la table

    Les champs sont inclus dans leur ordre d'apparition dans le format de table.

Note

Les champs clés sont inclus automatiquement dans la table de sortie bien que les valeurs soient mises à l'échelle sauf si vous spécifiez NOSCALE. Vous pouvez utiliser OTHER pour inclure une deuxième instance non mise à l'échelle d'un ou plusieurs champs clés.

TO nom_table

Emplacement vers lequel envoyer les résultats de la commande :

  • nom_tableEnregistre les résultats dans une table Analytics

    Indiquez nom_table sous forme de chaîne entre guillemets avec une extension de fichier .FIL. Par exemple : TO "Output.FIL"

    Par défaut, le fichier de données de table (.FIL) est enregistré dans le dossier contenant le projet Analytics.

    Utilisez un chemin de fichier absolu ou relatif pour enregistrer le fichier de données dans un autre dossier existant :

    • TO "C:\Output.FIL"
    • TO "Results\Output.FIL"

    Note

    La longueur des noms des tables est limitée à 64 caractères alphanumériques, sans l'extension .FIL. Le nom peut inclure le caractère de soulignement ( _ ), mais aucun autre caractère spécial ni espace. Le nom ne peut pas commencer par un chiffre.

IF test

facultatif

Expression conditionnelle qui doit être vraie afin de traiter chaque enregistrement. La commande est exécutée uniquement sur les enregistrements remplissant la condition.

Note

La condition IF est évaluée uniquement par rapport aux enregistrements restant dans une table après application des options relevant du champ d'application (WHILE, FIRST, NEXT).

WHILE test

facultatif

Expression conditionnelle qui doit être vraie afin de traiter chaque enregistrement. La commande est exécutée jusqu'à ce que la condition soit évaluée comme fausse ou lorsque la fin de la table est atteinte.

Note

Si vous utilisez WHILE conjointement avec FIRST ou NEXT, le traitement des enregistrements s'arrête dès qu'une limite est atteinte.

FIRST plage | NEXT plage

facultatif

Le nombre d'enregistrements à traiter :

  • FIRSTPour commencer le traitement à partir du premier enregistrement jusqu’à ce que le nombre d’enregistrements spécifié soit atteint
  • NEXTPour commencer le traitement à partir de l’enregistrement actuellement sélectionné jusqu’à ce que le nombre d’enregistrements spécifié soit atteint

Utilisez plage pour indiquer le nombre d'enregistrements à traiter.

Si vous ignorez FIRST et NEXT, tous les enregistrements sont traités par défaut.

OUVRIR

facultatif

Ouvre la table créée par la commande après l'exécution de la commande. Valide uniquement lorsque la commande crée une table de sortie.

aucun_mot_clé | NOCENTER | NOSCALE

Méthode de prétraitement des valeurs numériques des champs clés avant de calculer les clusters.

  • aucun_mot_cléCentre les valeurs des champs clés sur une moyenne de zéro (0) et les met à l’échelle en les divisant par leur écart-type, processus qui convertit les valeurs en leur équivalent en variable centrée réduite (score standard)
  • NOCENTERMet à l’échelle les valeurs des champs clés en les divisant par leur écart-type, mais sans les centrer sur une moyenne de zéro (0)
  • NOSCALEUtilise les valeurs brutes des champs clés, non centrées et non mises à l’échelle

Pour de plus amples informations, consultez la section Spécifier une méthode de prétraitement des données.

Exemples

Exécuter la commande Cluster sur le montant des factures

En plus de stratifier une table Comptabilité client sur le champ Montant_facture, vous décidez également d'exécuter la commande Cluster sur le même champ.

  • La stratification regroupe les montants par couche présentant des limites numériques prédéfinies, par exemple, des intervalles de 1000 $.
  • Le regroupement en clusters permet de détecter les regroupements organiques de montants existant dans les données sans que vous ayez à décider d'avance des limites numériques.
OPEN Comptes_clients
CLUSTER ON Montant_Facture KVALUE 8 ITERATIONS 30 INITIALIZATIONS 10 OTHER Num Date d'échéance Réf Type TO "Factures_en_cluster" NOSCALE

Pour connaître rapidement le nombre d'enregistrements contenus dans chaque cluster de sortie, vous classez la table de sortie Factures_en_cluster sur le champ Cluster.

OPEN Factures_en_cluster
CLASSIFY ON Cluster TO SCREEN

Remarques

Pour plus d'informations sur le fonctionnement de cette commande, consultez Mise en cluster des données.