Commande CLUSTER

Information de concept

Mise en cluster des données

Regroupe les enregistrements en clusters selon des valeurs similaires dans un ou plusieurs champs numériques. Les clusters peuvent être unidimensionels ou multidimensionnels.

Remarque

La commande CLUSTER n'est pas prise en charge si vous exécutez Analytics sur un ordinateur 32 bits. Le calcul requis par la commande utilise le processeur de manière intensive et convient mieux aux ordinateurs 64 bits.

Syntaxe

CLUSTER ON champ_clé <...n> KVALUE nombre_de_clusters ITERATIONS nombre_itérations INITIALIZATIONS nombre_initialisations <SEED valeur_départ> <OTHER champ < ...n>|OTHER ALL> TO nom_table <IF test> <WHILE test> <FIRST plage|NEXT plage> OPEN {aucun_mot_clé|NOCENTER|NOSCALE}

Paramètres

Nom Description
ON champ_clé <...n>

Un ou plusieurs champs numériques à regrouper. Les champs multiples doivent être séparés par des espaces.

KVALUE nombre_de_clusters

Nombre de clusters générés dans les résultats de sortie.

Pour plus d'informations, consultez la section Choix du nombre de clusters (valeur K).

ITERATIONS nombre_itérations Nombre maximum de fois où le calcul des clusters est ré-effectué.
INITIALIZATIONS nombre_initialisations

Nombre de fois permettant de générer un premier ensemble de centroïdes aléatoires.

SEED valeur_départ

optionnel

Valeur de départ à utiliser pour lancer le générateur de nombres aléatoires dans Analytics.

Si vous omettez SEED, Analytics sélectionne aléatoirement la valeur de départ.

OTHER champ <...n> | OTHER ALL

optionnel

Un ou plusieurs champs supplémentaires à inclure dans la sortie.

  • OTHER champ <...n> inclut le(s) champ(s) spécifié(s)

    Les champs sont inclus dans l'ordre de la liste.

  • OTHER ALL inclut tous les champs de la table

    Les champs sont inclus dans leur ordre d'apparition dans le format de table.

Remarque

Les champs clés sont inclus automatiquement dans la table de sortie bien que les valeurs soient mises à l'échelle sauf si vous spécifiez NOSCALE. Vous pouvez utiliser OTHER pour inclure une deuxième instance non mise à l'échelle d'un ou plusieurs champs clés.

TO nom_table

Emplacement vers lequel envoyer les résultats de la commande :

  • nom_table enregistre les résultats dans une table Analytics

    Indiquez nom_table sous forme de chaîne entre guillemets avec une extension de fichier .FIL. Par exemple : TO "Sortie.FIL"

    Par défaut, le fichier de données de table (.FIL) est enregistré dans le dossier contenant le projet Analytics.

    Utilisez un chemin de fichier absolu ou relatif pour enregistrer le fichier de données dans un autre dossier existant :

    • TO "C:\Sortie.FIL"
    • TO "Résultats\Sortie.FIL"

    Remarque

    La longueur des noms des tables est limitée à 64 caractères alphanumériques, sans l'extension .FIL. Le nom peut inclure le caractère de soulignement ( _ ), mais aucun autre caractère spécial ni espace. Le nom ne peut pas commencer par un chiffre.

IF test

optionnel

Expression conditionnelle qui doit être vraie afin de traiter chaque enregistrement. La commande est exécutée uniquement sur les enregistrements remplissant la condition.

Remarque

La condition IF est évaluée uniquement par rapport aux enregistrements restant dans une table après application des options relevant du champ d'application (WHILE, FIRST, NEXT).

WHILE test

optionnel

Expression conditionnelle qui doit être vraie afin de traiter chaque enregistrement. La commande est exécutée jusqu'à ce que la condition soit évaluée comme fausse ou lorsque la fin de la table est atteinte.

Remarque

Si vous utilisez WHILE conjointement avec FIRST ou NEXT, le traitement des enregistrements s'arrête dès qu'une limite est atteinte.

FIRST plage | NEXT plage

optionnel

Le nombre d'enregistrements à traiter :

  • FIRST pour commencer le traitement à partir du premier enregistrement jusqu'à ce que le nombre d'enregistrements spécifié soit atteint
  • NEXT pour commencer le traitement à partir de l'enregistrement actuellement sélectionné jusqu'à ce que le nombre d'enregistrements spécifié soit atteint

Utilisez plage pour indiquer le nombre d'enregistrements à traiter.

Si vous ignorez FIRST et NEXT, tous les enregistrements sont traités par défaut.

OPEN

optionnel

Ouvre la table créée par la commande après l'exécution de la commande. Valide uniquement lorsque la commande crée une table de sortie.

aucun_mot_clé | NOCENTER | NOSCALE

Méthode de prétraitement des valeurs numériques des champs clés avant de calculer les clusters.

  • aucun_mot_clé centre les valeurs des champs clés sur une moyenne de zéro (0) et les met à l'échelle en les divisant par leur écart-type, processus qui convertit les valeurs en leur équivalent en variable centrée réduite (score standard)
  • NOCENTER met à l'échelle les valeurs des champs clés en les divisant par leur écart-type, mais sans les centrer sur une moyenne de zéro (0)
  • NOSCALE utilise les valeurs brutes des champs clés, non centrées et non mises à l'échelle

Pour plus d'informations, consultez la section Spécifier une méthode de prétraitement des données.

Exemples

Exécuter la commande Cluster sur le montant des factures

En plus de stratifier une table Comptabilité client sur le champ Montant_facture, vous décidez également d'exécuter la commande Cluster sur le même champ.

  • La stratification regroupe les montants par couche présentant des limites numériques prédéfinies, par exemple, des intervalles de 1000 $.
  • Le regroupement en clusters permet de détecter les regroupements organiques de montants existant dans les données sans que vous ayez à décider d'avance des limites numériques.
OPEN Comptes_clients
CLUSTER ON Montant_Facture KVALUE 8 ITERATIONS 30 INITIALIZATIONS 10 OTHER Num Date d'échéance Réf Type TO "Factures_en_cluster" NOSCALE

Pour connaître rapidement le nombre d'enregistrements contenus dans chaque cluster de sortie, vous classez la table de sortie Factures_en_cluster sur le champ Cluster.

OPEN Factures_en_cluster
CLASSIFY ON Cluster TO SCREEN

Remarques

Pour plus d'informations sur le fonctionnement de cette commande, consultez Mise en cluster des données.