Comando CLUSTER

Información de Concepto

Agrupa los registros en clústeres según los valores similares en uno o más campos numéricos. Los clústeres pueden ser unidimensionales multidimensionales.

Nota

No se admite el comando CLUSTER si está ejecutando Analytics en una computadora de 32 bits. Los cálculos que debe realizar el comando requieren mucho trabajo del procesador y es conveniente tener computadoras de 64 bits.

Sintaxis

CLUSTER ON campo_clave <...n> KVALUE número_de_clústeres ITERATIONS número_de_iteraciones INITIALIZATIONS número_de_inicializaciones <SEED valor_semilla> <OTHER campo < ...n>|OTHER ALL> TO nombre_tabla <IF prueba> <WHILE prueba> <FIRST rango|NEXT rango> OPEN {sin_palabra_clave|NOCENTER|NOSCALE}

Parámetros

Nombre	Descripción
ON campo_clave <...n>	Uno o más campos numéricos a agrupar. Múltiples campos se deben separar con espacios.
KVALUE número_de_clústeres	La cantidad de clústeres generados en los resultados de salida. Para obtener más información, consulte Elección de la cantidad de clústeres (Valor K).
ITERATIONS número_de_iteraciones	La cantidad máxima de veces que se vuelve a realizar el cálculo de clústeres.
INITIALIZATIONS número_de_inicializaciones	La cantidad de veces que se debe generar un conjunto inicial de centroides aleatorios.
SEED valor_semilla opcional	El valor semilla que se debe usar para inicializar el generador de números aleatorios en Analytics. Si omite SEED, Analytics selecciona de manera aleatoria el valor semilla.
OTHER campo <...n> \| OTHER ALL opcional	Uno o más campos adicionales para incluir en la salida. OTHER campo <...n> incluye el o los campos especificados Los campos se incluyen en el orden en el que usted los indica. OTHER ALL incluye todos los campos de tabla Los campos se incluyen en el orden en el que aparecen en el formato de tabla. Nota Los campos clave se incluyen automáticamente en la tabla de salida, aunque los valores se escalan, a menos que usted especifique NOSCALE. Puede usar OTHER para incluir una segunda instancia sin escalar de uno o más campos clave.
TO nombre_tabla	El lugar al que se deben enviar los resultados del comando: nombre_tabla para guardar los resultados en una tabla de Analytics Especifique nombre_tabla como una cadena entre comillas con una extensión de archivo .FIL. Por ejemplo: TO "Output.FIL" Por valor predeterminado, la archivo de datos de la tabla (.FIL) se guarda en la carpeta que contiene el proyecto de Analytics. Utilice una ruta de archivo absoluta o relativa para guardar el archivo de datos en una carpeta existente o una diferente: TO "C:\Output.FIL" TO "Results\Output.FIL" Nota Los nombres de las tablas tienen un límite de 64 caracteres alfanuméricos, sin incluir la extensión .FIL. El nombre puede incluir un guión bajo ( _ ), pero no puede incluir ningún otro carácter especial ni espacios. El nombre no puede comenzar con un número.
IF prueba opcional	Una expresión condicional que debe ser verdadera para procesar cada registro. El comando se ejecuta únicamente en los registros que cumplen la condición. Nota El parámetro IF se evalúa únicamente con los registros que quedan en la tabla después de aplicar los parámetros de alcance (WHILE, FIRST, NEXT).
WHILE prueba opcional	Una expresión condicional que debe ser verdadera para procesar cada registro. El comando se ejecuta hasta que la condición se evalúa como falsa o hasta que se llega al final de la tabla. Nota Si usa WHILE junto con FIRST o NEXT, el procesamiento de registros se detiene al llegar a un límite.
FIRST rango \| NEXT rango opcional	La cantidad de registros que se procesarán: FIRST comienza a procesar desde el primer registro hasta que se llega al número de registros especificado NEXT comienza a procesar desde el registro seleccionado actualmente hasta que se llega al número de registros especificado Utilice intervalo para especificar la cantidad de registros que se deben procesar. Si omite FIRST y NEXT, se procesan todos los registros de forma predeterminada.
ABRIR opcional	Abre la tabla creada por el comando después de la ejecución del comando. Solo es válido si el comando crea una tabla de salida.
sin_palabra_clave \| NOCENTER \| NOSCALE	El método para el preprocesamiento de los valores numéricos del campo clave antes de calcular los clústeres. sin_palabra_clave centre los valores del campo clave en una media de cero (0) y escálelos dividiéndolos por su desviación estándar. Este proceso convierte los valores en un unidad tipificada (puntuación z o puntuación estándar). NOCENTER ajuste a escala los valores del campo clave dividiéndolos por su desviación estándar, pero no los centre en una media de cero (0). NOSCALE utilice los valores del campo clave sin procesar, sin centrar y sin ajustar a escala Para obtener más información, consulte Especificar un método de preprocesamiento de los datos.

Ejemplos

Agrupación en clústeres por importe de factura

Además de estratificar una tabla de cuentas por cobrar por el campo Importe_factura, también puede decidir agrupar por el mismo campo.

La estratificación agrupa los importes en estratos con límites numéricos predefinidos; por ejemplo, intervalos de $1000.
La agrupación en clústeres descubre los agrupamientos orgánicos de importes que existen en los datos sin que usted tenga que decidir límites numéricos por anticipado.

OPEN Cuentas_por_cobrar
CLUSTER ON Importe_factura KVALUE 8 ITERATIONS 30 INITIALIZATIONS 10 OTHER Tipo Ref Sin Vencimiento TO "Facturas_agrupadas" NOSCALE

Como una forma rápida de descubrir cuántos registros hay en cada clúster de salida, usted clasifica la tabla de salida Facturas_agrupadas por el campo Clúster.

OPEN Facturas_agrupadas
CLASSIFY ON Clúster TO SCREEN

Observaciones

Para obtener más información sobre la forma en la que funciona este comando, consulte Agrupación de datos.