Comando OUTLIERS

Informações do conceito

Identificação de valores discrepantes

Identifica valores discrepantes estatísticos em um campo numérico. Os valores discrepantes podem ser identificados para o campo como um todo ou para grupos separados baseados em valores idênticos de um ou mais campos-chave de caracteres, numéricos ou datahora.

Sintaxe

OUTLIERS {AVERAGE|MEDIAN} {PKEY campo_chave <...n>|PKEY ALL <EXCLUDE campo_chave <...n>>|NOKEY} ON campo_numérico <OTHER campo <...n>|OTHER ALL <EXCLUDE nome_campo <...n>>> NUMSTDEV número_desvios_padrão <IF teste> <TO {SCREEN|nome_tabela}> <PRESORT> <WHILE teste> <FIRST intervalo|NEXT intervalo> <OPEN>

Nota

Não é possível executar o comando OUTLIERS localmente em uma tabela de servidor.

Você deve especificar o nome do comando OUTLIERS com todas as letras. Esse comando não deve ser abreviado.

Parâmetros

Nome Descrição
AVERAGE | MEDIAN

O método para calcular o ponto central dos valores em campo_numérico (o campo de valor discrepante).

  • AVERAGE calcule a média dos valores
  • MEDIAN calcule a mediana dos valores

O ponto central é calculado para:

  • o campo numérico como um todo, ou
  • os valores numéricos para cada grupo de campos-chave

O ponto central é usado subsequentemente para calcular o desvio padrão do campo numérico ou de cada grupo.

Nota

Se você especificar MEDIAN, campo_numérico deve estar ordenado. Use PRESORT se campo_numérico ainda não estiver ordenado.

Dica

Se os dados onde você está procurando valores discrepantes estiverem consideravelmente distorcidos, MEDIAN poderá gerar resultados mais representativos da maior parte dos dados.

PKEY campo_chave <...n> | PKEY ALL | NOKEY

Um ou mais campos de caracteres, numéricos ou datahora a serem usados para agrupar os dados na tabela.

Se você especificar NOKEY, os dados não serão agrupados e os valores discrepantes serão identificados por campo.

Nota

Os campos-chave devem estar ordenados. Use PRESORT se um ou mais campos ainda não estiverem ordenados.

  • PKEY campo_chave use o campo ou os campos especificados para agrupar os dados na tabela

    Se houver mais de um campo, eles devem ser separados por espaços e podem ser de tipos de dados diferentes.

    Se você especificar mais de um campo, criará grupos aninhados na tabela de saída. O aninhamento seguirá a ordem em que os campos são especificados.

    Para cada grupo, é calculado o desvio padrão dos valores numéricos do grupo em campo_numérico. O desvio padrão do grupo é usado como base para identificar valores discrepantes do grupo.

  • PKEY ALL use todos os campos na tabela para agrupar os dados da tabela

    Se você especificar todos os campos, criará grupos aninhados na tabela de saída. O aninhamento seguirá a ordem em que os campos aparecem no layout da tabela.

    Para cada grupo, é calculado o desvio padrão dos valores numéricos do grupo em campo_numérico. O desvio padrão do grupo é usado como base para identificar valores discrepantes do grupo.

    Nota

    O agrupamento por todos os campos inclui o campo_numérico, o que pode não fazer sentido. Você pode usar EXCLUDE para excluir campo_numérico do agrupamento.

  • NOKEY não agrupe os dados na tabela

    Será calculado um desvio padrão de campo_numérico como um todo. O desvio padrão do campo é usado como base para identificar valores discrepantes do campo.

EXCLUDE nome_campo

opcional

Válido apenas ao agrupar dados da tabela usando PKEY ALL.

O campo ou os campos a serem excluídos do comando. O EXCLUDE permite ajustar o PKEY ALL excluindo os campos especificados.

O EXCLUDE deve estar logo após do PKEY ALL. Por exemplo:

PKEY ALL EXCLUDE campo_1 campo_2
ON campo_numérico

O campo numérico onde serão procurados valores discrepantes. Você pode examinar apenas um campo por vez.

Os valores discrepantes são os que ficam fora dos limites superiores e inferiores estabelecidos pelo desvio padrão do campo ou do grupo, ou por um múltiplo de desvio padrão especificado.

OTHER campo <...n> | OTHER ALL

opcional

Um ou mais campos adicionais a serem incluídos na saída.

  • OTHER campo <...n> inclua o campo ou os campos especificados

    Os campos são incluídos na ordem em que são listados.

  • OTHER ALL inclua todos os campos da tabela que não são especificados como campos-chave ou o campo de valores discrepantes

    Os campos são incluídos na ordem em que aparecem no layout da tabela.

Nota

Os campos-chave e o campo de valor discrepante são incluídos automaticamente na tabela de saída e não precisam ser especificados usando OTHER.

EXCLUDE nome_campo

opcional

Válido apenas ao usar OTHER ALL.

O campo ou os campos a serem excluídos do comando. O EXCLUDE permite ajustar o OTHER ALL excluindo os campos especificados.

O EXCLUDE deve estar logo após do OTHER ALL. Por exemplo:

OTHER ALL EXCLUDE campo_1 campo_2
NUMSTDEV número_desvios_padrão

Em campo_numérico, o número de desvios padrão da média ou da mediana para os limites superior e inferior de valores discrepantes. Você pode especificar qualquer número inteiro ou decimal (0,5, 1, 1,5, 2... )

A fórmula para criar limites de valores discrepantes é:

média/mediana ± (número_desvios_padrão * desvio padrão)

Nota

O desvio padrão é uma medida da dispersão de um conjunto de dados. Ou seja, o quanto os valores estão dispersos. O cálculo de valores discrepantes usa desvio padrão da população.

Exemplo de limites de valores discrepantes

NUMSTDEV 2

estabelece, para campo_numérico como um todo, ou para cada grupo de campos-chave:

  • um limite superior de valor discrepante de dois desvios padrão acima da média ou mediana

    média/mediana + (2 * DP)

  • um limite inferior de valor discrepante de dois desvios padrão abaixo da média ou mediana

    média/mediana – (2 * DP)

Qualquer valor acima do limite superior ou abaixo do limite inferior será incluído como valor discrepante nos resultados de saída.

Nota

Para o mesmo conjunto de dados, à medida que o valor de número_desvios_padrão é aumentado, diminui potencialmente o número de valores discrepantes retornados.

IF teste

opcional

Uma expressão condicional que deve ser verdadeira para processar cada registro. O comando é executado apenas nos registros que atendem à condição.

Nota

O parâmetro IF é avaliado apenas em relação aos registros restantes em uma tabela depois da aplicação dos parâmetros de escopo (WHILE, FIRST, NEXT).

TO SCREEN | nome_tabela

opcional

A localização para onde enviar os resultados do comando:

  • A TELA exibe os resultados na área de exibição do Analytics

    Dica

    Você pode clicar em qualquer valor de resultado vinculado na área de exibição para detalhar até o registro ou os registros associados na tabela de origem.

  • nome_tabela salva os resultados em uma tabela do Analytics

    Especifique nome_tabela como uma cadeia entre aspas com uma extensão de arquivo .FIL. For exemplo: TO "Saída.FIL"

    Por padrão, o arquivo de dados da tabela (.fil) é salvo na pasta que contém o projeto do Analytics.

    Use um caminho de arquivo absoluto ou relativo para salvar o arquivo de dados em uma pasta diferente já existente:

    • TO "C:\Saída.FIL"
    • TO "Resultados\Saída.FIL"

    Nota

    Os nomes de tabela são limitados a 64 caracteres alfanuméricos, sem contar a extensão .FIL. O nome pode incluir o caractere de sublinhado ( _ ) mas nenhum outro caractere especial e nenhum espaço. O nome não pode começar com um número.

PRESORT

opcional

Executa uma operação de ordenação antes de executar o comando.

Dica

Se o campo ou os campos da tabela de entrada já estiverem ordenados, você poderá economizar tempo de processamento não especificando o parâmetro PRESORT.

Se você especificar PRESORT e: Ordena por:
PKEY, AVERAGE
  • campo-chave ou campos-chave
  • campo-chave ou campos-chave, e por campo_numérico (se campo_numérico é calculado)

    Nota

    A ordenação de um campo_numérico calculado é um requisito técnico interno do Analytics.

PKEY, MEDIAN

campo-chave ou campos-chave, e por campo

NOKEY, AVERAGE

sem ordenação

NOKEY, MEDIAN campo_numérico
WHILE teste

opcional

Uma expressão condicional que deve ser verdadeira para processar cada registro. O comando é executado até que a condição seja avaliada como falsa ou o fim da tabela seja alcançado.

Nota

Se você usar WHILE juntamente com FIRST ou NEXT, o processamento de registros será interrompido assim que um limite for alcançado.

FIRST intervalo | NEXT intervalo

opcional

O número de registros a ser processado:

  • FIRST iniciar o processamento a partir do primeiro registro até alcançar o número de registros especificado
  • NEXT iniciar o processamento a partir do registro selecionado no momento até alcançar o número de registros especificado

Use intervalo para especificar o número de registros a serem processados.

Se você omitir FIRST e NEXT, todos os registros serão processados por padrão.

OPEN

opcional

Abre a tabela criada pelo comando após a execução do comando. Válido apenas se o comando criar uma tabela de saída.

Exemplos

Identificação de valores de transação anormais

Você quer identificar valores de transação anormais em toda a tabela Ar no projeto Sample Project.acl.

Você decide definir os limites de valores discrepantes como 3 vezes o desvio padrão do campo Valor. O teste retorna 16 valores discrepantes na tabela de 772 registros.

OPEN Ar
OUTLIERS AVERAGE NOKEY ON Valor NUMSTDEV 3 PRESORT TO "Valores_discrepantes_AR.fil" OPEN

Você repete o teste, mas aumenta o múltiplo de desvio padrão para 3,5. Agora, o teste retorna apenas 6 valores discrepantes porque os limites dos valores discrepantes estão mais afastados do ponto central dos valores no campo Valor.

OPEN Ar
OUTLIERS AVERAGE NOKEY ON Valor NUMSTDEV 3,5 PRESORT TO "Valores_discrepantes_AR.fil" OPEN

Identificação de valores de transação anormais para cada cliente

Para cada cliente na tabela Ar no projeto Sample Project.acl, você quer identificar valores de transação anormais.

Você decide definir os limites de valores discrepantes como 3 vezes o desvio padrão do grupo de transações de cada cliente.

OPEN Ar
OUTLIERS AVERAGE PKEY Número ON Valor NUMSTDEV 3 PRESORT TO "Valores_discrepantes_Cliente_AR.fil" OPEN

O teste retorna 7 valores discrepantes. O desvio padrão e a média de cada grupo de transações de cliente são relatados:

  Número do cliente (Número) Valor da transação STDEV AVERAGE Número do grupo
1 065003 4.954,64 1015,58 833,83 1
2 262001 3.567,34 772,44 438,81 2
3 262001 (2.044,82) 772,44 438,81 2
4 376005 (931,55) 411,18 484,57 3
5 501657 5.549,19 1332,80 441,14 4
6 811002 3.409,82 634,20 672,10 5
7 925007 3.393,87 736,48 906,16 6

Como os valores discrepantes são identificados para o cliente 262001

O cliente 262001 tem 101 transações na tabela Ar, das quais duas são relatadas como valores discrepantes porque excedem os limites de valores discrepantes desse cliente:

Valor discrepante Limite inferior Limite superior Valor discrepante
(2.044,82) (1.878,51) 2.756,13 3.567,34

Como os limites de valores discrepantes são calculados para o cliente 262001

Os limites de valores discrepantes são a média de todas as transações 262001 do cliente, mais ou menos o múltiplo de desvio padrão das transações especificado:

Média de todas as transações do cliente 262001 438,81
O múltiplo de desvio padrão especificado 3
O desvio padrão das transações 772,44

438,81 ± (3 * 772,44)

= 438,81 ± 2.317,32

= (1.878,51) (limite inferior)

= 2.756,13 (limite superior)

Uso de MEDIAN para identificar valores de transação anormais para cada cliente

Use MEDIAN em vez de AVERAGE para executar o mesmo teste de valor discrepante do exemplo acima.

OPEN Ar
OUTLIERS MEDIAN PKEY Número ON Valor NUMSTDEV 3 PRESORT TO "Valores_discrepantes_Cliente_AR_Median.fil" OPEN

O teste retorna 10 valores discrepantes, em vez dos 7 retornados no teste anterior. Dependendo da natureza dos dados MEDIAN e AVERAGE podem retornar resultados diferentes:

  Número do cliente (Número) Valor da transação STDEV MEDIAN Número do grupo
1 065003 4.954,64 1015,58 663,68 1
2 262001 (2.044,82) 772,44 450,67 2
3 262001 3.567,34 772,44 450,67 2
4 376005 (931,55) 411,18 517,16 3
5 501657 4.426,14 1332,80 146,80 4
6 501657 5.549,19 1332,80 146,80 4
7 811002 3.409,82 634,20 624,53 5
8 925007 2.972,78 736,48 717,88 6
9 925007 3.030,71 736,48 717,88 6
10 925007 3.393,87 736,48 717,88 6

Como os limites de valores discrepantes são calculados para cada cliente

Os limites de valores discrepantes são a mediana das transações de cada cliente, mais ou menos o múltiplo de desvio padrão das transações especificado.

Por exemplo, para o cliente 262001: 450,67 ± (3 * 772,44)

Observações

Para obter mais informações sobre o funcionamento desse comando, consulte Identificação de valores discrepantes.

Adicionar campos de limite de valores discrepantes à tabela de resultados

O Analytics adiciona automaticamente os campos calculados STDEV e AVERAGE ou MEDIAN à tabela de resultados de valores discrepantes. Também pode ser útil adicionar à tabela de resultados dois campos calculados que mostram os limites de valores discrepantes usados para identificar esses valores.

  1. Abra a tabela de resultados de valores discrepantes.
  2. Cole esta expressão na linha de comando do Analytics, edite-a conforme a necessidade e pressione Enter:
    DEFINE FIELD Limite_inferior COMPUTED AVERAGE - (número_desvios_padrão * STDEV)
    • Substitua número_desvios_padrão pelo múltiplo real de desvios padrão que você usou.
    • Se você precisar da mediana como ponto central em vez da média, substitua AVERAGE para MEDIAN.
  3. Cole esta expressão na linha de comando do Analytics, edite-a conforme a necessidade e pressione Enter:
    DEFINE FIELD Limite_superior COMPUTED AVERAGE + (úmero_desvios_padrão * STDEV)
    • Substitua número_desvios_padrão pelo múltiplo real de desvios padrão que você usou.
    • Se você precisar da mediana como ponto central em vez da média, substitua AVERAGE para MEDIAN.
  4. Clique com o botão direito do mouse na exibição e selecione Adicionar colunas.
  5. Na lista Campos disponíveis clique duas vezes em Limite_inferior e em Limite_superior para adicioná-los à lista Campos selecionados.
  6. Clique em OK.
  7. Opcional. Reposicione os campos adicionados arrastando os cabeçalhos das colunas.