Metodo summarize()

Raggruppa le righe in un dataframe in base a valori identici in una o più colonne. Conta il numero di righe in ciascun gruppo e calcola anche i subtotali delle colonne numeriche specificate per ciascun gruppo.

Sintassi

dataframe_name.summarize(on = ["key_column", "...n"], calculate = ["numeric_column", "...n"]|None, statistics = True|False)

Parametri

Nome Descrizione
on = ["key_column", "...n"]

La colonna o le colonne chiave da riassumere.

Se si esegue il riepilogo in base a più di una colonna, si creano gruppi nidificati. L'ordine di nidificazione segue l'ordine in cui si specificano le colonne.

Le colonne chiave sono posizionate più a sinistra nel dataframe riepilogativo.

Nota

Il metodo summarize() ordina automaticamente il dataframe in base alle colonne chiave prima di riepilogare i dati in gruppi. Il dataframe di output contiene un singolo gruppo univoco per ogni set di valori identici o combinazione identica di valori nella colonna o nelle colonne chiave.

calculate = ["numeric_column", "...n"] | None

facoltativo

  • numeric_column: una o più colonne numeriche per il subtotale di ogni gruppo

    Viene calcolato anche il subtotale di ogni gruppo come percentuale del totale della colonna

  • None: non viene calcolato il subtotale di nessuna colonna numerica

Se si omette il parametro, non verrà calcolato il subtotale di nessuna colonna.

statistics = True | False

facoltativo

  • True (Vero): vengono calcolate le statistiche per tutte le colonne dei subtotali numerici

    Nota

    Non può essere utilizzato a meno che non venga specificata almeno una colonna di subtotale numerico con calculate.

  • False (Falso): non vengono calcolare le statistiche

Se si specifica True, per ogni colonna del subtotale vengono calcolati i seguenti valori statistici, suddivisi per gruppo:

  • minimo
  • massimo
  • media
  • mediana
  • deviazione standard
  • modalità
  • primo quartile
  • terzo quartile

Se si omette statistics, verrà utilizzato il valore predefinito False.

Restituisce

Dataframe HCL.

Esempi

Importo totale della transazione per cliente

Si riepiloga un dataframe di contabilità attiva nella colonna Customer_Number e si calcola il subtotale nella colonna Trans_Amount. L'output è raggruppato per cliente e include l'importo totale della transazione per ciascun cliente:

customer_total = accounts_receivable.summarize(on = ["Customer_Number"], calculate = ["Trans_Amount"], statistics = False)

Importo totale della transazione per data di transazione

Si riepiloga un dataframe di contabilità attiva nelle colonne Customer_Number e Trans_Date. Si calcola il subtotale della colonna Trans_Amount.

L'output è raggruppato per cliente e, all'interno del cliente, per data, e include l'importo totale delle transazioni per ciascun cliente per ogni data in cui il cliente ha effettuato transazioni.

customer_total_by_date = accounts_receivable.summarize(on = ["Customer_Number", "Trans_Date"], calculate = ["Trans_Amount"], statistics = False)

Importo totale della transazione, con valori statistici, per cliente per data di transazione

Questo esempio è identico a quello precedente, ma per il parametro statistics si specifica True.

Oltre all'importo parziale della transazione per ciascun cliente per ogni data in cui il cliente ha effettuato transazioni, è possibile calcolare anche una serie di valori statistici per ciascun cliente per ogni data:

customer_stats_by_date = accounts_receivable.summarize(on = ["Customer_Number", "Trans_Date"], calculate = ["Trans_Amount"], statistics = True)

Osservazioni

Come funziona

Il metodo summarize() raggruppa le righe che hanno lo stesso valore in una colonna o la stessa combinazione di valori in più colonne. Il dataframe di output contiene una singola riga per ogni gruppo, con un conteggio del numero di righe nel dataframe di origine che appartengono al gruppo. L'output calcola anche la percentuale di righe del dataframe appartenenti a ciascun gruppo.

Subtotale e statistiche: nomi delle colonne e calcoli nei risultati di output

È possibile utilizzare i parametri calculate e statistics per eseguire calcoli statistici su qualsiasi colonna di subtotale specificata. Nei risultati di output, i calcoli statistici vengono suddivisi per gruppo.

parametro calculate

Nome della colonna nel dataframe di output Calcolo eseguito sulla colonna subtotale
subtotaled column name + _sum Valori subtotali per ogni gruppo
subtotaled column name + _sum%

Subtotale di ciascun gruppo espresso come percentuale del totale della colonna

parametro statistics

Titolo della colonna nel dataframe di output Calcolo eseguito sulla colonna subtotale

subtotaled column name + _min

Il valore minimo per ogni gruppo

subtotaled column name + _max

Il valore massimo per ogni gruppo

subtotaled column name + _mean

Il valore medio per ogni gruppo

subtotaled column name + _median

Il valore mediano per ogni gruppo

  • Insiemi di valori dispari: il valore centrale
  • Insiemi di valori pari: la media dei due valori al centro

subtotaled column name + _std

La deviazione standard per ogni gruppo

subtotaled column name + _mode

Il valore più frequente per ciascun gruppo

In caso di parità, viene visualizzato il valore più basso. Se nessun valore si verifica più di una volta, viene visualizzato il valore minimo nella colonna.

subtotaled column name + _q25

Il valore del primo quartile per ogni gruppo (valore del quartile inferiore)

subtotaled column name + _q75

Il valore del terzo quartile per ogni gruppo (valore del quartile superiore)