‎ Metodo‎ summarize()

Raggruppa le righe in un dataframe in base a valori identici in una o più colonne. Conta il numero di righe in ciascun gruppo e calcola anche i subtotali delle colonne numeriche specificate per ciascun gruppo.

Sintassi

dataframe_name.summarize(on = ["key_column", "...n"], calculate = ["numeric_column", "...n"]|None, statistics = True|False)

Parametri

Nome	Descrizione
on = ["key_column", "...n"]	La colonna o le colonne chiave da riassumere. Se si esegue il riepilogo in base a più di una colonna, si creano gruppi nidificati. L'ordine di nidificazione segue l'ordine in cui si specificano le colonne. Le colonne chiave sono posizionate più a sinistra nel dataframe riepilogativo. Nota Il metodo summarize() ordina automaticamente il dataframe in base alle colonne chiave prima di riepilogare i dati in gruppi. Il dataframe di output contiene un singolo gruppo univoco per ogni set di valori identici o combinazione identica di valori nella colonna o nelle colonne chiave.
calculate = ["numeric_column", "...n"] \| None opzionale	numeric_columnUna o più colonne numeriche per il subtotale di ogni gruppo Viene calcolato anche il subtotale di ogni gruppo come percentuale del totale della colonna NessunoNon viene calcolato il subtotale di nessuna colonna numerica Se si omette il parametro, non verrà calcolato il subtotale di nessuna colonna.
statistics = True \| False opzionale	VeroVengono calcolate le statistiche per tutte le colonne dei subtotali numerici Nota Non può essere utilizzato a meno che non venga specificata almeno una colonna di subtotale numerico con calculate. Falsonon vengono calcolate le statistiche Se si specifica True, per ogni colonna del subtotale vengono calcolati i seguenti valori statistici, suddivisi per gruppo: minimo massimo media mediana deviazione standard modalità primo quartile terzo quartile Se si omette statistics, verrà utilizzato il valore predefinito False.

Nome

Descrizione

on = ["key_column", "...n"]

La colonna o le colonne chiave da riassumere.

Se si esegue il riepilogo in base a più di una colonna, si creano gruppi nidificati. L'ordine di nidificazione segue l'ordine in cui si specificano le colonne.

Le colonne chiave sono posizionate più a sinistra nel dataframe riepilogativo.

Nota

Il metodo summarize() ordina automaticamente il dataframe in base alle colonne chiave prima di riepilogare i dati in gruppi. Il dataframe di output contiene un singolo gruppo univoco per ogni set di valori identici o combinazione identica di valori nella colonna o nelle colonne chiave.

calculate = ["numeric_column", "...n"] | None

opzionale

numeric_columnUna o più colonne numeriche per il subtotale di ogni gruppo
Viene calcolato anche il subtotale di ogni gruppo come percentuale del totale della colonna
NessunoNon viene calcolato il subtotale di nessuna colonna numerica

Se si omette il parametro, non verrà calcolato il subtotale di nessuna colonna.

statistics = True | False

opzionale

VeroVengono calcolate le statistiche per tutte le colonne dei subtotali numerici
Nota
Non può essere utilizzato a meno che non venga specificata almeno una colonna di subtotale numerico con calculate.
Falsonon vengono calcolate le statistiche

Se si specifica True, per ogni colonna del subtotale vengono calcolati i seguenti valori statistici, suddivisi per gruppo:

minimo
massimo
media
mediana
deviazione standard
modalità
primo quartile
terzo quartile

Se si omette statistics, verrà utilizzato il valore predefinito False.

Restituisce

Dataframe HCL.

Esempi

Importo totale della transazione per cliente

Si riepiloga un dataframe di contabilità attiva nella colonna Customer_Number e si calcola il subtotale nella colonna Trans_Amount. L'output è raggruppato per cliente e include l'importo totale della transazione per ciascun cliente:

customer_total = accounts_receivable.summarize(on = ["Customer_Number"], calculate = ["Trans_Amount"], statistics = False)

Importo totale della transazione per data di transazione

Si riepiloga un dataframe di contabilità attiva nelle colonne Customer_Number e Trans_Date. Si calcola il subtotale della colonna Trans_Amount.

L'output è raggruppato per cliente e, all'interno del cliente, per data, e include l'importo totale delle transazioni per ciascun cliente per ogni data in cui il cliente ha effettuato transazioni.

customer_total_by_date = accounts_receivable.summarize(on = ["Customer_Number", "Trans_Date"], calculate = ["Trans_Amount"], statistics = False)

Importo totale della transazione, con valori statistici, per cliente per data di transazione

Questo esempio è identico a quello precedente, ma per il parametro statistics si specifica True.

Oltre all'importo parziale della transazione per ciascun cliente per ogni data in cui il cliente ha effettuato transazioni, è possibile calcolare anche una serie di valori statistici per ciascun cliente per ogni data:

customer_stats_by_date = accounts_receivable.summarize(on = ["Customer_Number", "Trans_Date"], calculate = ["Trans_Amount"], statistics = True)

Osservazioni

Come funziona

Il metodo summarize() raggruppa le righe che hanno lo stesso valore in una colonna o la stessa combinazione di valori in più colonne. Il dataframe di output contiene una singola riga per ogni gruppo, con un conteggio del numero di righe nel dataframe di origine che appartengono al gruppo. L'output calcola anche la percentuale di righe del dataframe appartenenti a ciascun gruppo.

Subtotale e statistiche: nomi delle colonne e calcoli nei risultati di output

È possibile utilizzare i parametri calculate e statistics per eseguire calcoli statistici su qualsiasi colonna di subtotale specificata. Nei risultati di output, i calcoli statistici vengono suddivisi per gruppo.

parametro calculate

Nome della colonna nel dataframe di output	Calcolo eseguito sulla colonna subtotale
subtotaled column name + _sum	Valori subtotali per ogni gruppo
subtotaled column name + _sum%	Subtotale di ciascun gruppo espresso come percentuale del totale della colonna

parametro statistics

Titolo della colonna nel dataframe di output	Calcolo eseguito sulla colonna subtotale
subtotaled column name + _min	Il valore minimo per ogni gruppo
subtotaled column name + _max	Il valore massimo per ogni gruppo
subtotaled column name + _mean	Il valore medio per ogni gruppo
subtotaled column name + _median	Il valore mediano per ogni gruppo Insiemi di valori dispari: il valore centrale Insiemi di valori pari: la media dei due valori al centro
subtotaled column name + _std	La deviazione standard per ogni gruppo
subtotaled column name + _mode	Il valore più frequente per ciascun gruppo In caso di parità, viene visualizzato il valore più basso. Se nessun valore si verifica più di una volta, viene visualizzato il valore minimo nella colonna.
subtotaled column name + _q25	Il valore del primo quartile per ogni gruppo (valore del quartile inferiore)
subtotaled column name + _q75	Il valore del terzo quartile per ogni gruppo (valore del quartile superiore)