Metodo summarize()
Raggruppa le righe in un dataframe in base a valori identici in una o più colonne. Conta il numero di righe in ciascun gruppo e calcola anche i subtotali delle colonne numeriche specificate per ciascun gruppo.
Sintassi
dataframe_name.summarize(on = ["key_column", "...n"], calculate = ["numeric_column", "...n"]|None, statistics = True|False)
Parametri
Nome | Descrizione |
---|---|
on = ["key_column", "...n"] |
La colonna o le colonne chiave da riassumere. Se si esegue il riepilogo in base a più di una colonna, si creano gruppi nidificati. L'ordine di nidificazione segue l'ordine in cui si specificano le colonne. Le colonne chiave sono posizionate più a sinistra nel dataframe riepilogativo. Nota Il metodo summarize() ordina automaticamente il dataframe in base alle colonne chiave prima di riepilogare i dati in gruppi. Il dataframe di output contiene un singolo gruppo univoco per ogni set di valori identici o combinazione identica di valori nella colonna o nelle colonne chiave. |
calculate = ["numeric_column", "...n"] | None facoltativo |
Se si omette il parametro, non verrà calcolato il subtotale di nessuna colonna. |
statistics = True | False facoltativo |
Se si specifica True, per ogni colonna del subtotale vengono calcolati i seguenti valori statistici, suddivisi per gruppo:
Se si omette statistics, verrà utilizzato il valore predefinito False. |
Restituisce
Dataframe HCL.
Esempi
Importo totale della transazione per cliente
Si riepiloga un dataframe di contabilità attiva nella colonna Customer_Number e si calcola il subtotale nella colonna Trans_Amount. L'output è raggruppato per cliente e include l'importo totale della transazione per ciascun cliente:
customer_total = accounts_receivable.summarize(on = ["Customer_Number"], calculate = ["Trans_Amount"], statistics = False)
Importo totale della transazione per data di transazione
Si riepiloga un dataframe di contabilità attiva nelle colonne Customer_Number e Trans_Date. Si calcola il subtotale della colonna Trans_Amount.
L'output è raggruppato per cliente e, all'interno del cliente, per data, e include l'importo totale delle transazioni per ciascun cliente per ogni data in cui il cliente ha effettuato transazioni.
customer_total_by_date = accounts_receivable.summarize(on = ["Customer_Number", "Trans_Date"], calculate = ["Trans_Amount"], statistics = False)
Importo totale della transazione, con valori statistici, per cliente per data di transazione
Questo esempio è identico a quello precedente, ma per il parametro statistics si specifica True.
Oltre all'importo parziale della transazione per ciascun cliente per ogni data in cui il cliente ha effettuato transazioni, è possibile calcolare anche una serie di valori statistici per ciascun cliente per ogni data:
customer_stats_by_date = accounts_receivable.summarize(on = ["Customer_Number", "Trans_Date"], calculate = ["Trans_Amount"], statistics = True)
Osservazioni
Come funziona
Il metodo summarize() raggruppa le righe che hanno lo stesso valore in una colonna o la stessa combinazione di valori in più colonne. Il dataframe di output contiene una singola riga per ogni gruppo, con un conteggio del numero di righe nel dataframe di origine che appartengono al gruppo. L'output calcola anche la percentuale di righe del dataframe appartenenti a ciascun gruppo.
Subtotale e statistiche: nomi delle colonne e calcoli nei risultati di output
È possibile utilizzare i parametri calculate e statistics per eseguire calcoli statistici su qualsiasi colonna di subtotale specificata. Nei risultati di output, i calcoli statistici vengono suddivisi per gruppo.
parametro calculate
Nome della colonna nel dataframe di output | Calcolo eseguito sulla colonna subtotale |
---|---|
subtotaled column name + _sum | Valori subtotali per ogni gruppo |
subtotaled column name + _sum% |
Subtotale di ciascun gruppo espresso come percentuale del totale della colonna |
parametro statistics
Titolo della colonna nel dataframe di output | Calcolo eseguito sulla colonna subtotale |
---|---|
subtotaled column name + _min |
Il valore minimo per ogni gruppo |
subtotaled column name + _max |
Il valore massimo per ogni gruppo |
subtotaled column name + _mean |
Il valore medio per ogni gruppo |
subtotaled column name + _median |
Il valore mediano per ogni gruppo
|
subtotaled column name + _std |
La deviazione standard per ogni gruppo |
subtotaled column name + _mode |
Il valore più frequente per ciascun gruppo In caso di parità, viene visualizzato il valore più basso. Se nessun valore si verifica più di una volta, viene visualizzato il valore minimo nella colonna. |
subtotaled column name + _q25 |
Il valore del primo quartile per ogni gruppo (valore del quartile inferiore) |
subtotaled column name + _q75 |
Il valore del terzo quartile per ogni gruppo (valore del quartile superiore) |