summarize()-methode

Groepeert rijen in een dataframe op basis van identieke waarden in een of meer kolommen. Telt het aantal rijen in elke groep en berekent ook subtotalen van opgegeven numerieke kolommen voor elke groep.

Syntaxis

dataframe_name.summarize(on = ["key_column", "...n"], calculate = ["numeric_column", "...n"]|None, statistics = True|False)

Parameters

Naam	Beschrijving
on = ["key_column", "...n"]	De belangrijkste kolom(men) om samen te vatten. Als u samenvat op basis van meer dan één kolom, hebt u geneste groepen gemaakt. De volgorde van nesten volgt de volgorde waarin u de kolommen opgeeft. Belangrijke kolommen worden uiterst links in het samengevatte dataframe geplaatst. Opmerking De summarize()-methode sorteert het dataframe automatisch op de sleutelkolommen voordat de gegevens in groepen worden samengevat. De uitvoer-dataframe bevat een enkele, unieke groep voor elke set identieke waarden, of identieke combinatie van waarden, in de sleutelkolom of -kolommen.
calculate = ["numeric_column", "...n"] \| Geen optioneel	numeric_columneen of meer numerieke kolommen om subtotalen voor elke groep te maken Het subtotaal van elke groep uitgedrukt als percentage van het kolomtotaal Geennumerieke kolommen niet subtotaliseren Als u de parameter weglaat, worden er geen kolommen gesubtotaliseerd.
statistics = Waar \| Onwaar optioneel	Waarstatistieken berekenen voor alle numerieke subtotaalkolommen Opmerking Kan niet worden gebruikt tenzij er ten minste één numerieke subtotaalkolom is opgegeven met calculate. Onwaargeen statistieken berekenen Als u Waar opgeeft, worden de volgende statistische waarden berekend voor elke subtotaalkolom, uitgesplitst per groep: minimum maximum gemiddelde mediaan standaarddeviatie modus eerste kwartiel derde kwartiel Als u statistieken weglaat, wordt de standaardwaarde Onwaar gebruikt.

Naam

Beschrijving

on = ["key_column", "...n"]

De belangrijkste kolom(men) om samen te vatten.

Als u samenvat op basis van meer dan één kolom, hebt u geneste groepen gemaakt. De volgorde van nesten volgt de volgorde waarin u de kolommen opgeeft.

Belangrijke kolommen worden uiterst links in het samengevatte dataframe geplaatst.

Opmerking

De summarize()-methode sorteert het dataframe automatisch op de sleutelkolommen voordat de gegevens in groepen worden samengevat. De uitvoer-dataframe bevat een enkele, unieke groep voor elke set identieke waarden, of identieke combinatie van waarden, in de sleutelkolom of -kolommen.

calculate = ["numeric_column", "...n"] | Geen

optioneel

numeric_columneen of meer numerieke kolommen om subtotalen voor elke groep te maken
Het subtotaal van elke groep uitgedrukt als percentage van het kolomtotaal
Geennumerieke kolommen niet subtotaliseren

Als u de parameter weglaat, worden er geen kolommen gesubtotaliseerd.

statistics = Waar | Onwaar

optioneel

Waarstatistieken berekenen voor alle numerieke subtotaalkolommen
Opmerking
Kan niet worden gebruikt tenzij er ten minste één numerieke subtotaalkolom is opgegeven met calculate.
Onwaargeen statistieken berekenen

Als u Waar opgeeft, worden de volgende statistische waarden berekend voor elke subtotaalkolom, uitgesplitst per groep:

minimum
maximum
gemiddelde
mediaan
standaarddeviatie
modus
eerste kwartiel
derde kwartiel

Als u statistieken weglaat, wordt de standaardwaarde Onwaar gebruikt.

Retourneert

HCL-dataframe.

Voorbeelden

Totaal transactiebedrag per klant

U vat een dataframe van debiteuren samen op basis van de kolom Customer_Number en maakt een subtotaal van de kolom Trans_Amount. De uitvoer wordt gegroepeerd per klant en bevat het totale transactiebedrag voor elke klant:

customer_total = accounts_receivable.summarize(on = ["Customer_Number"], calculate = ["Trans_Amount"], statistics = False)

Totaal transactiebedrag per klant per transactiedatum

U vat een dataframe van debiteuren samen op basis van de kolommen Customer_Number en Trans_Date. U subtotaliseert de kolom Trans_Amount.

De uitvoer is gegroepeerd per klant, en binnen elke klant op datum, en omvat het totale transactiebedrag voor elke klant voor elke datum waarop de klant transacties heeft uitgevoerd.

customer_total_by_date = accounts_receivable.summarize(on = ["Customer_Number", "Trans_Date"], calculate = ["Trans_Amount"], statistics = False)

Totaal transactiebedrag, met statistische waarden, per klant per transactiedatum

Dit voorbeeld is identiek aan het bovenstaande, maar u geeft Waar op voor de parameter statistics.

Naast het gesubtotaliseerde transactiebedrag voor elke klant voor elke datum waarop de klant transacties had, berekent u ook verschillende statistische waarden voor elke klant voor elke datum:

customer_stats_by_date = accounts_receivable.summarize(on = ["Customer_Number", "Trans_Date"], calculate = ["Trans_Amount"], statistics = True)

Opmerkingen

Hoe het werkt

De summarize()-methode groepeert rijen die dezelfde waarde in een kolom hebben, of dezelfde combinatie van waarden in meerdere kolommen. Het uitvoer-dataframe bevat één rij voor elke groep, met een telling van het aantal rijen in het bron-dataframe die tot de groep behoren. De uitvoer berekent ook het percentage van de dataframe-rijen dat tot elke groep behoort.

Subtotaal en statistieken: kolomnamen en berekeningen in de uitvoerresultaten

U kunt de parameters calculate en statistics gebruiken om statistische berekeningen uit te voeren op elke door u opgegeven subtotaalkolom. De statistische berekeningen worden in de uitvoerresultaten uitgesplitst per groep.

calculate-parameter

Kolomnaam in uitvoerdataframe	Berekening uitgevoerd op gesubtotaliseerde kolom
subtotaled column name + _sum	Subtotaalwaarden voor elke groep
subtotaled column name + _sum%	Het subtotaal van elke groep uitgedrukt als percentage van het kolomtotaal

statistics-parameter

Kolomtitel in uitvoerdataframe	Berekening uitgevoerd op gesubtotaliseerde kolom
subtotaled column name + _min	De minimumwaarde voor elke groep
subtotaled column name + _max	De maximale waarde voor elke groep
subtotaled column name + _mean	De gemiddelde waarde voor elke groep
subtotaled column name + _median	De mediaan voor elke groep Oneven reeksen waarden: de middelste waarde Even-getallen reeksen: het gemiddelde van de twee waarden in het midden
subtotaled column name + _std	De standaardafwijking voor elke groep
subtotaled column name + _mode	De meest voorkomende waarde voor elke groep In geval van een gelijke score wordt de laagste waarde weergegeven. Als geen waarde meer dan eens voorkomt, wordt de minimumwaarde in de kolom weergegeven.
subtotaled column name + _q25	De eerste kwartielwaarde voor elke groep (onderste kwartielwaarde)
subtotaled column name + _q75	De derde kwartielwaarde voor elke groep (bovenste kwartielwaarde)