summarize() methode
Groepeert rijen in een dataframe op basis van identieke waarden in een of meer kolommen. Telt het aantal rijen in elke groep en berekent ook subtotalen van opgegeven numerieke kolommen voor elke groep.
Syntaxis
dataframe_name.summarize(on = ["key_column", "...n"], calculate = ["numeric_column", "...n"]|None, statistics = Waar|Onwaar)
Parameters
Naam | Beschrijving |
---|---|
on = ["key_column", "...n"] |
De belangrijkste kolom(men) om samen te vatten. Als u samenvat op basis van meer dan één kolom, hebt u geneste groepen gemaakt. De volgorde van nesten volgt de volgorde waarin u de kolommen opgeeft. Belangrijke kolommen worden uiterst links in het samengevatte dataframe geplaatst. Opmerking De summarize()-methode sorteert het dataframe automatisch op de sleutelkolommen voordat de gegevens in groepen worden samengevat. De uitvoer-dataframe bevat een enkele, unieke groep voor elke set identieke waarden, of identieke combinatie van waarden, in de sleutelkolom of -kolommen. |
calculate = ["numeric_column", "...n"] | Geen optioneel |
Als u de parameter weglaat, worden er geen kolommen gesubtotaliseerd. |
statistics = Waar | Onwaar optioneel |
Als u Waar opgeeft, worden de volgende statistische waarden berekend voor elke subtotaalkolom, uitgesplitst per groep:
Als u statistieken weglaat, wordt de standaardwaarde Onwaar gebruikt. |
Retourneert
HCL-dataframe.
Voorbeelden
Totaal transactiebedrag per klant
U vat een dataframe van debiteuren samen op basis van de kolom Customer_Number en maakt een subtotaal van de kolom Trans_Amount. De uitvoer wordt gegroepeerd per klant en bevat het totale transactiebedrag voor elke klant:
customer_total = accounts_receivable.summarize(on = ["Customer_Number"], calculate = ["Trans_Amount"], statistics = False)
Totaal transactiebedrag per klant per transactiedatum
U vat een dataframe van debiteuren samen op basis van de kolommen Customer_Number en Trans_Date. U subtotaliseert de kolom Trans_Amount.
De uitvoer is gegroepeerd per klant, en binnen elke klant op datum, en omvat het totale transactiebedrag voor elke klant voor elke datum waarop de klant transacties heeft uitgevoerd.
customer_total_by_date = accounts_receivable.summarize(on = ["Customer_Number", "Trans_Date"], calculate = ["Trans_Amount"], statistics = False)
Totaal transactiebedrag, met statistische waarden, per klant per transactiedatum
Dit voorbeeld is identiek aan het bovenstaande, maar u geeft Waar op voor de parameter statistics.
Naast het gesubtotaliseerde transactiebedrag voor elke klant voor elke datum waarop de klant transacties had, berekent u ook verschillende statistische waarden voor elke klant voor elke datum:
customer_stats_by_date = accounts_receivable.summarize(on = ["Customer_Number", "Trans_Date"], calculate = ["Trans_Amount"], statistics = True)
Opmerkingen
Hoe het werkt
De summarize()-methode groepeert rijen die dezelfde waarde in een kolom hebben, of dezelfde combinatie van waarden in meerdere kolommen. Het uitvoer-dataframe bevat één rij voor elke groep, met een telling van het aantal rijen in het bron-dataframe die tot de groep behoren. De uitvoer berekent ook het percentage van de dataframe-rijen dat tot elke groep behoort.
Subtotaal en statistieken: kolomnamen en berekeningen in de uitvoerresultaten
U kunt de parameters calculate en statistics gebruiken om statistische berekeningen uit te voeren op elke door u opgegeven subtotaalkolom. De statistische berekeningen worden in de uitvoerresultaten uitgesplitst per groep.
calculate-parameter
Kolomnaam in uitvoerdataframe | Berekening uitgevoerd op gesubtotaliseerde kolom |
---|---|
subtotaled column name + _sum | Subtotaalwaarden voor elke groep |
subtotaled column name + _sum% |
Het subtotaal van elke groep uitgedrukt als percentage van het kolomtotaal |
statistics-parameter
Kolomtitel in uitvoerdataframe | Berekening uitgevoerd op gesubtotaliseerde kolom |
---|---|
subtotaled column name + _min |
De minimumwaarde voor elke groep |
subtotaled column name + _max |
De maximale waarde voor elke groep |
subtotaled column name + _mean |
De gemiddelde waarde voor elke groep |
subtotaled column name + _median |
De mediaan voor elke groep
|
subtotaled column name + _std |
De standaardafwijking voor elke groep |
subtotaled column name + _mode |
De meest voorkomende waarde voor elke groep In geval van een gelijke score wordt de laagste waarde weergegeven. Als geen waarde meer dan eens voorkomt, wordt de minimumwaarde in de kolom weergegeven. |
subtotaled column name + _q25 |
De eerste kwartielwaarde voor elke groep (onderste kwartielwaarde) |
subtotaled column name + _q75 |
De derde kwartielwaarde voor elke groep (bovenste kwartielwaarde) |