duplicates() methode
Detecteert of er dubbele waarden of volledig dubbele rijen bestaan in een dataframe.
Syntaxis
dataframe_name.duplicates(on = ["key_column", "...n"], add_groups = True|False)
Parameters
Naam | Beschrijving |
---|---|
on = ["key_column", "...n"] |
De sleutelkolom of -kolommen om te testen op duplicaten. Als u test op meer dan één kolom, moeten rijen die als duplicaten worden geïdentificeerd identieke waarden hebben in elke opgegeven kolom. Als u op alle kolommen in een dataframe test, moeten de rijen die als duplicaten worden geïdentificeerd volledig identiek zijn. Belangrijkste kolommen bevinden zich uiterst links in het uitvoergegevensframe. |
add_groups = Waar | Onwaar optioneel |
De kolom Groep wijst een opeenvolgend oplopend nummer toe aan elke unieke groep duplicaten. Tip De mogelijkheid om groepen duplicaten te refereren aan de hand van nummers kan handig zijn bij het analyseren van gegevens in het output dataframe. Als u de parameter weglaat, wordt de kolom Groep niet opgenomen. |
Retourneert
HCL-dataframe.
Voorbeelden
Testen op dubbele waarden in één kolom
In het invoices-dataframe, het volgende voorbeeld:
- test op dubbele waarden in de kolom Invoice_Number
- voert alle rijen met dubbele factuurnummers uit naar het inv_num_duplicates-dataframe
inv_num_duplicates = invoices.duplicates(on = ["Invoice_Number"])
Het tweede voorbeeld doet hetzelfde, en het wijst ook een opeenvolgend oplopend nummer toe aan elke unieke groep duplicaten.
inv_num_duplicates_group_id = invoices.duplicates(on = ["Invoice_Number"], add_groups = True)
Controleren op dubbele waarden in twee of meer kolommen in combinatie
In het invoices-dataframe, het volgende voorbeeld:
- test voor dubbele combinaties van waarden in de kolommen Invoice_Number en Vendor_Number
- voert alle rijen uit met hetzelfde factuurnummer en hetzelfde leveranciersnummer naar het invoice_vendor_duplicates-dataframe
Het verschil tussen deze test en de vorige test is dat een identiek factuurnummer van twee verschillende leveranciers niet als vals positief wordt gerapporteerd.
inv_num_duplicates = invoices.duplicates(on = ["Invoice_Number"])
Dubbele rijen testen
In de inventory-dataframe, het volgende voorbeeld:
- tests op dubbele waarden in elke kolom
- voert alle volledig identieke rijen uit naar het inventory_duplicates-dataframe
inventory_duplicates = inventory.duplicates(on = ["ProdNum", "ProdClass", "Location", "ProdDesc", "ProdStatus", "UnitCost", "CostDate", "SalePrice", "PriceDate"])