Metodo duplicates()
Rileva se in un dataframe sono presenti valori duplicati o intere righe duplicate.
Sintassi
dataframe_name.duplicates(on = ["key_column", "...n"], add_groups = True|False)
Parametri
Nome | Descrizione |
---|---|
on = ["key_column", "...n"] |
La colonna o le colonne chiave in cui verificare la presenza di duplicati. Se si esegue il test per più di una colonna, le righe identificate come duplicate richiedono valori identici in ogni colonna specificata. Se si esegue il test su tutte le colonne di un dataframe, le righe identificate come duplicate devono essere completamente identiche. Le colonne chiave sono posizionate più a sinistra nel dataframe di output. |
add_groups = True | False facoltativo |
La colonna Gruppo assegna un numero incrementato in sequenza a ciascun gruppo univoco di duplicati. Consiglio La possibilità di fare riferimento a gruppi di duplicati in base al numero può essere utile quando si analizzano i dati nel dataframe di output. Se si omette il parametro, la colonna Gruppo non verrà inclusa. |
Restituisce
Dataframe HCL.
Esempi
Verificare i valori duplicati in una colonna
Nel dataframe invoices, il seguente esempio:
- vengono verificati i valori duplicati nella colonna Invoice_Number
- vengono restituite tutte le righe che contengono numeri di fattura duplicati al dataframe inv_num_duplicates
inv_num_duplicates = invoices.duplicates(on = ["Invoice_Number"])
Il secondo esempio fa la stessa cosa e assegna anche un numero incrementato in sequenza a ciascun gruppo univoco di duplicati.
inv_num_duplicates_group_id = invoices.duplicates(on = ["Invoice_Number"], add_groups = True)
Verificare la presenza di valori duplicati in due o più colonne in combinazione
Nel dataframe invoices, il seguente esempio:
- vengono verificate le combinazioni duplicate di valori nelle colonne Invoice_Number e Vendor_Number
- vengono restituite tutte le righe che contengono lo stesso numero di fattura e lo stesso numero di fornitore al dataframe invoice_vendor_duplicates
La differenza tra questo test e quello precedente è che un numero di fattura identico proveniente da due fornitori diversi non viene segnalato come falso positivo.
invoice_vendor_duplicates = invoices.duplicates(on = ["Invoice_Number", "Vendor_Number"])
Verificare le righe duplicate
Nel dataframe inventory, il seguente esempio:
- verifica i valori duplicati in ogni colonna
- vengono restituite tutte le righe completamente identiche al dataframe inventory_duplicates
inventory_duplicates = inventory.duplicates(on = ["ProdNum", "ProdClass", "Location", "ProdDesc", "ProdStatus", "UnitCost", "CostDate", "SalePrice", "PriceDate"])