Metodo duplicates()

Rileva se in un dataframe sono presenti valori duplicati o intere righe duplicate.

Sintassi

dataframe_name.duplicates(on = ["key_column", "...n"], add_groups = True|False)

Parametri

Nome Descrizione
on = ["key_column", "...n"]

La colonna o le colonne chiave in cui verificare la presenza di duplicati.

Se si esegue il test per più di una colonna, le righe identificate come duplicate richiedono valori identici in ogni colonna specificata.

Se si esegue il test su tutte le colonne di un dataframe, le righe identificate come duplicate devono essere completamente identiche.

Le colonne chiave sono posizionate più a sinistra nel dataframe di output.

add_groups = True | False

facoltativo

  • True (Vero): includere la colonna Gruppo nel dataframe di output
  • False (Falso): non includere la colonna Gruppo nel dataframe di output

La colonna Gruppo assegna un numero incrementato in sequenza a ciascun gruppo univoco di duplicati.

Consiglio

La possibilità di fare riferimento a gruppi di duplicati in base al numero può essere utile quando si analizzano i dati nel dataframe di output.

Se si omette il parametro, la colonna Gruppo non verrà inclusa.

Restituisce

Dataframe HCL.

Esempi

Verificare i valori duplicati in una colonna

Nel dataframe invoices, il seguente esempio:

  • vengono verificati i valori duplicati nella colonna Invoice_Number
  • vengono restituite tutte le righe che contengono numeri di fattura duplicati al dataframe inv_num_duplicates
inv_num_duplicates = invoices.duplicates(on = ["Invoice_Number"])

Il secondo esempio fa la stessa cosa e assegna anche un numero incrementato in sequenza a ciascun gruppo univoco di duplicati.

inv_num_duplicates_group_id = invoices.duplicates(on = ["Invoice_Number"], add_groups = True)

Verificare la presenza di valori duplicati in due o più colonne in combinazione

Nel dataframe invoices, il seguente esempio:

  • vengono verificate le combinazioni duplicate di valori nelle colonne Invoice_Number e Vendor_Number
  • vengono restituite tutte le righe che contengono lo stesso numero di fattura e lo stesso numero di fornitore al dataframe invoice_vendor_duplicates

La differenza tra questo test e quello precedente è che un numero di fattura identico proveniente da due fornitori diversi non viene segnalato come falso positivo.

invoice_vendor_duplicates = invoices.duplicates(on = ["Invoice_Number", "Vendor_Number"])

Verificare le righe duplicate

Nel dataframe inventory, il seguente esempio:

  • verifica i valori duplicati in ogni colonna
  • vengono restituite tutte le righe completamente identiche al dataframe inventory_duplicates
inventory_duplicates = inventory.duplicates(on = ["ProdNum", "ProdClass", "Location", "ProdDesc", "ProdStatus", "UnitCost", "CostDate", "SalePrice", "PriceDate"])