‎Metodo‎ read_csv()

Legge un file di valori separati da virgola (*.csv) o un file di testo (*.txt) in un dataframe HCL.

Sintassi

hcl.read_csv(source file, nrows = number_of_rows, usecols = ["column name", "...n"], header = number_of_header_rows, names = ["column name", "...n"], delimiter = "separator character", index_col = ["column name", "...n"], multiple additional parameters)

Parametri

Nome	Descrizione
file di origine	Il nome, il percorso del file o l'URL del file di origine, compresa l'estensione del file (.csv o .txt).
nrows = number_of_rows opzionale	Il numero di righe da utilizzare. Le righe vengono conteggiate dall'inizio del file, partendo da 0. Se omesso, vengono utilizzate tutte le righe del file di origine.
usecols = ["column name", "...n"] opzionale	Le colonne da utilizzare. Se omesso, vengono utilizzate tutte le colonne del file di origine. Specificare i nomi delle colonne esattamente come appaiono nel file di origine, a meno che non si specifichino nomi diversi con names. Se si specificano nomi diversi, utilizzare tali nomi con usecols. L'ordine risultante delle colonne nel dataframe è lo stesso del loro ordine nel file di origine, indipendentemente dall'ordine in cui vengono specificate.
header = number_of_header_rows opzionale	Esclude una o più righe di testo dell'intestazione nel file di origine dal dataframe.
names = ["column name", "...n"] opzionale	I nomi delle colonne da utilizzare nel dataframe. Specifica i nomi delle colonne se non esistono nomi nel file di origine oppure sovrascrive i nomi nel file di origine. I nomi specificati vengono applicati in sequenza alle colonne nei dati, pertanto assicurarsi che i nomi e le colonne siano correttamente allineati. Nota Utilizzare il parametro header per evitare che i nomi di colonne esistenti vengano inclusi nel dataframe. Ad esempio, specificare header = 0 se i nomi delle colonne si trovano sulla prima riga del file di origine.
delimiter = "separator character" opzionale	Il carattere delimitatore utilizzato tra i valori nel file di origine, se diverso dalla virgola. Qualificare il carattere delimitatore utilizzando le virgolette. delimiter = "\|" Carattere delimitatore di tabulazione: delimiter = "\t" Se omesso, viene utilizzato il delimitatore virgola ( , ).
index_col = ["column name", "...n"] opzionale	Utilizza una delle colonne di dati nel file di origine come colonna dell'indice nel dataframe. Consente di specificare più di una colonna dell'indice.
parametri aggiuntivi multipli opzionale	hcl.read_csv() supporta tutti i parametri supportati dalla funzione Pandas pandas.read_csv(). Per visualizzare un elenco completo dei parametri, consultare la documentazione di Pandas per pandas.read_csv().

Nome

Descrizione

file di origine

Il nome, il percorso del file o l'URL del file di origine, compresa l'estensione del file (*.csv o *.txt).

nrows = number_of_rows

opzionale

Il numero di righe da utilizzare.

Le righe vengono conteggiate dall'inizio del file, partendo da 0. Se omesso, vengono utilizzate tutte le righe del file di origine.

usecols = ["column name", "...n"]

opzionale

Le colonne da utilizzare.

Se omesso, vengono utilizzate tutte le colonne del file di origine.

Specificare i nomi delle colonne esattamente come appaiono nel file di origine, a meno che non si specifichino nomi diversi con names. Se si specificano nomi diversi, utilizzare tali nomi con usecols.

L'ordine risultante delle colonne nel dataframe è lo stesso del loro ordine nel file di origine, indipendentemente dall'ordine in cui vengono specificate.

header = number_of_header_rows

opzionale

Esclude una o più righe di testo dell'intestazione nel file di origine dal dataframe.

names = ["column name", "...n"]

opzionale

I nomi delle colonne da utilizzare nel dataframe.

Specifica i nomi delle colonne se non esistono nomi nel file di origine oppure sovrascrive i nomi nel file di origine.

I nomi specificati vengono applicati in sequenza alle colonne nei dati, pertanto assicurarsi che i nomi e le colonne siano correttamente allineati.

Nota

Utilizzare il parametro header per evitare che i nomi di colonne esistenti vengano inclusi nel dataframe. Ad esempio, specificare header = 0 se i nomi delle colonne si trovano sulla prima riga del file di origine.

delimiter = "separator character"

opzionale

Il carattere delimitatore utilizzato tra i valori nel file di origine, se diverso dalla virgola. Qualificare il carattere delimitatore utilizzando le virgolette.

delimiter = "|"

Carattere delimitatore di tabulazione:

delimiter = "\t"

Se omesso, viene utilizzato il delimitatore virgola ( , ).

index_col = ["column name", "...n"]

opzionale

Utilizza una delle colonne di dati nel file di origine come colonna dell'indice nel dataframe. Consente di specificare più di una colonna dell'indice.

parametri aggiuntivi multipli

opzionale

hcl.read_csv() supporta tutti i parametri supportati dalla funzione Pandas pandas.read_csv().

Per visualizzare un elenco completo dei parametri, consultare la documentazione di Pandas per pandas.read_csv().

Restituisce

Dataframe HCL.

Esempi

Leggere un file CSV in un dataframe HCL

Si desidera leggere tutti i dati, tutte le righe e tutte le colonne, dal file Pcard_Transactions.csv al dataframe pcard_transactions. Nel dataframe vengono utilizzati i nomi delle colonne del file CSV di origine. Poiché il file di origine utilizza una virgola ( , ) come separatore tra i valori, non è necessario specificare il separatore.

pcard_transactions = hcl.read_csv("https://help.highbond.com/analytics/Pcard_Transactions.csv")

Leggere un sottoinsieme di righe e colonne da un file CSV a un dataframe HCL

Si desidera leggere solo un sottoinsieme dei dati dal file Pcard_Transactions.csv al dataframe pcard_transactions. L'esempio seguente legge solo le prime 100 righe e le colonne specificate.

pcard_transactions = hcl.read_csv("https://help.highbond.com/analytics/Pcard_Transactions.csv", nrows = 100, usecols = ["AccountNumber", "Amount", "Description", "Quantity", "TransDate", "UnitCost", "VendorLocation","VendorName", "VendorNumber"])

Leggere un file di testo delimitato da tabulazioni in un dataframe HCL

È necessario leggere i dati dal file Pcard_Transactions.txt delimitato da tabulazioni nel dataframe pcard_transactions. Nel dataframe vengono utilizzati i nomi delle colonne del file di testo di origine. Poiché il file di origine utilizza una tabulazione come separatore tra i valori, è necessario specificare il separatore ( "\t" ).

pcard_transactions = hcl.read_csv("https://help.highbond.com/analytics/Pcard_Transactions.txt", delimiter = "\t")

Leggere un file CSV in un dataframe HCL e aggiornare i nomi delle colonne

Si desidera leggere i dati dal file Pcard_Transactions.csv nel dataframe pcard_transactions e specificare i nomi delle colonne anziché utilizzare i nomi delle colonne nel file di origine.

Oltre a specificare nomi di colonna diversi, è necessario specificare header = 0 per evitare che i nomi delle colonne di origine sulla prima riga del file di origine vengano inclusi nel dataframe.

pcard_transactions = hcl.read_csv("https://help.highbond.com/analytics/Pcard_Transactions.csv", header = 0, names = ["Acct_Num", "Amount", "Currency", "Country", "Desc", "Merch_Code", "Qty", "Ref_Num", "Currency_Src", "Trans_Date", "Unit_Cost", "Vend_Loc", "Vend_Name", "Vend_Num"])

Leggere un file CSV in un dataframe HCL ed escludere le informazioni sull'intestazione

Si desidera leggere i dati dal file Pcard_Transactions.csv nel dataframe pcard_transactions e saltare tre righe di informazioni sull'intestazione nel file di origine.

pcard_transactions = hcl.read_csv("https://help.highbond.com/analytics/Pcard_Transactions.csv", header = 3)