Metodo read_csv()
Viene letto un file con valori separati da virgole (*.csv) o un file di testo (*.txt) in un dataframe HCL.
Sintassi
hcl.read_csv(source file, nrows = number_of_rows, usecols = ["column name", "...n"], header = number_of_header_rows, names = ["column name", "...n"], delimiter = "separator character", index_col = ["column name", "...n"], multiple additional parameters)
Parametri
Nome | Descrizione |
---|---|
file di origine |
Il nome, il percorso del file o l'URL del file di origine, inclusa l'estensione del file (*.csv or *.txt). |
nrows = number_of_rows facoltativo |
Il numero di righe da utilizzare. Le righe vengono conteggiate dall'inizio del file, partendo da 0. Se omesso, vengono utilizzate tutte le righe del file di origine. |
usecols = ["column name", "...n"] facoltativo |
Le colonne da utilizzare. Se omesso, vengono utilizzate tutte le colonne del file di origine. Specificare i nomi delle colonne esattamente come appaiono nel file di origine, a meno che non si specifichino nomi diversi con names. Se si specificano nomi diversi, utilizzare tali nomi con usecols. L'ordine risultante delle colonne nel dataframe è lo stesso del loro ordine nel file di origine, indipendentemente dall'ordine in cui vengono specificate. |
header = number_of_header_rows facoltativo |
Esclude una o più righe di testo dell'intestazione nel file di origine dal dataframe. |
names = ["column name", "...n"] facoltativo |
I nomi delle colonne da utilizzare nel dataframe. Specifica i nomi delle colonne se non esistono nomi nel file di origine oppure sovrascrive i nomi nel file di origine. I nomi specificati vengono applicati in sequenza alle colonne nei dati, pertanto assicurarsi che i nomi e le colonne siano correttamente allineati. Nota Utilizzare il parametro header per evitare che i nomi di colonne esistenti vengano inclusi nel dataframe. Ad esempio, specificare header = 0 se i nomi delle colonne si trovano sulla prima riga del file di origine. |
delimiter = "separator character" facoltativo |
Il carattere delimitatore utilizzato tra i valori nel file di origine, se diverso dalla virgola. Qualificare il carattere delimitatore utilizzando le virgolette. delimiter = "|" Carattere delimitatore di tabulazione: delimiter = "\t" Se omesso, viene utilizzato il delimitatore virgola ( , ). |
index_col = ["column name", "...n"] facoltativo |
Utilizza una delle colonne di dati nel file di origine come colonna dell'indice nel dataframe. Consente di specificare più di una colonna dell'indice. |
parametri aggiuntivi multipli
facoltativo |
hcl.read_csv() supporta tutti i parametri supportati dalla funzione Pandas pandas.read_csv(). Per visualizzare un elenco completo dei parametri, consultare la documentazione di Pandas per pandas.read_csv(). |
Restituisce
Dataframe HCL.
Esempi
Leggere un file CSV in un dataframe HCL
Si desidera leggere tutti i dati, tutte le righe e tutte le colonne, dal file Pcard_Transactions.csv al dataframe pcard_transactions. Nel dataframe vengono utilizzati i nomi delle colonne del file CSV di origine. Poiché il file di origine utilizza una virgola ( , ) come separatore tra i valori, non è necessario specificare il separatore.
pcard_transactions = hcl.read_csv("https://help.highbond.com/analytics/Pcard_Transactions.csv")
Leggere un sottoinsieme di righe e colonne da un file CSV a un dataframe HCL
Si desidera leggere solo un sottoinsieme dei dati dal file Pcard_Transactions.csv al dataframe pcard_transactions. L'esempio seguente legge solo le prime 100 righe e le colonne specificate.
pcard_transactions = hcl.read_csv("https://help.highbond.com/analytics/Pcard_Transactions.csv", nrows = 100, usecols = ["AccountNumber", "Amount", "Description", "Quantity", "TransDate", "UnitCost", "VendorLocation","VendorName", "VendorNumber"])
Leggere un file di testo delimitato da tabulazioni in un dataframe HCL
È necessario leggere i dati dal file Pcard_Transactions.txt delimitato da tabulazioni nel dataframe pcard_transactions. Nel dataframe vengono utilizzati i nomi delle colonne del file di testo di origine. Poiché il file di origine utilizza una tabulazione come separatore tra i valori, è necessario specificare il separatore ( "\t" ).
pcard_transactions = hcl.read_csv("https://help.highbond.com/analytics/Pcard_Transactions.txt", delimiter = "\t")
Leggere un file CSV in un dataframe HCL e aggiornare i nomi delle colonne
Si desidera leggere i dati dal file Pcard_Transactions.csv nel dataframe pcard_transactions e specificare i nomi delle colonne anziché utilizzare i nomi delle colonne nel file di origine.
Oltre a specificare nomi di colonna diversi, è necessario specificare header = 0 per evitare che i nomi delle colonne di origine sulla prima riga del file di origine vengano inclusi nel dataframe.
pcard_transactions = hcl.read_csv("https://help.highbond.com/analytics/Pcard_Transactions.csv", header = 0, names = ["Acct_Num", "Amount", "Currency", "Country", "Desc", "Merch_Code", "Qty", "Ref_Num", "Currency_Src", "Trans_Date", "Unit_Cost", "Vend_Loc", "Vend_Name", "Vend_Num"])
Leggere un file CSV in un dataframe HCL ed escludere le informazioni sull'intestazione
Si desidera leggere i dati dal file Pcard_Transactions.csv nel dataframe pcard_transactions e saltare tre righe di informazioni sull'intestazione nel file di origine.
pcard_transactions = hcl.read_csv("https://help.highbond.com/analytics/Pcard_Transactions.csv", header = 3)