Método read_csv()

Lê um arquivo de valores separados por vírgula (*.csv) ou um arquivo texto (*.txt) para um dataframe HCL.

Sintaxe

hcl.read_csv(arquivo de origem, nrows = número_de_linhas, usecols = ["nome de coluna", "...n"], header = número_de_linhas_de_cabeçalho, names = ["nome de coluna", "...n"], delimiter = "caractere separador", index_col = ["nome de coluna", "...n"], vários parâmetros adicionais)

Parâmetros

Nome	Descrição
arquivo de origem	O nome, caminho de arquivo ou URL do arquivo de origem, incluindo a extensão de arquivo (.csv ou .txt).
nrows = número_de_linhas opcional	O número de linhas a serem usadas. As linhas são contadas do início do arquivo, começando em 0. Se omitido, todas as linhas do arquivo de origem são usadas.
usecols = ["nome da coluna", "...n"] opcional	As colunas a serem usadas. Se omitido, todas as colunas do arquivo de origem são usadas. Especifique os nomes das colunas exatamente como aparecem no arquivo de origem, a menos que você especifique nomes diferentes com names. Se você especificar nomes diferentes, use esses nomes com usecols. A ordem resultante das colunas no dataframe é a mesma que a ordem no arquivo de origem, independentemente da ordem em que são especificadas.
header = número_de_linhas_de_cabeçalho opcional	Exclui uma ou mais linhas de texto do cabeçalho no arquivo de origem do dataframe.
names = ["nome da coluna", "...n"] opcional	Nomes de coluna a serem usadas no dataframe. Especifica nomes de colunas quando esses nomes não existem no arquivo de origem ou substitui os nomes existentes. Os nomes especificados são aplicados sequencialmente às colunas nos dados para garantir o alinhamento correto entre nomes e colunas. Observação Use o parâmetro header para evitar que nomes de coluna existentes sejam incluídos no dataframe. Por exemplo, especifique header = 0 se os nomes de coluna estão na primeira linha do arquivo de origem.
delimiter = "caractere separador" opcional	O caractere delimitador usado entre valores no arquivo de origem, se diferente de vírgula. Qualifique o caractere delimitador usando aspas duplas. delimiter = "\|" Caractere delimitador de tabulação delimiter = "\t" Se omitido, o delimitador vírgula (,) é usado.
index_col = ["nome da coluna", "...n"] opcional	Usa uma das colunas de dados do arquivo de origem como a coluna de índice no dataframe. Permite especificar mais de uma coluna de índice.
vários parâmetros adicionais opcional	hcl.read_csv() aceita todos os parâmetros aceitos pela função pandas.read_csv() do Pandas. Para ver uma lista completa dos parâmetros, consulte pandas.read_csv() na documentação do Pandas.

Nome

Descrição

arquivo de origem

O nome, caminho de arquivo ou URL do arquivo de origem, incluindo a extensão de arquivo (*.csv ou *.txt).

nrows = número_de_linhas

opcional

O número de linhas a serem usadas.

As linhas são contadas do início do arquivo, começando em 0. Se omitido, todas as linhas do arquivo de origem são usadas.

usecols = ["nome da coluna", "...n"]

opcional

As colunas a serem usadas.

Se omitido, todas as colunas do arquivo de origem são usadas.

Especifique os nomes das colunas exatamente como aparecem no arquivo de origem, a menos que você especifique nomes diferentes com names. Se você especificar nomes diferentes, use esses nomes com usecols.

A ordem resultante das colunas no dataframe é a mesma que a ordem no arquivo de origem, independentemente da ordem em que são especificadas.

header = número_de_linhas_de_cabeçalho

opcional

Exclui uma ou mais linhas de texto do cabeçalho no arquivo de origem do dataframe.

names = ["nome da coluna", "...n"]

opcional

Nomes de coluna a serem usadas no dataframe.

Especifica nomes de colunas quando esses nomes não existem no arquivo de origem ou substitui os nomes existentes.

Os nomes especificados são aplicados sequencialmente às colunas nos dados para garantir o alinhamento correto entre nomes e colunas.

Observação

Use o parâmetro header para evitar que nomes de coluna existentes sejam incluídos no dataframe. Por exemplo, especifique header = 0 se os nomes de coluna estão na primeira linha do arquivo de origem.

delimiter = "caractere separador"

opcional

O caractere delimitador usado entre valores no arquivo de origem, se diferente de vírgula. Qualifique o caractere delimitador usando aspas duplas.

delimiter = "|"

Caractere delimitador de tabulação

delimiter = "\t"

Se omitido, o delimitador vírgula (,) é usado.

index_col = ["nome da coluna", "...n"]

opcional

Usa uma das colunas de dados do arquivo de origem como a coluna de índice no dataframe. Permite especificar mais de uma coluna de índice.

vários parâmetros adicionais

opcional

hcl.read_csv() aceita todos os parâmetros aceitos pela função pandas.read_csv() do Pandas.

Para ver uma lista completa dos parâmetros, consulte pandas.read_csv() na documentação do Pandas.

Retorna

Dataframe do HCL.

Exemplos

Ler um arquivo CSV para um dataframe do HCL

Você quer ler todos os dados (todas as linhas e colunas) do arquivo Pcard_Transactions.csv para o dataframe pcard_transactions. Os nomes de colunas do arquivo CSV de origem são usados no dataframe. Como o arquivo de origem usa uma vírgula (,) como separador entre valores, você não precisa especificar um separador.

pcard_transactions = hcl.read_csv("https://help.highbond.com/analytics/Pcard_Transactions.csv")

Ler um subconjunto de linhas e colunas de um arquivo CSV para um dataframe do HCL

Você quer ler apenas um subconjunto dos dados do arquivo Pcard_Transactions.csv para o dataframe pcard_transactions. O exemplo abaixo lê apenas as primeiras 100 linhas e as colunas especificadas.

pcard_transactions = hcl.read_csv("https://help.highbond.com/analytics/Pcard_Transactions.csv", nrows = 100, usecols = ["AccountNumber", "Amount", "Description", "Quantity", "TransDate", "UnitCost", "VendorLocation","VendorName", "VendorNumber"])

Ler um arquivo de texto delimitado por tabulação para um dataframe do HCL

Você precisa ler dados do arquivo delimitado por tabulação Pcard_Transactions.txt para o dataframe pcard_transactions. Os nomes de colunas do arquivo texto de origem são usados no dataframe. Como o arquivo de origem usa a tabulação como separador entre valores, você não precisa especificar um separador ("\t").

pcard_transactions = hcl.read_csv("https://help.highbond.com/analytics/Pcard_Transactions.txt", delimiter = "\t")

Ler um arquivo CSV para um dataframe do HCL e atualizar os nomes de coluna

Você quer ler os dados do arquivo Pcard_Transactions.csv para o dataframe pcard_transactions e especificar seus próprios nomes de coluna, em vez de usar os que estão no arquivo de origem.

Além de especificar nomes de coluna diferentes, você precisa especificar header = 0 para evitar que os nomes de coluna de origem na primeira linha do arquivo de origem sejam incluídos no dataframe.

pcard_transactions = hcl.read_csv("https://help.highbond.com/analytics/Pcard_Transactions.csv", header = 0, names = ["Acct_Num", "Amount", "Currency", "Country", "Desc", "Merch_Code", "Qty", "Ref_Num", "Currency_Src", "Trans_Date", "Unit_Cost", "Vend_Loc", "Vend_Name", "Vend_Num"])

Ler um arquivo CSV para um dataframe do HCL e excluir informações do cabeçalho

Você quer ler os dados do arquivo Pcard_Transactions.csv para o dataframe pcard_transactions e ignorar três linhas de informações de cabeçalho do arquivo de origem.

pcard_transactions = hcl.read_csv("https://help.highbond.com/analytics/Pcard_Transactions.csv", header = 3)