‎read_csv()‎-methode

Leest een bestand met door komma's gescheiden waarden (*.csv) of een tekstbestand (*.txt) naar een HCL-dataframe.

Syntaxis

hcl.read_csv(source file, nrows = number_of_rows, usecols = ["column name", "...n"], header = number_of_header_rows, names = ["column name", "...n"], delimiter = "separator character", index_col = ["column name", "...n"], multiple additional parameters)

Parameters

Naam	Beschrijving
bronbestand	De naam, het bestandspad of de URL van het bronbestand, inclusief de bestandsextensie (.csv of .txt).
nrows = number_of_rows optioneel	Het aantal rijen dat moet worden gebruikt. Rijen worden geteld vanaf het begin van het bestand, beginnend bij 0. Als dit wordt weggelaten, worden alle rijen in het bronbestand gebruikt.
usecols = ["column name", "...n"] optioneel	De te gebruiken kolommen. Indien toegepast, zijn alle kolommen in het bronbestand gebruikt. Geef de kolomnamen exact op zoals ze in het bronbestand voorkomen, tenzij u andere namen opgeeft met names. Als u verschillende namen opgeeft, gebruik dan die namen met usecols. De resulterende volgorde van de kolommen in het dataframe is dezelfde als hun volgorde in het bronbestand, ongeacht de volgorde waarin u ze specificeert.
header = number_of_header_rows optioneel	Sluit een of meer kopregelregels in het bronbestand uit van het dataframe.
names = ["column name", "...n"] optioneel	Kolomnamen om te gebruiken in het dataframe. Geeft kolomnamen op als er geen namen in het bronbestand bestaan, of overschrijft de namen in het bronbestand. De namen die u opgeeft, worden opeenvolgend toegepast op de kolommen in de gegevens, dus zorg ervoor dat de namen en kolommen correct zijn uitgelijnd. Opmerking Gebruik de header-parameter om te voorkomen dat bestaande kolomnamen worden opgenomen in het dataframe. Bijvoorbeeld: specificeer header = 0 als de kolomnamen op de eerste regel van het bronbestand staan.
delimiter = "separator character" optioneel	Het scheidingsteken dat tussen waarden in het bronbestand wordt gebruikt als dit geen komma is. Kwalificeer het scheidingsteken met aanhalingstekens. scheidingsteken = "\|" Tab-scheidingsteken: scheidingsteken = "\t" Als de komma als scheidingsteken wordt weggelaten, wordt ( , ) gebruikt.
index_col = ["column name", "...n"] optioneel	Gebruikt een van de gegevenskolommen in het bronbestand als indexkolom in het dataframe. Maakt het mogelijk om meer dan één indexkolom op te geven.
meerdere aanvullende parameters optioneel	hcl.read_csv() ondersteunt alle parameters die worden ondersteund door de Pandas-functie pandas.read_csv(). Voor een volledige lijst met parameters kunt u de Pandas-documentatie voor pandas.read_csv() raadplegen.

Naam

Beschrijving

bronbestand

De naam, het bestandspad of de URL van het bronbestand, inclusief de bestandsextensie (*.csv of *.txt).

nrows = number_of_rows

optioneel

Het aantal rijen dat moet worden gebruikt.

Rijen worden geteld vanaf het begin van het bestand, beginnend bij 0. Als dit wordt weggelaten, worden alle rijen in het bronbestand gebruikt.

usecols = ["column name", "...n"]

optioneel

De te gebruiken kolommen.

Indien toegepast, zijn alle kolommen in het bronbestand gebruikt.

Geef de kolomnamen exact op zoals ze in het bronbestand voorkomen, tenzij u andere namen opgeeft met names. Als u verschillende namen opgeeft, gebruik dan die namen met usecols.

De resulterende volgorde van de kolommen in het dataframe is dezelfde als hun volgorde in het bronbestand, ongeacht de volgorde waarin u ze specificeert.

header = number_of_header_rows

optioneel

Sluit een of meer kopregelregels in het bronbestand uit van het dataframe.

names = ["column name", "...n"]

optioneel

Kolomnamen om te gebruiken in het dataframe.

Geeft kolomnamen op als er geen namen in het bronbestand bestaan, of overschrijft de namen in het bronbestand.

De namen die u opgeeft, worden opeenvolgend toegepast op de kolommen in de gegevens, dus zorg ervoor dat de namen en kolommen correct zijn uitgelijnd.

Opmerking

Gebruik de header-parameter om te voorkomen dat bestaande kolomnamen worden opgenomen in het dataframe. Bijvoorbeeld: specificeer header = 0 als de kolomnamen op de eerste regel van het bronbestand staan.

delimiter = "separator character"

optioneel

Het scheidingsteken dat tussen waarden in het bronbestand wordt gebruikt als dit geen komma is. Kwalificeer het scheidingsteken met aanhalingstekens.

scheidingsteken = "|"

Tab-scheidingsteken:

scheidingsteken = "\t"

Als de komma als scheidingsteken wordt weggelaten, wordt ( , ) gebruikt.

index_col = ["column name", "...n"]

optioneel

Gebruikt een van de gegevenskolommen in het bronbestand als indexkolom in het dataframe. Maakt het mogelijk om meer dan één indexkolom op te geven.

meerdere aanvullende parameters

optioneel

hcl.read_csv() ondersteunt alle parameters die worden ondersteund door de Pandas-functie pandas.read_csv().

Voor een volledige lijst met parameters kunt u de Pandas-documentatie voor pandas.read_csv() raadplegen.

Retourneert

HCL-dataframe.

Voorbeelden

Een CSV-bestand naar een HCL-dataframe lezen

U wilt alle gegevens – alle rijen en alle kolommen – uit het bestand Pcard_Transactions.csv lezen naar het pcard_transactions-dataframe. De kolomnamen uit het bron-CSV-bestand worden gebruikt in het dataframe. Omdat het bronbestand een komma ( , ) gebruikt als scheidingsteken tussen waarden, hoeft u het scheidingsteken niet op te geven.

pcard_transactions = hcl.read_csv("https://help.highbond.com/analytics/Pcard_Transactions.csv")

Lees een deelverzameling van rijen en kolommen uit een CSV-bestand naar een HCL-dataframe

U wilt slechts een subset van de gegevens uit het bestand Pcard_Transactions.csv inlezen in het pcard_transactions-dataframe. Het onderstaande voorbeeld leest alleen de eerste 100 rijen en de opgegeven kolommen.

pcard_transactions = hcl.read_csv("https://help.highbond.com/analytics/Pcard_Transactions.csv", nrows = 100, usecols = ["AccountNumber", "Amount", "Description", "Quantity", "TransDate", "UnitCost", "VendorLocation","VendorName", "VendorNumber"])

Een tekstbestand met tabs als scheidingsteken naar een HCL-dataframe lezen

U moet gegevens lezen uit het tabgescheiden bestand Pcard_Transactions.txt naar het pcard_transactions-dataframe. De kolomnamen uit het brontekstbestand worden gebruikt in het dataframe. Omdat het bronbestand een tab gebruikt als scheidingsteken tussen waarden, moet u het scheidingsteken specificeren ( "\t" ).

pcard_transactions = hcl.read_csv("https://help.highbond.com/analytics/Pcard_Transactions.txt", delimiter = "\t")

Een CSV-bestand naar een HCL-dataframe lezen en de kolomnamen bijwerken

U wilt de gegevens uit het bestand Pcard_Transactions.csv inlezen in het dataframe pcard_transactions en daarbij uw eigen kolomnamen opgeven in plaats van de kolomnamen uit het bronbestand te gebruiken.

Naast het specificeren van verschillende kolomnamen, moet u header = 0 opgeven om te voorkomen dat de bronkolomnamen op de eerste regel van het bronbestand in het dataframe worden opgenomen.

pcard_transactions = hcl.read_csv("https://help.highbond.com/analytics/Pcard_Transactions.csv", header = 0, names = ["Acct_Num", "Amount", "Currency", "Country", "Desc", "Merch_Code", "Qty", "Ref_Num", "Currency_Src", "Trans_Date", "Unit_Cost", "Vend_Loc", "Vend_Name", "Vend_Num"])

Een CSV-bestand naar een HCL-dataframe lezen en kopregelinformatie uitsluiten

U wilt de gegevens uit het bestand Pcard_Transactions.csv inlezen in het dataframe pcard_transactions, waarbij u drie regels met koptekstinformatie in het bronbestand overslaat.

pcard_transactions = hcl.read_csv("https://help.highbond.com/analytics/Pcard_Transactions.csv", header = 3)