read_csv() methode
Leest een bestand met door komma's gescheiden waarden (*.csv) of een tekstbestand (*.txt) naar een HCL-dataframe.
Syntaxis
hcl.read_csv(source file, nrows = number_of_rows, usecols = ["column name", "...n"], header = number_of_header_rows, names = ["column name", "...n"], delimiter = "separator character", index_col = ["column name", "...n"], multiple additional parameters)
Parameters
Naam | Beschrijving |
---|---|
bronbestand |
De naam, het bestandspad of de URL van het bronbestand, inclusief de bestandsextensie (*.csv or *.txt). |
nrows = number_of_rows optioneel |
Het aantal rijen dat moet worden gebruikt. Rijen worden geteld vanaf het begin van het bestand, beginnend bij 0. Als dit wordt weggelaten, worden alle rijen in het bronbestand gebruikt. |
usecols = ["column name", "...n"] optioneel |
De te gebruiken kolommen. If omitted, all columns in the source file are used. Geef de kolomnamen exact op zoals ze in het bronbestand voorkomen, tenzij u andere namen opgeeft met names. Als u verschillende namen opgeeft, gebruik dan die namen met usecols. De resulterende volgorde van de kolommen in het dataframe is dezelfde als hun volgorde in het bronbestand, ongeacht de volgorde waarin u ze specificeert. |
header = number_of_header_rows optioneel |
Sluit een of meer kopregelregels in het bronbestand uit van het dataframe. |
names = ["column name", "...n"] optioneel |
Kolomnamen om te gebruiken in het dataframe. Geeft kolomnamen op als er geen namen in het bronbestand bestaan, of overschrijft de namen in het bronbestand. De namen die u opgeeft, worden opeenvolgend toegepast op de kolommen in de gegevens, dus zorg ervoor dat de namen en kolommen correct zijn uitgelijnd. Opmerking Gebruik de header-parameter om te voorkomen dat bestaande kolomnamen worden opgenomen in het dataframe. Bijvoorbeeld: specificeer header = 0 als de kolomnamen op de eerste regel van het bronbestand staan. |
delimiter = "separator character" optioneel |
Het scheidingsteken dat tussen waarden in het bronbestand wordt gebruikt als dit geen komma is. Kwalificeer het scheidingsteken met aanhalingstekens. scheidingsteken = "|" Tab-scheidingsteken: scheidingsteken = "\t" Als de komma als scheidingsteken wordt weggelaten, wordt ( , ) gebruikt. |
index_col = ["column name", "...n"] optioneel |
Gebruikt een van de gegevenskolommen in het bronbestand als indexkolom in het dataframe. Maakt het mogelijk om meer dan één indexkolom op te geven. |
meerdere aanvullende parameters
optioneel |
hcl.read_csv() ondersteunt alle parameters die worden ondersteund door de Pandas-functie pandas.read_csv(). Voor een volledige lijst met parameters kunt u de Pandas-documentatie voor pandas.read_csv() raadplegen. |
Retourneert
HCL-dataframe.
Voorbeelden
Een CSV-bestand naar een HCL-dataframe lezen
U wilt alle gegevens – alle rijen en alle kolommen – uit het bestand Pcard_Transactions.csv lezen naar het pcard_transactions-dataframe. De kolomnamen uit het bron-CSV-bestand worden gebruikt in het dataframe. Omdat het bronbestand een komma ( , ) gebruikt als scheidingsteken tussen waarden, hoeft u het scheidingsteken niet op te geven.
pcard_transactions = hcl.read_csv("https://help.highbond.com/analytics/Pcard_Transactions.csv")
Lees een deelverzameling van rijen en kolommen uit een CSV-bestand naar een HCL-dataframe
U wilt slechts een subset van de gegevens uit het bestand Pcard_Transactions.csv inlezen in het pcard_transactions-dataframe. Het onderstaande voorbeeld leest alleen de eerste 100 rijen en de opgegeven kolommen.
pcard_transactions = hcl.read_csv("https://help.highbond.com/analytics/Pcard_Transactions.csv", nrows = 100, usecols = ["AccountNumber", "Amount", "Description", "Quantity", "TransDate", "UnitCost", "VendorLocation","VendorName", "VendorNumber"])
Een tekstbestand met tabs als scheidingsteken naar een HCL-dataframe lezen
U moet gegevens lezen uit het tabgescheiden bestand Pcard_Transactions.txt naar het pcard_transactions-dataframe. De kolomnamen uit het brontekstbestand worden gebruikt in het dataframe. Omdat het bronbestand een tab gebruikt als scheidingsteken tussen waarden, moet u het scheidingsteken specificeren ( "\t" ).
pcard_transactions = hcl.read_csv("https://help.highbond.com/analytics/Pcard_Transactions.txt", delimiter = "\t")
Een CSV-bestand naar een HCL-dataframe lezen en de kolomnamen bijwerken
U wilt de gegevens uit het bestand Pcard_Transactions.csv inlezen in het dataframe pcard_transactions en daarbij uw eigen kolomnamen opgeven in plaats van de kolomnamen uit het bronbestand te gebruiken.
Naast het specificeren van verschillende kolomnamen, moet u header = 0 opgeven om te voorkomen dat de bronkolomnamen op de eerste regel van het bronbestand in het dataframe worden opgenomen.
pcard_transactions = hcl.read_csv("https://help.highbond.com/analytics/Pcard_Transactions.csv", header = 0, names = ["Acct_Num", "Amount", "Currency", "Country", "Desc", "Merch_Code", "Qty", "Ref_Num", "Currency_Src", "Trans_Date", "Unit_Cost", "Vend_Loc", "Vend_Name", "Vend_Num"])
Een CSV-bestand naar een HCL-dataframe lezen en kopregelinformatie uitsluiten
U wilt de gegevens uit het bestand Pcard_Transactions.csv inlezen in het dataframe pcard_transactions, waarbij u drie regels met koptekstinformatie in het bronbestand overslaat.
pcard_transactions = hcl.read_csv("https://help.highbond.com/analytics/Pcard_Transactions.csv", header = 3)