掌握pd.read_csv,輕鬆讀取數據文件

一、pd.read_csv參數

import pandas as pd

# 讀取CSV文件
df = pd.read_csv('data.csv')

# 列印讀取到的數據
print(df)

pd.read_csv函數是pandas模塊提供的一種從文件、URL或任何一個支持緩存協議的文件中載入數據的方式。讀取CSV文件時,可以指定很多參數,使得讀取的數據滿足我們的需求。

1、filepath_or_buffer

# 讀取CSV文件
df = pd.read_csv('data.csv')

# 讀取CSV文件的第2到第4行
df = pd.read_csv('data.csv', skiprows=1, nrows=3)

filepath_or_buffer是必選的參數,指定要讀取的文件。可以是本地文件路徑,也可以是URL,還可以是任何一個支持緩存協議的文件。

同時,通過skiprows和nrows參數,還可以控制讀取的行數。

2、sep

# 讀取分號分隔符的CSV文件
df = pd.read_csv('data.csv', sep=';')

sep參數用於指定分隔符,默認使用逗號作為分隔符。如果文件使用的是其他分隔符,需要手動指定。

3、header

# 讀取無表頭的CSV文件
df = pd.read_csv('data.csv', header=None)

# 使用指定行作為表頭
df = pd.read_csv('data.csv', header=2)

header參數用於指定CSV文件是否有表頭。當CSV文件有表頭時,可以使用header=0或header=’infer’自動推斷表頭。如果文件沒有表頭,可以使用header=None,也可以使用header指定表頭行的編號。

4、usecols

# 讀取指定列
df = pd.read_csv('data.csv', usecols=['col1', 'col3'])

# 讀取某幾列並改名
df = pd.read_csv('data.csv', usecols=['col1', 'col3'], names=['col_one', 'col_three'])

usecols參數用於指定讀取的列。可以傳入一個列表,也可以直接傳入列名的字元串。

如果需要對讀取到的列名進行修改,可以使用names參數。

5、encoding

# 讀取使用GBK編碼的CSV文件
df = pd.read_csv('data.csv', encoding='GBK')

encoding參數用於指定CSV文件的編碼格式,常見的編碼格式包括UTF-8和GBK等。

二、pd.read_csv讀取指定的行數和列

# 讀取CSV文件
df = pd.read_csv('data.csv')

# 讀取前5行
df.head(5)

# 讀取後5行
df.tail(5)

# 讀取第1列
df['col1']

pd.read_csv默認會讀取文件的所有行和所有列,但有時候我們只需要讀取其中的一部分,可以使用head、tail和列名的方式來讀取指定的行數和列。

三、pd.read_csv能讀什麼格式

pd.read_csv函數支持讀取多種格式的文本文件,包括CSV、TSV、TXT等。其中,CSV文件是pd.read_csv最常用的格式。

1、CSV格式

# 讀取以逗號分隔的CSV文件
df = pd.read_csv('data.csv')

2、TSV格式

# 讀取以製表符分隔的TSV文件
df = pd.read_csv('data.tsv', sep='\t')

3、TXT格式

# 讀取以空格分隔的TXT文件
df = pd.read_csv('data.txt', delim_whitespace=True)

無論是哪種格式的文本文件,在使用pd.read_csv函數讀取之前,都需要確定文件的分隔符、表頭、編碼格式等重要參數。

四、小結

pd.read_csv是pandas模塊提供的一種方便易用的讀取文本數據的方式。通過合理地使用參數,我們可以輕鬆地讀取各種格式的文本文件,並選擇讀取特定的行數和列,滿足我們的需求。

原創文章,作者:小藍,如若轉載,請註明出處:https://www.506064.com/zh-tw/n/187709.html

(0)
打賞 微信掃一掃 微信掃一掃 支付寶掃一掃 支付寶掃一掃
小藍的頭像小藍
上一篇 2024-11-28 06:25
下一篇 2024-11-28 06:25

相關推薦

發表回復

登錄後才能評論