一、pd.read_csv參數
import pandas as pd
# 讀取CSV文件
df = pd.read_csv('data.csv')
# 列印讀取到的數據
print(df)
pd.read_csv函數是pandas模塊提供的一種從文件、URL或任何一個支持緩存協議的文件中載入數據的方式。讀取CSV文件時,可以指定很多參數,使得讀取的數據滿足我們的需求。
1、filepath_or_buffer
# 讀取CSV文件
df = pd.read_csv('data.csv')
# 讀取CSV文件的第2到第4行
df = pd.read_csv('data.csv', skiprows=1, nrows=3)
filepath_or_buffer是必選的參數,指定要讀取的文件。可以是本地文件路徑,也可以是URL,還可以是任何一個支持緩存協議的文件。
同時,通過skiprows和nrows參數,還可以控制讀取的行數。
2、sep
# 讀取分號分隔符的CSV文件
df = pd.read_csv('data.csv', sep=';')
sep參數用於指定分隔符,默認使用逗號作為分隔符。如果文件使用的是其他分隔符,需要手動指定。
3、header
# 讀取無表頭的CSV文件
df = pd.read_csv('data.csv', header=None)
# 使用指定行作為表頭
df = pd.read_csv('data.csv', header=2)
header參數用於指定CSV文件是否有表頭。當CSV文件有表頭時,可以使用header=0或header=’infer’自動推斷表頭。如果文件沒有表頭,可以使用header=None,也可以使用header指定表頭行的編號。
4、usecols
# 讀取指定列
df = pd.read_csv('data.csv', usecols=['col1', 'col3'])
# 讀取某幾列並改名
df = pd.read_csv('data.csv', usecols=['col1', 'col3'], names=['col_one', 'col_three'])
usecols參數用於指定讀取的列。可以傳入一個列表,也可以直接傳入列名的字元串。
如果需要對讀取到的列名進行修改,可以使用names參數。
5、encoding
# 讀取使用GBK編碼的CSV文件
df = pd.read_csv('data.csv', encoding='GBK')
encoding參數用於指定CSV文件的編碼格式,常見的編碼格式包括UTF-8和GBK等。
二、pd.read_csv讀取指定的行數和列
# 讀取CSV文件
df = pd.read_csv('data.csv')
# 讀取前5行
df.head(5)
# 讀取後5行
df.tail(5)
# 讀取第1列
df['col1']
pd.read_csv默認會讀取文件的所有行和所有列,但有時候我們只需要讀取其中的一部分,可以使用head、tail和列名的方式來讀取指定的行數和列。
三、pd.read_csv能讀什麼格式
pd.read_csv函數支持讀取多種格式的文本文件,包括CSV、TSV、TXT等。其中,CSV文件是pd.read_csv最常用的格式。
1、CSV格式
# 讀取以逗號分隔的CSV文件
df = pd.read_csv('data.csv')
2、TSV格式
# 讀取以製表符分隔的TSV文件
df = pd.read_csv('data.tsv', sep='\t')
3、TXT格式
# 讀取以空格分隔的TXT文件
df = pd.read_csv('data.txt', delim_whitespace=True)
無論是哪種格式的文本文件,在使用pd.read_csv函數讀取之前,都需要確定文件的分隔符、表頭、編碼格式等重要參數。
四、小結
pd.read_csv是pandas模塊提供的一種方便易用的讀取文本數據的方式。通過合理地使用參數,我們可以輕鬆地讀取各種格式的文本文件,並選擇讀取特定的行數和列,滿足我們的需求。
原創文章,作者:小藍,如若轉載,請註明出處:https://www.506064.com/zh-tw/n/187709.html