一、pd.read_csv参数
import pandas as pd
# 读取CSV文件
df = pd.read_csv('data.csv')
# 打印读取到的数据
print(df)
pd.read_csv函数是pandas模块提供的一种从文件、URL或任何一个支持缓存协议的文件中加载数据的方式。读取CSV文件时,可以指定很多参数,使得读取的数据满足我们的需求。
1、filepath_or_buffer
# 读取CSV文件
df = pd.read_csv('data.csv')
# 读取CSV文件的第2到第4行
df = pd.read_csv('data.csv', skiprows=1, nrows=3)
filepath_or_buffer是必选的参数,指定要读取的文件。可以是本地文件路径,也可以是URL,还可以是任何一个支持缓存协议的文件。
同时,通过skiprows和nrows参数,还可以控制读取的行数。
2、sep
# 读取分号分隔符的CSV文件
df = pd.read_csv('data.csv', sep=';')
sep参数用于指定分隔符,默认使用逗号作为分隔符。如果文件使用的是其他分隔符,需要手动指定。
3、header
# 读取无表头的CSV文件
df = pd.read_csv('data.csv', header=None)
# 使用指定行作为表头
df = pd.read_csv('data.csv', header=2)
header参数用于指定CSV文件是否有表头。当CSV文件有表头时,可以使用header=0或header=’infer’自动推断表头。如果文件没有表头,可以使用header=None,也可以使用header指定表头行的编号。
4、usecols
# 读取指定列
df = pd.read_csv('data.csv', usecols=['col1', 'col3'])
# 读取某几列并改名
df = pd.read_csv('data.csv', usecols=['col1', 'col3'], names=['col_one', 'col_three'])
usecols参数用于指定读取的列。可以传入一个列表,也可以直接传入列名的字符串。
如果需要对读取到的列名进行修改,可以使用names参数。
5、encoding
# 读取使用GBK编码的CSV文件
df = pd.read_csv('data.csv', encoding='GBK')
encoding参数用于指定CSV文件的编码格式,常见的编码格式包括UTF-8和GBK等。
二、pd.read_csv读取指定的行数和列
# 读取CSV文件
df = pd.read_csv('data.csv')
# 读取前5行
df.head(5)
# 读取后5行
df.tail(5)
# 读取第1列
df['col1']
pd.read_csv默认会读取文件的所有行和所有列,但有时候我们只需要读取其中的一部分,可以使用head、tail和列名的方式来读取指定的行数和列。
三、pd.read_csv能读什么格式
pd.read_csv函数支持读取多种格式的文本文件,包括CSV、TSV、TXT等。其中,CSV文件是pd.read_csv最常用的格式。
1、CSV格式
# 读取以逗号分隔的CSV文件
df = pd.read_csv('data.csv')
2、TSV格式
# 读取以制表符分隔的TSV文件
df = pd.read_csv('data.tsv', sep='\t')
3、TXT格式
# 读取以空格分隔的TXT文件
df = pd.read_csv('data.txt', delim_whitespace=True)
无论是哪种格式的文本文件,在使用pd.read_csv函数读取之前,都需要确定文件的分隔符、表头、编码格式等重要参数。
四、小结
pd.read_csv是pandas模块提供的一种方便易用的读取文本数据的方式。通过合理地使用参数,我们可以轻松地读取各种格式的文本文件,并选择读取特定的行数和列,满足我们的需求。
原创文章,作者:小蓝,如若转载,请注明出处:https://www.506064.com/n/187709.html