掌握pd.read_csv,轻松读取数据文件

一、pd.read_csv参数

import pandas as pd

# 读取CSV文件
df = pd.read_csv('data.csv')

# 打印读取到的数据
print(df)

pd.read_csv函数是pandas模块提供的一种从文件、URL或任何一个支持缓存协议的文件中加载数据的方式。读取CSV文件时,可以指定很多参数,使得读取的数据满足我们的需求。

1、filepath_or_buffer

# 读取CSV文件
df = pd.read_csv('data.csv')

# 读取CSV文件的第2到第4行
df = pd.read_csv('data.csv', skiprows=1, nrows=3)

filepath_or_buffer是必选的参数,指定要读取的文件。可以是本地文件路径,也可以是URL,还可以是任何一个支持缓存协议的文件。

同时,通过skiprows和nrows参数,还可以控制读取的行数。

2、sep

# 读取分号分隔符的CSV文件
df = pd.read_csv('data.csv', sep=';')

sep参数用于指定分隔符,默认使用逗号作为分隔符。如果文件使用的是其他分隔符,需要手动指定。

3、header

# 读取无表头的CSV文件
df = pd.read_csv('data.csv', header=None)

# 使用指定行作为表头
df = pd.read_csv('data.csv', header=2)

header参数用于指定CSV文件是否有表头。当CSV文件有表头时,可以使用header=0或header=’infer’自动推断表头。如果文件没有表头,可以使用header=None,也可以使用header指定表头行的编号。

4、usecols

# 读取指定列
df = pd.read_csv('data.csv', usecols=['col1', 'col3'])

# 读取某几列并改名
df = pd.read_csv('data.csv', usecols=['col1', 'col3'], names=['col_one', 'col_three'])

usecols参数用于指定读取的列。可以传入一个列表,也可以直接传入列名的字符串。

如果需要对读取到的列名进行修改,可以使用names参数。

5、encoding

# 读取使用GBK编码的CSV文件
df = pd.read_csv('data.csv', encoding='GBK')

encoding参数用于指定CSV文件的编码格式,常见的编码格式包括UTF-8和GBK等。

二、pd.read_csv读取指定的行数和列

# 读取CSV文件
df = pd.read_csv('data.csv')

# 读取前5行
df.head(5)

# 读取后5行
df.tail(5)

# 读取第1列
df['col1']

pd.read_csv默认会读取文件的所有行和所有列,但有时候我们只需要读取其中的一部分,可以使用head、tail和列名的方式来读取指定的行数和列。

三、pd.read_csv能读什么格式

pd.read_csv函数支持读取多种格式的文本文件,包括CSV、TSV、TXT等。其中,CSV文件是pd.read_csv最常用的格式。

1、CSV格式

# 读取以逗号分隔的CSV文件
df = pd.read_csv('data.csv')

2、TSV格式

# 读取以制表符分隔的TSV文件
df = pd.read_csv('data.tsv', sep='\t')

3、TXT格式

# 读取以空格分隔的TXT文件
df = pd.read_csv('data.txt', delim_whitespace=True)

无论是哪种格式的文本文件,在使用pd.read_csv函数读取之前,都需要确定文件的分隔符、表头、编码格式等重要参数。

四、小结

pd.read_csv是pandas模块提供的一种方便易用的读取文本数据的方式。通过合理地使用参数,我们可以轻松地读取各种格式的文本文件,并选择读取特定的行数和列,满足我们的需求。

原创文章,作者:小蓝,如若转载,请注明出处:https://www.506064.com/n/187709.html

(0)
打赏 微信扫一扫 微信扫一扫 支付宝扫一扫 支付宝扫一扫
小蓝的头像小蓝
上一篇 2024-11-28 06:25
下一篇 2024-11-28 06:25

相关推荐

发表回复

登录后才能评论