掌握pd.read_csv，轻松读取数据文件

一、pd.read_csv参数

import pandas as pd

# 读取CSV文件
df = pd.read_csv('data.csv')

# 打印读取到的数据
print(df)

pd.read_csv函数是pandas模块提供的一种从文件、URL或任何一个支持缓存协议的文件中加载数据的方式。读取CSV文件时，可以指定很多参数，使得读取的数据满足我们的需求。

1、filepath_or_buffer

# 读取CSV文件
df = pd.read_csv('data.csv')

# 读取CSV文件的第2到第4行
df = pd.read_csv('data.csv', skiprows=1, nrows=3)

filepath_or_buffer是必选的参数，指定要读取的文件。可以是本地文件路径，也可以是URL，还可以是任何一个支持缓存协议的文件。

同时，通过skiprows和nrows参数，还可以控制读取的行数。

2、sep

# 读取分号分隔符的CSV文件
df = pd.read_csv('data.csv', sep=';')

sep参数用于指定分隔符，默认使用逗号作为分隔符。如果文件使用的是其他分隔符，需要手动指定。

3、header

# 读取无表头的CSV文件
df = pd.read_csv('data.csv', header=None)

# 使用指定行作为表头
df = pd.read_csv('data.csv', header=2)

header参数用于指定CSV文件是否有表头。当CSV文件有表头时，可以使用header=0或header=’infer’自动推断表头。如果文件没有表头，可以使用header=None，也可以使用header指定表头行的编号。

4、usecols

# 读取指定列
df = pd.read_csv('data.csv', usecols=['col1', 'col3'])

# 读取某几列并改名
df = pd.read_csv('data.csv', usecols=['col1', 'col3'], names=['col_one', 'col_three'])

usecols参数用于指定读取的列。可以传入一个列表，也可以直接传入列名的字符串。

如果需要对读取到的列名进行修改，可以使用names参数。

5、encoding

# 读取使用GBK编码的CSV文件
df = pd.read_csv('data.csv', encoding='GBK')

encoding参数用于指定CSV文件的编码格式，常见的编码格式包括UTF-8和GBK等。

二、pd.read_csv读取指定的行数和列

# 读取CSV文件
df = pd.read_csv('data.csv')

# 读取前5行
df.head(5)

# 读取后5行
df.tail(5)

# 读取第1列
df['col1']

pd.read_csv默认会读取文件的所有行和所有列，但有时候我们只需要读取其中的一部分，可以使用head、tail和列名的方式来读取指定的行数和列。

三、pd.read_csv能读什么格式

pd.read_csv函数支持读取多种格式的文本文件，包括CSV、TSV、TXT等。其中，CSV文件是pd.read_csv最常用的格式。

1、CSV格式

# 读取以逗号分隔的CSV文件
df = pd.read_csv('data.csv')

2、TSV格式

# 读取以制表符分隔的TSV文件
df = pd.read_csv('data.tsv', sep='\t')

3、TXT格式

# 读取以空格分隔的TXT文件
df = pd.read_csv('data.txt', delim_whitespace=True)

无论是哪种格式的文本文件，在使用pd.read_csv函数读取之前，都需要确定文件的分隔符、表头、编码格式等重要参数。

四、小结

pd.read_csv是pandas模块提供的一种方便易用的读取文本数据的方式。通过合理地使用参数，我们可以轻松地读取各种格式的文本文件，并选择读取特定的行数和列，满足我们的需求。

原创文章，作者：小蓝，如若转载，请注明出处：https://www.506064.com/n/187709.html