Python读取文本文件的方法详解

一、头文件

Python中读取文本文件的方法需要使用到内置函数open()和相关的模块,因此需要引用相关的头文件,例如:

import os  
import codecs 
import sys

os:Python内置的库之一,提供了许多与操作系统交互的接口,例如实现文件、目录、进程等操作。

codecs:Python内置的编解码库,用于在文本和二进制之间进行转换的操作。

sys:Python内置的库之一,提供了一系列与Python解释器和它所在的操作系统交互的函数和变量。

二、读取文本文件并添加行号

Python的open()函数返回一个文件操作对象,其有read()函数、readline()函数和readlines()函数三种方法。其中,readline()函数用于读取单行,readlines()函数用于读取所有行并返回一个列表,而read()函数则会一次读取整个文件并返回字符串。

下面是一个读取文件并添加行号的例子,可以使用其中的readline()函数和enumerate()函数实现:

def read_file_add_line_number(file_path: str) -> None:
    with open(file_path, 'r', encoding='utf-8') as f:
        for i, line in enumerate(f):
            print(f'Line {i}: {line.strip()}')

其中,enumerate()函数是Python内置的函数,它返回一个由enumerate对象组成的迭代器,可同时获取列表线性索引和对应值。

三、读取文本文件的文字

对于txt文本文件,可以使用open()函数进行读取。如果文件中含有中文,需要指定编码方式,例如’utf-8’:

with open(file_path, 'r', encoding='utf-8') as f:
    text = f.read()

如果是其他类型的文件,可以使用Python内置的模块,例如pandas:

import pandas as pd

data = pd.read_csv(file_path, delimiter='\t')

四、读取文本文件编码

在读取txt文本文件时,常常需要猜测文件编码,以下是一种简单的方法:

import chardet

def get_file_encoding(file_path: str) -> str:
    with open(file_path, 'rb') as f:
        raw_data = f.read()
    return chardet.detect(raw_data)['encoding']

chardet是Python内置的一个模块,它能够根据文本内容自动猜测编码方式。

五、读取文本文件内容的方法

除了可以使用open函数和pandas,还可以使用Python内置的fileinput和glob模块。

fileinput模块可以直接从stdin或文件中读取行,并使用fileinput.input()作为文件名的列表,代码如下:

import fileinput

for line in fileinput.input(file_path):
    print(line)

glob模块可以得到目录中的每一个文件,进而批量处理。该模块会返回一个由文件名组成的列表,可直接使用open()函数进行文本读取,代码如下:

import glob

for file in glob.glob(file_path + '/*.txt'):
    with open(file) as f:
        text = f.read()
    # do something...

六、读取文本文件调用的函数

如上所述,Python中读取文本文件的函数有很多,下面总结一下它们各自的特点:

  • open()函数:Python内置函数,兼容所有类型文件,并支持读、写、追加和二进制等形式,可以指定文件编码方式
  • pandas库:Python内置数据分析库,专门用于数据读取和处理,常用于csv等格式的数据文件
  • fileinput模块:Python内置模块,可从stdin或文件中读取行,使用fileinput.input()可支持多文件读取及迭代访问
  • glob模块:Python内置模块,可得到目录中的每一个文件,并返回一个由文件名组成的列表

七、读取文本文件的函数

除了使用上述内置函数和模块之外,还可以自定义读取函数,以下是一个读取文件内容并统计单词数的例子:

def read_file(file_path: str) -> dict:
    with open(file_path, 'r', encoding='utf-8') as f:
        content = f.read()
    words = content.strip().split()
    return {word: words.count(word) for word in set(words)}

该函数使用set()去重,并返回一个字典,键为单词,值为出现次数。

八、读取文本文件数据

除了读取单个文本文件,还可以读取多个文件并组成数据集,例如:

def read_files(files_dir: str) -> list:
    data = []
    for file in glob.glob(files_dir + '/*.txt'):
        with open(file) as f:
            text = f.read()
        labels = file.split('/')[-2]
        data.append((text, labels))
    return data

该函数将读取同一个目录下的txt文件,返回一个列表,列表的元素是元组,元组的第一项为文件内容,第二项为文件所在目录的名称。

九、读取记事本文件

Windows下常用的记事本文件其实是以Unicode(UTF-16 LE)编码保存的,因此可以使用codecs库进行读取,如下所示:

import codecs

with codecs.open(file_path, mode="r", encoding="utf-16le") as f:
    data = f.read()

需要注意的是,一定要指定编码方式为utf-16le。

原创文章,作者:小蓝,如若转载,请注明出处:https://www.506064.com/n/187496.html

(0)
打赏 微信扫一扫 微信扫一扫 支付宝扫一扫 支付宝扫一扫
小蓝小蓝
上一篇 2024-11-28 06:22
下一篇 2024-11-28 06:22

相关推荐

  • Python周杰伦代码用法介绍

    本文将从多个方面对Python周杰伦代码进行详细的阐述。 一、代码介绍 from urllib.request import urlopen from bs4 import Bea…

    编程 2025-04-29
  • Python中引入上一级目录中函数

    Python中经常需要调用其他文件夹中的模块或函数,其中一个常见的操作是引入上一级目录中的函数。在此,我们将从多个角度详细解释如何在Python中引入上一级目录的函数。 一、加入环…

    编程 2025-04-29
  • Python列表中负数的个数

    Python列表是一个有序的集合,可以存储多个不同类型的元素。而负数是指小于0的整数。在Python列表中,我们想要找到负数的个数,可以通过以下几个方面进行实现。 一、使用循环遍历…

    编程 2025-04-29
  • 如何查看Anaconda中Python路径

    对Anaconda中Python路径即conda环境的查看进行详细的阐述。 一、使用命令行查看 1、在Windows系统中,可以使用命令提示符(cmd)或者Anaconda Pro…

    编程 2025-04-29
  • Python计算阳历日期对应周几

    本文介绍如何通过Python计算任意阳历日期对应周几。 一、获取日期 获取日期可以通过Python内置的模块datetime实现,示例代码如下: from datetime imp…

    编程 2025-04-29
  • Python字典去重复工具

    使用Python语言编写字典去重复工具,可帮助用户快速去重复。 一、字典去重复工具的需求 在使用Python编写程序时,我们经常需要处理数据文件,其中包含了大量的重复数据。为了方便…

    编程 2025-04-29
  • 蝴蝶优化算法Python版

    蝴蝶优化算法是一种基于仿生学的优化算法,模仿自然界中的蝴蝶进行搜索。它可以应用于多个领域的优化问题,包括数学优化、工程问题、机器学习等。本文将从多个方面对蝴蝶优化算法Python版…

    编程 2025-04-29
  • python强行终止程序快捷键

    本文将从多个方面对python强行终止程序快捷键进行详细阐述,并提供相应代码示例。 一、Ctrl+C快捷键 Ctrl+C快捷键是在终端中经常用来强行终止运行的程序。当你在终端中运行…

    编程 2025-04-29
  • Python清华镜像下载

    Python清华镜像是一个高质量的Python开发资源镜像站,提供了Python及其相关的开发工具、框架和文档的下载服务。本文将从以下几个方面对Python清华镜像下载进行详细的阐…

    编程 2025-04-29
  • Python程序需要编译才能执行

    Python 被广泛应用于数据分析、人工智能、科学计算等领域,它的灵活性和简单易学的性质使得越来越多的人喜欢使用 Python 进行编程。然而,在 Python 中程序执行的方式不…

    编程 2025-04-29

发表回复

登录后才能评论