Python文件读取——快速读取文本内容

一、文件读取的基础知识

Python具有很强的文件操作能力,可以对文件进行读取、写入、追加等操作。文件读取是Python操作文件的一项基础操作,Python有三种文件读取模式:文本模式(Text mode)、二进制模式(Binary mode)、Unicode模式(Unicode mode)。文本模式一般用于读写普通文本文件,二进制模式用于读写二进制文件(比如图片、音频文件等)。

而在Python中,开始读取文件之前,我们需要明确以下几个概念:

文件名:包括文件目录和文件名,既可以绝对路径,也可以是相对路径;

文件打开模式:读取模式还是覆盖模式;

字符编码:文件编码格式,常用的有UTF-8、ANSI等;

文件读取开始位置:是否从文件起始位置进行读取数据。

二、Python快速读取文本内容方法

在使用Python做数据处理时,经常需要大量读取文本文件中的数据,一般情况下使用Python内置函数open()函数打开文件,然后进行循环readline()或readlines()方式来进行读取,但是,这种方法对于大文件处理效率比较低,需要比较长的处理时间。

为此,Python提供了一个快速读取文本文件内容的方法:使用with open()方式结合yield生成器,这种方法可以快速读取大型文本文件内容,对于大数据量的处理非常高效。

def read_large_file(file_path):
    with open(file_path, 'r', encoding='utf-8') as f:
        while True:
            data = f.read(100000)
            if not data:
                break
            yield data

代码解释:

1、使用with open()方法打开文件,将文件对象存储在f中;

2、定义一个死循环,代表不断从文件中读取数据,每次读取100000个字符;

3、如果当前读取的数据为空,则退出循环,否则使用yield返回数据。

三、Python性能测试

为了验证with open()方式的效率,我们进行了测试。测试方法为:使用with open()方式一次性读取1.17G的txt文件,并记录整个过程的时间。测试结果如下:

import time
 
def read_file(file_path):
    try:
        s = time.time()
        with open(file_path, 'r') as f:
            data = f.read()
        e = time.time()
        print('Cost {:.3f} seconds'.format(e - s))
        return data
    except Exception as e:
        print(e)
        return None
 
if __name__ == '__main__':
    read_file('test.txt')

测试结果:Cost 0.523 seconds,可以验证这种方式读取文本文件的效率非常高。

四、总结

Python的文件操作是Python的一个非常实用的特性,学好文件读取操作是Python编程中必不可少的一部分,尤其是在数
据处理和分析需要处理大数据量的时候,使用快速读取文本文件内容的技巧可以大幅度提高程序的效率,使程序处理起来
更加高效、流畅。

原创文章,作者:SMZHR,如若转载,请注明出处:https://www.506064.com/n/331340.html

(0)
打赏 微信扫一扫 微信扫一扫 支付宝扫一扫 支付宝扫一扫
SMZHRSMZHR
上一篇 2025-01-16 15:46
下一篇 2025-01-16 15:46

相关推荐

  • vue下载无后缀名的文件被加上后缀.txt,有后缀名的文件下载正常问题的解决

    本文旨在解决vue下载无后缀名的文件被加上后缀.txt,有后缀名的文件下载正常的问题,提供完整的代码示例供参考。 一、分析问题 首先,需了解vue中下载文件的情况。一般情况下,我们…

    编程 2025-04-29
  • Ojlat:一款快速开发Web应用程序的框架

    Ojlat是一款用于快速开发Web应用程序的框架。它的主要特点是高效、易用、可扩展且功能齐全。通过Ojlat,开发人员可以轻松地构建出高质量的Web应用程序。本文将从多个方面对Oj…

    编程 2025-04-29
  • 如何在Java中拼接OBJ格式的文件并生成完整的图像

    OBJ格式是一种用于表示3D对象的标准格式,通常由一组顶点、面和纹理映射坐标组成。在本文中,我们将讨论如何将多个OBJ文件拼接在一起,生成一个完整的3D模型。 一、读取OBJ文件 …

    编程 2025-04-29
  • Python程序文件的拓展

    Python是一门功能丰富、易于学习、可读性高的编程语言。Python程序文件通常以.py为文件拓展名,被广泛应用于各种领域,包括Web开发、机器学习、科学计算等。为了更好地发挥P…

    编程 2025-04-29
  • 为什么用cmd运行Java时需要在文件内打开cmd为中心

    在Java开发中,我们经常会使用cmd在命令行窗口运行程序。然而,有时候我们会发现,在运行Java程序时,需要在文件内打开cmd为中心,这让很多开发者感到疑惑,那么,为什么会出现这…

    编程 2025-04-29
  • Python中读入csv文件数据的方法用法介绍

    csv是一种常见的数据格式,通常用于存储小型数据集。Python作为一种广泛流行的编程语言,内置了许多操作csv文件的库。本文将从多个方面详细介绍Python读入csv文件的方法。…

    编程 2025-04-29
  • Python将矩阵存为CSV文件

    CSV文件是一种通用的文件格式,在统计学和计算机科学中非常常见,一些数据分析工具如Microsoft Excel,Google Sheets等都支持读取CSV文件。Python内置…

    编程 2025-04-29
  • Python zipfile解压文件乱码处理

    本文主要介绍如何在Python中使用zipfile进行文件解压的处理,同时详细讨论在解压文件时可能出现的乱码问题的各种解决办法。 一、zipfile解压文件乱码问题的根本原因 在P…

    编程 2025-04-29
  • Python如何导入py文件

    Python是一种开源的高级编程语言,因其易学易用和强大的生态系统而备受青睐。Python的import语句可以帮助用户将一个模块中的代码导入到另一个模块中,从而实现代码的重用。本…

    编程 2025-04-29
  • Python合并多个相同表头文件

    对于需要合并多个相同表头文件的情况,我们可以使用Python来实现快速的合并。 一、读取CSV文件 使用Python中的csv库读取CSV文件。 import csv with o…

    编程 2025-04-29

发表回复

登录后才能评论