v2使用python上载大文件的简单介绍

本文目录一览:

python 读取大文件数据怎么快速读取

python中读取数据的时候有几种方法,无非是read,readline,readlings和xreadlines几种方法,在几种方法中,read和xreadlines可以作为迭代器使用,从而在读取大数据的时候比较有效果.

在测试中,先创建一个大文件,大概1GB左右,使用的程序如下:

[python] view plaincopyprint?

import os.path

import time

while os.path.getsize(‘messages’) 1000000000:

f = open(‘messages’,’a’)

f.write(‘this is a file/n’)

f.close()

print ‘file create complted’

在这里使用循环判断文件的大小,如果大小在1GB左右,那么结束创建文件。–需要花费好几分钟的时间。

测试代码如下:

[python] view plaincopyprint?

#22s

start_time = time.time()

f = open(‘messages’,’r’)

for i in f:

end_time = time.time()

print end_time – start_time

break

f.close()

#22s

start_time = time.time()

f = open(‘messages’,’r’)

for i in f.xreadlines():

end_time = time.time()

print end_time – start_time

break

f.close()

start_time = time.time()

f = open(‘messages’,’r’)

k= f.readlines()

f.close()

end_time = time.time()

print end_time – start_time

使用迭代器的时候,两者的时间是差不多的,内存消耗也不是很多,使用的时间大概在22秒作用

在使用完全读取文件的时候,使用的时间在40s,并且内存消耗相当严重,大概使用了1G的内存。。

其实,在使用跌倒器的时候,如果进行连续操作,进行print或者其他的操作,内存消耗还是不可避免的,但是内存在那个时候是可以释放的,从而使用迭代器可以节省内存,主要是可以释放。

而在使用直接读取所有数据的时候,数据会保留在内存中,是无法释放这个内存的,从而内存卡死也是有可能的。

在使用的时候,最好是直接使用for i in f的方式来使用,在读取的时候,f本身就是一个迭代器,其实也就是f.read方法

python用numpy加载超过200M的文本数据就会报内存错误怎么办

尝试过以下几种方法:

1.使用numpy genfromtxt加载,成功读取完了,但数据变形了(2列的数据变一列了…)。看了一下genfromtxt源码,不过也是逐行读取文本并以tuple形式存入一个list中,解决不了根本问题啊。

2.调大python的使用内存。觉得应该是python限制了可用内存,调大点应该有点效果,不过一直不知道有没有这个方法。

3.尝试hadoop。了解一下以后觉得是杀鸡用牛刀了。要处理的数据在几百M到1G这样。

如何用python快速读取几G以上的大文件

如果你没那么大的内存 解决方法有几个:

使用swap 一次性read()读取

系统层面分割大文件为数个小于系统内存的小文件,分别读取

使用python 按数据大小逐块读取,使用完数据即释放该部分内存:

while True:

       chunk_data = file_object.read(chunk_size)

       if not chunk_data:

           break

       yield chunk_data

原创文章,作者:小蓝,如若转载,请注明出处:https://www.506064.com/n/306415.html

(0)
打赏 微信扫一扫 微信扫一扫 支付宝扫一扫 支付宝扫一扫
小蓝小蓝
上一篇 2025-01-02 12:01
下一篇 2025-01-02 12:01

相关推荐

  • Python列表中负数的个数

    Python列表是一个有序的集合,可以存储多个不同类型的元素。而负数是指小于0的整数。在Python列表中,我们想要找到负数的个数,可以通过以下几个方面进行实现。 一、使用循环遍历…

    编程 2025-04-29
  • Python周杰伦代码用法介绍

    本文将从多个方面对Python周杰伦代码进行详细的阐述。 一、代码介绍 from urllib.request import urlopen from bs4 import Bea…

    编程 2025-04-29
  • Python计算阳历日期对应周几

    本文介绍如何通过Python计算任意阳历日期对应周几。 一、获取日期 获取日期可以通过Python内置的模块datetime实现,示例代码如下: from datetime imp…

    编程 2025-04-29
  • Python中引入上一级目录中函数

    Python中经常需要调用其他文件夹中的模块或函数,其中一个常见的操作是引入上一级目录中的函数。在此,我们将从多个角度详细解释如何在Python中引入上一级目录的函数。 一、加入环…

    编程 2025-04-29
  • 如何查看Anaconda中Python路径

    对Anaconda中Python路径即conda环境的查看进行详细的阐述。 一、使用命令行查看 1、在Windows系统中,可以使用命令提示符(cmd)或者Anaconda Pro…

    编程 2025-04-29
  • Python字典去重复工具

    使用Python语言编写字典去重复工具,可帮助用户快速去重复。 一、字典去重复工具的需求 在使用Python编写程序时,我们经常需要处理数据文件,其中包含了大量的重复数据。为了方便…

    编程 2025-04-29
  • Python程序需要编译才能执行

    Python 被广泛应用于数据分析、人工智能、科学计算等领域,它的灵活性和简单易学的性质使得越来越多的人喜欢使用 Python 进行编程。然而,在 Python 中程序执行的方式不…

    编程 2025-04-29
  • Python清华镜像下载

    Python清华镜像是一个高质量的Python开发资源镜像站,提供了Python及其相关的开发工具、框架和文档的下载服务。本文将从以下几个方面对Python清华镜像下载进行详细的阐…

    编程 2025-04-29
  • 蝴蝶优化算法Python版

    蝴蝶优化算法是一种基于仿生学的优化算法,模仿自然界中的蝴蝶进行搜索。它可以应用于多个领域的优化问题,包括数学优化、工程问题、机器学习等。本文将从多个方面对蝴蝶优化算法Python版…

    编程 2025-04-29
  • python强行终止程序快捷键

    本文将从多个方面对python强行终止程序快捷键进行详细阐述,并提供相应代码示例。 一、Ctrl+C快捷键 Ctrl+C快捷键是在终端中经常用来强行终止运行的程序。当你在终端中运行…

    编程 2025-04-29

发表回复

登录后才能评论