深入探索np.memmap

一、介绍

在处理大数据时，常常需要在内存有限的情况下处理比内存更大的数据。这时需要使用内存映射(memory-mapped file)技术。Python中的numpy库提供了一个专门用于处理大型数据的内存映射技术，即np.memmap。

二、创建np.memmap对象

为了使用np.memmap，首先需要创建一个np.memmap对象，使用方法如下：

import numpy as np

#创建一个np.memmap对象
#shape是指映射的数组维度
#dtype指定数据类型
#mode指定文件读写模式，r代表只读，w+代表读写，如果文件不存在则会创建一个新文件
memmap_arr=np.memmap('example.npy', dtype='float32', mode='w+', shape=(10000,10000))

上述代码创建一个大小为10000*10000，数据类型为float32的np.memmap对象，并将其存储在文件example.npy中。

三、使用np.memmap对象

1、给np.memmap对象赋值

给np.memmap对象赋值有两种方式，一种是列出需要赋值的行和列索引，另一种是使用切片语法。

方法1：

memmap_arr[1,5]=10.0
memmap_arr[2,6]=10.0

方法2：

memmap_arr[1:3,5:7]=10.0

2、从np.memmap对象读取值

从np.memmap对象中读取值的方式与普通的numpy数组相同：

print(memmap_arr[1,5])
print(memmap_arr[1:3,5:7])

3、np.memmap对象转换为普通的numpy数组

有时需要将np.memmap对象转换为普通的numpy数组进行操作，可以使用np.asarray函数实现：

arr=np.asarray(memmap_arr)

四、操作大型数据时的注意事项

1、内存映射只是一个技术手段，实际读写操作很慢

尽管np.memmap是一种巧妙的技术手段，但在操作大型数据时，I/O操作始终是主要的瓶颈。因此，应尽量减少操作次数和数据量，采用更高效的算法。

2、避免频繁的打开和关闭文件

由于内存映射的对象是直接映射到磁盘文件中的，因此频繁的打开和关闭文件会极大地影响性能。建议将所有的操作实现在一个上下文管理器（with语句）内，以便在结束时自动关闭文件：

with np.memmap('example.npy', dtype='float32', mode='w+', shape=(10000,10000)) as memmap_arr:
    #进行一系列操作

3、尽量减少操作大型对象的次数

np.memmap对象通常具有非常大的大小，而且在操作大型对象时，很容易遇到内存不足的问题。因此，应该尝试尽量减少对大型对象的操作次数，在处理过程中尽量使用原地操作来节省内存。

五、结论

np.memmap是一种处理大型数据的可靠、高效的技术手段。然而，由于I/O操作析最大瓶颈，因此需要尽量减少操作次数和数据量，采用更高效的算法，以提高程序性能和效率。

原创文章，作者：小蓝，如若转载，请注明出处：https://www.506064.com/n/237842.html