深入探索np.memmap

一、介紹

在處理大數據時，常常需要在內存有限的情況下處理比內存更大的數據。這時需要使用內存映射(memory-mapped file)技術。Python中的numpy庫提供了一個專門用於處理大型數據的內存映射技術，即np.memmap。

二、創建np.memmap對象

為了使用np.memmap，首先需要創建一個np.memmap對象，使用方法如下：

import numpy as np

#創建一個np.memmap對象
#shape是指映射的數組維度
#dtype指定數據類型
#mode指定文件讀寫模式，r代表只讀，w+代表讀寫，如果文件不存在則會創建一個新文件
memmap_arr=np.memmap('example.npy', dtype='float32', mode='w+', shape=(10000,10000))

上述代碼創建一個大小為10000*10000，數據類型為float32的np.memmap對象，並將其存儲在文件example.npy中。

三、使用np.memmap對象

1、給np.memmap對象賦值

給np.memmap對象賦值有兩種方式，一種是列出需要賦值的行和列索引，另一種是使用切片語法。

方法1：

memmap_arr[1,5]=10.0
memmap_arr[2,6]=10.0

方法2：

memmap_arr[1:3,5:7]=10.0

2、從np.memmap對象讀取值

從np.memmap對象中讀取值的方式與普通的numpy數組相同：

print(memmap_arr[1,5])
print(memmap_arr[1:3,5:7])

3、np.memmap對象轉換為普通的numpy數組

有時需要將np.memmap對象轉換為普通的numpy數組進行操作，可以使用np.asarray函數實現：

arr=np.asarray(memmap_arr)

四、操作大型數據時的注意事項

1、內存映射只是一個技術手段，實際讀寫操作很慢

儘管np.memmap是一種巧妙的技術手段，但在操作大型數據時，I/O操作始終是主要的瓶頸。因此，應盡量減少操作次數和數據量，採用更高效的算法。

2、避免頻繁的打開和關閉文件

由於內存映射的對象是直接映射到磁盤文件中的，因此頻繁的打開和關閉文件會極大地影響性能。建議將所有的操作實現在一個上下文管理器（with語句）內，以便在結束時自動關閉文件：

with np.memmap('example.npy', dtype='float32', mode='w+', shape=(10000,10000)) as memmap_arr:
    #進行一系列操作

3、盡量減少操作大型對象的次數

np.memmap對象通常具有非常大的大小，而且在操作大型對象時，很容易遇到內存不足的問題。因此，應該嘗試盡量減少對大型對象的操作次數，在處理過程中盡量使用原地操作來節省內存。

五、結論

np.memmap是一種處理大型數據的可靠、高效的技術手段。然而，由於I/O操作析最大瓶頸，因此需要盡量減少操作次數和數據量，採用更高效的算法，以提高程序性能和效率。

原創文章，作者：小藍，如若轉載，請註明出處：https://www.506064.com/zh-hant/n/237842.html