Python mmap基礎教程

1. 引言

mmap是Python中一種用於操作文件的標準庫方法,它可以將一個文件映射至內存,讓我們可以通過內存訪問文件的內容,進行隨機讀寫操作。這對於文件較大的情況非常有用,比如我們需要讀取一個非常大的日誌文件,可以無需一次性將整個文件讀入內存,而是將需要讀取的部分直接映射至內存中,進行讀取,不僅能減輕內存負擔,還能提高文件的讀寫速度,從而提高程序的性能。

本篇教程將會詳細介紹Python中使用mmap庫進行文件操作的方法和步驟,讓讀者能夠通過學習本文,獲得使用mmap庫處理文件的知識和技巧。

2. mmap基礎概念

在介紹mmap庫的具體使用前,我們需要先了解一下內存映射文件的基本概念。

mmap,全稱為Memory-Mapped Files,即”內存映射文件”,是一種通過將一個文件或設備映射至進程地址空間,讓文件或設備可以被看作一片內存來使用的技術。映射後的文件數據存放在虛擬內存中,而不是在真實的內存中,只有在需要訪問對應數據時才會被裝入真實的內存中。

在Python中,我們可以使用mmap庫來實現對文件的內存映射,從而進行文件的讀取和寫入操作。對於讀取較大文件、對文件進行隨機讀寫操作等場景,使用mmap庫可以極大地提高讀寫效率,節省內存空間。

3. mmap庫基礎用法

3.1 打開文件

要使用mmap庫進行文件映射,首先需要打開對應的文件。打開文件的代碼示例如下:

import mmap

with open("file.txt", "r") as f:
    # 定位到文件末尾
    f.seek(0, 2)
    # 文件大小(位元組數)
    size = f.tell()
    # 回到文件頭
    f.seek(0)
    # mmap映射
    mm = mmap.mmap(f.fileno(), size)

其中,open()函數用於打開要操作的文件,以只讀方式打開文件時,第二個參數需要傳入”r”,以讀寫方式打開文件時,傳入”w”。調用fileno()方法可以獲得文件的文件描述符,然後調用mmap()函數進行映射。映射成功後,可以通過mm[index]mm[start:end]來訪問文件中對應的數據。

3.2 讀取文件

在文件映射成功後,可以通過mm[:]或每次只映射一部分文件再進行讀取,來訪問文件的內容。

下面是讀取整個文件的示例代碼:

import mmap

with open("file.txt", "r") as f:
    # 定位到文件末尾
    f.seek(0, 2)
    # 文件大小(位元組數)
    size = f.tell()
    # 回到文件頭
    f.seek(0)
    # mmap映射
    mm = mmap.mmap(f.fileno(), size)

    # 讀取整個文件
    print(mm[:])

    # 關閉映射和文件
    mm.close()

在上面的示例代碼中,我們先打開文件並將文件映射至內存中,然後使用mm[:]來讀取整個文件,最後關閉映射和文件。

下面是每次只映射一部分文件再讀取的示例代碼:

import mmap

with open("file.txt", "r") as f:
    while True:
        # 一次讀取100位元組
        l = f.read(100)
        if not l:
            break
        # 映射
        mm = mmap.mmap(f.fileno(), 100, access=mmap.ACCESS_READ)
        print(mm[:])
        mm.close()

在上面的示例代碼中,我們使用了read()函數每次讀取100位元組,並對每次讀取的數據進行映射和讀取。由於每次只映射一部分文件,因此在處理大文件時,可以用這種方法來分批處理。

3.3 寫入文件

在文件映射成功後,我們還可以直接修改內存中的數據,並將其寫入文件中。

下面是寫入文件的示例代碼:

import mmap

with open("file.txt", "r+") as f:
    # 定位到文件末尾
    f.seek(0, 2)
    # 文件大小(位元組數)
    size = f.tell()
    # 回到文件頭
    f.seek(0)
    # mmap映射
    mm = mmap.mmap(f.fileno(), size)
    # 修改文件內容
    mm[0:5] = b"ABCDE"
    # 將修改寫入文件
    mm.flush()
    # 關閉映射和文件
    mm.close()

在上面的示例代碼中,我們首先將文件映射至內存中,然後使用mm[start:end]來修改內存中的數據。在寫入完成後,使用mm.flush()將修改寫入文件,最後關閉映射和文件。

4. mmap庫的進階用法

4.1 修改文件許可權

在使用mmap庫進行文件操作時,可能會出現文件許可權不足的情況,此時需要修改文件的許可權。可以使用os.chmod()函數來修改文件的許可權。

示例代碼如下:

import os
import mmap

# 修改文件許可權
os.chmod("file.txt", 0o777)

with open("file.txt", "r+") as f:
    # 定位到文件末尾
    f.seek(0, 2)
    # 文件大小(位元組數)
    size = f.tell()
    # 回到文件頭
    f.seek(0)
    # mmap映射
    mm = mmap.mmap(f.fileno(), size)
    # 修改文件內容
    mm[0:5] = b"ABCDE"
    # 將修改寫入文件
    mm.flush()
    # 關閉映射和文件
    mm.close()

在上面的示例代碼中,我們使用os.chmod()函數修改了文件的許可權,然後用mmap庫對文件進行了修改。

4.2 非阻塞映射

在進行文件映射時,有時候會出現訪問文件鎖定的情況,進而導致程序阻塞。為了避免文件映射的阻塞,可以使用mmap.MAP_NORESERVE標誌位來進行非阻塞映射。

示例代碼如下:

import mmap

with open("file.txt", "r+") as f:
    # 定位到文件末尾
    f.seek(0, 2)
    # 文件大小(位元組數)
    size = f.tell()
    # 回到文件頭
    f.seek(0)
    # mmap映射
    mm = mmap.mmap(f.fileno(), size, flags=mmap.MAP_SHARED | mmap.MAP_NORESERVE)
    # 修改文件內容
    mm[0:5] = b"ABCDE"
    # 將修改寫入文件
    mm.flush()
    # 關閉映射和文件
    mm.close()

在上面的示例代碼中,我們使用mmap.MAP_NORESERVE標誌位進行了非阻塞映射,避免了文件鎖定導致的阻塞現象。

4.3 虛擬內存控制

虛擬內存控制是指在進行文件映射後,通過控制虛擬內存來控制文件的讀寫許可權和映射方式。可以使用mmap.PROT_READ/mmap.PROT_WRITE/mmap.PROT_EXEC/mmap.PROT_NONE標誌位來設置頁面的許可權。

示例代碼如下:

import mmap

with open("file.txt", "r+") as f:
    # 定位到文件末尾
    f.seek(0, 2)
    # 文件大小(位元組數)
    size = f.tell()
    # 回到文件頭
    f.seek(0)
    # mmap映射
    mm = mmap.mmap(f.fileno(), size, prot=mmap.PROT_READ)
    # 修改文件內容
    mm[0:5] = b"ABCDE"
    # 將修改寫入文件
    mm.flush()
    # 關閉映射和文件
    mm.close()

在上面的示例代碼中,我們使用mmap.PROT_READ標誌位設置了頁面的許可權為只讀,從而避免了對文件的篡改和誤操作。

5. 總結

本文介紹了Python中使用mmap庫進行文件操作的基本知識和技巧。mmap庫不僅能夠提高程序讀寫文件的效率,還能節省內存空間,因此在處理大文件時非常有用。在使用mmap庫進行文件操作時,需要注意許可權、阻塞、虛擬內存控制等問題,避免出現程序錯誤和不安全情況。

原創文章,作者:TTYW,如若轉載,請註明出處:https://www.506064.com/zh-tw/n/143096.html

(0)
打賞 微信掃一掃 微信掃一掃 支付寶掃一掃 支付寶掃一掃
TTYW的頭像TTYW
上一篇 2024-10-14 18:45
下一篇 2024-10-14 18:45

相關推薦

  • Python周杰倫代碼用法介紹

    本文將從多個方面對Python周杰倫代碼進行詳細的闡述。 一、代碼介紹 from urllib.request import urlopen from bs4 import Bea…

    編程 2025-04-29
  • Python計算陽曆日期對應周幾

    本文介紹如何通過Python計算任意陽曆日期對應周幾。 一、獲取日期 獲取日期可以通過Python內置的模塊datetime實現,示例代碼如下: from datetime imp…

    編程 2025-04-29
  • 如何查看Anaconda中Python路徑

    對Anaconda中Python路徑即conda環境的查看進行詳細的闡述。 一、使用命令行查看 1、在Windows系統中,可以使用命令提示符(cmd)或者Anaconda Pro…

    編程 2025-04-29
  • Python中引入上一級目錄中函數

    Python中經常需要調用其他文件夾中的模塊或函數,其中一個常見的操作是引入上一級目錄中的函數。在此,我們將從多個角度詳細解釋如何在Python中引入上一級目錄的函數。 一、加入環…

    編程 2025-04-29
  • Python列表中負數的個數

    Python列表是一個有序的集合,可以存儲多個不同類型的元素。而負數是指小於0的整數。在Python列表中,我們想要找到負數的個數,可以通過以下幾個方面進行實現。 一、使用循環遍歷…

    編程 2025-04-29
  • Python清華鏡像下載

    Python清華鏡像是一個高質量的Python開發資源鏡像站,提供了Python及其相關的開發工具、框架和文檔的下載服務。本文將從以下幾個方面對Python清華鏡像下載進行詳細的闡…

    編程 2025-04-29
  • 蝴蝶優化演算法Python版

    蝴蝶優化演算法是一種基於仿生學的優化演算法,模仿自然界中的蝴蝶進行搜索。它可以應用於多個領域的優化問題,包括數學優化、工程問題、機器學習等。本文將從多個方面對蝴蝶優化演算法Python版…

    編程 2025-04-29
  • Python字典去重複工具

    使用Python語言編寫字典去重複工具,可幫助用戶快速去重複。 一、字典去重複工具的需求 在使用Python編寫程序時,我們經常需要處理數據文件,其中包含了大量的重複數據。為了方便…

    編程 2025-04-29
  • Python程序需要編譯才能執行

    Python 被廣泛應用於數據分析、人工智慧、科學計算等領域,它的靈活性和簡單易學的性質使得越來越多的人喜歡使用 Python 進行編程。然而,在 Python 中程序執行的方式不…

    編程 2025-04-29
  • python強行終止程序快捷鍵

    本文將從多個方面對python強行終止程序快捷鍵進行詳細闡述,並提供相應代碼示例。 一、Ctrl+C快捷鍵 Ctrl+C快捷鍵是在終端中經常用來強行終止運行的程序。當你在終端中運行…

    編程 2025-04-29

發表回復

登錄後才能評論