使用Python腳本循環遍歷目錄中的文件

在許多數據處理和分析任務中，需要對大量的文件進行處理。自動化腳本可以減輕手動任務的負擔，其中最常見的腳本之一就是循環遍歷一個目錄中的所有文件。

一、選擇遍歷的目錄

使用Python自動化處理文件時，首先需要選擇需要遍歷的目錄。可以使用OS模塊中的`os.walk()`方法遍歷目錄中的所有文件和子目錄，該方法返回一個三元組：當前目錄的路徑、當前目錄下的所有目錄列表和當前目錄下的所有文件列表。下面是遍歷指定目錄下的所有文件的示例代碼：

import os

dir_path = '/path/to/directory'

for foldername, subfolders, filenames in os.walk(dir_path):
    for filename in filenames:
        file_path = os.path.join(foldername, filename)
        # 處理文件

在上述代碼中，`dir_path`代表遍歷的目錄名，這裡是一個字符串。接下來，通過`os.walk()`方法獲取該目錄下所有文件的路徑，並利用`os.path.join()`方法生成每個文件的完整路徑。

二、過濾不需要遍歷的文件

在循環遍歷目錄下的文件時，可能會存在一些特定類型的文件需要被排除在循環之外。比如，我們遍歷一個文本文件夾，但是裏面包含有非文本文件。這時候，我們可以利用Python常用的文件類型後綴與文件名匹配方法，將其排除在循環之外。

下面是利用Python的`split()`方法和文件類型後綴匹配排除非文本文件的示例代碼：

import os

dir_path = '/path/to/directory'

for foldername, subfolders, filenames in os.walk(dir_path):
    for filename in filenames:
        file_path = os.path.join(foldername, filename)
        if not filename.split('.')[-1] in ['txt', 'md', 'py']:
            continue
        # 處理文件

在上述代碼中，’txt’, ‘md’, ‘py’代表需要保留的文件類型後綴，不符合這些類型的文件將被排除在外。

三、為文件創建備份

遍歷目錄下的所有文件時，如果需要修改或處理這些文件，可能會導致文件損壞或刪除，為了防止這種情況，需要在修改或處理文件之前創建文件的備份。

之所以要創建備份，是為了在程序出現錯誤時能夠恢復到之前的狀態。

import os
import shutil

def backup(file_path):
    '''為文件創建備份
    '''
    backup_dir = os.path.abspath(os.path.join(os.path.dirname(file_path), 'backup'))
    os.makedirs(backup_dir, exist_ok=True)
    backup_path = os.path.join(backup_dir, os.path.basename(file_path))
    shutil.copy(file_path, backup_path)

dir_path = '/path/to/directory'

for foldername, subfolders, filenames in os.walk(dir_path):
    for filename in filenames:
        file_path = os.path.join(foldername, filename)
        backup(file_path)
        # 處理文件

四、批量處理文件

遍歷文件後，就可以對每個文件進行各種數據處理和分析任務。以下是一個示例代碼，用於遍歷一個目錄下的所有CSV文件，並對它們進行數據處理和可視化。對於有多個CSV文件需要處理的情況下，可以將以下代碼封裝成一個函數或一個類，以便多次調用。

import os
import pandas as pd
import matplotlib.pyplot as plt

def process_csv(file_path):
    '''處理CSV文件
    '''
    data = pd.read_csv(file_path)
    # 以下是數據處理和可視化操作
    # ...
    # 這裡只是一個示例代碼

dir_path = '/path/to/directory'

for foldername, subfolders, filenames in os.walk(dir_path):
    for filename in filenames:
        file_path = os.path.join(foldername, filename)
        if not filename.split('.')[-1] in ['csv']:
            continue
        process_csv(file_path)

五、結語

在處理大量數據中，Python自動化腳本的作用不可忽視。使用Python循環遍歷文件目錄是自動化執行數據處理任務的方法之一，但是如果不對目錄進行過濾和備份，可能會在處理中丟失重要數據。希望本文可以對大家處理數據時的自動化執行提供一些幫助。

原創文章，作者：KXUDT，如若轉載，請註明出處：https://www.506064.com/zh-hk/n/330164.html