使用Python脚本循环遍历目录中的文件

在许多数据处理和分析任务中，需要对大量的文件进行处理。自动化脚本可以减轻手动任务的负担，其中最常见的脚本之一就是循环遍历一个目录中的所有文件。

一、选择遍历的目录

使用Python自动化处理文件时，首先需要选择需要遍历的目录。可以使用OS模块中的`os.walk()`方法遍历目录中的所有文件和子目录，该方法返回一个三元组：当前目录的路径、当前目录下的所有目录列表和当前目录下的所有文件列表。下面是遍历指定目录下的所有文件的示例代码：

import os

dir_path = '/path/to/directory'

for foldername, subfolders, filenames in os.walk(dir_path):
    for filename in filenames:
        file_path = os.path.join(foldername, filename)
        # 处理文件

在上述代码中，`dir_path`代表遍历的目录名，这里是一个字符串。接下来，通过`os.walk()`方法获取该目录下所有文件的路径，并利用`os.path.join()`方法生成每个文件的完整路径。

二、过滤不需要遍历的文件

在循环遍历目录下的文件时，可能会存在一些特定类型的文件需要被排除在循环之外。比如，我们遍历一个文本文件夹，但是里面包含有非文本文件。这时候，我们可以利用Python常用的文件类型后缀与文件名匹配方法，将其排除在循环之外。

下面是利用Python的`split()`方法和文件类型后缀匹配排除非文本文件的示例代码：

import os

dir_path = '/path/to/directory'

for foldername, subfolders, filenames in os.walk(dir_path):
    for filename in filenames:
        file_path = os.path.join(foldername, filename)
        if not filename.split('.')[-1] in ['txt', 'md', 'py']:
            continue
        # 处理文件

在上述代码中，’txt’, ‘md’, ‘py’代表需要保留的文件类型后缀，不符合这些类型的文件将被排除在外。

三、为文件创建备份

遍历目录下的所有文件时，如果需要修改或处理这些文件，可能会导致文件损坏或删除，为了防止这种情况，需要在修改或处理文件之前创建文件的备份。

之所以要创建备份，是为了在程序出现错误时能够恢复到之前的状态。

import os
import shutil

def backup(file_path):
    '''为文件创建备份
    '''
    backup_dir = os.path.abspath(os.path.join(os.path.dirname(file_path), 'backup'))
    os.makedirs(backup_dir, exist_ok=True)
    backup_path = os.path.join(backup_dir, os.path.basename(file_path))
    shutil.copy(file_path, backup_path)

dir_path = '/path/to/directory'

for foldername, subfolders, filenames in os.walk(dir_path):
    for filename in filenames:
        file_path = os.path.join(foldername, filename)
        backup(file_path)
        # 处理文件

四、批量处理文件

遍历文件后，就可以对每个文件进行各种数据处理和分析任务。以下是一个示例代码，用于遍历一个目录下的所有CSV文件，并对它们进行数据处理和可视化。对于有多个CSV文件需要处理的情况下，可以将以下代码封装成一个函数或一个类，以便多次调用。

import os
import pandas as pd
import matplotlib.pyplot as plt

def process_csv(file_path):
    '''处理CSV文件
    '''
    data = pd.read_csv(file_path)
    # 以下是数据处理和可视化操作
    # ...
    # 这里只是一个示例代码

dir_path = '/path/to/directory'

for foldername, subfolders, filenames in os.walk(dir_path):
    for filename in filenames:
        file_path = os.path.join(foldername, filename)
        if not filename.split('.')[-1] in ['csv']:
            continue
        process_csv(file_path)

五、结语

在处理大量数据中，Python自动化脚本的作用不可忽视。使用Python循环遍历文件目录是自动化执行数据处理任务的方法之一，但是如果不对目录进行过滤和备份，可能会在处理中丢失重要数据。希望本文可以对大家处理数据时的自动化执行提供一些帮助。

原创文章，作者：KXUDT，如若转载，请注明出处：https://www.506064.com/n/330164.html