Python讀取文本文件的方法詳解

一、頭文件

Python中讀取文本文件的方法需要使用到內置函數open()和相關的模塊，因此需要引用相關的頭文件，例如：

import os  
import codecs 
import sys

os：Python內置的庫之一，提供了許多與操作系統交互的接口，例如實現文件、目錄、進程等操作。

codecs：Python內置的編解碼庫，用於在文本和二進制之間進行轉換的操作。

sys：Python內置的庫之一，提供了一系列與Python解釋器和它所在的操作系統交互的函數和變量。

二、讀取文本文件並添加行號

Python的open()函數返回一個文件操作對象，其有read()函數、readline()函數和readlines()函數三種方法。其中，readline()函數用於讀取單行，readlines()函數用於讀取所有行並返回一個列表，而read()函數則會一次讀取整個文件並返回字符串。

下面是一個讀取文件並添加行號的例子，可以使用其中的readline()函數和enumerate()函數實現：

def read_file_add_line_number(file_path: str) -> None:
    with open(file_path, 'r', encoding='utf-8') as f:
        for i, line in enumerate(f):
            print(f'Line {i}: {line.strip()}'）

其中，enumerate()函數是Python內置的函數，它返回一個由enumerate對象組成的迭代器，可同時獲取列表線性索引和對應值。

三、讀取文本文件的文字

對於txt文本文件，可以使用open()函數進行讀取。如果文件中含有中文，需要指定編碼方式，例如’utf-8’：

with open(file_path, 'r', encoding='utf-8') as f:
    text = f.read()

如果是其他類型的文件，可以使用Python內置的模塊，例如pandas：

import pandas as pd

data = pd.read_csv(file_path, delimiter='\t')

四、讀取文本文件編碼

在讀取txt文本文件時，常常需要猜測文件編碼，以下是一種簡單的方法：

import chardet

def get_file_encoding(file_path: str) -> str:
    with open(file_path, 'rb') as f:
        raw_data = f.read()
    return chardet.detect(raw_data)['encoding']

chardet是Python內置的一個模塊，它能夠根據文本內容自動猜測編碼方式。

五、讀取文本文件內容的方法

除了可以使用open函數和pandas，還可以使用Python內置的fileinput和glob模塊。

fileinput模塊可以直接從stdin或文件中讀取行，並使用fileinput.input()作為文件名的列表，代碼如下：

import fileinput

for line in fileinput.input(file_path):
    print(line)

glob模塊可以得到目錄中的每一個文件，進而批量處理。該模塊會返回一個由文件名組成的列表，可直接使用open()函數進行文本讀取，代碼如下：

import glob

for file in glob.glob(file_path + '/*.txt'):
    with open(file) as f:
        text = f.read()
    # do something...

六、讀取文本文件調用的函數

如上所述，Python中讀取文本文件的函數有很多，下面總結一下它們各自的特點：

open()函數：Python內置函數，兼容所有類型文件，並支持讀、寫、追加和二進制等形式，可以指定文件編碼方式
pandas庫：Python內置數據分析庫，專門用於數據讀取和處理，常用於csv等格式的數據文件
fileinput模塊：Python內置模塊，可從stdin或文件中讀取行，使用fileinput.input()可支持多文件讀取及迭代訪問
glob模塊：Python內置模塊，可得到目錄中的每一個文件，並返回一個由文件名組成的列表

七、讀取文本文件的函數

除了使用上述內置函數和模塊之外，還可以自定義讀取函數，以下是一個讀取文件內容並統計單詞數的例子：

def read_file(file_path: str) -> dict:
    with open(file_path, 'r', encoding='utf-8') as f:
        content = f.read()
    words = content.strip().split()
    return {word: words.count(word) for word in set(words)}

該函數使用set()去重，並返回一個字典，鍵為單詞，值為出現次數。

八、讀取文本文件數據

除了讀取單個文本文件，還可以讀取多個文件並組成數據集，例如：

def read_files(files_dir: str) -> list:
    data = []
    for file in glob.glob(files_dir + '/*.txt'):
        with open(file) as f:
            text = f.read()
        labels = file.split('/')[-2]
        data.append((text, labels))
    return data

該函數將讀取同一個目錄下的txt文件，返回一個列表，列表的元素是元組，元組的第一項為文件內容，第二項為文件所在目錄的名稱。

九、讀取記事本文件

Windows下常用的記事本文件其實是以Unicode（UTF-16 LE）編碼保存的，因此可以使用codecs庫進行讀取，如下所示：

import codecs

with codecs.open(file_path, mode="r", encoding="utf-16le") as f:
    data = f.read()

需要注意的是，一定要指定編碼方式為utf-16le。

原創文章，作者：小藍，如若轉載，請註明出處：https://www.506064.com/zh-hk/n/187496.html