如何使用Python統計單詞數量

Python是一門非常強大的編程語言，其中有許多內置函數可以幫助我們完成各種實用的任務。本文將向您介紹如何使用Python統計文本文件中單詞的數量。

一、讀取文本文件

首先，我們需要打開文本文件並將其讀取到Python程序中。我們可以使用Python的內置函數open()打開一個文件。

file = open('example.txt', 'r')
text = file.read()
file.close()

在上面的代碼中，我們打開了名為example.txt的文件，並使用’r’標誌將其作為只讀文件打開。我們然後使用read()方法將文本讀取到變量text中，並使用close()方法關閉文件。

現在我們已經讀取了文本文件，下一步是將文本文件拆分成單詞。我們可以使用Python的split()方法將文本拆分為單詞。

words = text.split()

在上面的代碼中，我們使用split()方法將文本分解為單詞，並將其存儲在一個名為words的列表中。

目前我們已經將文本文件拆分成單詞並將其存儲在一個名為words的列表中。現在，我們可以使用Python的len()函數統計單詞數量。

num_words = len(words)
print("The number of words in the file is:", num_words)

在上面的代碼中，我們使用len()函數計算了單詞的數量，並將其賦值給一個名為num_words的變量。我們隨後使用print()函數輸出單詞的數量。

在我們統計單詞的數量時，文本中的標點符號通常會影響計數。我們可以使用Python的replace()方法去除文本中的標點符號。

import string
table = str.maketrans('', '', string.punctuation)
text = text.translate(table)

在上面的代碼中，我們導入了Python的string模塊，以便使用其內置的標點符號列表。我們隨後使用str.maketrans()方法創建一個映射表，並使用translate()方法將映射表應用於文本中的所有標點符號。

如果您需要了解文本中的不同單詞的數量，則需要將文本中的重複單詞去除。我們可以使用Python的set()函數將單詞列錶轉換為集合以去除重複項，並使用len()函數計算其大小。

unique_words = set(words)
num_unique_words = len(unique_words)
print("The number of unique words in the file is:", num_unique_words)

在上面的代碼中，我們使用set()函數創建了唯一單詞的集合，並使用len()函數計算了集合的大小。

本文向您介紹了如何使用Python來統計文本文件中的單詞數量。通過將文本文件拆分為單詞並使用內置函數計算單詞數量，您可以輕鬆計算文本的統計數據，包括唯一單詞的數量。

原創文章，作者：RXLER，如若轉載，請註明出處：https://www.506064.com/zh-hk/n/373643.html