Python函數庫：自然語言處理模塊NLTK的文本預處理功能

自然語言處理（Natural Language Processing，簡稱NLP）是人工智慧（Artificial Intelligence，簡稱AI）領域的一個重要分支，它研究計算機如何處理和分析人類語言文本。在NLP領域，文本預處理是非常重要的一個環節。Python函數庫NLTK（Natural Language Toolkit）是一款常用的自然語言處理工具，它對文本預處理提供了良好的支持。

一、分詞

NLTK可以通過Tokenization實現分詞，Tokenization就是將一個大段的文本根據一定規則分割成一個一個的小單元，比如分成單詞、分成句子等。對於英文文本，分割單詞就是將文本中的每個單詞都分割開來。具體代碼如下：

import nltk

tokenizer = nltk.tokenize.ToktokTokenizer()

text = "This is an example sentence."

tokens = tokenizer.tokenize(text)

print(tokens)

在上面的示例中，我們使用ToktokTokenizer()函數進行分詞，對於英文文本，它可以正確地將每個單詞分割開來。

二、停用詞過濾

停用詞是指在文本分析過程中，通常需要過濾掉的一些常用辭彙，比如「的」、「是」、「我」等等。在文本分析中，過濾這些停用詞對於分類、聚類等任務能夠提高效率。NLTK提供了一些內置的停用詞列表，可以直接調用進行過濾。具體代碼如下：

from nltk.corpus import stopwords

stop_words = set(stopwords.words('english'))

text = "This is an example sentence with stopwords."

filtered_words = [word for word in text.split() if word.lower() not in stop_words]

print(filtered_words)

在上面的示例中，我們首先導入stopwords模塊，這個模塊提供了一些內置的停用詞列表。然後我們可以使用set()函數將這些停用詞轉化為一個集合，並且通過調用stopwords.words(‘english’)函數來獲取英文停用詞表。然後我們可以通過一行代碼過濾掉文本中的停用詞。

三、詞幹提取

詞幹提取（Stemming）是文本預處理的一個重要步驟，它可以將單詞的各種變形變成其基本形式，比如將running，runner等變成run。這樣做的好處是可以使得文本分析更具有效性。NLTK提供了各種詞幹提取器，比如PorterStemmer、LancasterStemmer等。具體代碼如下：

from nltk.stem import PorterStemmer

stemmer = PorterStemmer()

text = "This is an example sentence with stemming."

tokens = tokenizer.tokenize(text)

stemmed_words = [stemmer.stem(word) for word in tokens]

print(stemmed_words)

在上面的示例中，我們首先導入PorterStemmer類，它是Porter詞幹提取器的實現類。然後我們可以通過tokenizer.tokenize()函數將文本分割成單詞，再使用for循環遍歷每個單詞，通過stemmer.stem(word)函數將每個單詞都提取出它的詞幹。

四、詞形還原

詞形還原（Lemmatization）是另一種將單詞還原到其基本形式的過程，不同於詞幹提取的是，詞形還原是將一個單詞轉化成其在辭彙表中的基本形式（也就是詞元），比如將running，runner等變成run。NLTK提供了WordNetLemmatizer類，可以實現詞形還原。具體代碼如下：

from nltk.stem import WordNetLemmatizer

lemmatizer = WordNetLemmatizer()

text = "This is an example sentence with lemmatization. Running is important."

tokens = tokenizer.tokenize(text)

lemmatized_words = [lemmatizer.lemmatize(word, pos='v') for word in tokens]

print(lemmatized_words)

在上面的示例中，我們首先導入WordNetLemmatizer類，它是WordNet詞形還原工具的實現類。然後我們可以通過tokenizer.tokenize()函數將文本分割成單詞，再使用for循環遍歷每個單詞，通過lemmatizer.lemmatize(word, pos=’v’)函數將每個單詞都還原成其基本形式。需要注意的是，WordNetLemmatizer需要指定詞性，因為一個單詞可能有多種詞性，比如running既可以當動詞，也可以當名詞，所以我們需要指定它的詞性。

五、總結

NLTK是Python中一個非常重要的自然語言處理工具，它為文本預處理提供了強力支持，包括分詞、停用詞過濾、詞幹提取、詞形還原等功能。如果您想做自然語言處理相關的工作，那麼學習掌握NLTK將是非常必要的。希望本文能夠對大家有所幫助。

原創文章，作者：小藍，如若轉載，請註明出處：https://www.506064.com/zh-tw/n/248653.html