Python函数库：自然语言处理模块NLTK的文本预处理功能

自然语言处理（Natural Language Processing，简称NLP）是人工智能（Artificial Intelligence，简称AI）领域的一个重要分支，它研究计算机如何处理和分析人类语言文本。在NLP领域，文本预处理是非常重要的一个环节。Python函数库NLTK（Natural Language Toolkit）是一款常用的自然语言处理工具，它对文本预处理提供了良好的支持。

一、分词

NLTK可以通过Tokenization实现分词，Tokenization就是将一个大段的文本根据一定规则分割成一个一个的小单元，比如分成单词、分成句子等。对于英文文本，分割单词就是将文本中的每个单词都分割开来。具体代码如下：

import nltk

tokenizer = nltk.tokenize.ToktokTokenizer()

text = "This is an example sentence."

tokens = tokenizer.tokenize(text)

print(tokens)

在上面的示例中，我们使用ToktokTokenizer()函数进行分词，对于英文文本，它可以正确地将每个单词分割开来。

二、停用词过滤

停用词是指在文本分析过程中，通常需要过滤掉的一些常用词汇，比如“的”、“是”、“我”等等。在文本分析中，过滤这些停用词对于分类、聚类等任务能够提高效率。NLTK提供了一些内置的停用词列表，可以直接调用进行过滤。具体代码如下：

from nltk.corpus import stopwords

stop_words = set(stopwords.words('english'))

text = "This is an example sentence with stopwords."

filtered_words = [word for word in text.split() if word.lower() not in stop_words]

print(filtered_words)

在上面的示例中，我们首先导入stopwords模块，这个模块提供了一些内置的停用词列表。然后我们可以使用set()函数将这些停用词转化为一个集合，并且通过调用stopwords.words(‘english’)函数来获取英文停用词表。然后我们可以通过一行代码过滤掉文本中的停用词。

三、词干提取

词干提取（Stemming）是文本预处理的一个重要步骤，它可以将单词的各种变形变成其基本形式，比如将running，runner等变成run。这样做的好处是可以使得文本分析更具有效性。NLTK提供了各种词干提取器，比如PorterStemmer、LancasterStemmer等。具体代码如下：

from nltk.stem import PorterStemmer

stemmer = PorterStemmer()

text = "This is an example sentence with stemming."

tokens = tokenizer.tokenize(text)

stemmed_words = [stemmer.stem(word) for word in tokens]

print(stemmed_words)

在上面的示例中，我们首先导入PorterStemmer类，它是Porter词干提取器的实现类。然后我们可以通过tokenizer.tokenize()函数将文本分割成单词，再使用for循环遍历每个单词，通过stemmer.stem(word)函数将每个单词都提取出它的词干。

四、词形还原

词形还原（Lemmatization）是另一种将单词还原到其基本形式的过程，不同于词干提取的是，词形还原是将一个单词转化成其在词汇表中的基本形式（也就是词元），比如将running，runner等变成run。NLTK提供了WordNetLemmatizer类，可以实现词形还原。具体代码如下：

from nltk.stem import WordNetLemmatizer

lemmatizer = WordNetLemmatizer()

text = "This is an example sentence with lemmatization. Running is important."

tokens = tokenizer.tokenize(text)

lemmatized_words = [lemmatizer.lemmatize(word, pos='v') for word in tokens]

print(lemmatized_words)

在上面的示例中，我们首先导入WordNetLemmatizer类，它是WordNet词形还原工具的实现类。然后我们可以通过tokenizer.tokenize()函数将文本分割成单词，再使用for循环遍历每个单词，通过lemmatizer.lemmatize(word, pos=’v’)函数将每个单词都还原成其基本形式。需要注意的是，WordNetLemmatizer需要指定词性，因为一个单词可能有多种词性，比如running既可以当动词，也可以当名词，所以我们需要指定它的词性。

五、总结

NLTK是Python中一个非常重要的自然语言处理工具，它为文本预处理提供了强力支持，包括分词、停用词过滤、词干提取、词形还原等功能。如果您想做自然语言处理相关的工作，那么学习掌握NLTK将是非常必要的。希望本文能够对大家有所帮助。

原创文章，作者：小蓝，如若转载，请注明出处：https://www.506064.com/n/248653.html