n-grams在自然語言處理中的應用

一、概念介紹

n-grams是自然語言處理中常用的一種文本預處理方法。在n-grams的處理過程中，將一個文本分解成連續的n個詞語，這個n就是n-grams中的n。

例如一個句子：“I love natural language processing.”，取n=2，則該句子被分解成了“I love”、“love natural”、“natural language”、“language processing”四個二元組。

在這個過程中，n-grams可以理解成一種滑動窗口的操作，文本中每一個n元組都會被考慮到。

二、應用場景

在自然語言處理中，n-grams被廣泛應用於文本特徵提取、語言模型建造等方面。

1. 文本特徵提取

n-grams常常被用於文本分類、情感分析等任務中，其中n元組的出現頻率作為特徵輸入機器學習模型中。比如，通過統計n元組的出現頻率，可以判斷一個句子中是否包含某些關鍵詞，從而實現文本分類。

from sklearn.feature_extraction.text import CountVectorizer
text_corpus = ['I like natural language processing.', 'I am not good at math.']
vectorizer = CountVectorizer(ngram_range=(1, 2))
text_features = vectorizer.fit_transform(text_corpus)
print(vectorizer.get_feature_names()) 
# ['am', 'am not', 'at', 'at math', 'good', 'good at', 'language', 'language processing', 'like', 'like natural', 'math', 'natural', 'natural language', 'not', 'not good', 'processing']

上述代碼實現了將輸入文本轉變為n元組，將n元組的出現頻率作為特徵輸入到機器學習模型中，用於文本分類。

2. 語言模型建造

n-grams也常被用於語言模型（LM）的建造。LM的目的是計算一個句子在語言上的概率，以此實現自然語言處理任務。

基於n-grams的LM由眾多的n元組出現的概率構成。其中，概率的計算可以基於統計語言學，例如最簡單的，基於n-1grams的概率。

from nltk import ngrams
from collections import Counter
corpus = "I love natural language processing. It is interesting."
# 生成unigram
unigrams = ngrams(corpus.split(), 1)
# 統計每個單詞出現的次數
counts = Counter(unigrams)
total_count = len(unigrams)
# 計算概率
probability = {}
for word, count in counts.items():
    probability[word] = count / total_count
print(probability)
# {('I',): 0.16666666666666666, ('love',): 0.16666666666666666, ('natural',): 0.16666666666666666, ('language',): 0.16666666666666666, ('processing.',): 0.16666666666666666, ('It',): 0.16666666666666666, ('is',): 0.16666666666666666, ('interesting.',): 0.16666666666666666}

上述代碼實現了基於unigram的LM，計算了每個單詞出現的概率。

三、優缺點

1. 優點

與其他文本預處理方法相比，n-grams有以下優點：

簡單易用，計算效率高，時間複雜度低
通過統計n元組的出現頻率，可以更加準確地判斷文本的語義信息，從而提高自然語言處理任務的準確率
可以根據具體需求選取合適的n值，靈活性較高

2. 缺點

然而，n-grams也有其缺點：

對於文本過長的情況，n-grams可能會造成維度災難，導致特徵向量過於稀疏
n-grams只關注文本中的局部信息，可能會忽略整個文本的含義
n-grams不能處理語法和上下文有關的任務，無法很好地處理長程依賴和歧義情況

四、結語

總之，n-grams是一種簡單易用的文本預處理方法，在自然語言處理中有着廣泛的應用。在實際使用中，我們需要靈活應用n-grams，選取合適的n值，以達到更好的效果。

原創文章，作者：PAOX，如若轉載，請註明出處：https://www.506064.com/zh-hant/n/136681.html