Ngram技術詳解

一、Ngram簡介

Ngram是一種基於文本的統計語言模型，用於給定文本中的單詞序列分配概率。它是一種基於前n-1個單元的條件概率。Ngram的應用範圍非常廣泛，如自然語言處理、信息檢索、機器翻譯、音頻信號識別等領域。

以2-gram為例，假設有一個字元串”hello world”，將其轉換為2-gram的序列，即將每兩個相鄰的單元組合為一個新的單元：[“he”, “el”, “ll”, “lo”, “o “, ” w”, “wo”, “or”, “rl”, “ld”]。2-gram是最常用的模型之一，通常稱為Bigram模型。

二、Ngram的應用

1、自然語言處理領域

import nltk
from nltk.util import ngrams

# 構造n-gram
text = "Hello, welcome to NLP World!"
tokens = nltk.word_tokenize(text)
bigrams = list(ngrams(tokens, 2))
trigrams = list(ngrams(tokens, 3))
print(bigrams)
print(trigrams)

2、信息檢索領域

from collections import defaultdict

# 構建頻率字典
freq_dict = defaultdict(int)
for item in bigrams:
    freq_dict[item] += 1

# 求出指定序列出現的概率
seq = ("welcome", "to")
prod = 1
for token in seq:
    prod *= freq_dict[token]/len(bigrams)
print(prod)

3、機器翻譯領域

import pandas as pd
import numpy as np

# 計算翻譯概率
source = ["hello", "world"]
target = ["你好", "世界"]
source_bigrams = list(ngrams(source, 2))
target_bigrams = list(ngrams(target, 2))
df = pd.DataFrame(columns=target, index=source, data=np.zeros((2, 2)))
for sb in source_bigrams:
    for tb in target_bigrams:
        if sb[0] == tb[0]:
            df.loc[sb[0], tb[0]] += 1
        if sb[1] == tb[1]:
            df.loc[sb[1], tb[1]] += 1
df = df / df.sum().sum()
print(df)

三、Ngram的優化

為了提高Ngram的效率和準確率，可以採用以下優化方法：

1、平滑技術：在統計過程中假設每個n-gram的出現概率至少為某個小值，從而避免出現零概率問題。

2、截斷技術：在統計過程中只考慮頻率較高的n-gram，忽略出現次數較少的n-gram，減少Ngram模型的存儲空間和計算量。

3、摺疊技術：為了避免對大量相似樣本計算Ngram，可以選擇先對這樣的樣本進行相似度計算，再對相似度較高的樣本計算Ngram。

四、Ngram的局限性

Ngram模型存在一些局限性：

1、未考慮單詞之間的相關性，Ngram模型只考慮了相鄰單元的概率，忽略了當前單元與其他單元的關係。

2、數據稀疏問題，由於Ngram需要統計每個單元出現的頻率，對於出現次數較少的單元，Ngram的效果會受到一定的影響。

3、模型複雜度問題，由於Ngram模型需要維護所有可能的n-gram序列，模型存儲和計算需求較高，因此需要採用優化方法來提高效率和準確率。

五、總結

Ngram技術是一種基於文本統計的語言模型，應用非常廣泛。通過了解Ngram的基本原理和應用場景，我們可以更好地理解NLP等領域中的相關技術，同時，了解Ngram模型的局限性，能夠幫助我們在使用Ngram模型時更加謹慎。

原創文章，作者：KWROJ，如若轉載，請註明出處：https://www.506064.com/zh-tw/n/316314.html