使用gensimdoc2vec實現文本處理

無論是在日常生活，還是在技術領域，文本處理都是一個扮演著重要角色的問題。而gensimdoc2vec是一個十分優秀的Python包，可以在無監督文本分析中扮演著重要角色。在本文中，我們將從幾個方面對這個神奇的Python包進行講解，以幫助大家更好地理解這個工具。

一、安裝和導入gensimdoc2vec

在使用gensimdoc2vec之前，需要首先進行安裝。可以使用pip或者conda來進行安裝，具體請參考以下命令行操作。

pip install gensim

安裝完成之後，我們可以使用以下代碼對gensimdoc2vec進行導入。

import gensim
from gensim.models.doc2vec import Doc2Vec, TaggedDocument

二、生成文本向量

在使用doc2vec之前，我們需要將文本轉換成向量形式。這裡我們使用TaggedDocument來完成這個任務。TaggedDocument接受兩個參數，第一個是包含所有單詞的列表，第二個是文本的標識符。在下面的例子中，我們使用了兩個TaggedDocument來生成文本向量。

data = ["I love machine learning. Its awesome.",
             "I love coding in python",
             "I love building chatbots",
             "they chat amagingly well"]
tagged_data = [TaggedDocument(words=word_tokenize(_d.lower()), tags=[str(i)]) for i, _d in enumerate(data)]

首先我們定義需要進行處理的文本數據，然後使用Tokenize將文本數據轉換成單詞列表，再使用TaggedDocument對單詞列表進行標記化操作，將其轉換成向量形式。

三、訓練doc2vec模型

在生成向量之後，我們需要對這些向量進行處理，在這裡我們使用Doc2Vec模型，來獲得更好的結果。模型的訓練需要一些參數，如矢量大小，窗口大小等。下面的代碼展示了如何使用gensimdoc2vec中的Doc2Vec類進行模型訓練。

max_epochs = 100
vec_size = 20
alpha = 0.025
model = Doc2Vec(vector_size=vec_size,
                alpha=alpha, 
                min_alpha=0.00025,
                min_count=1,
                dm =1)
  
model.build_vocab(tagged_data)

for epoch in range(max_epochs):
    model.train(tagged_data,
                total_examples=model.corpus_count,
                epochs=model.iter)
    
    model.alpha -= 0.0002
    model.min_alpha = model.alpha

在上述代碼中，我們定義模型的一些參數，如矢量大小、學習率等等。然後使用build_vocab函數對模型進行初始化，再使用train函數對模型進行訓練。在這裡我們循環100次，對文本向量進行處理，並且逐步降低學習率來獲得更好的結果。

四、使用模型進行預測

在模型訓練完成之後，我們可以使用模型對新的文本進行預測。下面的代碼演示了如何使用訓練好的模型對新的文本進行預測。

test_data = word_tokenize("I love chatbots".lower())
v1 = model.infer_vector(test_data)
print("V1_infer", v1)

在這段代碼中，我們將「I love chatbots」轉換成單詞列表，然後使用infer_vector函數對其進行轉換，得到一個向量形式的結果。

五、可視化文檔向量

在獲得了文本向量之後，我們可以將其可視化以便更好地理解數據。這裡我們使用t-SNE演算法進行可視化操作。下面是代碼實現過程：

from sklearn.manifold import TSNE
import matplotlib.pyplot as plt

def tsne_plot(model):
    "Creates and TSNE model and plots it"
    labels = []
    tokens = []

    for word in model.wv.vocab:
        tokens.append(model[word])
        labels.append(word)
    
    tsne_model = TSNE(perplexity=40, n_components=2, init='pca', n_iter=2500, random_state=23)
    new_values = tsne_model.fit_transform(tokens)

    x = []
    y = []
    for value in new_values:
        x.append(value[0])
        y.append(value[1])
        
    plt.figure(figsize=(16, 16)) 
    for i in range(len(x)):
        plt.scatter(x[i],y[i])
        plt.annotate(labels[i],
                     xy=(x[i], y[i]),
                     xytext=(5, 2),
                     textcoords='offset points',
                     ha='right',
                     va='bottom')
    plt.show()

tsne_plot(model)

在上述代碼中，我們使用TSNE函數進行數據降維，並對降維結果進行可視化操作。最後我們使用plt.show()函數將可視化結果展示出來。

小結

在本文中，我們從安裝和導入、生成文本向量、訓練doc2vec模型、使用模型進行預測以及可視化文檔向量等多個方面對gensimdoc2vec進行了詳細的講解。doc2vec作為神經網路演算法的代表，具有很高的自學能力和挖掘能力。在實際應用中，它可以用來構建語言模型、關鍵詞提取、文本分類等等。

原創文章，作者：小藍，如若轉載，請註明出處：https://www.506064.com/zh-tw/n/292761.html