使用Python Gensim實現主題建模:簡單有效的文本分析技術

在信息時代,大量的文本數據湧入我們的視野。如何從海量文本中提取出有用的信息,對於企業和個人都是非常重要的。而主題建模是一種有效的文本分析技術,可以幫助我們發掘文本的潛在主題,進而進行分析和挖掘。

本文將介紹如何使用Python中的Gensim模塊進行主題建模,以及一些常用的預處理和參數調節方法。

一、數據預處理

在進行主題建模前,我們需要對原始文本進行一定的處理,以便讓文本數據更加規範化。一般來說,我們需要完成以下幾個步驟:

1、分詞

分詞是指將一段文本拆分成辭彙的過程,也就是切分句子成單詞。Gensim模塊提供了簡單易用的分詞工具,在進行主題建模前我們需要先將原始文本進行分詞。具體代碼如下:

from gensim.parsing.preprocessing import preprocess_string, strip_tags, strip_punctuation, strip_multiple_whitespaces, strip_numeric,remove_stopwords #導入 Gensim 中的用於文本預處理的函數
from gensim import corpora,models,similarities #導入 Gensim 中的文本處理工具包
from gensim.utils import simple_preprocess
import jieba #導入中文分詞函數

#分詞函數
def split_words(text):
    words=[word for word in jieba.cut(text)]
    return words

#讀取文本
raw_text="這是一段原始文本。"

#使用 jieba 對文本進行分詞
words=split_words(raw_text)

print(words)

輸出結果為:

['這是', '一段', '原始', '文本', '。']

2、去除停用詞

去除停用詞是指去除一些常用而又沒有實際意義的單詞,比如「的」、「是」等等。Gensim提供了一份預定義的停用詞表,在進行主題建模前我們需要將文本中的停用詞去掉。具體代碼如下:

from gensim.parsing.preprocessing import preprocess_string, strip_tags, strip_punctuation, strip_multiple_whitespaces, strip_numeric,remove_stopwords #導入 Gensim 中的用於文本預處理的函數
from gensim import corpora,models,similarities #導入 Gensim 中的文本處理工具包
from gensim.utils import simple_preprocess
import jieba #導入中文分詞函數
jieba.load_userdict('./mydict.txt') #導入自定義詞典

#分詞函數
def split_words(text):
    words=[word for word in jieba.cut(text)]
    return words

#去除停用詞函數
def remove_stopwords(words):
    return [word for word in words if word not in stopwords]

#讀取停用詞
stopwords=[line.strip() for line in open('./stopwords.txt',encoding='UTF-8').readlines()]

#讀取文本
raw_text="這是一段原始文本。"

#使用 jieba 對文本進行分詞
words=split_words(raw_text)

#去除停用詞
words=remove_stopwords(words)

print(words)

輸出結果為:

['一段', '原始', '文本']

二、構建文檔-詞頻矩陣

在完成數據預處理後,我們需要將分詞後的文本轉換成數值矩陣,以便進行主題建模分析。具體來說,我們需要建立文檔-詞頻矩陣,將文本中的每個單詞映射到矩陣中。這個過程可以通過Gensim自帶的Corpora模塊完成。具體代碼如下:

from gensim.parsing.preprocessing import preprocess_string, strip_tags, strip_punctuation, strip_multiple_whitespaces, strip_numeric,remove_stopwords #導入 Gensim 中的用於文本預處理的函數
from gensim import corpora,models,similarities #導入 Gensim 中的文本處理工具包
from gensim.utils import simple_preprocess
import jieba #導入中文分詞函數
jieba.load_userdict('./mydict.txt') #導入自定義詞典

#分詞函數
def split_words(text):
    words=[word for word in jieba.cut(text)]
    return words

#去除停用詞函數
def remove_stopwords(words):
    return [word for word in words if word not in stopwords]

#讀取停用詞
stopwords=[line.strip() for line in open('./stopwords.txt',encoding='UTF-8').readlines()]

#讀取文本
raw_text="這是一段原始文本。"

#使用 jieba 對文本進行分詞
words=split_words(raw_text)

#去除停用詞
words=remove_stopwords(words)

#建立字典
dictionary=corpora.Dictionary([words])

#將文本轉換成數值矩陣
doc_vec=[dictionary.doc2bow([word]) for word in words]

print(doc_vec)

輸出結果為:

[(0, 1), (1, 1), (2, 1)]

三、主題建模分析

在完成文檔-詞頻矩陣的構建後,我們可以開始進行主題建模分析了。一般來說,主題建模是通過LDA(Latent Dirichlet Allocation)模型實現的,它是一種基於概率的模型,可以幫助我們發掘文本的潛在主題。在Gensim模塊中,我們可以直接調用LdaModel函數進行主題建模分析,具體代碼如下:

from gensim.parsing.preprocessing import preprocess_string, strip_tags, strip_punctuation, strip_multiple_whitespaces, strip_numeric,remove_stopwords #導入 Gensim 中的用於文本預處理的函數
from gensim import corpora,models,similarities #導入 Gensim 中的文本處理工具包
from gensim.utils import simple_preprocess
import jieba #導入中文分詞函數
jieba.load_userdict('./mydict.txt') #導入自定義詞典

#分詞函數
def split_words(text):
    words=[word for word in jieba.cut(text)]
    return words

#去除停用詞函數
def remove_stopwords(words):
    return [word for word in words if word not in stopwords]

#讀取停用詞
stopwords=[line.strip() for line in open('./stopwords.txt',encoding='UTF-8').readlines()]

#讀取文本
raw_text="這是一段原始文本。"

#使用 jieba 對文本進行分詞
words=split_words(raw_text)

#去除停用詞
words=remove_stopwords(words)

#建立字典
dictionary=corpora.Dictionary([words])

#將文本轉換成數值矩陣
doc_vec=[dictionary.doc2bow([word]) for word in words]

#進行主題建模分析
lda_model=models.LdaModel(doc_vec,num_topics=10,id2word=dictionary)

#輸出主題
for i in range(10):
    print(lda_model.show_topic(i))

完整代碼

代碼已整理成一個完整的程序,供讀者參考。

from gensim.parsing.preprocessing import preprocess_string, strip_tags, strip_punctuation, strip_multiple_whitespaces, strip_numeric,remove_stopwords #導入 Gensim 中的用於文本預處理的函數
from gensim import corpora,models,similarities #導入 Gensim 中的文本處理工具包
from gensim.utils import simple_preprocess
import jieba #導入中文分詞函數
jieba.load_userdict('./mydict.txt') #導入自定義詞典

#分詞函數
def split_words(text):
    words=[word for word in jieba.cut(text)]
    return words

#去除停用詞函數
def remove_stopwords(words):
    return [word for word in words if word not in stopwords]

#主函數
def main():
    #讀取停用詞
    stopwords=[line.strip() for line in open('./stopwords.txt',encoding='UTF-8').readlines()]

    #讀取文本
    raw_text="這是一段原始文本。"

    #使用 jieba 對文本進行分詞
    words=split_words(raw_text)

    #去除停用詞
    words=remove_stopwords(words)

    #建立字典
    dictionary=corpora.Dictionary([words])

    #將文本轉換成數值矩陣
    doc_vec=[dictionary.doc2bow([word]) for word in words]

    #進行主題建模分析
    lda_model=models.LdaModel(doc_vec,num_topics=10,id2word=dictionary)

    #輸出主題
    for i in range(10):
        print(lda_model.show_topic(i))

if __name__=='__main__':
    main()

原創文章,作者:VUSA,如若轉載,請註明出處:https://www.506064.com/zh-tw/n/143220.html

(0)
打賞 微信掃一掃 微信掃一掃 支付寶掃一掃 支付寶掃一掃
VUSA的頭像VUSA
上一篇 2024-10-14 18:46
下一篇 2024-10-14 18:46

相關推薦

  • Python簡單數學計算

    本文將從多個方面介紹Python的簡單數學計算,包括基礎運算符、函數、庫以及實際應用場景。 一、基礎運算符 Python提供了基礎的算術運算符,包括加(+)、減(-)、乘(*)、除…

    編程 2025-04-29
  • Python滿天星代碼:讓編程變得更加簡單

    本文將從多個方面詳細闡述Python滿天星代碼,為大家介紹它的優點以及如何在編程中使用。無論是剛剛接觸編程還是資深程序員,都能從中獲得一定的收穫。 一、簡介 Python滿天星代碼…

    編程 2025-04-29
  • Python海龜代碼簡單畫圖

    本文將介紹如何使用Python的海龜庫進行簡單畫圖,並提供相關示例代碼。 一、基礎用法 使用Python的海龜庫,我們可以控制一個小海龜在窗口中移動,並利用它的「畫筆」在窗口中繪製…

    編程 2025-04-29
  • 程序化建模的優勢和劣勢

    程序化建模是指通過計算機編製程序實現對各種複雜系統的建模和模擬過程。隨著計算機技術和計算能力的不斷提高,程序化建模在眾多領域得到了廣泛應用,例如計算機輔助設計、製造、模擬、數據分析…

    編程 2025-04-29
  • Python櫻花樹代碼簡單

    本文將對Python櫻花樹代碼進行詳細的闡述和講解,幫助讀者更好地理解該代碼的實現方法。 一、簡介 櫻花樹是一種圖形效果,它的實現方法比較簡單。Python中可以通過turtle這…

    編程 2025-04-28
  • Python文本居中設置

    在Python編程中,有時需要將文本進行居中設置,這個過程需要用到字元串的相關函數。本文將從多個方面對Python文本居中設置作詳細闡述,幫助讀者在實際編程中運用該功能。 一、字元…

    編程 2025-04-28
  • 文本數據挖掘與Python應用PDF

    本文將介紹如何使用Python進行文本數據挖掘,並將著重介紹如何應用PDF文件進行數據挖掘。 一、Python與文本數據挖掘 Python是一種高級編程語言,具有簡單易學、代碼可讀…

    編程 2025-04-28
  • t3.js:一個全能的JavaScript動態文本替換工具

    t3.js是一個非常流行的JavaScript動態文本替換工具,它是一個輕量級庫,能夠很容易地實現文本內容的遞增、遞減、替換、切換以及其他各種操作。在本文中,我們將從多個方面探討t…

    編程 2025-04-28
  • Python大神作品:讓編程變得更加簡單

    Python作為一種高級的解釋性編程語言,一直被廣泛地運用於各個領域,從Web開發、遊戲開發到人工智慧,Python都扮演著重要的角色。Python的代碼簡潔明了,易於閱讀和維護,…

    編程 2025-04-28
  • 用Python實現簡單爬蟲程序

    在當今時代,互聯網上的信息量是爆炸式增長的,其中很多信息可以被利用。對於數據分析、數據挖掘或者其他一些需要大量數據的任務,我們可以使用爬蟲技術從各個網站獲取需要的信息。而Pytho…

    編程 2025-04-28

發表回復

登錄後才能評論