python用jieba分詞,分詞Python

本文目錄一覽:

python 使用jieba分詞出錯

猜測你使用的 Python 版本為 Python2  但是使用 coding: utf-8 設置中文編碼只在 Python 3 有效

所以 設置默認編碼 應在代碼開始部分應該加上

import sys

reload(sys)

sys.setdefaultencoding(‘UTF-8’)

python jieba什麼用

用來分詞的,jieba 可以:

把一句話拆分成多個詞。

從一句話(一段話)中提取最重要的幾個關鍵詞。

最常用的功能應該就是這些吧,分詞之後結合 TF-IDF,就可以開始做搜索工具和相關推薦了。

jieba分詞(R vs. python)

自然語言處理(NLP)是機器學習重要分支之一,主要應用於篇章理解、文本摘要、情感分析、知識圖譜、文本翻譯等領域。而NLP應用首先是對文本進行分詞,當前中文分詞器有Ansj、paoding、盤古分詞等多種,而最基礎的分詞器應該屬於jieba分詞器(比較見下圖)。

下面將分別應用R和python對jieba分詞器在中文分詞、詞性標註和關鍵詞提取領域的應用進行比較。

R實現

通過函數worker()來初始化分詞引擎,使用segment()進行分詞。有四種分詞模式:最大概率法(MP)、隱馬爾科夫模型(HMM)、混合模型(Mix)及索引模型(query),默認為混合模型。具體可查看help(worker).

#install.packages(‘jiebaR’)library(jiebaR)mixseg – worker()segment( “這是一段測試文本” , mixseg ) #或者用以下操作mixseg[‘這是一段測試文本’]mixseg = “這是一段測試文本”

python實現

python中需安裝jieba庫,運用jieba.cut實現分詞。cut_all參數為分詞類型,默認為精確模式。

import jiebaseg_list = jieba.cut(u”這是一段測試文本”,cut_all = False)print(“Full mode: “+ “,”.join(seg_list))  #默認精確模式

無論是R還是python都為utf—8編碼。

R實現

可以使用=.tagger 或者tag 來進行分詞和詞性標註,詞性標註使用混合模型模型分詞,標註採用和 ictclas 兼容的標記法。

words = “我愛北京天安門”tagger = worker(“tag”) #開啟詞性標註啟發器tagger = words    #    r        v      ns      ns    # “我”    “愛”  “北京” “天安門”

python實現

#詞性標註import jieba.posseg as psegwords = pseg.cut(“我愛北京天安門”)for word,flag in words:    print(‘%s, %s’ %(word,flag))

R實現

R關鍵詞提取使用逆向文件頻率(IDF)文本語料庫,通過worker參數“keywords”開啟關鍵詞提取啟發器,topn參數為關鍵詞的個數。

keys = worker(“keywords”,topn = 5, idf = IDFPATH)keys = “會議邀請到美國密歇根大學(University of Michigan, Ann Arbor)環境健康科學系副教授奚傳武博士作題為“Multibarrier approach for safe drinking waterin the US : Why it failed in Flint”的學術講座,介紹美國密歇根Flint市飲用水污染事故的發生髮展和處置等方面內容。講座後各相關單位同志與奚傳武教授就生活飲用水在線監測系統、美國水污染事件的處置方式、生活飲用水老舊管網改造、如何有效減少消毒副產物以及美國涉水產品和二次供水單位的監管模式等問題進行了探討和交流。本次交流會是我市生活飲用水衛生管理工作洽商機制運行以來的又一次新嘗試,也為我市衛生計生綜合監督部門探索生活飲用水衛生安全管理模式及突發水污染事件的應對措施開拓了眼界和思路。”#結果:#        48.8677        23.4784        22.1402        20.326        18.5354 #      “飲用水”        “Flint”        “衛生”      “水污染”        “生活”

python實現

python實現關鍵詞提取可運用TF-IDF方法和TextRank方法。allowPOS參數為限定範圍詞性類型。

#關鍵詞提取import jieba.analysecontent = u’會議邀請到美國密歇根大學(University of Michigan, Ann Arbor)環境健康科學系副教授奚傳武博士作題為“Multibarrier approach for safe drinking waterin the US : Why it failed in Flint”的學術講座,介紹美國密歇根Flint市飲用水污染事故的發生髮展和處置等方面內容。講座後各相關單位同志與奚傳武教授就生活飲用水在線監測系統、美國水污染事件的處置方式、生活飲用水老舊管網改造、如何有效減少消毒副產物以及美國涉水產品和二次供水單位的監管模式等問題進行了探討和交流。本次交流會是我市生活飲用水衛生管理工作洽商機制運行以來的又一次新嘗試,也為我市衛生計生綜合監督部門探索生活飲用水衛生安全管理模式及突發水污染事件的應對措施開拓了眼界和思路。’#基於TF-IDFkeywords = jieba.analyse.extract_tags(content,topK = 5,withWeight = True,allowPOS = (‘n’,’nr’,’ns’))for item in keywords:        print item[0],item[1]  #基於TF-IDF結果# 飲用水 0.448327672795# Flint 0.219353532163# 衛生 0.203120821773# 水污染 0.186477211628# 生活 0.170049997544

#基於TextRankkeywords = jieba.analyse.textrank(content,topK = 5,withWeight = True,allowPOS = (‘n’,’nr’,’ns’))for item in keywords:        print item[0],item[1]    #基於TextRank結果:# 飲用水 1.0# 美國 0.570564785973# 奚傳武 0.510738424509# 單位 0.472841889334# 講座 0.443770732053

寫在文後

自然語言處理(NLP)在數據分析領域有其特殊的應用,在R中除了jiebaR包,中文分詞Rwordseg包也非常常用。一般的文本挖掘步驟包括:文本獲取(主要用網絡爬取)——文本處理(分詞、詞性標註、刪除停用詞等)——文本分析(主題模型、情感分析)——分析可視化(詞雲、知識圖譜等)。本文是自然語言處理的第一篇,後續將分別總結下應用深度學習Word2vec進行詞嵌入以及主題模型、情感分析的常用NLP方法。

參考資料

Introduction · jiebaR 中文分詞

知乎:【文本分析】利用jiebaR進行中文分詞

雪晴數據網:全棧數據工程師養成攻略

搜狗實驗室,詞性標註應用

【R文本挖掘】中文分詞Rwordseg

原創文章,作者:小藍,如若轉載,請註明出處:https://www.506064.com/zh-hant/n/154164.html

(0)
打賞 微信掃一掃 微信掃一掃 支付寶掃一掃 支付寶掃一掃
小藍的頭像小藍
上一篇 2024-11-15 03:27
下一篇 2024-11-15 03:27

相關推薦

  • 如何查看Anaconda中Python路徑

    對Anaconda中Python路徑即conda環境的查看進行詳細的闡述。 一、使用命令行查看 1、在Windows系統中,可以使用命令提示符(cmd)或者Anaconda Pro…

    編程 2025-04-29
  • Python列表中負數的個數

    Python列表是一個有序的集合,可以存儲多個不同類型的元素。而負數是指小於0的整數。在Python列表中,我們想要找到負數的個數,可以通過以下幾個方面進行實現。 一、使用循環遍歷…

    編程 2025-04-29
  • Python周杰倫代碼用法介紹

    本文將從多個方面對Python周杰倫代碼進行詳細的闡述。 一、代碼介紹 from urllib.request import urlopen from bs4 import Bea…

    編程 2025-04-29
  • Python中引入上一級目錄中函數

    Python中經常需要調用其他文件夾中的模塊或函數,其中一個常見的操作是引入上一級目錄中的函數。在此,我們將從多個角度詳細解釋如何在Python中引入上一級目錄的函數。 一、加入環…

    編程 2025-04-29
  • Python計算陽曆日期對應周幾

    本文介紹如何通過Python計算任意陽曆日期對應周幾。 一、獲取日期 獲取日期可以通過Python內置的模塊datetime實現,示例代碼如下: from datetime imp…

    編程 2025-04-29
  • Python字典去重複工具

    使用Python語言編寫字典去重複工具,可幫助用戶快速去重複。 一、字典去重複工具的需求 在使用Python編寫程序時,我們經常需要處理數據文件,其中包含了大量的重複數據。為了方便…

    編程 2025-04-29
  • Python程序需要編譯才能執行

    Python 被廣泛應用於數據分析、人工智能、科學計算等領域,它的靈活性和簡單易學的性質使得越來越多的人喜歡使用 Python 進行編程。然而,在 Python 中程序執行的方式不…

    編程 2025-04-29
  • python強行終止程序快捷鍵

    本文將從多個方面對python強行終止程序快捷鍵進行詳細闡述,並提供相應代碼示例。 一、Ctrl+C快捷鍵 Ctrl+C快捷鍵是在終端中經常用來強行終止運行的程序。當你在終端中運行…

    編程 2025-04-29
  • 蝴蝶優化算法Python版

    蝴蝶優化算法是一種基於仿生學的優化算法,模仿自然界中的蝴蝶進行搜索。它可以應用於多個領域的優化問題,包括數學優化、工程問題、機器學習等。本文將從多個方面對蝴蝶優化算法Python版…

    編程 2025-04-29
  • Python清華鏡像下載

    Python清華鏡像是一個高質量的Python開發資源鏡像站,提供了Python及其相關的開發工具、框架和文檔的下載服務。本文將從以下幾個方面對Python清華鏡像下載進行詳細的闡…

    編程 2025-04-29

發表回復

登錄後才能評論