本文目錄一覽:
- 1、python怎麼加載jieba模塊
- 2、jieba分詞(R vs. python)
- 3、在macbook上安裝python的jieba庫
- 4、jieba庫怎麼安裝
- 5、安裝jieba庫為什麼一直在加載
- 6、python中怎麼安裝jieba庫
python怎麼加載jieba模塊
首先安裝jieba模塊,pip install jieba
然後在程序里引用,import jieba
import jieba
seg_list = jieba.cut(“我來到北京清華大學,我來到北京清華大學”, cut_all=True)
print(“Full Mode: ” + “/ “.join(seg_list)) # 全模式
# 輸出: Full Mode: 我/ 來到/ 北京/ 清華/ 清華大學/ 華大/ 大學/ / / 我/ 來到/ 北京/ 清華/ 清華大學/ 華大/ 大學
jieba分詞(R vs. python)
自然語言處理(NLP)是機器學習重要分支之一,主要應用於篇章理解、文本摘要、情感分析、知識圖譜、文本翻譯等領域。而NLP應用首先是對文本進行分詞,當前中文分詞器有Ansj、paoding、盤古分詞等多種,而最基礎的分詞器應該屬於jieba分詞器(比較見下圖)。
下面將分別應用R和python對jieba分詞器在中文分詞、詞性標註和關鍵詞提取領域的應用進行比較。
R實現
通過函數worker()來初始化分詞引擎,使用segment()進行分詞。有四種分詞模式:最大概率法(MP)、隱馬爾科夫模型(HMM)、混合模型(Mix)及索引模型(query),默認為混合模型。具體可查看help(worker).
#install.packages(‘jiebaR’)library(jiebaR)mixseg – worker()segment( “這是一段測試文本” , mixseg ) #或者用以下操作mixseg[‘這是一段測試文本’]mixseg = “這是一段測試文本”
python實現
python中需安裝jieba庫,運用jieba.cut實現分詞。cut_all參數為分詞類型,默認為精確模式。
import jiebaseg_list = jieba.cut(u”這是一段測試文本”,cut_all = False)print(“Full mode: “+ “,”.join(seg_list)) #默認精確模式
無論是R還是python都為utf—8編碼。
R實現
可以使用=.tagger 或者tag 來進行分詞和詞性標註,詞性標註使用混合模型模型分詞,標註採用和 ictclas 兼容的標記法。
words = “我愛北京天安門”tagger = worker(“tag”) #開啟詞性標註啟發器tagger = words # r v ns ns # “我” “愛” “北京” “天安門”
python實現
#詞性標註import jieba.posseg as psegwords = pseg.cut(“我愛北京天安門”)for word,flag in words: print(‘%s, %s’ %(word,flag))
R實現
R關鍵詞提取使用逆向文件頻率(IDF)文本語料庫,通過worker參數「keywords」開啟關鍵詞提取啟發器,topn參數為關鍵詞的個數。
keys = worker(“keywords”,topn = 5, idf = IDFPATH)keys = “會議邀請到美國密歇根大學(University of Michigan, Ann Arbor)環境健康科學系副教授奚傳武博士作題為「Multibarrier approach for safe drinking waterin the US : Why it failed in Flint」的學術講座,介紹美國密歇根Flint市飲用水污染事故的發生髮展和處置等方面內容。講座後各相關單位同志與奚傳武教授就生活飲用水在線監測系統、美國水污染事件的處置方式、生活飲用水老舊管網改造、如何有效減少消毒副產物以及美國涉水產品和二次供水單位的監管模式等問題進行了探討和交流。本次交流會是我市生活飲用水衛生管理工作洽商機制運行以來的又一次新嘗試,也為我市衛生計生綜合監督部門探索生活飲用水衛生安全管理模式及突發水污染事件的應對措施開拓了眼界和思路。”#結果:# 48.8677 23.4784 22.1402 20.326 18.5354 # “飲用水” “Flint” “衛生” “水污染” “生活”
python實現
python實現關鍵詞提取可運用TF-IDF方法和TextRank方法。allowPOS參數為限定範圍詞性類型。
#關鍵詞提取import jieba.analysecontent = u’會議邀請到美國密歇根大學(University of Michigan, Ann Arbor)環境健康科學系副教授奚傳武博士作題為「Multibarrier approach for safe drinking waterin the US : Why it failed in Flint」的學術講座,介紹美國密歇根Flint市飲用水污染事故的發生髮展和處置等方面內容。講座後各相關單位同志與奚傳武教授就生活飲用水在線監測系統、美國水污染事件的處置方式、生活飲用水老舊管網改造、如何有效減少消毒副產物以及美國涉水產品和二次供水單位的監管模式等問題進行了探討和交流。本次交流會是我市生活飲用水衛生管理工作洽商機制運行以來的又一次新嘗試,也為我市衛生計生綜合監督部門探索生活飲用水衛生安全管理模式及突發水污染事件的應對措施開拓了眼界和思路。’#基於TF-IDFkeywords = jieba.analyse.extract_tags(content,topK = 5,withWeight = True,allowPOS = (‘n’,’nr’,’ns’))for item in keywords: print item[0],item[1] #基於TF-IDF結果# 飲用水 0.448327672795# Flint 0.219353532163# 衛生 0.203120821773# 水污染 0.186477211628# 生活 0.170049997544
#基於TextRankkeywords = jieba.analyse.textrank(content,topK = 5,withWeight = True,allowPOS = (‘n’,’nr’,’ns’))for item in keywords: print item[0],item[1] #基於TextRank結果:# 飲用水 1.0# 美國 0.570564785973# 奚傳武 0.510738424509# 單位 0.472841889334# 講座 0.443770732053
寫在文後
自然語言處理(NLP)在數據分析領域有其特殊的應用,在R中除了jiebaR包,中文分詞Rwordseg包也非常常用。一般的文本挖掘步驟包括:文本獲取(主要用網絡爬取)——文本處理(分詞、詞性標註、刪除停用詞等)——文本分析(主題模型、情感分析)——分析可視化(詞雲、知識圖譜等)。本文是自然語言處理的第一篇,後續將分別總結下應用深度學習Word2vec進行詞嵌入以及主題模型、情感分析的常用NLP方法。
參考資料
Introduction · jiebaR 中文分詞
知乎:【文本分析】利用jiebaR進行中文分詞
雪晴數據網:全棧數據工程師養成攻略
搜狗實驗室,詞性標註應用
【R文本挖掘】中文分詞Rwordseg
在macbook上安裝python的jieba庫
mac也有終端呀,都是一樣的,mac,linux,windows安裝Python包都是pip install 包名就行了。
jieba庫怎麼安裝
演示Python如何安裝jieba。
電腦:Windows系統電腦1台
系統:ISO
軟件:提前在Windows電腦安裝好Python3.6
1、首先打開谷歌瀏覽器如圖示輸入地址,打開jieba下載首頁。
2、點擊」Download files「並點擊」jieba-0.42.1.tar.gz 「下載。
3、將其解壓到指定目錄,我這裡為了演示方便解壓到python的安裝目錄。
4、找到解壓目錄裏面的setup.py文件,並用鼠標複製目錄路徑。
5、按下快捷鍵」Windows + R「調出運行窗口,並輸入」CMD「點擊」確定「打開dos運行終端界面。
6、依次如圖示輸入「d:」進入D盤、輸入「cd D:\Python36\jieba-0.42.1\jieba-0.42.1」進入setup.py文件所在目錄。
7、輸入「python setup.py install」命令安裝jieba。
8、輸入命令」python「打開python運行終端界面。
9、輸入命令」import jieba「沒有報錯,說明jieba安裝完成。
10、下面執行一個測試用例,輸入如下內容並回車:jieba.lcut(“我愛中國");可以看到jieba已經成功將這句話分詞,說明jieba安裝成功。
安裝jieba庫為什麼一直在加載
庫不認識這個安裝路徑。
安裝路徑不是默認的,其它Python不認識這個安裝路徑。
解決方法,先打開瀏覽器進入python官網,打開jieba下載首頁。點擊Downloadfiles並點擊下載。將其解壓到指定目錄,找到解壓目錄裏面的setuppy文件,並用鼠標複製目錄路徑。打開運行窗口輸入CMD點擊確定打開dos運行終端界面。依次如圖示輸入d進入D盤、輸入口令進入文件所在目錄。輸入命令安裝jieba。打開python運行終端界面。輸入命令importjieba沒有報錯,說明jieba安裝完成。
python中怎麼安裝jieba庫
首先點擊桌面左下角的開始圖標,然後選擇運行。
(推薦教程:Python入門教程)
在彈出的窗口中輸入cmd,然後點擊確定。
輸入:pip install jieba,然後按下回車鍵會自動開始安裝。
安裝成功後輸入:python -m pip list,然後按下回車鍵來看下jieba庫是否安裝成功。
輸入:python,按下回車鍵,進入python解釋器。
輸入代碼:import jieba,導入這個庫,如果不報錯就時安裝成功啦。
原創文章,作者:小藍,如若轉載,請註明出處:https://www.506064.com/zh-hk/n/249566.html