python的nltk庫（python nltk中文處理）

本文目錄一覽：

1、【Python基礎】python數據分析需要哪些庫？
2、python中的nltk是什麼
3、如何查看python2.7的nltk
4、如何用 Python 中的 NLTK 對中文進行分析和處理
5、python數據分析需要哪些庫？

【Python基礎】python數據分析需要哪些庫？

1.Numpy庫

是Python開源的數值計算擴展工具，提供了Python對多維數組的支持，能夠支持高級的維度數組與矩陣運算。此外，針對數組運算也提供了大量的數學函數庫，Numpy是大部分Python科學計算的基礎，具有很多功能。

2.Pandas庫

是一個基於Numpy的數據分析包，為了解決數據分析任務而創建的。Pandas中納入了大量庫和標準的數據模型，提供了高效地操作大型數據集所需要的函數和方法，使用戶能快速便捷地處理數據。

3.Matplotlib庫

是一個用在Python中繪製數組的2D圖形庫，雖然它起源於模仿MATLAB圖形命令，但它獨立於MATLAB，可以通過Pythonic和面向對象的方式使用，是Python中最出色的繪圖庫。主要用純Python語言編寫的，它大量使用Numpy和其他擴展代碼，即使對大型數組也能提供良好的性能。

4.Seaborn庫

是Python中基於Matplotlib的數據可視化工具，提供了很多高層封裝的函數，幫助數據分析人員快速繪製美觀的數據圖形，從而避免了許多額外的參數配置問題。

5.NLTK庫

被稱為使用Python進行教學和計算語言學工作的最佳工具，以及用自然語言進行遊戲的神奇圖書館。NLTK是一個領先的平台，用於構建使用人類語言數據的Python程序，它為超過50個語料庫和詞彙資源提供了易於使用的接口，還提供了一套文本處理庫，用於分類、標記化、詞幹化、解析和語義推理、NLP庫的包裝器和一個活躍的討論社區。

python中的nltk是什麼

nltk（natural language toolkit)是python的自然語言處理工具包。自然語言是指人們日常交流使用的語言，如英語，印地語，葡萄牙語等。“自然語言處理”（Natural Language Processing 簡稱NLP）包含所有用計算機對自然語言進行的操作，從最簡單的通過計數詞出現的頻率來比較不同的寫作風格，到最複雜的完全“理解”人所說的話，至少要能達到對人的話語作出有效反應的程度。

如何查看python2.7的nltk

1.安裝Python（我安裝的是Python2.7，目錄C:\Python27）

可以到CSDN、OSChina、Sina Share等網站下載

也可以到Python官網下載：

2.安裝NumPy（可選）

到這裡下載：

注意Py版本

下載之後執行exe文件（程序會自動搜索python27目錄）

3.安裝NLTK（我下載的是nltk-2.0.3）

到這裡下載：

把nltk-2.0.3解壓到C:\Python27目錄

打開cmd，進到C:\Python27\nltk-2.0.3目錄（輸入：cd C:\Python27\nltk-2.0.3）

輸入命令：python setup.py install

4.安裝PyYAML：

到這裡下載：

注意Py版本

下載之後執行exe文件（程序會自動搜索python27目錄）

5.打開IDLE，輸入import nltk，沒有錯誤的話，就說明安裝成功了。

到這裡，NLP所需的基本python模塊都已經安裝好了，然後要安裝NLTK_DATA了

下載NLTK_DATA有好幾種方法，這裡我只介紹一種

6.繼續第五步，已經import nltk了，然後輸入nltk.download()，這樣就可以打開一個NLTK Downloader（NLTK下載器）

7.注意下載器下邊的Download Directory，我設置的是C:\nltk_data

8.在計算機-屬性-高級系統設置-高級-環境變量-系統變量-新建：上邊：NLTK_DATA，下邊：C:\nltk_data

9.選擇你要下載的包（語料庫、模塊），可以一次性下載（我在下載過程中總是出現out of date），也可以逐個下載（我就這麼做的。。。）

10.成功安裝包之後怎麼測試呢？輸入下邊的語句就可以。

from nltk.corpus import brown

brown.words()

[‘The’, ‘Fulton’, ‘County’, ‘Grand’, ‘Jury’, ‘said’, …]

如何用 Python 中的 NLTK 對中文進行分析和處理

我感覺用nltk 處理中文是完全可用的。其重點在於中文分詞和文本表達的形式。

中文和英文主要的不同之處是中文需要分詞。因為nltk 的處理粒度一般是詞，所以必須要先對文本進行分詞然後再用nltk 來處理（不需要用nltk 來做分詞，直接用分詞包就可以了。嚴重推薦結巴分詞，非常好用）。

中文分詞之後，文本就是一個由每個詞組成的長數組：[word1, word2, word3…… wordn]。之後就可以使用nltk 裡面的各種方法來處理這個文本了。比如用FreqDist 統計文本詞頻，用bigrams 把文本變成雙詞組的形式：[(word1, word2), (word2, word3), (word3, word4)……(wordn-1, wordn)]。

python數據分析需要哪些庫？

1.Numpy庫

2.Pandas庫

3.Matplotlib庫

是一個用在Python中繪製數組的2D圖形庫，雖然它起源於模仿MATLAB圖形命令，但它獨立於MATLAB，可以通過Pythonic和面向對象的方式使用，是Python中Z出色的繪圖庫。主要用純Python語言編寫的，它大量使用Numpy和其他擴展代碼，即使對大型數組也能提供良好的性能。

4.Seaborn庫

5.NLTK庫

被稱為使用Python進行教學和計算語言學工作的Z佳工具，以及用自然語言進行遊戲的神奇圖書館。NLTK是一個領先的平台，用於構建使用人類語言數據的Python程序，它為超過50個語料庫和詞彙資源提供了易於使用的接口，還提供了一套文本處理庫，用於分類、標記化、詞幹化、解析和語義推理、NLP庫的包裝器和一個活躍的討論社區。

原創文章，作者：簡單一點，如若轉載，請註明出處：https://www.506064.com/zh-hant/n/127889.html

python的nltk庫（python nltk中文處理）

本文目錄一覽：

【Python基礎】python數據分析需要哪些庫？

python中的nltk是什麼

如何查看python2.7的nltk

如何用 Python 中的 NLTK 對中文進行分析和處理

python數據分析需要哪些庫？

相關推薦

發表回復