本文目錄一覽:
- 1、【Python基礎】python數據分析需要哪些庫?
- 2、python中的nltk是什麼
- 3、如何查看python2.7的nltk
- 4、如何用 Python 中的 NLTK 對中文進行分析和處理
- 5、python數據分析需要哪些庫?
【Python基礎】python數據分析需要哪些庫?
1.Numpy庫
是Python開源的數值計算擴展工具,提供了Python對多維數組的支持,能夠支持高級的維度數組與矩陣運算。此外,針對數組運算也提供了大量的數學函數庫,Numpy是大部分Python科學計算的基礎,具有很多功能。
2.Pandas庫
是一個基於Numpy的數據分析包,為了解決數據分析任務而創建的。Pandas中納入了大量庫和標準的數據模型,提供了高效地操作大型數據集所需要的函數和方法,使用戶能快速便捷地處理數據。
3.Matplotlib庫
是一個用在Python中繪製數組的2D圖形庫,雖然它起源於模仿MATLAB圖形命令,但它獨立於MATLAB,可以通過Pythonic和面向對象的方式使用,是Python中最出色的繪圖庫。主要用純Python語言編寫的,它大量使用Numpy和其他擴展代碼,即使對大型數組也能提供良好的性能。
4.Seaborn庫
是Python中基於Matplotlib的數據可視化工具,提供了很多高層封裝的函數,幫助數據分析人員快速繪製美觀的數據圖形,從而避免了許多額外的參數配置問題。
5.NLTK庫
被稱為使用Python進行教學和計算語言學工作的最佳工具,以及用自然語言進行遊戲的神奇圖書館。NLTK是一個領先的平台,用於構建使用人類語言數據的Python程序,它為超過50個語料庫和詞彙資源提供了易於使用的接口,還提供了一套文本處理庫,用於分類、標記化、詞幹化、解析和語義推理、NLP庫的包裝器和一個活躍的討論社區。
python中的nltk是什麼
nltk(natural language toolkit)是python的自然語言處理工具包。自然語言是指人們日常交流使用的語言,如英語,印地語,葡萄牙語等。“自然語言處理”(Natural Language Processing 簡稱NLP)包含所有用計算機對自然語言進行的操作,從最簡單的通過計數詞出現的頻率來比較不同的寫作風格,到最複雜的完全“理解”人所說的話,至少要能達到對人的話語作出有效反應的程度。
如何查看python2.7的nltk
1.安裝Python(我安裝的是Python2.7,目錄C:\Python27)
可以到CSDN、OSChina、Sina Share等網站下載
也可以到Python官網下載:
2.安裝NumPy(可選)
到這裡下載:
注意Py版本
下載之後執行exe文件(程序會自動搜索python27目錄)
3.安裝NLTK(我下載的是nltk-2.0.3)
到這裡下載:
把nltk-2.0.3解壓到C:\Python27目錄
打開cmd,進到C:\Python27\nltk-2.0.3目錄(輸入:cd C:\Python27\nltk-2.0.3)
輸入命令:python setup.py install
4.安裝PyYAML:
到這裡下載:
注意Py版本
下載之後執行exe文件(程序會自動搜索python27目錄)
5.打開IDLE,輸入import nltk,沒有錯誤的話,就說明安裝成功了。
到這裡,NLP所需的基本python模塊都已經安裝好了,然後要安裝NLTK_DATA了
下載NLTK_DATA有好幾種方法,這裡我只介紹一種
6.繼續第五步,已經import nltk了,然後輸入nltk.download(),這樣就可以打開一個NLTK Downloader(NLTK下載器)
7.注意下載器下邊的Download Directory,我設置的是C:\nltk_data
8.在計算機-屬性-高級系統設置-高級-環境變量-系統變量-新建:上邊:NLTK_DATA,下邊:C:\nltk_data
9.選擇你要下載的包(語料庫、模塊),可以一次性下載(我在下載過程中總是出現out of date),也可以逐個下載(我就這麼做的。。。)
10.成功安裝包之後怎麼測試呢?輸入下邊的語句就可以。
from nltk.corpus import brown
brown.words()
[‘The’, ‘Fulton’, ‘County’, ‘Grand’, ‘Jury’, ‘said’, …]
如何用 Python 中的 NLTK 對中文進行分析和處理
我感覺用nltk 處理中文是完全可用的。其重點在於中文分詞和文本表達的形式。
中文和英文主要的不同之處是中文需要分詞。因為nltk 的處理粒度一般是詞,所以必須要先對文本進行分詞然後再用nltk 來處理(不需要用nltk 來做分詞,直接用分詞包就可以了。嚴重推薦結巴分詞,非常好用)。
中文分詞之後,文本就是一個由每個詞組成的長數組:[word1, word2, word3…… wordn]。之後就可以使用nltk 裡面的各種方法來處理這個文本了。比如用FreqDist 統計文本詞頻,用bigrams 把文本變成雙詞組的形式:[(word1, word2), (word2, word3), (word3, word4)……(wordn-1, wordn)]。
python數據分析需要哪些庫?
1.Numpy庫
是Python開源的數值計算擴展工具,提供了Python對多維數組的支持,能夠支持高級的維度數組與矩陣運算。此外,針對數組運算也提供了大量的數學函數庫,Numpy是大部分Python科學計算的基礎,具有很多功能。
2.Pandas庫
是一個基於Numpy的數據分析包,為了解決數據分析任務而創建的。Pandas中納入了大量庫和標準的數據模型,提供了高效地操作大型數據集所需要的函數和方法,使用戶能快速便捷地處理數據。
3.Matplotlib庫
是一個用在Python中繪製數組的2D圖形庫,雖然它起源於模仿MATLAB圖形命令,但它獨立於MATLAB,可以通過Pythonic和面向對象的方式使用,是Python中Z出色的繪圖庫。主要用純Python語言編寫的,它大量使用Numpy和其他擴展代碼,即使對大型數組也能提供良好的性能。
4.Seaborn庫
是Python中基於Matplotlib的數據可視化工具,提供了很多高層封裝的函數,幫助數據分析人員快速繪製美觀的數據圖形,從而避免了許多額外的參數配置問題。
5.NLTK庫
被稱為使用Python進行教學和計算語言學工作的Z佳工具,以及用自然語言進行遊戲的神奇圖書館。NLTK是一個領先的平台,用於構建使用人類語言數據的Python程序,它為超過50個語料庫和詞彙資源提供了易於使用的接口,還提供了一套文本處理庫,用於分類、標記化、詞幹化、解析和語義推理、NLP庫的包裝器和一個活躍的討論社區。
原創文章,作者:簡單一點,如若轉載,請註明出處:https://www.506064.com/zh-hant/n/127889.html