本文目錄一覽:
python數據分析方向的第三方庫是什麼
Python除了有200個標準庫以外,還有10萬個第三方擴展庫,囊括了方方面面。其中做數據分析最常用到的庫有4個:
Numpy
Numpy是Python科學計算的基礎包。它除了為Python提供快速的數組處理能力,還是在演算法和庫之間傳遞數據的容器。對於數值型數據,NumPy數組在存儲和處理數據時要比內置的 Python數據結構高效得多。此外,由低級語言(比如C和Fortran)編寫的庫可以直接操作NumPy 數組中的數據,無需進行任何數據複製工作。因此,許多Python的數值計算工具要麼使用NumPy 數組作為主要的數據結構,要麼可以與NumPy進行無縫交互操作。
Pandas
Pandas提供了快速便捷處理結構化數據的大量數據結構和函數,兼具NumPy高性能的數組計算功能以及電子表格和關係型資料庫(如SQL)靈活的數據處理功能。它提供了複雜精細的索引功能,能更加便捷地完成重塑、切片和切塊、聚合以及選取數據子集等操作。因為數據操作、準備、清洗是數據分析最重要的技能,所以Pandas也是學習的重點。
Matplotlib
Matplotlib是最流行的用於繪製圖表和其它二維數據可視化的Python庫,它非常適合創建出版物上用的圖表。雖然還有其它的Python可視化庫,但Matplotlib卻是使用最廣泛的,並且它和其它生態工具配合也非常完美。
Scikit-learn
Scikit-learn是Python的通用機器學習工具包。它的子模塊包括分類、回歸、聚類、降維、選型、預處理,對於Python成為高效數據科學編程語言起到了關鍵作用。
python數據挖掘工具包有什麼優缺點?
【導讀】python數據挖掘工具包就是scikit-learn,scikit-learn是一個基於NumPy, SciPy,
Matplotlib的開源機器學習工具包,主要涵蓋分類,回歸和聚類演算法,例如SVM,
邏輯回歸,樸素貝葉斯,隨機森林,k-means等演算法,代碼和文檔都非常不錯,在許多Python項目中都有應用。
優點:
1、文檔齊全:官方文檔齊全,更新及時。
2、介面易用:針對所有演算法提供了一致的介面調用規則,不管是KNN、K-Means還是PCA.
3、演算法全面:涵蓋主流機器學習任務的演算法,包括回歸演算法、分類演算法、聚類分析、數據降維處理等。
缺點:
缺點是scikit-learn不支持分散式計算,不適合用來處理超大型數據。
Pandas是一個強大的時間序列數據處理工具包,Pandas是基於Numpy構建的,比Numpy的使用更簡單。最初開發的目的是為了分析財經數據,現在已經廣泛應用在Python數據分析領域中。Pandas,最基礎的數據結構是Series,用它來表達一行數據,可以理解為一維的數組。另一個關鍵的數據結構為DataFrame,它表示的是二維數組
Pandas是基於NumPy和Matplotlib開發的,主要用於數據分析和數據可視化,它的數據結構DataFrame和R語言里的data.frame很像,特別是對於時間序列數據有自己的一套分析機制。有一本書《Python
for Data Analysis》,作者是Pandas的主力開發,依次介紹了iPython, NumPy,
Pandas里的相關功能,數據可視化,數據清洗和加工,時間數據處理等,案例包括金融股票數據挖掘等,相當不錯。
Mlpy是基於NumPy/SciPy的Python機器學習模塊,它是Cython的擴展應用。
關於python數據挖掘工具包的優缺點,就給大家介紹到這裡了,scikit-learn提供了一致的調用介面。它基於Numpy和scipy等Python數值計算庫,提供了高效的演算法實現,所以想要學習python,以上的內容得學會。
python scikit-learn 有什麼演算法
1,前言
很久不發文章,主要是Copy別人的總感覺有些不爽,所以整理些乾貨,希望相互學習吧。不啰嗦,進入主題吧,本文主要時說的為樸素貝葉斯分類演算法。與邏輯回歸,決策樹一樣,是較為廣泛使用的有監督分類演算法,簡單且易於理解(號稱十大數據挖掘演算法中最簡單的演算法)。但其在處理文本分類,郵件分類,拼寫糾錯,中文分詞,統計機器翻譯等自然語言處理範疇較為廣泛使用,或許主要得益於基於概率理論,本文主要為小編從理論理解到實踐的過程記錄。
2,公式推斷
一些貝葉斯定理預習知識:我們知道當事件A和事件B獨立時,P(AB)=P(A)(B),但如果事件不獨立,則P(AB)=P(A)P(B|A)。為兩件事件同時發生時的一般公式,即無論事件A和B是否獨立。當然也可以寫成P(AB)=P(B)P(A|B),表示若要兩件事同事發生,則需要事件B發生後,事件A也要發生。
由上可知,P(A)P(B|A)= P(B)P(A|B)
推出P(B|A)=
其中P(B)為先驗概率,P(B|A)為B的後驗概率,P(A|B)為A的後驗概率(在這裡也為似然值),P(A)為A的先驗概率(在這也為歸一化常量)。
由上推導可知,其實樸素貝葉斯法就是在貝葉斯定理基礎上,加上特徵條件獨立假設,對特定輸入的X(樣本,包含N個特徵),求出後驗概率最大值時的類標籤Y(如是否為垃圾郵件),理解起來比邏輯回歸要簡單多,有木有,這也是本演算法優點之一,當然運行起來由於得益於特徵獨立假設,運行速度也更快。
. 參數估計
3,參數估計
由上面推斷出的公式,我們知道其實樸素貝葉斯方法的學習就是對概率P(Y=ck)和P(X(j)=x(j)|Y=ck)的估計。我們可以用極大似然估計法估計上述先驗概率和條件概率。
其中I(x)為指示函數,若括弧內成立,則計1,否則為0。李航的課本直接給出了用極大似然(MLE)估計求出的結果,並沒給推導過程,
我們知道,貝葉斯較為常見的問題為0概率問題。為此,需要平滑處理,主要使用拉普拉斯平滑,如下所示:
K是類的個數,Sj是第j維特徵的最大取值。實際上平滑因子λ=0即為最大似然估計,這時會出現提到的0概率問題;而λ=1則避免了0概率問題,這種方法被稱為拉普拉斯平滑。
4,演算法流程
5,樸素貝葉斯演算法優缺點
優點:樸素貝葉斯模型發源於古典數學理論,有著堅實的數學基礎,以及穩定的分類效率
需調參較少,簡單高效,尤其是在文本分類/垃圾文本過濾/情感判別等自然語言處理有廣泛應用。
在樣本量較少情況下,也能獲得較好效果,計算複雜度較小,即使在多分類問題。
無論是類別類輸入還是數值型輸入(默認符合正態分布)都有相應模型可以運用。
缺點:0概率問題,需要平滑處理,通常為拉普拉斯平滑,但加一平滑不一定為效果最好,
樸素貝葉斯有分布獨立的假設前提,生活中較少完全獨立,在屬性個數比較多或者屬性之間相關性較大時,NBC模型的分類效率比不上決策樹模型。而在屬性相關性較小時,NBC模型的性能最為良好。
模型注意點:
1, 大家也知道,很多特徵是連續數值型的,一般選擇使用樸素貝葉斯高斯模型。
2, 為避免0概率事件,記得平滑,簡單一點可以用『拉普拉斯平滑』。先處理處理特徵,把相關特徵去掉,
3, 樸素貝葉斯分類器一般可調參數比較少,需集中精力進行數據的預處理等特徵工程工作。
6,Scikit-learn三大樸素貝葉斯模型
Scikit-learn裡面有3種不同類型的樸素貝葉斯(:
1, 高斯分布型模型:用於classification問題,假定屬性/特徵是服從正態分布的,一般用在數值型特徵。,
2, 多項式型模型:用於離散值模型里。比如文本分類問題裡面我們提到過,我們不光看詞語是否在文本中出現,也得看出現的次數。如果總詞數為n,出現詞數為m的話,說起來有點像擲骰子n次出現m次這個詞的場景。
3, 伯努利模型:這種情況下,就如提到的bag ofwords處理方式一樣,最後得到的特徵只有0(沒出現)和1(出現過)。
7. Scikit-learn演算法實踐
小編通過實現樸素貝葉斯三種模型以及主要分類演算法,對比發現跟SVM,隨機森林,融合演算法相比,貝葉斯差距明顯,但其時間消耗要遠低於上述演算法,以下為主要演算法主要評估指標)。
8. Python代碼
# -*-coding: utf-8 -*-
importtime
fromsklearn import metrics
fromsklearn.naive_bayes import GaussianNB
fromsklearn.naive_bayes import MultinomialNB
fromsklearn.naive_bayes import BernoulliNB
fromsklearn.neighbors import KNeighborsClassifier
fromsklearn.linear_model import LogisticRegression
fromsklearn.ensemble import RandomForestClassifier
fromsklearn import tree
fromsklearn.ensemble import GradientBoostingClassifier
fromsklearn.svm import SVC
importnumpy as np
importurllib
# urlwith dataset
url =”-learning-databases/pima-indians-diabetes/pima-indians-diabetes.data”
#download the file
raw_data= urllib.request.urlopen(url)
#load the CSV file as a numpy matrix
dataset= np.loadtxt(raw_data, delimiter=”,”)
#separate the data from the target attributes
X =dataset[:,0:7]
#X=preprocessing.MinMaxScaler().fit_transform(x)
#print(X)
y =dataset[:,8]
print(“\n調用scikit的樸素貝葉斯演算法包GaussianNB “)
model= GaussianNB()
start_time= time.time()
model.fit(X,y)
print(‘training took %fs!’ % (time.time() – start_time))
print(model)
expected= y
predicted= model.predict(X)
print(metrics.classification_report(expected,predicted))
print(metrics.confusion_matrix(expected,predicted))
print(“\n調用scikit的樸素貝葉斯演算法包MultinomialNB “)
model= MultinomialNB(alpha=1)
start_time= time.time()
model.fit(X,y)
print(‘training took %fs!’ % (time.time() – start_time))
print(model)
expected= y
predicted= model.predict(X)
print(metrics.classification_report(expected,predicted))
print(metrics.confusion_matrix(expected,predicted))
print(“\n調用scikit的樸素貝葉斯演算法包BernoulliNB “)
model= BernoulliNB(alpha=1,binarize=0.0)
start_time= time.time()
model.fit(X,y)
print(‘training took %fs!’ % (time.time() – start_time))
print(model)
expected= y
predicted= model.predict(X)
print(metrics.classification_report(expected,predicted))
print(metrics.confusion_matrix(expected,predicted))
print(“\n調用scikit的KNeighborsClassifier “)
model= KNeighborsClassifier()
start_time= time.time()
model.fit(X,y)
print(‘training took %fs!’ % (time.time() – start_time))
print(model)
expected= y
predicted= model.predict(X)
print(metrics.classification_report(expected,predicted))
print(metrics.confusion_matrix(expected,predicted))
print(“\n調用scikit的LogisticRegression(penalty=’l2′) “)
model= LogisticRegression(penalty=’l2′)
start_time= time.time()
model.fit(X,y)
print(‘training took %fs!’ % (time.time() – start_time))
print(model)
expected= y
predicted= model.predict(X)
print(metrics.classification_report(expected,predicted))
print(metrics.confusion_matrix(expected,predicted))
print(“\n調用scikit的RandomForestClassifier(n_estimators=8) “)
model= RandomForestClassifier(n_estimators=8)
start_time= time.time()
model.fit(X,y)
print(‘training took %fs!’ % (time.time() – start_time))
print(model)
expected= y
predicted= model.predict(X)
print(metrics.classification_report(expected,predicted))
print(metrics.confusion_matrix(expected,predicted))
print(“\n調用scikit的tree.DecisionTreeClassifier() “)
model= tree.DecisionTreeClassifier()
start_time= time.time()
model.fit(X,y)
print(‘training took %fs!’ % (time.time() – start_time))
print(model)
expected= y
predicted= model.predict(X)
print(metrics.classification_report(expected,predicted))
print(metrics.confusion_matrix(expected,predicted))
print(“\n調用scikit的GradientBoostingClassifier(n_estimators=200) “)
model= GradientBoostingClassifier(n_estimators=200)
start_time= time.time()
model.fit(X,y)
print(‘training took %fs!’ % (time.time() – start_time))
print(model)
expected= y
predicted= model.predict(X)
print(metrics.classification_report(expected,predicted))
print(metrics.confusion_matrix(expected,predicted))
print(“\n調用scikit的SVC(kernel=’rbf’, probability=True) “)
model= SVC(kernel=’rbf’, probability=True)
start_time= time.time()
model.fit(X,y)
print(‘training took %fs!’ % (time.time() – start_time))
print(model)
expected= y
predicted= model.predict(X)
print(metrics.classification_report(expected,predicted))
print(metrics.confusion_matrix(expected,predicted))
“””
# 預處理代碼集錦
importpandas as pd
df=pd.DataFrame(dataset)
print(df.head(3))
print(df.describe())##描述性分析
print(df.corr())##各特徵相關性分析
##計算每行每列數據的缺失值個數
defnum_missing(x):
return sum(x.isnull())
print(“Missing values per column:”)
print(df.apply(num_missing, axis=0)) #axis=0代表函數應用於每一列
print(“\nMissing values per row:”)
print(df.apply(num_missing, axis=1).head()) #axis=1代表函數應用於每一行”””
原創文章,作者:簡單一點,如若轉載,請註明出處:https://www.506064.com/zh-tw/n/130823.html