包含基於python的scikit的詞條

本文目錄一覽：

1、python數據分析方向的第三方庫是什麼
2、python數據挖掘工具包有什麼優缺點?
3、python scikit-learn 有什麼演算法

python數據分析方向的第三方庫是什麼

Python除了有200個標準庫以外，還有10萬個第三方擴展庫，囊括了方方面面。其中做數據分析最常用到的庫有4個：

Numpy

Numpy是Python科學計算的基礎包。它除了為Python提供快速的數組處理能力，還是在演算法和庫之間傳遞數據的容器。對於數值型數據，NumPy數組在存儲和處理數據時要比內置的 Python數據結構高效得多。此外，由低級語言（比如C和Fortran）編寫的庫可以直接操作NumPy 數組中的數據，無需進行任何數據複製工作。因此，許多Python的數值計算工具要麼使用NumPy 數組作為主要的數據結構，要麼可以與NumPy進行無縫交互操作。

Pandas

Pandas提供了快速便捷處理結構化數據的大量數據結構和函數，兼具NumPy高性能的數組計算功能以及電子表格和關係型資料庫（如SQL）靈活的數據處理功能。它提供了複雜精細的索引功能，能更加便捷地完成重塑、切片和切塊、聚合以及選取數據子集等操作。因為數據操作、準備、清洗是數據分析最重要的技能，所以Pandas也是學習的重點。

Matplotlib

Matplotlib是最流行的用於繪製圖表和其它二維數據可視化的Python庫，它非常適合創建出版物上用的圖表。雖然還有其它的Python可視化庫，但Matplotlib卻是使用最廣泛的，並且它和其它生態工具配合也非常完美。

Scikit-learn

Scikit-learn是Python的通用機器學習工具包。它的子模塊包括分類、回歸、聚類、降維、選型、預處理，對於Python成為高效數據科學編程語言起到了關鍵作用。

python數據挖掘工具包有什麼優缺點?

【導讀】python數據挖掘工具包就是scikit-learn，scikit-learn是一個基於NumPy, SciPy,

Matplotlib的開源機器學習工具包，主要涵蓋分類，回歸和聚類演算法，例如SVM，

邏輯回歸，樸素貝葉斯，隨機森林，k-means等演算法，代碼和文檔都非常不錯，在許多Python項目中都有應用。

優點：

1、文檔齊全：官方文檔齊全，更新及時。

2、介面易用：針對所有演算法提供了一致的介面調用規則，不管是KNN、K-Means還是PCA.

3、演算法全面：涵蓋主流機器學習任務的演算法，包括回歸演算法、分類演算法、聚類分析、數據降維處理等。

缺點：

缺點是scikit-learn不支持分散式計算，不適合用來處理超大型數據。

Pandas是一個強大的時間序列數據處理工具包，Pandas是基於Numpy構建的，比Numpy的使用更簡單。最初開發的目的是為了分析財經數據，現在已經廣泛應用在Python數據分析領域中。Pandas，最基礎的數據結構是Series，用它來表達一行數據，可以理解為一維的數組。另一個關鍵的數據結構為DataFrame，它表示的是二維數組

Pandas是基於NumPy和Matplotlib開發的，主要用於數據分析和數據可視化，它的數據結構DataFrame和R語言里的data.frame很像，特別是對於時間序列數據有自己的一套分析機制。有一本書《Python

for Data Analysis》，作者是Pandas的主力開發，依次介紹了iPython, NumPy,

Pandas里的相關功能，數據可視化，數據清洗和加工，時間數據處理等，案例包括金融股票數據挖掘等，相當不錯。

Mlpy是基於NumPy/SciPy的Python機器學習模塊，它是Cython的擴展應用。

關於python數據挖掘工具包的優缺點，就給大家介紹到這裡了，scikit-learn提供了一致的調用介面。它基於Numpy和scipy等Python數值計算庫，提供了高效的演算法實現，所以想要學習python，以上的內容得學會。

python scikit-learn 有什麼演算法

1，前言

很久不發文章，主要是Copy別人的總感覺有些不爽，所以整理些乾貨，希望相互學習吧。不啰嗦，進入主題吧，本文主要時說的為樸素貝葉斯分類演算法。與邏輯回歸，決策樹一樣，是較為廣泛使用的有監督分類演算法，簡單且易於理解（號稱十大數據挖掘演算法中最簡單的演算法）。但其在處理文本分類，郵件分類，拼寫糾錯，中文分詞，統計機器翻譯等自然語言處理範疇較為廣泛使用，或許主要得益於基於概率理論，本文主要為小編從理論理解到實踐的過程記錄。

2，公式推斷

一些貝葉斯定理預習知識：我們知道當事件A和事件B獨立時，P（AB）=P（A）（B），但如果事件不獨立，則P（AB）=P（A）P（B|A）。為兩件事件同時發生時的一般公式，即無論事件A和B是否獨立。當然也可以寫成P（AB）=P（B）P（A|B），表示若要兩件事同事發生，則需要事件B發生後，事件A也要發生。

由上可知，P（A）P（B|A）= P（B）P（A|B）

推出P（B|A）=

其中P（B）為先驗概率，P（B|A）為B的後驗概率，P（A|B）為A的後驗概率（在這裡也為似然值），P（A）為A的先驗概率（在這也為歸一化常量）。

由上推導可知，其實樸素貝葉斯法就是在貝葉斯定理基礎上，加上特徵條件獨立假設，對特定輸入的X（樣本，包含N個特徵），求出後驗概率最大值時的類標籤Y（如是否為垃圾郵件），理解起來比邏輯回歸要簡單多，有木有，這也是本演算法優點之一，當然運行起來由於得益於特徵獨立假設，運行速度也更快。

. 參數估計

3，參數估計

由上面推斷出的公式，我們知道其實樸素貝葉斯方法的學習就是對概率P(Y=ck)和P(X(j)=x(j)|Y=ck)的估計。我們可以用極大似然估計法估計上述先驗概率和條件概率。

其中I(x)為指示函數，若括弧內成立，則計1，否則為0。李航的課本直接給出了用極大似然（MLE）估計求出的結果，並沒給推導過程，

我們知道，貝葉斯較為常見的問題為0概率問題。為此，需要平滑處理，主要使用拉普拉斯平滑，如下所示：

K是類的個數，Sj是第j維特徵的最大取值。實際上平滑因子λ=0即為最大似然估計，這時會出現提到的0概率問題；而λ=1則避免了0概率問題，這種方法被稱為拉普拉斯平滑。

4，演算法流程

5，樸素貝葉斯演算法優缺點

優點：樸素貝葉斯模型發源於古典數學理論，有著堅實的數學基礎，以及穩定的分類效率

需調參較少，簡單高效，尤其是在文本分類/垃圾文本過濾/情感判別等自然語言處理有廣泛應用。

在樣本量較少情況下，也能獲得較好效果，計算複雜度較小，即使在多分類問題。

無論是類別類輸入還是數值型輸入（默認符合正態分布）都有相應模型可以運用。

缺點：0概率問題，需要平滑處理，通常為拉普拉斯平滑，但加一平滑不一定為效果最好，

樸素貝葉斯有分布獨立的假設前提，生活中較少完全獨立，在屬性個數比較多或者屬性之間相關性較大時，NBC模型的分類效率比不上決策樹模型。而在屬性相關性較小時，NBC模型的性能最為良好。

模型注意點：

1，大家也知道，很多特徵是連續數值型的，一般選擇使用樸素貝葉斯高斯模型。

2，為避免0概率事件，記得平滑，簡單一點可以用『拉普拉斯平滑』。先處理處理特徵，把相關特徵去掉，

3，樸素貝葉斯分類器一般可調參數比較少，需集中精力進行數據的預處理等特徵工程工作。

6，Scikit-learn三大樸素貝葉斯模型

Scikit-learn裡面有3種不同類型的樸素貝葉斯（：

1，高斯分布型模型：用於classification問題，假定屬性/特徵是服從正態分布的，一般用在數值型特徵。,

2，多項式型模型：用於離散值模型里。比如文本分類問題裡面我們提到過，我們不光看詞語是否在文本中出現，也得看出現的次數。如果總詞數為n，出現詞數為m的話，說起來有點像擲骰子n次出現m次這個詞的場景。

3，伯努利模型：這種情況下，就如提到的bag ofwords處理方式一樣，最後得到的特徵只有0(沒出現)和1(出現過)。

7. Scikit-learn演算法實踐

小編通過實現樸素貝葉斯三種模型以及主要分類演算法，對比發現跟SVM，隨機森林，融合演算法相比，貝葉斯差距明顯，但其時間消耗要遠低於上述演算法，以下為主要演算法主要評估指標）。

8. Python代碼

# -*-coding: utf-8 -*-

importtime

fromsklearn import metrics

fromsklearn.naive_bayes import GaussianNB

fromsklearn.naive_bayes import MultinomialNB

fromsklearn.naive_bayes import BernoulliNB

fromsklearn.neighbors import KNeighborsClassifier

fromsklearn.linear_model import LogisticRegression

fromsklearn.ensemble import RandomForestClassifier

fromsklearn import tree

fromsklearn.ensemble import GradientBoostingClassifier

fromsklearn.svm import SVC

importnumpy as np

importurllib

# urlwith dataset

url =”-learning-databases/pima-indians-diabetes/pima-indians-diabetes.data”

#download the file

raw_data= urllib.request.urlopen(url)

#load the CSV file as a numpy matrix

dataset= np.loadtxt(raw_data, delimiter=”,”)

#separate the data from the target attributes

X =dataset[:,0:7]

#X=preprocessing.MinMaxScaler().fit_transform(x)

#print(X)

y =dataset[:,8]

print(“\n調用scikit的樸素貝葉斯演算法包GaussianNB “)

model= GaussianNB()

start_time= time.time()

model.fit(X,y)

print(‘training took %fs!’ % (time.time() – start_time))

print(model)

expected= y

predicted= model.predict(X)

print(metrics.classification_report(expected,predicted))

print(metrics.confusion_matrix(expected,predicted))

print(“\n調用scikit的樸素貝葉斯演算法包MultinomialNB “)

model= MultinomialNB(alpha=1)

start_time= time.time()

model.fit(X,y)

print(‘training took %fs!’ % (time.time() – start_time))

print(model)

expected= y

predicted= model.predict(X)

print(metrics.classification_report(expected,predicted))

print(metrics.confusion_matrix(expected,predicted))

print(“\n調用scikit的樸素貝葉斯演算法包BernoulliNB “)

model= BernoulliNB(alpha=1,binarize=0.0)

start_time= time.time()

model.fit(X,y)

print(‘training took %fs!’ % (time.time() – start_time))

print(model)

expected= y

predicted= model.predict(X)

print(metrics.classification_report(expected,predicted))

print(metrics.confusion_matrix(expected,predicted))

print(“\n調用scikit的KNeighborsClassifier “)

model= KNeighborsClassifier()

start_time= time.time()

model.fit(X,y)

print(‘training took %fs!’ % (time.time() – start_time))

print(model)

expected= y

predicted= model.predict(X)

print(metrics.classification_report(expected,predicted))

print(metrics.confusion_matrix(expected,predicted))

print(“\n調用scikit的LogisticRegression(penalty=’l2′) “)

model= LogisticRegression(penalty=’l2′)

start_time= time.time()

model.fit(X,y)

print(‘training took %fs!’ % (time.time() – start_time))

print(model)

expected= y

predicted= model.predict(X)

print(metrics.classification_report(expected,predicted))

print(metrics.confusion_matrix(expected,predicted))

print(“\n調用scikit的RandomForestClassifier(n_estimators=8) “)

model= RandomForestClassifier(n_estimators=8)

start_time= time.time()

model.fit(X,y)

print(‘training took %fs!’ % (time.time() – start_time))

print(model)

expected= y

predicted= model.predict(X)

print(metrics.classification_report(expected,predicted))

print(metrics.confusion_matrix(expected,predicted))

print(“\n調用scikit的tree.DecisionTreeClassifier() “)

model= tree.DecisionTreeClassifier()

start_time= time.time()

model.fit(X,y)

print(‘training took %fs!’ % (time.time() – start_time))

print(model)

expected= y

predicted= model.predict(X)

print(metrics.classification_report(expected,predicted))

print(metrics.confusion_matrix(expected,predicted))

print(“\n調用scikit的GradientBoostingClassifier(n_estimators=200) “)

model= GradientBoostingClassifier(n_estimators=200)

start_time= time.time()

model.fit(X,y)

print(‘training took %fs!’ % (time.time() – start_time))

print(model)

expected= y

predicted= model.predict(X)

print(metrics.classification_report(expected,predicted))

print(metrics.confusion_matrix(expected,predicted))

print(“\n調用scikit的SVC(kernel=’rbf’, probability=True) “)

model= SVC(kernel=’rbf’, probability=True)

start_time= time.time()

model.fit(X,y)

print(‘training took %fs!’ % (time.time() – start_time))

print(model)

expected= y

predicted= model.predict(X)

print(metrics.classification_report(expected,predicted))

print(metrics.confusion_matrix(expected,predicted))

“””

# 預處理代碼集錦

importpandas as pd

df=pd.DataFrame(dataset)

print(df.head(3))

print(df.describe())##描述性分析

print(df.corr())##各特徵相關性分析

##計算每行每列數據的缺失值個數

defnum_missing(x):

return sum(x.isnull())

print(“Missing values per column:”)

print(df.apply(num_missing, axis=0)) #axis=0代表函數應用於每一列

print(“\nMissing values per row:”)

print(df.apply(num_missing, axis=1).head()) #axis=1代表函數應用於每一行”””

原創文章，作者：簡單一點，如若轉載，請註明出處：https://www.506064.com/zh-tw/n/130823.html

包含基於python的scikit的詞條

本文目錄一覽：

python數據分析方向的第三方庫是什麼

python數據挖掘工具包有什麼優缺點?

python scikit-learn 有什麼演算法

相關推薦

發表回復