聚類異常檢測代碼python（聚類分析程序代碼）

本文目錄一覽：

1、python異常值處理
2、對於異常值的檢測
3、如何用python對文本進行聚類
4、python(unsubscriptable object異常）
5、python代碼如何應用系統聚類和K-means聚類法進行聚類分析？然後選擇變數，建立適當的模型？
6、建議收藏！10 種 Python 聚類演算法完整操作示例

python異常值處理

如果你用 Python 編程，那麼你就無法避開異常，因為異常在這門語言里無處不在。打個比方，當你在腳本執行時按 ctrl+c 退出，解釋器就會產生一個 KeyboardInterrupt 異常。而 KeyError、ValueError、TypeError 等更是日常編程里隨處可見的老朋友。

異常處理工作由「捕獲」和「拋出」兩部分組成。「捕獲」指的是使用 try … except 包裹特定語句，妥當的完成錯誤流程處理。而恰當的使用 raise 主動「拋出」異常，更是優雅代碼里必不可少的組成部分。

異常分類

BaseException 所有異常的基類

Exception 常見錯誤的基類

ArithmeticError 所有數值計算錯誤的基類

Warning 警告的基類

AssertError 斷言語句（assert）失敗

AttributeError 嘗試訪問未知的對象屬性

DeprecattionWarning 關於被棄用的特徵的警告

EOFError 用戶輸入文件末尾標誌EOF（Ctrl+d）

FloattingPointError 浮點計算錯誤

FutureWarning 關於構造將來語義會有改變的警告

GeneratorExit generator.close()方法被調用的時候

ImportError 導入模塊失敗的時候

IndexError 索引超出序列的範圍

KeyError 字典中查找一個不存在的關鍵字

KeyboardInterrupt 用戶輸入中斷鍵（Ctrl+c）

MemoryError 內存溢出（可通過刪除對象釋放內存）

NamerError 嘗試訪問一個不存在的變數

NotImplementedError 尚未實現的方法

OSError 操作系統產生的異常（例如打開一個不存在的文件）

OverflowError 數值運算超出最大限制

OverflowWarning 舊的關於自動提升為長整型（long）的警告

PendingDeprecationWarning 關於特徵會被遺棄的警告

ReferenceError 弱引用（weak reference）試圖訪問一個已經被垃圾回收機制回收了的對象

RuntimeError 一般的運行時錯誤

RuntimeWarning 可疑的運行行為（runtime behavior）的警告

StopIteration 迭代器沒有更多的值

SyntaxError Python的語法錯誤

SyntaxWarning 可疑的語法的警告

IndentationError 縮進錯誤

TabError Tab和空格混合使用

SystemError Python編譯器系統錯誤

SystemExit Python編譯器進程被關閉

TypeError 不同類型間的無效操作

UnboundLocalError 訪問一個未初始化的本地變數（NameError的子類）

UnicodeError Unicode相關的錯誤（ValueError的子類）

UnicodeEncodeError Unicode編碼時的錯誤（UnicodeError的子類）

UnicodeDecodeError Unicode解碼時的錯誤（UnicodeError的子類）

UserWarning 用戶代碼生成的警告

ValueError 傳入無效的參數

ZeroDivisionError 除數為零

對於異常值的檢測

離群點，是一個數據對象，它顯著不同於其他數據對象，與其他數據分布有較為顯著的不同。有時也稱非離群點為「正常數據」，離群點為「異常數據」。

離群點跟雜訊數據不一樣，雜訊是被觀測變數的隨機誤差或方差。一般而言，雜訊在數據分析（包括離群點分析）中不是令人感興趣的，需要在數據預處理中剔除的，減少對後續模型預估的影響，增加精度。

離群點檢測是有意義的，因為懷疑產生它們的分布不同於產生其他數據的分布。因此，在離群點檢測時，重要的是搞清楚是哪種外力產生的離群點。

常見的異常成因:

通常，在其餘數據上做各種假設，並且證明檢測到的離群點顯著違反了這些假設。如統計學中的假設檢驗，基於小概率原理，對原假設進行判斷。一般檢測離群點，是人工進行篩選，剔除不可信的數據，例如對於房屋數據，面積上萬，卧室數量過百等情況。而在面對大量的數據時，人工方法耗時耗力，因此，才有如下的方法進行離群點檢測。

統計學方法是基於模型的方法，即為數據創建一個模型，並且根據對象擬合模型的情況來評估它們。大部分用於離群點檢測的統計學方法都是構建一個概率分布模型，並考慮對象有多大可能符合該模型。

離群點的概率定義：離群點是一個對象，關於數據的概率分布模型，它具有低概率。這種情況的前提是必須知道數據集服從什麼分布，如果估計錯誤就造成了重尾分布。

a. 參數法：

當數據服從正太分布的假設時在正態分布的假定下，u±3σ區域包含99.7%的數據，u±2σ包含95.4%的數據，u±1σ包含68.3%的數據。其區域外的數據視為離群點。

當數據是非正態分布時，可以使用切比雪夫不等式，它對任何分布形狀的數據都適用。根據切比雪夫不等式，至少有(1-1/k 2 )的數據落在±k個標準差之內。所以，有以下結論：

計算得到：通過繪製箱線圖可以直觀地找到離群點，或者通過計算四分位數極差（IQR）定義為Q3-Q1。比Q1小1.5倍的IQR或者比Q3大1.5倍的IQR的任何對象都視為離群點，因為Q1-1.5IQR和Q3+1.5IQR之間的區域包含了99.3%的對象。

涉及兩個或多個屬性或變數的數據稱為多元數據。核心思想是把多元離群點檢測任務轉換成一元離群點檢測問題。

– 卡方統計量的多元離群點檢測：正態分布的假定下，卡方統計量也可以用來捕獲多元離群點，對象，卡方統計量是：，是在第i維上的值，是所有對象在第i維上的均值，而n是維度。如果對象的卡方統計量很大，則該對象是離群點。

b. 非參數法：

構造直方圖

為了構造一個好的直方圖，用戶必須指定直方圖的類型和其他參數（箱數、等寬or等深）。最簡單的方法是，如果該對象落入直方圖的一個箱中，則該對象被看做正常的，否則被認為是離群點。也可以使用直方圖賦予每個對象一個離群點得分，比如對象的離群點得分為該對象落入的箱的容積的倒數。但這個方法很難選擇一個較好的直方圖參數。

注意：

傳統的觀點都認為孤立點是一個單獨的點,然而很多的現實情況是異常事件具有一定的時間和空間的局部性,這種局部性會產生一個小的簇.這時候離群點（孤立點）實際上是一個小簇（圖下圖的C1和C3）。

一個對象是異常的，如果它遠離大部分點。這種方法比統計學方法更一般、更容易使用，因為確定數據集的有意義的鄰近性度量比確定它的統計分布更容易。不依賴統計檢驗，將基於鄰近度的離群點看作是那些沒有「足夠多「鄰居的對象。這裡的鄰居是用鄰近度（距離）來定義的。最常用的距離是絕對距離（曼哈頓）和歐氏距離等等。

一個對象的離群點得分由到它的k-最近鄰的距離給定。離群點得分對k的取值高度敏感。如果k太小，則少量的鄰近離群點可能導致離群點較少；如果K太大，則點數少於k的簇中所有的對象可能都成了離群點，導致離群點過多。為了使該方案對於k的選取更具有魯棒性，可以使用k個最近鄰的平均距離。

從基於密度的觀點來說，離群點是在低密度區域中的對象。一個對象的離群點得分是該對象周圍密度的逆。基於密度的離群點檢測與基於鄰近度的離群點檢測密切相關，因為密度通常用鄰近度定義。

定義密度

一種常用的定義密度的方法是，定義密度為到k個最近鄰的平均距離的倒數。如果該距離小，則密度高，反之亦然。

另一種密度定義是使用DBSCAN聚類演算法使用的密度定義，即一個對象周圍的密度等於該對象指定距離d內對象的個數。需要小心的選擇d，如果d太小，則許多正常點可能具有低密度，從而離群點較多。如果d太大，則許多離群點可能具有與正常點類似的密度（和離群點得分）無法區分。使用任何密度定義檢測離群點具有與基於鄰近度的離群點方案類似的特點和局限性。特殊地，當數據包含不同密度的區域時，它們不能正確的識別離群點。

定義相對密度

為了正確的識別這種數據集中的離群點，我們需要與對象鄰域相關的密度概念，也就是定義相對密度。常見的有兩種方法：

（1）使用基於SNN密度的聚類演算法使用的方法；

（2）用點x的密度與它的最近鄰y的平均密度之比作為相對密度。使用相對密度的離群點檢測（局部離群點要素LOF技術）:

一種利用聚類檢測離群點的方法是丟棄遠離其他簇的小簇。這個方法可以和其他任何聚類技術一起使用，但是需要最小簇大小和小簇與其他簇之間距離的閾值。這種方案對簇個數的選擇高度敏感。使用這個方案很難將離群點得分附加到對象上。

一種更系統的方法，首先聚類所有的點，對某個待測點評估它屬於某一簇的程度。（基於原型的聚類可用離中心點的距離來評估，對具有目標函數（例如kmeans法時的簇的誤差平方和）的聚類技術，該得分反映刪除對象後目標函數的改進），如果刪去此點能顯著地改善此項目標函數，則可以將該點定位為孤立點。

基於聚類的離群點：一個對象是基於聚類的離群點，如果該對象不強屬於任何簇。離群點對初始聚類的影響：如果通過聚類檢測離群點，則由於離群點影響聚類，存在一個問題：結構是否有效。為了處理該問題，可以使用如下方法：

對象是否被認為是離群點可能依賴於簇的個數（如k很大時的雜訊簇）。該問題也沒有簡單的答案。一種策略是對於不同的簇個數重複該分析。另一種方法是找出大量小簇，其想法是（1）較小的簇傾向於更加凝聚，（2）如果存在大量小簇時一個對象是離群點，則它多半是一個真正的離群點。不利的一面是一組離群點可能形成小簇而逃避檢測。

根據已有訓練集檢測新樣本是否異常

異常檢測根據原始數據集的不同可分為兩類：

novelty detection: 訓練集中沒有異常樣本

outlier detection: 訓練集中有異常樣本

異常樣本：

數量少，比較分散

novelty detection和outlier detection的區別：

Sklearn異常檢測模型一覽

5.1 奇異點檢測（Novelty Detection）

奇異點檢測，就是判斷待測樣本到底是不是在原來數據的概率分布內。概率學上認為，所有的數據都有它的隱藏的分布模式，這種分布模式可以由概率模型來具象化。

5.1 離群點檢測（Outlier Detection）

不同與奇異點檢測是，現在我們沒有一個乾淨的訓練集（訓練集中也有雜訊樣本）。下面介紹的三種離群點檢測演算法其實也都可以用於奇異點檢測。

如果我們認為，可達密度小的目標樣本點就是異常點，這樣未嘗不可。但是，LOF演算法更進一步。

LOF可以用來判斷經緯度的異常。

使用python進行異常值(outlier)檢測實戰:KMeans + PCA + IsolationForest + SVM + EllipticEnvelope

文章引用：數據挖掘：數據清洗——異常值處理

如何用python對文本進行聚類

實現原理：

首先從Tourist_spots_5A_BD.txt中讀取景點信息，然後通過調用無界面瀏覽器PhantomJS（Firefox可替代）訪問百度百科鏈接””，通過Selenium獲取輸入對話框ID，輸入關鍵詞如”故宮”，再訪問該百科頁面。最後通過分析DOM樹結構獲取摘要的ID並獲取其值。核心代碼如下：

driver.find_elements_by_xpath(“//div[@class=’lemma-summary’]/div”)

PS：Selenium更多應用於自動化測試，推薦Python爬蟲使用scrapy等開源工具。

# coding=utf-8

“””

Created on 2015-09-04 @author: Eastmount

“””

import time

import re

import os

import sys

import codecs

import shutil

from selenium import webdriver

from selenium.webdriver.common.keys import Keys

import selenium.webdriver.support.ui as ui

from selenium.webdriver.common.action_chains import ActionChains

#Open PhantomJS

driver = webdriver.PhantomJS(executable_path=”G:\phantomjs-1.9.1-windows\phantomjs.exe”)

#driver = webdriver.Firefox()

wait = ui.WebDriverWait(driver,10)

#Get the Content of 5A tourist spots

def getInfobox(entityName, fileName):

try:

#create paths and txt files

print u’文件名稱: ‘, fileName

info = codecs.open(fileName, ‘w’, ‘utf-8’)

#locate input notice: 1.visit url by unicode 2.write files

#Error: Message: Element not found in the cache –

# Perhaps the page has changed since it was looked up

#解決方法: 使用Selenium和Phantomjs

print u’實體名稱: ‘, entityName.rstrip(‘\n’)

driver.get(“”)

elem_inp = driver.find_element_by_xpath(“//form[@id=’searchForm’]/input”)

elem_inp.send_keys(entityName)

elem_inp.send_keys(Keys.RETURN)

info.write(entityName.rstrip(‘\n’)+’\r\n’) #codecs不支持’\n’換行

time.sleep(2)

#load content 摘要

elem_value = driver.find_elements_by_xpath(“//div[@class=’lemma-summary’]/div”)

for value in elem_value:

print value.text

info.writelines(value.text + ‘\r\n’)

time.sleep(2)

except Exception,e: #’utf8′ codec can’t decode byte

print “Error: “,e

finally:

print ‘\n’

info.close()

#Main function

def main():

#By function get information

path = “BaiduSpider\\”

if os.path.isdir(path):

shutil.rmtree(path, True)

os.makedirs(path)

source = open(“Tourist_spots_5A_BD.txt”, ‘r’)

num = 1

for entityName in source:

entityName = unicode(entityName, “utf-8”)

if u’故宮’ in entityName: #else add a ‘?’

entityName = u’北京故宮’

name = “%04d” % num

fileName = path + str(name) + “.txt”

getInfobox(entityName, fileName)

num = num + 1

print ‘End Read Files!’

source.close()

driver.close()

if __name__ == ‘__main__’:

main()

python(unsubscriptable object異常）

python(unsubscriptable object異常），是設置錯誤造成的，解決方法如下；

1、首先創建一個py文件，輸入「for i in range(10):y=1if i==5:y=0i=i/yprint(i)」代碼，如下圖所示。

2、運行py文件，可以看到程序運行到i等於5的時候出現了分母為0的異常，程序中斷不繼續執行，如下圖所示。

3、這時將可能出現異常的代碼添加try…except…語句，代碼如下圖。

4、運行py文件，可以看到python已經跳過異常繼續執行了，如下圖所示。

5、如果是函數調用可能出現異常的話，可以在函數外面使用try…except…語句，這樣程序出現異常了，可以繼續執行。

python代碼如何應用系統聚類和K-means聚類法進行聚類分析？然後選擇變數，建立適當的模型？

-Means聚類演算法

k-means演算法以k為參數，把n個對象分成k個簇，使簇內具有較高的相似度，而簇間的相似度較低。

隨機選擇k個點作為初始的聚類中心。

對於剩下的點，根據其與聚類中心的距離，將其歸入最近的簇。

對每個簇，計算所有點的均值作為新的聚類中心。

重複2，3直到聚類中心不再發生改變

Figure 1

K-means的應用

數據介紹：

現有1999年全國31個省份城鎮居民家庭平均每人全年消費性支出的八大主要變數數據，這八大變數分別是：食品、衣著、家庭設備用品及服務、醫療保健、交通和通訊、娛樂教育文化服務、居住以及雜項商品和服務。利用已有數據，對31個省份進行聚類。

實驗目的：

通過聚類，了解1999年各個省份的消費水平在國內的情況。

技術路線：

sklearn.cluster.Kmeans

數據實例：

建議收藏！10 種 Python 聚類演算法完整操作示例

聚類或聚類分析是無監督學習問題。它通常被用作數據分析技術，用於發現數據中的有趣模式，例如基於其行為的客戶群。有許多聚類演算法可供選擇，對於所有情況，沒有單一的最佳聚類演算法。相反，最好探索一系列聚類演算法以及每種演算法的不同配置。在本教程中，你將發現如何在 python 中安裝和使用頂級聚類演算法。完成本教程後，你將知道：

聚類分析，即聚類，是一項無監督的機器學習任務。它包括自動發現數據中的自然分組。與監督學習（類似預測建模）不同，聚類演算法只解釋輸入數據，並在特徵空間中找到自然組或群集。

群集通常是特徵空間中的密度區域，其中來自域的示例（觀測或數據行）比其他群集更接近群集。群集可以具有作為樣本或點特徵空間的中心(質心)，並且可以具有邊界或範圍。

聚類可以作為數據分析活動提供幫助，以便了解更多關於問題域的信息，即所謂的模式發現或知識發現。例如：

聚類還可用作特徵工程的類型，其中現有的和新的示例可被映射並標記為屬於數據中所標識的群集之一。雖然確實存在許多特定於群集的定量措施，但是對所識別的群集的評估是主觀的，並且可能需要領域專家。通常，聚類演算法在人工合成數據集上與預先定義的群集進行學術比較，預計演算法會發現這些群集。

有許多類型的聚類演算法。許多演算法在特徵空間中的示例之間使用相似度或距離度量，以發現密集的觀測區域。因此，在使用聚類演算法之前，擴展數據通常是良好的實踐。

一些聚類演算法要求您指定或猜測數據中要發現的群集的數量，而另一些演算法要求指定觀測之間的最小距離，其中示例可以被視為「關閉」或「連接」。因此，聚類分析是一個迭代過程，在該過程中，對所識別的群集的主觀評估被反饋回演算法配置的改變中，直到達到期望的或適當的結果。scikit-learn 庫提供了一套不同的聚類演算法供選擇。下面列出了10種比較流行的演算法：

每個演算法都提供了一種不同的方法來應對數據中發現自然組的挑戰。沒有最好的聚類演算法，也沒有簡單的方法來找到最好的演算法為您的數據沒有使用控制實驗。在本教程中，我們將回顧如何使用來自 scikit-learn 庫的這10個流行的聚類演算法中的每一個。這些示例將為您複製粘貼示例並在自己的數據上測試方法提供基礎。我們不會深入研究演算法如何工作的理論，也不會直接比較它們。讓我們深入研究一下。

在本節中，我們將回顧如何在 scikit-learn 中使用10個流行的聚類演算法。這包括一個擬合模型的例子和可視化結果的例子。這些示例用於將粘貼複製到您自己的項目中，並將方法應用於您自己的數據。

1.庫安裝

首先，讓我們安裝庫。不要跳過此步驟，因為你需要確保安裝了最新版本。你可以使用 pip Python 安裝程序安裝 scikit-learn 存儲庫，如下所示：

接下來，讓我們確認已經安裝了庫，並且您正在使用一個現代版本。運行以下腳本以輸出庫版本號。

運行該示例時，您應該看到以下版本號或更高版本。

2.聚類數據集

我們將使用 make _ classification ()函數創建一個測試二分類數據集。數據集將有1000個示例，每個類有兩個輸入要素和一個群集。這些群集在兩個維度上是可見的，因此我們可以用散點圖繪製數據，並通過指定的群集對圖中的點進行顏色繪製。這將有助於了解，至少在測試問題上，群集的識別能力如何。該測試問題中的群集基於多變數高斯，並非所有聚類演算法都能有效地識別這些類型的群集。因此，本教程中的結果不應用作比較一般方法的基礎。下面列出了創建和匯總合成聚類數據集的示例。

運行該示例將創建合成的聚類數據集，然後創建輸入數據的散點圖，其中點由類標籤（理想化的群集）著色。我們可以清楚地看到兩個不同的數據組在兩個維度，並希望一個自動的聚類演算法可以檢測這些分組。

已知聚類著色點的合成聚類數據集的散點圖接下來，我們可以開始查看應用於此數據集的聚類演算法的示例。我已經做了一些最小的嘗試來調整每個方法到數據集。3.親和力傳播親和力傳播包括找到一組最能概括數據的範例。

它是通過 AffinityPropagation 類實現的，要調整的主要配置是將「阻尼」設置為0.5到1，甚至可能是「首選項」。下面列出了完整的示例。

運行該示例符合訓練數據集上的模型，並預測數據集中每個示例的群集。然後創建一個散點圖，並由其指定的群集著色。在這種情況下，我無法取得良好的結果。

數據集的散點圖，具有使用親和力傳播識別的聚類

4.聚合聚類

聚合聚類涉及合併示例，直到達到所需的群集數量為止。它是層次聚類方法的更廣泛類的一部分，通過 AgglomerationClustering 類實現的，主要配置是「 n _ clusters 」集，這是對數據中的群集數量的估計，例如2。下面列出了完整的示例。

運行該示例符合訓練數據集上的模型，並預測數據集中每個示例的群集。然後創建一個散點圖，並由其指定的群集著色。在這種情況下，可以找到一個合理的分組。

使用聚集聚類識別出具有聚類的數據集的散點圖

5.BIRCHBIRCH

聚類（ BIRCH 是平衡迭代減少的縮寫，聚類使用層次結構)包括構造一個樹狀結構，從中提取聚類質心。

它是通過 Birch 類實現的，主要配置是「 threshold 」和「 n _ clusters 」超參數，後者提供了群集數量的估計。下面列出了完整的示例。

運行該示例符合訓練數據集上的模型，並預測數據集中每個示例的群集。然後創建一個散點圖，並由其指定的群集著色。在這種情況下，可以找到一個很好的分組。

使用BIRCH聚類確定具有聚類的數據集的散點圖

6.DBSCANDBSCAN

聚類（其中 DBSCAN 是基於密度的空間聚類的雜訊應用程序）涉及在域中尋找高密度區域，並將其周圍的特徵空間區域擴展為群集。

它是通過 DBSCAN 類實現的，主要配置是「 eps 」和「 min _ samples 」超參數。下面列出了完整的示例。

運行該示例符合訓練數據集上的模型，並預測數據集中每個示例的群集。然後創建一個散點圖，並由其指定的群集著色。在這種情況下，儘管需要更多的調整，但是找到了合理的分組。

使用DBSCAN集群識別出具有集群的數據集的散點圖

7.K均值

K-均值聚類可以是最常見的聚類演算法，並涉及向群集分配示例，以盡量減少每個群集內的方差。

它是通過 K-均值類實現的，要優化的主要配置是「 n _ clusters 」超參數設置為數據中估計的群集數量。下面列出了完整的示例。

運行該示例符合訓練數據集上的模型，並預測數據集中每個示例的群集。然後創建一個散點圖，並由其指定的群集著色。在這種情況下，可以找到一個合理的分組，儘管每個維度中的不等等方差使得該方法不太適合該數據集。

使用K均值聚類識別出具有聚類的數據集的散點圖

8.Mini-Batch

K-均值Mini-Batch K-均值是 K-均值的修改版本，它使用小批量的樣本而不是整個數據集對群集質心進行更新，這可以使大數據集的更新速度更快，並且可能對統計雜訊更健壯。

它是通過 MiniBatchKMeans 類實現的，要優化的主配置是「 n _ clusters 」超參數，設置為數據中估計的群集數量。下面列出了完整的示例。

運行該示例符合訓練數據集上的模型，並預測數據集中每個示例的群集。然後創建一個散點圖，並由其指定的群集著色。在這種情況下，會找到與標準 K-均值演算法相當的結果。

帶有最小批次K均值聚類的聚類數據集的散點圖

9.均值漂移聚類

均值漂移聚類涉及到根據特徵空間中的實例密度來尋找和調整質心。

它是通過 MeanShift 類實現的，主要配置是「帶寬」超參數。下面列出了完整的示例。

運行該示例符合訓練數據集上的模型，並預測數據集中每個示例的群集。然後創建一個散點圖，並由其指定的群集著色。在這種情況下，可以在數據中找到一組合理的群集。

具有均值漂移聚類的聚類數據集散點圖

10.OPTICSOPTICS

聚類（ OPTICS 短於訂購點數以標識聚類結構）是上述 DBSCAN 的修改版本。

它是通過 OPTICS 類實現的，主要配置是「 eps 」和「 min _ samples 」超參數。下面列出了完整的示例。

運行該示例符合訓練數據集上的模型，並預測數據集中每個示例的群集。然後創建一個散點圖，並由其指定的群集著色。在這種情況下，我無法在此數據集上獲得合理的結果。

使用OPTICS聚類確定具有聚類的數據集的散點圖

11.光譜聚類

光譜聚類是一類通用的聚類方法，取自線性線性代數。

它是通過 Spectral 聚類類實現的，而主要的 Spectral 聚類是一個由聚類方法組成的通用類，取自線性線性代數。要優化的是「 n _ clusters 」超參數，用於指定數據中的估計群集數量。下面列出了完整的示例。

運行該示例符合訓練數據集上的模型，並預測數據集中每個示例的群集。然後創建一個散點圖，並由其指定的群集著色。在這種情況下，找到了合理的集群。

使用光譜聚類聚類識別出具有聚類的數據集的散點圖

12.高斯混合模型

高斯混合模型總結了一個多變數概率密度函數，顧名思義就是混合了高斯概率分布。它是通過 Gaussian Mixture 類實現的，要優化的主要配置是「 n _ clusters 」超參數，用於指定數據中估計的群集數量。下面列出了完整的示例。

運行該示例符合訓練數據集上的模型，並預測數據集中每個示例的群集。然後創建一個散點圖，並由其指定的群集著色。在這種情況下，我們可以看到群集被完美地識別。這並不奇怪，因為數據集是作為 Gaussian 的混合生成的。

使用高斯混合聚類識別出具有聚類的數據集的散點圖

在本文中，你發現了如何在 python 中安裝和使用頂級聚類演算法。具體來說，你學到了：

原創文章，作者：小藍，如若轉載，請註明出處：https://www.506064.com/zh-tw/n/238197.html