gmm聚類算法基於python,gms算法

本文目錄一覽：

1、單高斯模型SGM & 高斯混合模型GMM
2、[譯] 高斯混合模型 — python教程
3、高斯混合模型（GMM）及EM算法的初步理解
4、高斯混合模型(GMM)和EM算法
5、如何用高斯混合模型 GMM 做聚類

單高斯模型SGM & 高斯混合模型GMM

在了解高斯混合模型之前，我們先來看看什麼是高斯分布，高斯分布大家應該都比較熟悉了，就是我們平時所說的正態分布，也叫高斯分布。正態分布是一個在數學、物理及工程等領域都非常重要的概率分布，在統計學的許多方面有着重大的影響力。

正態分布的特點

集中性：正態曲線的高峰位於正中央，即均數所在的位置。

對稱性：正態曲線以均數為中心，左右對稱，曲線兩端永遠不與橫軸相交。

均勻變動性：正態曲線由均數所在處開始，分別向左右兩側逐漸均勻下降。

若隨機變量服從一個數學期望為、方差為的正態分布，記為。其中期望值決定了其位置，標準差決定了分布的幅度。當 = 0， = 1時，正態分布是標準正態分布。

正態分布有極其廣泛的實際背景，生產與科學實驗中很多隨機變量的概率分布都可以近似地用正態分布來描述。例如，在生產條件不變的情況下，產品的強力、抗壓強度、口徑、長度等指標；同一種生物體的身長、體重等指標；同一種種子的重量；測量同一物體的誤差；彈着點沿某一方向的偏差；某個地區的年降水量；以及理想氣體分子的速度分量，等等。一般來說，如果一個量是由許多微小的獨立隨機因素影響的結果，那麼就可以認為這個量具有正態分布（見中心極限定理）。從理論上看，正態分布具有很多良好的性質，許多概率分布可以用它來近似；還有一些常用的概率分布是由它直接導出的，例如對數正態分布、t分布、F分布等。

高斯模型有單高斯模型（SGM）和混合高斯模型（GMM）兩種。

概率密度函數服從上面的正態分布的模型叫做單高斯模型，具體形式如下：

當樣本數據是一維數據（Univariate）時，高斯模型的概率密度函數為：

其中：為數據的均值，為數據的標準差。

當樣本數據是多維數據（Univariate）時，高斯模型的概率密度函數為：

其中：為數據的均值，為協方差，d為數據維度。

高斯混合模型（GMM）是單高斯概率密度函數的延伸，就是用多個高斯概率密度函數（正態分布曲線）精確地量化變量分布，是將變量分布分解為若干基於高斯概率密度函數（正態分布曲線）分布的統計模型。

用通俗一點的語言解釋就是，個單高斯模型混合在一起，生成的模型，就是高斯混合模型。這個子模型是混合模型的隱變量（Hidden variable）。一般來說，一個混合模型可以使用任何概率分布，這裡使用高斯混合模型是因為高斯分布具備很好的數學性質以及良好的計算性能。

GMM是工業界使用最多的一種聚類算法。它本身是一種概率式的聚類方法，假定所有的樣本數據X由K個混合多元高斯分布組合成的混合分布生成。

高斯混合模型的概率密度函數可以表示為：

其中：

是觀察數據屬於第個子模型的概率，；

是第個的單高斯子模型的概率密度函數，或

，具體函數見上方單高斯模型的概率密度函數。

參數估計有多種方法，有矩估計、極大似然法、一致最小方差無偏估計、最小風險估計、同變估計、最小二乘法、貝葉斯估計、極大驗後法、最小風險法和極小化極大熵法等。最基本的方法是最小二乘法和極大似然法。

極大似然估計的思想是：隨機試驗有多個可能的結果，但在一次試驗中，有且只有一個結果會出現，如果在某次試驗中，結果w出現了，則認為該結果發生的概率最大。

1）寫出似然函數：

假設單個樣本的概率函數為 ,對每個樣本的概率函數連乘，就可以得到樣本的似然函數

2）對似然函數取對數：

目的是為了讓乘積變成加法，方便後續運算

3）求導數，令導數為0，得到似然方程：

和在同一點取到最大值，所以可以通過對求導，令導數為零，實現同個目的

4）解似然方程，得到的參數即為所求

對於單高斯模型，可以使用極大似然估計（MLE）來求解出參數的值。

單高斯模型的對數似然函數為：

上式分別對和求偏導數，然後令其等於0，可以得到對應的參數估計值：

如果依然按照上面的極大似然估計方法求參數

GMM的對數似然函數為：

對上式求各個參數的偏導數，然後令其等於0，並且還需要附件一個條件：。

我們會發現，直接求導無法計算出參數。所以我們需要用其它方式去解決參數估計問題，一般情況下我們使用的是迭代的方法，用期望最大算法（Expectation Maximization，EM）進行估計。

EM算法的具體原理以及示例見我的另外一篇文章。

[譯] 高斯混合模型 — python教程

本文翻譯自

上一節中探討的k-means聚類模型簡單易懂，但其簡單性導致其應用中存在實際挑戰。具體而言，k-means的非概率特性及簡單地計算點與類蔟中心的歐式距離來判定歸屬，會導致其在許多真實的場景中性能較差。本節，我們將探討高斯混合模型(GMMs)，其可以看成k-means的延伸，更可以看成一個強有力的估計工具，而不僅僅是聚類。

我們將以一個標準的import開始

我們看下k-means的缺陷，思考下如何提高聚類模型。正如上一節所示，給定簡單，易於分類的數據，k-means能找到合適的聚類結果。

舉例而言，假設我們有些簡單的數據點，k-means算法能以某種方式很快地將它們聚類，跟我們肉眼分辨的結果很接近：

從直觀的角度來看，我可能期望聚類分配時，某些點比其他的更確定：舉例而言，中間兩個聚類之間似乎存在非常輕微的重疊，這樣我們可能對這些數據點的分配沒有完全的信心。不幸的是，k-means模型沒有聚類分配的概率或不確定性的內在度量（儘管可能使用bootstrap 的方式來估計這種不確定性）。為此，我們必須考慮泛化這種模型。

k-means模型的一種理解思路是，它在每個類蔟的中心放置了一個圈（或者，更高維度超球面)，其半徑由聚類中最遠的點確定。該半徑充當訓練集中聚類分配的一個硬截斷：任何圈外的數據點不被視為該類的成員。我們可以使用以下函數可視化這個聚類模型：

觀察k-means的一個重要發現，這些聚類模式必須是圓形的。k-means沒有內置的方法來計算橢圓形或橢圓形的簇。因此，舉例而言，假設我們將相同的數據點作變換，這種聚類分配方式最終變得混亂：

高斯混合模型（GMM）試圖找到一個多維高斯概率分布的混合，以模擬任何輸入數據集。在最簡單的情況下，GMM可用於以與k-means相同的方式聚類。

但因為GMM包含概率模型，因此可以找到聚類分配的概率方式 – 在Scikit-Learn中，通過調用predict_proba方法實現。它將返回一個大小為[n_samples, n_clusters]的矩陣，用于衡量每個點屬於給定類別的概率：

我們可以可視化這種不確定性，比如每個點的大小與預測的確定性成比例；如下圖，我們可以看到正是群集之間邊界處的點反映了群集分配的不確定性：

本質上說，高斯混合模型與k-means非常相似：它使用期望-最大化的方式，定性地執行以下操作：

有了這個，我們可以看看四成分的GMM為我們的初始數據提供了什麼：

同樣，我們可以使用GMM方法來擬合我們的拉伸數據集；允許full的協方差，該模型甚至可以適應非常橢圓形，伸展的聚類模式：

這清楚地表明GMM解決了以前遇到的k-means的兩個主要實際問題。

如果看了之前擬合的細節，你將看到covariance_type選項在每個中都設置不同。該超參數控制每個類簇的形狀的自由度；對於任意給定的問題，必須仔細設置。默認值為covariance_type =“diag”，這意味着可以獨立設置沿每個維度的類蔟大小，並將得到的橢圓約束為與軸對齊。一個稍微簡單和快速的模型是covariance_type =“spherical”，它約束了類簇的形狀，使得所有維度都相等。儘管它並不完全等效，其產生的聚類將具有與k均值相似的特徵。更複雜且計算量更大的模型（特別是隨着維數的增長）是使用covariance_type =“full”，這允許將每個簇建模為具有任意方向的橢圓。

對於一個類蔟，下圖我們可以看到這三個選項的可視化表示：

儘管GMM通常被歸類為聚類算法，但從根本上說它是一種密度估算算法。也就是說，GMM適合某些數據的結果在技術上不是聚類模型，而是描述數據分布的生成概率模型。

例如，考慮一下Scikit-Learn的make_moons函數生成的一些數據：

如果我們嘗試用視為聚類模型的雙成分的GMM模擬數據，則結果不是特別有用：

但是如果我們使用更多成分的GMM模型，並忽視聚類的類別，我們會發現更接近輸入數據的擬合：

這裡，16個高斯分布的混合不是為了找到分離的數據簇，而是為了對輸入數據的整體分布進行建模。這是分布的一個生成模型，這意味着GMM為我們提供了生成與我們的輸入類似分布的新隨機數據的方法。例如，以下是從這個16分量GMM擬合到我們原始數據的400個新點：

GMM非常方便，可以靈活地建模任意多維數據分布。

GMM是一種生成模型這一事實為我們提供了一種確定給定數據集的最佳組件數的自然方法。生成模型本質上是數據集的概率分布，因此我們可以簡單地評估模型下數據的可能性，使用交叉驗證來避免過度擬合。校正過度擬合的另一種方法是使用一些分析標準來調整模型可能性，例如 Akaike information criterion (AIC) 或 Bayesian information criterion (BIC) 。Scikit-Learn的GMM估計器實際上包含計算這兩者的內置方法，因此在這種方法上操作非常容易。

讓我們看看在moon數據集中，使用AIC和BIC函數確定GMM組件數量：

最佳的聚類數目是使得AIC或BIC最小化的值，具體取決於我們希望使用的近似值。 AIC告訴我們，我們上面選擇的16個組件可能太多了：大約8-12個組件可能是更好的選擇。與此類問題一樣，BIC建議使用更簡單的模型。

注意重點：這個組件數量的選擇衡量GMM作為密度估算器的效果，而不是它作為聚類算法的效果。我鼓勵您將GMM主要視為密度估算器，並且只有在簡單數據集中保證時才將其用於聚類。

我們剛剛看到了一個使用GMM作為數據生成模型的簡單示例，以便根據輸入數據定義的分布創建新樣本。在這裡，我們將運行這個想法，並從我們以前使用過的標準數字語料庫中生成新的手寫數字。

首先，讓我們使用Scikit-Learn的數據工具加載數字數據：

接下來讓我們繪製前100個，以準確回憶我們正在看的內容：

我們有64個維度的近1,800位數字，我們可以在這些位置上構建GMM以產生更多。 GMM可能難以在如此高維空間中收斂，因此我們將從數據上的可逆維數減少算法開始。在這裡，我們將使用一個簡單的PCA，要求它保留99％的預測數據方差：

結果是41個維度，減少了近1/3，幾乎沒有信息丟失。根據這些預測數據，讓我們使用AIC來計算我們應該使用的GMM組件的數量：

似乎大約110個components最小化了AIC；我們將使用這個模型。我們迅速將其與數據擬合併確保它已收斂合：

現在我們可以使用GMM作為生成模型在這個41維投影空間內繪製100個新點的樣本：

最後，我們可以使用PCA對象的逆變換來構造新的數字：

大部分結果看起來像數據集中合理的數字！

考慮一下我們在這裡做了什麼：給定一個手寫數字的樣本，我們已經模擬了數據的分布，這樣我們就可以從數據中生成全新的數字樣本：這些是“手寫數字”，不是單獨的出現在原始數據集中，而是捕獲混合模型建模的輸入數據的一般特徵。這種數字生成模型可以證明作為貝葉斯生成分類器的一個組成部分非常有用，我們將在下一節中看到。

高斯混合模型（GMM）及EM算法的初步理解

高斯混合模型（Gaussian Mixed Model）指的是多個高斯分布函數的線性組合，理論上GMM可以擬合出任意類型的分布，通常用於解決同一集合下的數據包含多個不同的分布的情況（或者是同一類分布但參數不一樣，或者是不同類型的分布，比如正態分布和伯努利分布）。

如圖1，圖中的點在我們看來明顯分成兩個聚類。這兩個聚類中的點分別通過兩個不同的正態分布隨機生成而來。但是如果沒有GMM，那麼只能用一個的二維高斯分布來描述圖1中的數據。圖1中的橢圓即為二倍標準差的正態分布橢圓。這顯然不太合理，畢竟肉眼一看就覺得應該把它們分成兩類。

這時候就可以使用GMM了！如圖2，數據在平面上的空間分布和圖1一樣，這時使用兩個二維高斯分布來描述圖2中的數據，分別記為N(μ1,Σ1)和N(μ2,Σ2) 。圖中的兩個橢圓分別是這兩個高斯分布的二倍標準差橢圓。可以看到使用兩個二維高斯分布來描述圖中的數據顯然更合理。實際上圖中的兩個聚類的中的點是通過兩個不同的正態分布隨機生成而來。如果將兩個二維高斯分布N(μ1,Σ1)和N(μ2,Σ2) 合成一個二維的分布，那麼就可以用合成後的分布來描述圖2中的所有點。最直觀的方法就是對這兩個二維高斯分布做線性組合，用線性組合後的分布來描述整個集合中的數據。這就是高斯混合模型（GMM）。

高斯混合模型（GMM）的數學表示：

期望極大（Expectation Maximization）算法，也稱EM算法，是一種迭代算法，由Dempster et. al 在1977年提出，用於含有隱變量的概率參數模型的極大似然估計。

EM算法作為一種數據添加算法，在近幾十年得到迅速的發展，主要源於當前科學研究以及各方面實際應用中數據量越來越大的情況下，經常存在數據缺失或者不可用的的問題，這時候直接處理數據比較困難，而數據添加辦法有很多種，常用的有神經網絡擬合、添補法、卡爾曼濾波法等，但是EM算法之所以能迅速普及主要源於它算法簡單，穩定上升的步驟能相對可靠地找到“最優的收斂值”。

(個人的理解就是用含有隱變量的含參表達式不斷擬合，最終能收斂並擬合出不含隱變量的含參表達式)

模型的EM訓練過程，直觀的來講是這樣：我們通過觀察採樣的概率值和模型概率值的接近程度，來判斷一個模型是否擬合良好。然後我們通過調整模型以讓新模型更適配採樣的概率值。反覆迭代這個過程很多次，直到兩個概率值非常接近時，我們停止更新並完成模型訓練。現在我們要將這個過程用算法來實現，所使用的方法是模型生成的數據來決定似然值，即通過模型來計算數據的期望值。通過更新參數μ和σ來讓期望值最大化。這個過程可以不斷迭代直到兩次迭代中生成的參數變化非常小為止。該過程和k-means的算法訓練過程很相似（k-means不斷更新類中心來讓結果最大化），只不過在這裡的高斯模型中，我們需要同時更新兩個參數：分布的均值和標準差.[3]

GMM常用於聚類。如果要從 GMM 的分布中隨機地取一個點的話，實際上可以分為兩步：首先隨機地在這 K 個 Component 之中選一個，每個 Component 被選中的概率實際上就是它的係數Πk ，選中 Component 之後，再單獨地考慮從這個 Component 的分布中選取一個點就可以了──這裡已經回到了普通的 Gaussian 分布，轉化為已知的問題。

根據數據來推算概率密度通常被稱作 density estimation 。特別地，當我已知（或假定）概率密度函數的形式，而要估計其中的參數的過程被稱作『參數估計』。

（推導和迭代收斂過程這裡省略，可參考資料1）

一個實際的例子：用GMM對iris數據集進行聚類，並通過make_ellipses表示出來

make_ellipses方法概念上很簡單，它將gmm對象（訓練模型）、坐標軸、以及x和y坐標索引作為參數，運行後基於指定的坐標軸繪製出相應的橢圓圖形。

在特定條件下，k-means和GMM方法可以互相用對方的思想來表達。在k-means中根據距離每個點最接近的類中心來標記該點的類別，這裡存在的假設是每個類簇的尺度接近且特徵的分布不存在不均勻性。這也解釋了為什麼在使用k-means前對數據進行歸一會有效果。高斯混合模型則不會受到這個約束，因為它對每個類簇分別考察特徵的協方差模型。

K-means算法可以被視為高斯混合模型（GMM）的一種特殊形式。整體上看，高斯混合模型能提供更強的描述能力，因為聚類時數據點的從屬關係不僅與近鄰相關，還會依賴於類簇的形狀。n維高斯分布的形狀由每個類簇的協方差來決定。在協方差矩陣上添加特定的約束條件後，可能會通過GMM和k-means得到相同的結果。

在k-means方法中使用EM來訓練高斯混合模型時對初始值的設置非常敏感。而對比k-means，GMM方法有更多的初始條件要設置。實踐中不僅初始類中心要指定，而且協方差矩陣和混合權重也要設置。可以運行k-means來生成類中心，並以此作為高斯混合模型的初始條件。由此可見並兩個算法有相似的處理過程，主要區別在於模型的複雜度不同。

高斯混合模型的基本假設是已知類別的比例和類別的個數，但是不知道每個樣例的具體標籤，據此用EM的模式為每個樣本進行最優的標註。也就是說它適合的是無標籤學習的分類問題，並且需要已知基本假設。

整體來看，所有無監督機器學習算法都遵循一條簡單的模式：給定一系列數據，訓練出一個能描述這些數據規律的模型（並期望潛在過程能生成數據）。訓練過程通常要反覆迭代，直到無法再優化參數獲得更貼合數據的模型為止。

【1】高斯混合模型（GMM）及其EM算法的理解

【2】機器學習中的數學（4）-EM算法與高斯混合模型（GMM）

【3】一文詳解高斯混合模型原理

高斯混合模型(GMM)和EM算法

學號：20021110074 電院姓名：梁雪玲

【嵌牛導讀】：GMM與EM算法的學習與推導。

【嵌牛鼻子】：GMM EM

【嵌牛提問】：GMM是什麼？EM算法是什麼？二者之間的關係？算法的推導？如何深入學習？

【嵌牛正文】：

在深度學習的路上，從頭開始了解一下各項技術。本人是DL小白，連續記錄我自己看的一些東西，大家可以互相交流。

本文參考：

(EM算法)

一、前言

高斯混合模型(Gaussian Mixture Model)簡稱GMM，是一種業界廣泛使用的聚類算法。它是多個高斯分布函數的線性組合，理論上GMM可以擬合出任意類型的分布，通常用於解決同一集合下的數據包含多種不同的分布的情況。高斯混合模型使用了期望最大(Expectation Maximization，簡稱EM)算法進行訓練，故此我們在了解GMM之後，也需要了解如何通過EM算法訓練(求解)GMM。

二、高斯混合模型(GMM)

在了解高斯混合模型之前，我們先了解一下這種模型的具體參數模型-高斯分布。高斯分布又稱正態分布，是一種在自然界中大量存在的，最為常見的分布形式。

如上圖，這是一個關於身高的生態分布曲線，關於175-180對稱，中間高兩邊低，相信大家在高中已經很了解了，這裡就不再闡述。

現在，我們引用《統計學習方法》-李航書中的定義，如下圖：

根據定義，我們可以理解為，GMM是多個高斯分布的加權和，並且權重α之和等於1。這裡不難理解，因為GMM最終反映出的是一個概率，而整個模型的概率之和為1，所以權重之和即為1。高斯混合模型實則不難理解，接下來我們介紹GMM的訓練(求解)方法。

PS.從數學角度看，對於一個概率模型的求解，即為求其最大值。從深度學習角度看，我們希望降低這個概率模型的損失函數，也就是希望訓練模型，獲得最大值。訓練和求解是不同專業，但相同目標的術語。

三、最大似然估計

想要了解EM算法，我們首先需要了解最大似然估計這個概念。我們通過一個簡單的例子來解釋一下。

假設，我們需要調查學校男女生的身高分布。我們用抽樣的思想，在校園裡隨機抽取了100男生和100女生，共計200個人(身高樣本數據)。我們假設整個學校的身高分布服從於高斯分布。但是這個高斯分布的均值u和方差∂2我們不知道，這兩個參數就是我們需要估計的值。記作θ=[u, ∂]T。

由於每個樣本都是獨立地從p(x|θ)中抽取的，並且所有的樣本都服從於同一個高斯分布p(x|θ)。那麼我們從整個學校中，那麼我抽到男生A（的身高）的概率是p(xA|θ)，抽到男生B的概率是p(xB|θ)。而恰好抽取出這100個男生的概率，就是每個男生的概率乘積。用下式表示：

這個概率反映了，在概率密度函數的參數是θ時，得到X這組樣本的概率。在公式中，x已知，而θ是未知，所以它是θ的函數。這個函數放映的是在不同的參數θ取值下，取得當前這個樣本集的可能性，因此稱為參數θ相對於樣本集X的似然函數（likehood function）。記為L(θ)。

我們先穿插一個小例子，來闡述似然的概念。

某位同學與一位獵人一起外出打獵，一隻野兔從前方竄過。只聽一聲槍響，野兔應聲到下，如果要你推測，這一發命中的子彈是誰打的？你就會想，只發一槍便打中，由於獵人命中的概率一般大於這位同學命中的概率，看來這一槍是獵人射中的。

這個例子所作的推斷就體現了極大似然法的基本思想，我們並不知道具體是誰打的兔子，但是我們可以估計到一個看似正確的參數。回到男生身高的例子中。在整個學校中我們一次抽到這100個男生(樣本)，而不是其他的人，那麼我們可以認為這100個男生(樣本)出現的概率最大，用上面的似然函數L(θ)來表示。

所以，我們就只需要找到一個參數θ，其對應的似然函數L(θ)最大，也就是說抽到這100個男生（的身高）概率最大。這個叫做θ的最大似然估計量，記為：

因為L(θ)是一個連乘函數，我們為了便於分析，可以定義對數似然函數，運用對數的運算規則，把連乘轉變為連加：

PS.這種數學方法在MFCC中我們曾經用過，可以回溯一下上一篇文章。

此時，我們要求θ，只需要使θ的似然函數L(θ)極大化，然後極大值對應的θ就是我們的估計。在數學中求一個函數的最值問題，即為求導，使導數為0，解方程式即可(前提是函數L(θ)連續可微)。在深度學習中，θ是包含多個參數的向量，運用高等數學中的求偏導，固定其中一個變量的思想，即可求出極致點，解方程。

總結而言：

最大似然估計，只是一種概率論在統計學的應用，它是參數估計的方法之一。說的是已知某個隨機樣本滿足某種概率分布，但是其中具體的參數不清楚，參數估計就是通過若干次試驗，觀察其結果，利用結果推出參數的大概值。最大似然估計是建立在這樣的思想上：已知某個參數能使這個樣本出現的概率最大，我們當然不會再去選擇其他小概率的樣本，所以乾脆就把這個參數作為估計的真實值。

求最大似然函數估計值的一般步驟：

（1）寫出似然函數；

（2）對似然函數取對數，並整理；(化乘為加)

（3）求導數，令導數為0，得到似然方程；

（4）解似然方程，得到的參數即為所求。

四、EM算法

期望最大(Expectation Maximization，簡稱EM)算法，稱為機器學習十大算法之一。它是一種從不完全數據或有數據丟失的數據集（存在隱含變量）中求解概率模型參數的最大似然估計方法。

現在，我們重新回到男女生身高分布的例子。我們通過抽取100個男生身高，並假設身高分布服從於高斯分布，我們通過最大化其似然函數，可以求的高斯分布的參數θ=[u, ∂]T了，對女生同理。但是，假如這200人，我們只能統計到其身高數據，但是沒有男女信息(其實就是面對200個樣本，抽取得到的每個樣本都不知道是從哪個分布抽取的，這對於深度學習的樣本分類很常見)。這個時候，我們需要對樣本進行兩個東西的猜測或者估計了。

EM算法就可以解決這個問題。假設我們想估計知道A和B兩個參數，在開始狀態下二者都是未知的，但如果知道了A的信息就可以得到B的信息，反過來知道了B也就得到了A。可以考慮首先賦予A某種初值，以此得到B的估計值，然後從B的當前值出發，重新估計A的取值，這個過程一直持續到收斂為止。

在男女生身高分布的例子中，我們運用EM算法的思想。首先隨便猜一下男生的高斯分布參數:均值和方差。假設均值是1.7米，方差是0.1米，然後計算出每個人更可能屬於第一個還是第二個正態分布中。這是第一步，Expectation。在分開了兩類之後，我們可以通過之前用的最大似然，通過這兩部分，重新估算第一個和第二個分布的高斯分布參數:均值和方差。這是第二步，Maximization。然後更新這兩個分布的參數。這是可以根據更新的分布，重新調整E(Expectation)步驟…如此往複，迭代到參數基本不再發生變化。

這裡原作者提到了一個數學思維，很受啟發，轉給大家看一眼(比較雞湯和啰嗦，大家可以跳過)

這時候你就不服了，說你老迭代迭代的，你咋知道新的參數的估計就比原來的好啊？為什麼這種方法行得通呢？有沒有失效的時候呢？什麼時候失效呢？用到這個方法需要注意什麼問題呢？呵呵，一下子拋出那麼多問題，搞得我適應不過來了，不過這證明了你有很好的搞研究的潛質啊。呵呵，其實這些問題就是數學家需要解決的問題。在數學上是可以穩當的證明的或者得出結論的。那咱們用數學來把上面的問題重新描述下。（在這裡可以知道，不管多麼複雜或者簡單的物理世界的思想，都需要通過數學工具進行建模抽象才得以使用並發揮其強大的作用，而且，這裡面蘊含的數學往往能帶給你更多想象不到的東西，這就是數學的精妙所在啊）

五、EM算法的簡單理解方式

在提出EM算法的推導過程之前，先提出中形象的理解方式，便於大家理解整個EM算法，如果只是實現深度學習模型，個人認為可以不需要去看後面的算法推導，看這個就足夠了。

坐標上升法(Coordinate ascent):

圖中的直線式迭代優化的途徑，可以看到每一步都會向最優值靠近，而每一步前進的路線都平行於坐標軸。那麼我們可以將其理解為兩個未知數的方程求解。倆個未知數求解的方式，其實是固定其中一個未知數，求另一個未知數的偏導數，之後再反過來固定後者，求前者的偏導數。EM算法的思想，其實也是如此。使用坐標上升法，一次固定一個變量，對另外的求極值，最後逐步逼近極值。對應到EM上，E步：固定θ，優化Q；M步：固定Q，優化θ；交替將極值推向最大。

六、EM算法推導

現在很多深度學習框架可以簡單調用EM算法，實際上這一段大家可以不用看，直接跳過看最後的總結即可。但是如果你希望了解一些內部的邏輯，可以看一下這一段推導過程。

假設我們有一個樣本集{x(1),…,x(m)}，包含m個獨立的樣本(右上角為樣本序號)。但每個樣本i對應的類別z(i)是未知的（相當於聚類），也即隱含變量。故我們需要估計概率模型p(x,z)的參數θ(在文中可理解為高斯分布)，但是由於裡面包含隱含變量z，所以很難用最大似然求解，但如果z知道了，那我們就很容易求解了。

首先放出似然函數公式，我們接下來對公式進行化簡：

對於參數估計，我們本質上的思路是想獲得一個使似然函數最大化的參數θ，現在多出一個未知變量z，公式(1)。那麼我們的目標就轉變為：找到適合的θ和z讓L(θ)最大。

對於多個未知數的方程分別對未知的θ和z分別求偏導，再設偏導為0，即可解方程。

因為(1)式是和的對數，當我們在求導的時候，形式會很複雜。

這裡我們需要做一個數學轉化。我們對和的部分，乘以一個相等的函數，得到(2)式，利用Jensen不等式的性質，將(2)式轉化為(3)式。(Jensen不等式數學推到比較複雜，知道結果即可)

Note:

Jensen不等式表述如下：

如果f是凸函數，X是隨機變量，那麼：E[f(X)]=f(E[X])

特別地，如果f是嚴格凸函數，當且僅當X是常量時，上式取等號。參考鏈接:

至此，上面的式（2）和式（3）不等式可以寫成：似然函數L(θ)=J(z,Q)，那麼我們可以通過不斷的最大化這個下界J(z,Q)函數，來使得L(θ)不斷提高，最終達到它的最大值。

現在，我們推導出了在固定參數θ後，使下界拉升的Q(z)的計算公式就是後驗概率，解決了Q(z)如何選擇的問題。這一步就是E步，建立L(θ)的下界。接下來的M步，就是在給定Q(z)後，調整θ，去極大化L(θ)的下界J（在固定Q(z)後，下界還可以調整的更大）。

總結而言

EM算法是一種從不完全數據或有數據丟失的數據集(存在隱藏變量)中，求解概率模型參數的最大似然估計方法。

EM的算法流程：

1初始化分布參數θ；

重複2, 3直到收斂:

2E步驟(Expectation):根據參數初始值或上一次迭代的模型參數來計算出隱性變量的後驗概率，其實就是隱性變量的期望。作為隱藏變量的現估計值：

3M步驟(Maximization):將似然函數最大化以獲得新的參數值：

這個不斷迭代的過程，最終會讓E、M步驟收斂，得到使似然函數L(θ)最大化的參數θ。

在L(θ)的收斂證明:

如何用高斯混合模型 GMM 做聚類

當我們在做聚類任務時，

如果每一類的分布已知的話，那麼要求出每個樣本屬於哪一類，

只需要計算出它歸屬於 k 個不同簇的概率，然後選擇概率值最高的那個簇作為它最終的歸屬即可。

但很多時候，樣本分布的參數乃至概率密度函數的形式都是未知的

這時，我們通過設定一個目標，在優化目標的時候求出這些未知的參數。

在聚類這個問題中，我們希望達到的目標是：

第 i 個樣本 x(i) 之所以被歸屬到了第 k 個簇，是因為它在這一類的概率是所有類中概率最大的。

所以目標為最大化樣本集的集體概率：

這其實是一個似然函數，要優化它，可以用極大化對數似然函數的方法，所以取對數。

這裡面的每個 ϕ 都是一個獨立的概率密度函數形式，而 θ 是對應的參數集合，

這時 K 個分模型的概率分布都不相同——每個概率密度函數的形式不同，對應參數集合不同，參數本身又都是未知的，如果直接求解就會非常困難，

所以，這時我們可以把所有的 ϕ 都當作高斯分布即可。也就是說這些樣本分屬的模型對應的概率密度函數形式相同，參數類型也相同，只是參數的具體取值有所差別：

高斯分布（Gaussian Distribution），又名正態分布（Normal distribtion），它的密度函數如上圖公式所示。

現實生活中的許多自然現象都被發現近似地符合高斯分布，比如人類的壽命、身高、體重等，在金融、科研、工業等各個領域都有大量現實業務產生的數據被證明是符合高斯分布的。

這時就用到了高斯混合模型（GMM），

就是將若干個概率分布為高斯分布的分模型混合在一起的模型。

之所以可以把所有的 ϕ 都當作高斯分布，

是高斯分布有一個非常重要的性質：中心極限定理

中心極限定理：

在適當的條件下，大量相互獨立的隨機變量的均值經適當標準化後，依分布收斂於高斯分布，

即無論 xi 的自身分布是什麼，隨着 n 變大，這些樣本平均值經過標準化處理—後的分布，都會逐步接近高斯分布。

有了這個定理，當我們遇到一個問題的時候，如果對某一變量做定量分析時其確定的分布情況未知，只要掌握了大量的觀測樣本，都可以按照服從高斯分布來處理這些樣本。

例如我們要做一個聚類任務，無論原本每一簇自身的分布如何，我們都可以用高斯模型來近似表示它們。這個混合模型，就可以是一個高斯混合模型（GMM）

GMM 的學習目標為：

x(i) 是已經觀測到的樣本觀測數據，是已知的，zik 是未知的。

因為有沒被觀測到的隱變量存在，這樣的對數似然函數需要用 EM 算法來優化。

用 EM 算法學習 GMM 的參數分為4步：

各參數取初始值開始迭代；

E 步；

M 步；

重複 E 步和 M 步，直到收斂

E 步的任務是求 Q

M 步的任務是求 arg max Q

在 E 步，求出了 zik，代入 Q，得到 Q 只和參數 α，μ，σ 有關，

在 M 步，通過分別對各個自變量求偏導，再令導數為0，來求取 α，μ，σ 的極值點，

然後再帶回到函數中去求整體 arg max Q 的值。

原創文章，作者：WFCLR，如若轉載，請註明出處：https://www.506064.com/zh-hant/n/317374.html