梯度下降演算法

梯度下降演算法是許多機器學習演算法中用來最小化代價函數的優化演算法。梯度下降演算法用於更新學習模型的參數。

以下是不同類型的梯度下降:

批量梯度下降:批量梯度下降是一種梯度演算法，用於處理梯度下降每次迭代的所有訓練數據集。假設訓練數據集的數量很大，批量梯度下降會比較昂貴。因此，如果訓練數據集的數量很大，則不建議用戶使用批量梯度下降。相反，他們可以對大型訓練數據集使用小批量梯度下降。
小批量梯度下降:小批量梯度下降是用於比其他兩種梯度下降工作更快的梯度下降類型。假設用戶有「 p 」(其中「 p 」是批量梯度下降)數據集，其中每次迭代將處理 p < m (其中「 m 」是小批量梯度下降)。因此，即使「 p 」訓練數據集的數量很大，小批量梯度下降也會在一次嘗試中分批處理「 p 」訓練數據集。因此，它可以用較少的迭代次數處理大型訓練數據集。
隨機梯度下降:隨機梯度下降是梯度下降的類型，每次迭代可以處理一個訓練數據集。因此，參數將在每次迭代後更新，在每次迭代中只處理了一個數據集。這種梯度下降比批量梯度下降更快。但是，如果訓練數據集的數量很大，那麼它一次將只處理一個數據集。因此，迭代次數會很大。

使用的變數:

設『k』為訓練數據集的個數。

讓『j』為數據集中的要素數量。

如果 p == k ，小批量梯度下降的行為將類似於批量梯度下降。(其中『p』為批量梯度下降)

用於批量梯度下降的演算法:

設 h θ (a) 為線性回歸的假設。那麼成本函數將由下式給出:

讓σ代表從 t = 1 到 k 的所有訓練數據集的總和。

Gtrain(θ) = (1/2k) Σ (hθ(a(t)) - b(t))2

Repeat {
θg = θg - (learning rate/k) * Σ (hθ(a(t)) - b(t))ag(t)
   For every g = 0 …j
}

其中 a g (t) 代表 t th 訓練數據集的 g th 特徵，假設如果「 k 非常大(例如，700 萬個訓練數據集)，那麼批量梯度下降將花費數小時甚至數天來完成該過程。因此，對於大的訓練數據集，不建議用戶使用批量梯度下降，因為這會減慢機器的學習過程。

用於小批量梯度下降的演算法

假設「 p 」是一批中數據集的數量，其中 p < k.

讓p = 10**k = 100**；

然而，用戶可以調整批量大小。這通常寫成 2 的冪。

重複{對於 t = 1，11，21，…..，91 設σ為 d .θ<sub>g</sub>=θ<sub>g</sub>-(學習率/大小(p))*σ(h<sub>θ</sub>(a<sup>(d)</sup>)-b<sup>(d)</sup>)a<sub>g</sub><sup>(d)</sup>
每 g = 0 …j 
 }

用於隨機梯度下降的演算法；

這種梯度下降將隨機打亂數據集，為每種數據訓練參數。
隨機梯度下降每次迭代只需要一個數據集。

Hence,
Let (a(t), b(t)) be the training dataset
Cost(θ, (a(t), b(t))) = (1/2) Σ (hθ(a(t)) - b(t))2

Gtrain(θ) = (1/k) Σ Cost (θ, (a(t), b(t)))

Repeat {
  For t = 1 to k{
      Θg = θg - (learning rate) * Σ (hθ(a(t)) - b(t))ag(t)
        For every g = 0 …j

        }
}

結論

在本教程中，我們已經討論了不同類型的梯度下降演算法及其變體。

原創文章，作者：小藍，如若轉載，請註明出處：https://www.506064.com/zh-tw/n/235523.html

梯度下降演算法

使用的變數:

用於批量梯度下降的演算法:

用於小批量梯度下降的演算法

用於隨機梯度下降的演算法；

結論

相關推薦

發表回復