Adam參數詳解

一、Adam參數詳解

Adam參數是優化演算法Adam中用到的一組可調整參數，它直接影響了Adam演算法的優化表現與效率。Adam演算法是在隨機梯度下降演算法(SGD)的基礎上發展而來，其引入學習速率(Learning rate)、梯度累積歷史平均值、梯度平方歷史平均值等指標對神經網路進行優化。

二、Adam參數更新過程

Adam演算法採用基於梯度的更新，每次更新時都會基於當前批次的梯度計算學習速率並進行更新，同時還會使用梯度平方的歷史平均值來調整學習速率。Adam參數更新公式如下：

# 初始化 Adam 參數
v, s, t = 0, 0, 0
# 進行參數更新
for i in range(max_iters):
    # 獲取 mini-batch
    batch = data_iter_random(X, y, batch_size)
    # 計算 mini-batch 上的梯度值
    g = compute_grad(batch, w)
    t += 1
    # 更新動量指數
    v = beta1 * v + (1 - beta1) * g
    s = beta2 * s + (1 - beta2) * np.power(g, 2)
    # 糾正偏差
    v_corrected = v / (1 - np.power(beta1, t))
    s_corrected = s / (1 - np.power(beta2, t))
    # 更新參數
    w = w - lr * v_corrected / (np.sqrt(s_corrected) + eps)

三、Adam參數數量

Adam演算法中，主要包含學習速率、梯度衰減率、梯度平方衰減率等參數。雖然參數數量比較少，但是這些參數對神經網路優化的影響巨大，因此需要仔細選擇和調整。

四、Adam參數標定

Adam參數標定是指在神經網路訓練過程中，根據觀察到的數據，自動化地選擇、調節Adam參數使得神經網路最優化的一個過程。在標定過程中，需要注意數據集的大小、樣本分布、網路結構等因素的影響。

五、Adam參數設置

在Adam演算法中，參數的設置需要經驗調整。常見的設置方法是使用默認值，即lr=0.001，beta1=0.9，beta2=0.999，eps=1e-8，但實際上這些參數設置需要根據具體問題進行適當調整。

六、Adams碰撞參數設置

Adams碰撞參數是Adam演算法中調節動量的係數，通常設置在0.9~0.99之間，如果碰撞參數設置的過大，會導致過度相信歷史梯度，造成過擬合；如果設置過小，會導致過度依賴當前的梯度，提高了收斂速度但是犧牲了優化效果。

七、Adam參數標定案例

對於一個具體的神經網路模型，我們可以使用Adam參數標定方法來提高其優化性能。以圖像分類模型為例，我們可以根據訓練的學習曲線來調整Adam參數，找到最優的參數組合，使得模型在測試集上的表現達到最佳。下面是一段Adam參數標定的示例代碼：

# 設定不同的參數組合
params = [(0.001, 0.9, 0.999, 1e-8), (0.01, 0.9, 0.999, 1e-8), (0.001, 0.95, 0.999, 1e-8)]
# 進行參數標定
for lr, beta1, beta2, eps in params:
    adam_params = {'lr': lr, 'beta1': beta1, 'beta2': beta2, 'eps': eps}
    net = NeuralNetwork(layer_sizes, activation, optimizer='adam', **adam_params)
    # 進行模型訓練並記錄訓練結果
    train_loss, train_acc, val_loss, val_acc = net.fit(X_train, y_train, X_val, y_val, epochs=1000, verbose=False)
    # 使用測試集對模型進行評估
    test_loss, test_acc = net.evaluate(X_test, y_test)
    print(f'lr: {lr} | beta1: {beta1} | beta2: {beta2} | eps: {eps} | test_acc: {test_acc}')

八、Adams參數化建模

在使用Adam演算法優化神經網路模型時，常常需要對Adam參數設置不同的組合，以達到最優化的效果。為了方便調整參數，我們可以使用參數化建模方法，即將Adam參數封裝成類或者函數的參數，方便調用和修改。下面是一段使用參數化建模的示例代碼：

class AdamOptimizer:
    def __init__(self, learning_rate=0.001, beta_1=0.9, beta_2=0.999, epsilon=1e-8):
        self.lr = learning_rate
        self.beta_1 = beta_1
        self.beta_2 = beta_2
        self.epsilon = epsilon
        self.t = 1
        self.m = None
        self.v = None
        
    def update(self, grad, w):
        if self.m is None:
            self.m = np.zeros_like(grad)
            self.v = np.zeros_like(grad)
        self.m = self.beta_1 * self.m + (1 - self.beta_1) * grad
        self.v = self.beta_2 * self.v + (1 - self.beta_2) * np.power(grad, 2)
        m_hat = self.m / (1 - np.power(self.beta_1, self.t))
        v_hat = self.v / (1 - np.power(self.beta_2, self.t))
        self.t += 1
        return w - self.lr * m_hat / (np.sqrt(v_hat) + self.epsilon)
        
net = NeuralNetwork(layer_sizes, activation, optimizer=AdamOptimizer(learning_rate=0.01, beta_1=0.9, beta_2=0.999, epsilon=1e-8))

九、Matlab參數unit作用

Matlab中的unit函數可以用於確定S函數的閾值，並且可以將輸出值限定在0到1之間。unit函數的公式如下：

function [y] = unit(x)
%unit: sigmoid unit function
    y = 1./(1+exp(-x));
end

在神經網路中，Sigmoid函數的輸出值是連續的，可以用於建立輸出層。當輸入為一個實數時，Sigmoid函數可以將它映射到0到1之間的一個實數。因此，使用unit函數可以對輸出層進行百分比預測，輸出值越接近1表示預測正樣本的概率越大，輸出值越接近0表示預測負樣本的概率越大。

原創文章，作者：小藍，如若轉載，請註明出處：https://www.506064.com/zh-tw/n/237022.html