從多個方面深入解析激活函數

一、什麼是激活函數？

在神經網路中，激活函數決定了神經元是否應該被激活。當輸入數據經過一個神經網路節點時，這個節點會計算出加權和，再通過激活函數進行非線性變換，最終輸出一個非線性的結果值。

簡單而言，激活函數負責將輸入信號的線性變化轉換成非線性的響應，幫助神經網路理解更加複雜的輸入數據。

以下是一個簡單的Sigmoid激活函數的例子：


def sigmoid(x):
    return 1 / (1 + np.exp(-x))

二、不同種類的激活函數

激活函數是神經網路中一個非常重要的組成部分，它的設計直接影響著模型的表現。以下我將會介紹幾種常見激活函數的優缺點。

1. Sigmoid激活函數

Sigmoid是最常見的激活函數之一。當輸入很大或很小時，Sigmoid函數的導數趨於0，梯度消失的問題會很明顯。但是在一些二分類模型和少量隱藏節點的神經網路中，仍然有著一些應用。


def sigmoid(x):
    return 1 / (1 + np.exp(-x))

2. Tanh激活函數

Tanh函數在過去被廣泛應用於神經網路中，在輸入變化小時，有著相對較大的梯度。然而，當輸入較大或較小時，Tanh函數的梯度仍然存在消失問題，因此用的不是很多。


def tanh(x):
    return np.tanh(x)

3. ReLU激活函數

ReLU是最常用的激活函數之一，存在著很好的非線性特性和簡單的計算過程。當輸入大於0時，ReLU函數的導數為1，避免了梯度消失問題；而當輸入小於等於0時，ReLU函數的導數為0，使得神經元輸出為0，避免了神經元過度激活。


def relu(x):
    return np.maximum(x, 0)

4. LeakyReLU激活函數

LeakyReLU是ReLU的缺陷之一的改進版，由於ReLU激活函數在x<0時，輸出為0，從而導致一部分神經元變為「死神經元」，不再發揮作用，因此LeakyReLU激活函數解決了這個問題。當x<0時，LeakyReLU需要乘上很小的數，這樣就不會輸出0了，而是輸出很小的值，使「死神經元」繼續發揮作用。


def leaky_relu(x):
    return np.maximum(0.001 * x, x)

三、如何選擇激活函數？

選擇合適的激活函數需要考慮數據的類型和神經網路的結構。以下是一些常見激活函數的適用場景：

1. Sigmoid

Sigmoid主要適用於二分類問題，一般不建議使用。如果必須使用，則需要注意初始化神經網路的權重參數，不要讓Sigmoid函數在輸入極端取值時出現梯度消失問題。

2. Tanh

Tanh適用於中小規模的神經網路中，但同樣存在著梯度消失問題，需要注意輸入取值的範圍。

3. ReLU

ReLU是目前主流的激活函數之一，由於不存在梯度消失問題，一般在神經網路的中間層和輸出層中廣泛應用。

4. LeakyReLU

LeakyReLU可以在ReLU的基礎上避免死神經元的問題，適用於中小規模的卷積神經網路中。

選擇合適的激活函數需要根據具體的任務及模型結構選擇，需要根據具體場景來驗證選擇的激活函數是否真正符合自己的場景。

原創文章，作者：AGGJA，如若轉載，請註明出處：https://www.506064.com/zh-tw/n/333680.html