Sigmoid和Softmax函數詳解

Sigmoid和Softmax函數都是常用於神經網絡的激活函數，可以將線性變換後的結果映射到0到1之間，但是它們之間有一個很顯著的區別。

對於只有兩個輸出類別的情況，我們通常使用Sigmoid函數來處理。而對於多個輸出類別的情況，我們使用Softmax函數。其實，Softmax函數可以看做是Sigmoid函數的多維拓展。

Sigmoid函數是一種S型變換函數，它可以將輸入值映射到0到1的範圍內。它的公式如下:


def sigmoid(x):
    return 1 / (1 + np.exp(-x))

ReLU函數則是當前非常流行的一種激活函數。它的公式如下：


def relu(x):
    return max(0, x)

與Sigmoid函數相比，ReLU函數可以更好地解決梯度消失的問題，而且計算速度更快。但是，如果x小於0，ReLU函數的輸出為0，這可能導致神經元失活，進而影響模型的性能。

Softmax函數可以將多維輸入值映射到概率分布上，其輸出值的範圍在0到1之間，且所有輸出值的總和為1。Softmax函數的公式如下：


def softmax(x):
    exp_x = np.exp(x)
    return exp_x / np.sum(exp_x, axis=0)

下面是一個二維情況下的Softmax函數圖像示例：

Softmax函數的公式已經在上面提到了，我們這裡再來解釋一下其中的每個部分：

Softmax函數常常應用於多分類問題中。它將輸出的每個分數轉換為相應類別的概率。在網絡訓練的時候，我們通常使用softmax輸出層，此時交叉熵誤差可以作為優化目標進行反向傳播。

在PyTorch中，可以使用torch.nn.functional模塊中的sigmoid函數：


import torch.nn.functional as F

x = torch.Tensor([1.0, 2.0, 3.0])
y = F.sigmoid(x)
print(y)

Sigmoid函數在大多數情況下都表現得很好，但也存在一些問題，比如：容易出現梯度消失的問題；另外，Sigmoid函數不是以0為中心的函數，在中心附近的梯度非常小。

針對這些問題，有時候可以嘗試使用其他函數，比如ReLU、LeakyReLU、PReLU等。

原創文章，作者：小藍，如若轉載，請註明出處：https://www.506064.com/zh-hant/n/198098.html