Theano 的全景式講解

一、Theano 的介紹

Theano 是一個開源的數學庫，可以讓有效的定義、優化和求值數學表達式。

Theano 可以在 CPU 和 GPU 上高效地進行數值計算。其背後的功能主要有：

有效地處理多維數組，以實現進行矩陣運算的高效性
自動計算微分
高度優化的編譯器，使得運行速度較快且能提高執行效率

二、使用 Theano 構建數學表達式

Theano 的強大功能在於能夠極大地簡化代碼，並可以高可讀性地定義複雜的函數，例如下面的例子：

import theano.tensor as T
from theano import function

x = T.scalar('x')
y = T.scalar('y')
z = x + y

f = function([x, y], z)

assert 3.0 == f(1.5, 1.5)
assert 0.0 == f(-1.5, 1.5)

這段代碼運行後，會將 x 和 y 定義為 Theano 的符號變量（Symbolic Variable），而不是 Python 變量。我們可以通過這些符號變量，來定義數學表達式 z，具體地，z 表示 x 和 y 的和。

之後我們使用 Theano 的函數構建函數 f，並傳入 x 和 y 的初始值。這樣我們就能夠成功地使用 Theano 進行計算，將其應用在各個領域。

三、Theano 的運算速度

Theano 不僅僅是優秀的符號計算庫，同時也是一個實現了編譯、內存提升和操作優化的框架。在許多應用中，Theano 能夠比原生的 Python 庫進行更好的優化，這主要體現在以下方面：

快速的矩陣和向量操作：
```
import theano
import numpy as np
import theano.tensor as T
from theano import pp, function

# 雙精度矩陣，大小為 1000 x 10000
X = T.dmatrix('X')
# 向量，大小為 10000
y = T.dvector('y')
# 數乘
z = X.dot(y)
# 函數輸出
f = function([X, y], z)

x = np.random.rand(1000, 10000)
a = np.random.rand(10000)

# 執行前預熱
f(x, a)

%timeit f(x, a)
```
上面代碼用 Theano 實現了 矩陣與向量乘法 ，並將其使用函數封裝。需要注意的是，這個過程中，X，y 和 z 都是 Theano 的符號表達式。
運行到最後一行代碼時，會輸出運行時間。經過測試，這個例子用原本的 numpy 庫算出來結果需要 10s ，而用 Theano 則只需要 不到 5 ms ，其速度十分之快。

自動求導和高級優化：

import theano
import numpy as np
import theano.tensor as T
from theano import function

# 訓練數據，1000 組數據，每組 50 個屬性
train_X = np.random.randint(1, 1000, size=(1000, 50))
train_y = np.random.randint(0, 2, size=(1000, 1))  # 對結果進行分類，二分類問題需要將結果由 0, 1 確定下來

# 權重向量和偏置
w = theano.shared(np.random.randn(50).astype(theano.config.floatX), name='w')
b = theano.shared(np.random.randn().astype(theano.config.floatX), name='b')

# 輸入和輸出的類型均為 MatrixType，代表訓練數據的輸入和輸出是矩陣
X = T.matrix('X')
y = T.matrix('y')

# 計算 sigmoid 函數
p_1 = 1 / ( 1 + T.exp(-T.dot(X, w) - b) )
prediction = p_1 > 0.5

# 誤差函數的輸出
xent = -y * T.log(p_1) - (1-y) * T.log(1-p_1)
cost = xent.mean() + 0.01 * (w ** 2).sum()
gw, gb = T.grad(cost, [w, b])

# 定義訓練函數
learning_rate = 0.1
train = function(inputs=[X,y],
                 outputs=[prediction, xent.mean()],
                 updates=((w, w - learning_rate * gw), (b, b - learning_rate * gb)))

# 修改更新速率
for i in range(500):
    pred, err = train(train_X, train_y)
print(w.get_value())
print(b.get_value())

這段代碼是一個在線性模型中使用 Theano 的示例，利用這個模型，能夠讓我們有效地地利用訓練數據，計算出這個函數的誤差函數，並計算梯度。

此處採用了一個用於分類任務的 sigmoid 函數，作為這個函數的模型回歸部分。若使用原生的 Python 實現，生成的代碼會比較長。但自己使用 Theano 就會自動計算梯度，並生成對應的優化算法。這個例子通過簡單的幾行代碼實現了整個過程，不僅時間效率提升了，代碼也更加簡化。

四、Theano 的限制

然而，Theano 並不是萬能的解決方案，在不同的場景下，Theano 善長的領域將會不同。下面列出了 Theano 無法或不能高效應對的場景。

複雜的控制結構：
由於 Theano 的符號運算特性，Theano 通常不能將條件式和循環的語句優化為連續的操作。因此，當數據結構過於複雜，代碼中包含大量的控制語句時，很難達到最優的性能。
時序的手寫模型或需要並行化處理的算法：
類似於深度學習領域的模型，神經網絡、循環神經網絡等均需要處理時序信號，這需要大量的分支調整。Theano 也可以在這類模型上支持訓練，不過在循環中很難進行並行化處理，最終導致性能瓶頸。
需要跨尺寸和數據類型進行計算的應用程序：
Theano 是為多維數據和矩陣運算優化的。雖然它可以很好地對 32 位浮點型數據進行處理，但由於硬件之間的數據類型轉換需要耗費時間和內存，因此處理和管理不同尺寸和數據類型數據的任務使用其他工具通常會快得多。

五、總結

Theano 作為一個優秀的符號計算庫，它可以方便地生產、optimizes和evaluates數學表達式，特別擅長一個是在矩陣和向量計算上顯得極為醒目。同時，作為自動微分的一個庫，Theano 能夠在大型數據集上實現矩陣和向量運算的自動計算梯度以減少反向傳播算法的複雜度。在許多應用程序中，Theano 根據自身特性和使用場景，相對於 CPU 和 GPU ，Theano 的代碼能夠更快地驅動可產生巨大影響的操作，這意味着可以讓數據科學家訓練並優化模型、藉助紋理映射、平行處理、並加快矩陣的執行效率。

原創文章，作者：EUWNA，如若轉載，請註明出處：https://www.506064.com/zh-hk/n/368567.html