Matlab 強化學習

一、Matlab 上的強化學習

Matlab 是廣泛使用的科學計算和工程分析軟體。在強化學習方面，Matlab 提供了強大的工具和庫，使得在該領域開發演算法和模型變得更加簡單。在Matlab上，可以使用強化學習工具箱、深度學習工具箱、狀態空間工具箱和優化工具箱等工具來完成強化學習的各種任務。

其中，強化學習工具箱提供了訓練智能體、執行策略評估和遺傳演算法等能力。狀態空間工具箱可以用來在非純強化學習中用於建模。而深度學習工具箱可以用來加速訓練和改善模型的性能。

以下是使用強化學習工具箱創建訓練智能體的示例代碼。


% 創建環境
env = rlPredefinedEnv("CartPole-Discrete");

% 創建指定環境的深度網路
hiddenLayerSize = 64;
statePath = [
    imageInputLayer([4 1 1],'Normalization','none','Name','state')
    fullyConnectedLayer(hiddenLayerSize,'Name','CriticStateFC1')
    reluLayer('Name','CriticRelu1')
    fullyConnectedLayer(hiddenLayerSize,'Name','CriticStateFC2')
    ];
actionPath = [
    imageInputLayer([1 1 1],'Normalization','none','Name','action')
    fullyConnectedLayer(hiddenLayerSize,'Name','CriticActionFC1')
    ];
commonPath = [
    additionLayer(2,'Name','add')
    reluLayer('Name','CriticCommonRelu')
    fullyConnectedLayer(1,'Name','output')];

criticNetwork = layerGraph(statePath);
criticNetwork = addLayers(criticNetwork,actionPath);
criticNetwork = addLayers(criticNetwork,commonPath);
criticNetwork = connectLayers(criticNetwork,'CriticStateFC2','add/in1');
criticNetwork = connectLayers(criticNetwork,'CriticActionFC1','add/in2');

二、強化學習的分類

強化學習可以分為多個子領域，每個領域有其自己的問題和解決方案。以下是強化學習的幾個常見子領域。

1. 值迭代

值迭代法是一種基於動態規劃的強化學習方法，主要用於解決馬爾可夫決策過程問題。該方法將狀態與值函數聯繫起來，並使用貝爾曼方程計算狀態的值。

2. 策略迭代

策略迭代法是強化學習中的另一種基於動態規劃的演算法，通過將策略映射到價值函數上，然後再根據新的價值函數重新更新策略來完成。

3. Q 學習

Q 學習演算法是一種常見的基於模型的強化學習演算法。該演算法使用動態規劃來計算每個狀態下可採取行動的 Q 值，並通過更新策略來最大化每個狀態的累積回報。

三、演算法示例

1. 智能體訓練

以下是一個在 Matlab 中訓練智能體的示例代碼。


% 創建環境
env = rlPredefinedEnv("CartPole-Continuous");

% 創建智能體
obsInfo = getObservationInfo(env);
actInfo = getActionInfo(env);
actorNetwork = [
    imageInputLayer([obsInfo.Dimension(1) 1 1],'Name','observation','Normalization','none')
    fullyConnectedLayer(64,'Name','fc1')
    reluLayer('Name','relu1')
    fullyConnectedLayer(64,'Name','fc2')
    reluLayer('Name','relu2')
    fullyConnectedLayer(actInfo.Dimension(1),'Name','output','Activation','tanh')];
criticNetwork = [
    imageInputLayer([obsInfo.Dimension(1) 1 1],'Name','observation','Normalization','none')
    fullyConnectedLayer(64,'Name','CriticStateFC1')
    reluLayer('Name','CriticRelu1')
    fullyConnectedLayer(64,'Name','CriticStateFC2')
    fullyConnectedLayer(1,'Name','output')];
agent = rlDDPGAgent(actorNetwork,criticNetwork);

% 創建訓練選項並進行訓練
trainOpts = rlTrainingOptions(...
    'MaxEpisodes',15000, ...
    'MaxStepsPerEpisode',500, ...
    'Verbose',false, ...
    'Plots','training-progress',...
    'StopTrainingCriteria','AverageReward',...
    'StopTrainingValue',4800);
trainingStats = train(agent,env,trainOpts);

2. 值迭代演算法

以下是一個使用值迭代演算法解決馬爾可夫決策過程問題的示例代碼。


% 定義模擬模型
s = [-0.5, -0.25, 0.0, 0.25, 0.5];
a = [-2.0, -1.0, 0.0, 1.0, 2.0];
p = zeros(5, 5, 5);
p(:,:,1) = [1.0, 0.0, 0.0, 0.0, 0.0;
            0.9, 0.1, 0.0, 0.0, 0.0;
            0.0, 0.9, 0.1, 0.0, 0.0;
            0.0, 0.0, 0.9, 0.1, 0.0;
            0.0, 0.0, 0.0, 0.0, 1.0];
p(:,:,2) = [0.9, 0.1, 0.0, 0.0, 0.0;
            0.8, 0.2, 0.0, 0.0, 0.0;
            0.0, 0.8, 0.2, 0.0, 0.0;
            0.0, 0.0, 0.8, 0.2, 0.0;
            0.0, 0.0, 0.0, 0.0, 1.0];
p(:,:,3) = [0.0, 0.9, 0.1, 0.0, 0.0;
            0.0, 0.0, 0.9, 0.1, 0.0;
            0.0, 0.0, 0.0, 0.9, 0.1;
            0.0, 0.0, 0.0, 0.0, 1.0;
            0.0, 0.0, 0.0, 0.0, 1.0];
p(:,:,4) = [0.0, 0.0, 0.0, 0.9, 0.1;
            0.0, 0.0, 0.0, 0.0, 1.0;
            0.0, 0.0, 0.0, 0.0, 1.0;
            0.0, 0.0, 0.0, 0.0, 1.0;
            0.0, 0.0, 0.0, 0.0, 1.0];
p(:,:,5) = [0.0, 0.0, 0.0, 0.0, 1.0;
            0.0, 0.0, 0.0, 0.0, 1.0;
            0.0, 0.0, 0.0, 0.0, 1.0;
            0.0, 0.0, 0.0, 0.0, 1.0;
            0.0, 0.0, 0.0, 0.0, 1.0];

% 定義獎勵函數
r = [-1.0, -2.0, -2.0, -2.0, 10.0];

% 定義折扣率和閾值
gamma = 0.9;
theta = 0.1;

% 初始化值函數
v = zeros(5,1);

% 迭代計算值函數
while true
    delta = 0;
    for i = 1:5
        oldv = v(i);
        [tmp, a_index] = max(squeeze(p(i, :, :))*v);
        v(i) = max(min(r+gamma*tmp),1000);
        delta = max(delta, abs(oldv - v(i)));
    end
    if delta <= theta
        break;
    end
end

% 輸出最終的值函數
disp(v);

3. Q 學習演算法

以下是一個使用 Q 學習演算法解決強化學習問題的示例代碼。


% 創建智能體和環境
env = rlPredefinedEnv('BasicGridWorld');
actionInfo = getActionInfo(env);
agent = rlQAgent(getObservationInfo(env),actionInfo);
trainOpts = rlTrainingOptions('MaxEpisodes',500,'MaxStepsPerEpisode',1000,'Verbose',false,'Plots','training-progress');
trainingStats = train(agent,env,trainOpts);

% 在環境中測試Q學習的效果
envTest = rlPredefinedEnv('BasicGridWorld');
simOptions = rlSimulationOptions('MaxSteps',100);
experience = sim(envTest,agent,simOptions);
totalReward = sum(experience.Reward);

原創文章，作者：JGHUR，如若轉載，請註明出處：https://www.506064.com/zh-tw/n/370190.html