Matlab 強化學習

一、Matlab 上的強化學習

Matlab 是廣泛使用的科學計算和工程分析軟件。在強化學習方面，Matlab 提供了強大的工具和庫，使得在該領域開發算法和模型變得更加簡單。在Matlab上，可以使用強化學習工具箱、深度學習工具箱、狀態空間工具箱和優化工具箱等工具來完成強化學習的各種任務。

其中，強化學習工具箱提供了訓練智能體、執行策略評估和遺傳算法等能力。狀態空間工具箱可以用來在非純強化學習中用於建模。而深度學習工具箱可以用來加速訓練和改善模型的性能。

以下是使用強化學習工具箱創建訓練智能體的示例代碼。


% 創建環境
env = rlPredefinedEnv("CartPole-Discrete");

% 創建指定環境的深度網絡
hiddenLayerSize = 64;
statePath = [
    imageInputLayer([4 1 1],'Normalization','none','Name','state')
    fullyConnectedLayer(hiddenLayerSize,'Name','CriticStateFC1')
    reluLayer('Name','CriticRelu1')
    fullyConnectedLayer(hiddenLayerSize,'Name','CriticStateFC2')
    ];
actionPath = [
    imageInputLayer([1 1 1],'Normalization','none','Name','action')
    fullyConnectedLayer(hiddenLayerSize,'Name','CriticActionFC1')
    ];
commonPath = [
    additionLayer(2,'Name','add')
    reluLayer('Name','CriticCommonRelu')
    fullyConnectedLayer(1,'Name','output')];

criticNetwork = layerGraph(statePath);
criticNetwork = addLayers(criticNetwork,actionPath);
criticNetwork = addLayers(criticNetwork,commonPath);
criticNetwork = connectLayers(criticNetwork,'CriticStateFC2','add/in1');
criticNetwork = connectLayers(criticNetwork,'CriticActionFC1','add/in2');

二、強化學習的分類

強化學習可以分為多個子領域，每個領域有其自己的問題和解決方案。以下是強化學習的幾個常見子領域。

1. 值迭代

值迭代法是一種基於動態規劃的強化學習方法，主要用於解決馬爾可夫決策過程問題。該方法將狀態與值函數聯繫起來，並使用貝爾曼方程計算狀態的值。

2. 策略迭代

策略迭代法是強化學習中的另一種基於動態規劃的算法，通過將策略映射到價值函數上，然後再根據新的價值函數重新更新策略來完成。

3. Q 學習

Q 學習算法是一種常見的基於模型的強化學習算法。該算法使用動態規劃來計算每個狀態下可採取行動的 Q 值，並通過更新策略來最大化每個狀態的累積回報。

三、算法示例

1. 智能體訓練

以下是一個在 Matlab 中訓練智能體的示例代碼。


% 創建環境
env = rlPredefinedEnv("CartPole-Continuous");

% 創建智能體
obsInfo = getObservationInfo(env);
actInfo = getActionInfo(env);
actorNetwork = [
    imageInputLayer([obsInfo.Dimension(1) 1 1],'Name','observation','Normalization','none')
    fullyConnectedLayer(64,'Name','fc1')
    reluLayer('Name','relu1')
    fullyConnectedLayer(64,'Name','fc2')
    reluLayer('Name','relu2')
    fullyConnectedLayer(actInfo.Dimension(1),'Name','output','Activation','tanh')];
criticNetwork = [
    imageInputLayer([obsInfo.Dimension(1) 1 1],'Name','observation','Normalization','none')
    fullyConnectedLayer(64,'Name','CriticStateFC1')
    reluLayer('Name','CriticRelu1')
    fullyConnectedLayer(64,'Name','CriticStateFC2')
    fullyConnectedLayer(1,'Name','output')];
agent = rlDDPGAgent(actorNetwork,criticNetwork);

% 創建訓練選項並進行訓練
trainOpts = rlTrainingOptions(...
    'MaxEpisodes',15000, ...
    'MaxStepsPerEpisode',500, ...
    'Verbose',false, ...
    'Plots','training-progress',...
    'StopTrainingCriteria','AverageReward',...
    'StopTrainingValue',4800);
trainingStats = train(agent,env,trainOpts);

2. 值迭代算法

以下是一個使用值迭代算法解決馬爾可夫決策過程問題的示例代碼。


% 定義仿真模型
s = [-0.5, -0.25, 0.0, 0.25, 0.5];
a = [-2.0, -1.0, 0.0, 1.0, 2.0];
p = zeros(5, 5, 5);
p(:,:,1) = [1.0, 0.0, 0.0, 0.0, 0.0;
            0.9, 0.1, 0.0, 0.0, 0.0;
            0.0, 0.9, 0.1, 0.0, 0.0;
            0.0, 0.0, 0.9, 0.1, 0.0;
            0.0, 0.0, 0.0, 0.0, 1.0];
p(:,:,2) = [0.9, 0.1, 0.0, 0.0, 0.0;
            0.8, 0.2, 0.0, 0.0, 0.0;
            0.0, 0.8, 0.2, 0.0, 0.0;
            0.0, 0.0, 0.8, 0.2, 0.0;
            0.0, 0.0, 0.0, 0.0, 1.0];
p(:,:,3) = [0.0, 0.9, 0.1, 0.0, 0.0;
            0.0, 0.0, 0.9, 0.1, 0.0;
            0.0, 0.0, 0.0, 0.9, 0.1;
            0.0, 0.0, 0.0, 0.0, 1.0;
            0.0, 0.0, 0.0, 0.0, 1.0];
p(:,:,4) = [0.0, 0.0, 0.0, 0.9, 0.1;
            0.0, 0.0, 0.0, 0.0, 1.0;
            0.0, 0.0, 0.0, 0.0, 1.0;
            0.0, 0.0, 0.0, 0.0, 1.0;
            0.0, 0.0, 0.0, 0.0, 1.0];
p(:,:,5) = [0.0, 0.0, 0.0, 0.0, 1.0;
            0.0, 0.0, 0.0, 0.0, 1.0;
            0.0, 0.0, 0.0, 0.0, 1.0;
            0.0, 0.0, 0.0, 0.0, 1.0;
            0.0, 0.0, 0.0, 0.0, 1.0];

% 定義獎勵函數
r = [-1.0, -2.0, -2.0, -2.0, 10.0];

% 定義折扣率和閾值
gamma = 0.9;
theta = 0.1;

% 初始化值函數
v = zeros(5,1);

% 迭代計算值函數
while true
    delta = 0;
    for i = 1:5
        oldv = v(i);
        [tmp, a_index] = max(squeeze(p(i, :, :))*v);
        v(i) = max(min(r+gamma*tmp),1000);
        delta = max(delta, abs(oldv - v(i)));
    end
    if delta <= theta
        break;
    end
end

% 輸出最終的值函數
disp(v);

3. Q 學習算法

以下是一個使用 Q 學習算法解決強化學習問題的示例代碼。


% 創建智能體和環境
env = rlPredefinedEnv('BasicGridWorld');
actionInfo = getActionInfo(env);
agent = rlQAgent(getObservationInfo(env),actionInfo);
trainOpts = rlTrainingOptions('MaxEpisodes',500,'MaxStepsPerEpisode',1000,'Verbose',false,'Plots','training-progress');
trainingStats = train(agent,env,trainOpts);

% 在環境中測試Q學習的效果
envTest = rlPredefinedEnv('BasicGridWorld');
simOptions = rlSimulationOptions('MaxSteps',100);
experience = sim(envTest,agent,simOptions);
totalReward = sum(experience.Reward);

原創文章，作者：JGHUR，如若轉載，請註明出處：https://www.506064.com/zh-hant/n/370190.html