SORQH這個人很懶,什麼都沒有留下~ 1 文章 0 評論 0 粉絲 關注私信 文章 評論 問答 關注 收藏 理解Off-policy 一、Off-policy是什麼 Off-policy學習是強化學習中的一種演算法,它是通過在一個策略下學習另一個策略進行決策問題。在這種情況下,Agent使用的策略通常稱為行為策略,… SORQH 編程 2025-02-01 點擊查看更多