QTOFA的文章 - 個人中心 - 簡單一點

QTOFA

這個人很懶，什麼都沒有留下～

1 文章

0 評論

0 粉絲

探究Off-Policy的使用
一、Off-Policy的概述 Off-Policy是一種強化學習演算法，其在現實世界中廣泛應用。在Off-Policy的演算法中，我們從數據集中學習政策，但我們的操作又不會影響環境，…
QTOFA
編程 2025-02-27

點擊查看更多