QTOFA這個人很懶,什麼都沒有留下~ 1 文章 0 評論 0 粉絲 關注私信 文章 評論 問答 關注 收藏 探究Off-Policy的使用 一、Off-Policy的概述 Off-Policy是一種強化學習演算法,其在現實世界中廣泛應用。在Off-Policy的演算法中,我們從數據集中學習政策,但我們的操作又不會影響環境,… QTOFA 編程 2025-02-27 點擊查看更多