SORQH这个人很懒,什么都没有留下~ 1 文章 0 评论 0 粉丝 关注私信 文章 评论 问答 关注 收藏 理解Off-policy 一、Off-policy是什么 Off-policy学习是强化学习中的一种算法,它是通过在一个策略下学习另一个策略进行决策问题。在这种情况下,Agent使用的策略通常称为行为策略,… SORQH 编程 2025-02-01 点击查看更多