申请试用
HOT
登录
注册
 
Non-Delusional Q-Learning and Value-Iteration

Non-Delusional Q-Learning and Value-Iteration

White&Black
/
发布于
/
4636
人观看
在Q-learning和其它形式的动态规划中,我们确定了一个基本的误差来源。当近似体系结构限制了可表达的贪婪策略类时,就会产生偏差。由于标准Q-updates对可表达的策略类做出了全局不协调的动作选择,因此可能导致不一致甚至冲突的Q值估计,从而导致病态行为,如过高/过低估计、不稳定甚至分歧。为了解决这个问题,我们引入了新的策略一致性概念,并定义了一个本地备份流程,该流程通过使用信息集来确保全局一致性,这些信息集记录了与备份后的Q值一致的策略约束。我们证明使用此备份的基于模型和无模型的算法都可消除妄想(delusional)偏差,从而产生第一种已知算法,可在一般条件下保证最佳结果。此外,这些算法仅需要多项式的一些信息集即可。最后,我们建议尝试减少妄想偏差的Value-iteration和 Q-learning的其它实用启发式方法。
0 点赞
0 收藏
1下载
相关文档
确认
3秒后跳转登录页面
去登陆