ICML 2020 | 天津大学探索多智能体深度强化学习中的Q值路径分解
文库划重点:在论文《Q-value Path Decomposition for Deep Multiagent Reinforcement Learning》中,天津大学等研究人员提出了一种称为 Q 值路径分解(QPD)的新方法,可以将系统的全局 Q 值分解为单个智能体的 Q 值。
近年来,由于许多现实世界中的问题可以建模为多智能体系统,因此多智能体深度强化学习(MARL)已成为一个非常活跃的研究领域。一类特别有趣且广泛适用的问题可以被抽象为部分可观察的合作式多智能体环境,在这种环境中,一组智能体根据自己的局部观察和共享的全局奖励信号来学习协调其行为。
一种自然的解决方案是求助于集中式训练、分布式执行范式。在集中式训练期间,一项关键挑战是多智能体信度分配:如何为单个智能体的策略分配属于它自身的贡献,从而更好地协调以最大化全局奖励。
在论文《Q-value Path Decomposition for Deep Multiagent Reinforcement Learning》中,天津大学等研究人员提出了一种称为 Q 值路径分解(QPD)的新方法,可以将系统的全局 Q 值分解为单个智能体的 Q 值。
和以前的工作限制单个 Q 值和全局 Q 值的表示关系不同,我们将累积梯度归因技术运用到深度 MARL 中,沿着轨迹路径直接分解全局 Q 值来为智能体进行信度分配。我们在具有挑战性的《星际争霸 II》微观管理任务上评估了 QPD,表明其与现有的 MARL 算法相比,QPD 在同质和异质的多智能体场景中均达到了先进的性能。
收录于哈希力量,手机站省略本文固定网址