918博天堂(中国)

918博天堂(中国)BIGAI

让智能体学会主动探索适应新交互对象

论文地址http://proceedings.mlr.press/v235/ma24n.html

01背  景

在多智能体场景中,快速适应多样化同伴是智能体的关键能力。无论是合作、竞争还是混合博弈,智能体需要经常面对价值与偏好未知的同伴,而他们的表现取决于能否有效适应这些同伴,并根据其价值观采取最优策略。例如,在纸牌游戏中,智能体需要关注其他玩家的策略偏好是保守或激进[1];在线角色扮演游戏中,还存在复杂的信息收集和对抗策略[2]。然而,以往的研究大多忽视了在快速同伴适应中进行有效探索以获取信息反馈的重要性。例如,GSCU [3]假设对手的观测和动作均已知,因此不需要探索;LIAM [4]考虑了部分可观测情景,但只使用了一个辅助任务,没有鼓励探索。在实际的多智能体交互任务中,对同伴智能体的价值的探索与随后的适应和调整都非常重要。没有探索,智能体就缺少用于适应的价值基准;而没有适应提供的回报信号,也无法指引探索行为的学习。现有工作大多集中于后者而忽略了前者,从而不能在困难任务上实现有效的价值适应。面对这一空白,通研院提出了基于上下文内探索的同伴适应算法(PACE),在学习适应策略的同时促进探索行为,从而一并解决上述两个问题。PACE使用同伴识别任务来促进上下文编码器对多智能体价值的建模和学习,同时产生一个同伴识别回报,鼓励智能体主动采取行动探索同伴智能体的价值函数。

02 问题定义与框架

在PACE中,918博天堂(中国)要解决的问题是一个有限序列长度的部分可观测随机博弈(partially observable stochastic game, POSG)。假设环境中存在一个自身智能体和m个同伴智能体,918博天堂(中国)希望学习一个具有适应性的,可以对各种不同的同伴智能体组合做出正确的反应,主动探索他们的价值函数,获得尽可能高的回报。这里,PACE将学习目标定义为多个轮次交互后自身智能体获得的总回报,以此来反映现实世界中常见的重复交互博弈场景。

为了训练具有这种价值适应能力的智能体,PACE使用一个多样的同伴池来训练带上下文的自身智能体策略,同伴池中包含具有各种不同价值取向的智能体,模拟了现实世界中多样化的交互对象。如图所示,在每次交互时,PACE从同伴池中随机选择一个同伴策略,自身智能体不知道同伴的价值函数,而是需要与同伴进行交互,收集轨迹作为自身的上下文,并通过这些上下文推断出同伴的价值函数。

图:PACE的学习框架示意图,左侧的自身智能体同右侧的同伴智能体进行交互,得到的轨迹作为上下文成为自身智能体在之后的输入。

03 同伴识别任务与回报

为了适应未知的同伴,自身智能体首先需要推断出同伴智能体的价值函数,以便确定最佳的回应策略。然而,在部分可观测环境中,这个推断过程可能会非常困难,只有在特定情况下才能获取同伴的信息。例如,在下图母亲与小婴儿的互动中,由于婴儿无法直接用语言向母亲表达自己的需求,母亲只能尝试通过向婴儿提供不同物品并观察他的反应,逐步探索其价值偏好。在这种情况下,如何进行高效的探索和识别就成了重要的问题。

为了解决这一问题,PACE提出了同伴识别任务和同伴识别回报。同伴识别任务在训练时使用同伴的身份信息监督上下文编码器,以提高自身智能体策略对上下文的理解。同时,PACE将同伴识别任务的准确度作为辅助回报加入任务回报中,以鼓励自身智能体探索同伴的价值函数,生成更高质量的上下文来识别出同伴的策略

图:母亲与小婴儿进行互动,根据收集到的信息主动探索婴儿对物品的偏好,找到最适合的一个,实现对婴儿价值的快速探索和适应。

04 实验环境

为了验证PACE在各种不同场景下的表现,918博天堂(中国)使用了三个性质各异的实验环境,涵盖竞争、合作、以及混合动机场景。这些场景不仅轮次长度和同伴数量不同,还模拟了现实世界中多样化的交互情境,充分测试了PACE的适应能力。如下图所示

1. 库恩扑克(Kuhn Poker)

场景类型:竞争性环境

描述:这是一个双人对抗的简化扑克游戏,智能体需要通过策略博弈最大化自身收益。PACE在该环境中测试了其在竞争场景下对同伴价值偏好的探索与适应能力。

2. 胡闹厨房(Overcooked)

场景类型:合作性环境

描述:这是一个双人合作游戏,智能体需要与同伴协作,烹饪符合其偏好的菜品。PACE在该环境中验证了其在合作场景下对同伴价值函数的探索与适应效率。

3. 捕食者-猎物(Predator-Prey)

场景类型:混合动机环境

描述:这是一个既有合作又有竞争的场景,智能体需要与其他捕食者协作,分工追逐正确的猎物。PACE在该环境中测试了其在混合动机场景下的综合适应能力。

图 PACE使用的竞争性环境库恩扑克(a),合作性环境胡闹厨房(b)和混合环境捕食者-猎物(c)。此外,在各个实验环境中,PACE构造了具有多种不同偏好的基于规则的智能体,以模拟多样化的人类行为和价值偏好。这些智能体被划分为训练同伴池和测试同伴池,保证自身智能体能够适应行为和偏好差别很大的各种同伴。这种设计不仅提高了实验的泛化能力,还为PACE在复杂场景中的表现提供了全面验证。

05 实验结果

为了全面评估PACE的性能,918博天堂(中国)在库恩扑克、胡闹厨房和捕食者-猎物三种实验环境中进行了在线适应测试,从测试同伴池中随机抽取智能体作为同伴,验证PACE训练出的自身智能体能否对新的同伴实现价值适应。结果如下所示,PACE在各个环境中均能成功推断出同伴的价值偏好,并有针对性地进行适应,持续提高自身回报。尤其是在较为困难的胡闹厨房环境中,PACE是唯一可以通过探索获得对方的价值偏好的方法,展现其显著优势。对上下文向量的可视化进一步验证了PACE有能力逐步分辨同伴的不同偏好,而基线方法则不能。

图 PACE在各实验环境中对同伴价值偏好进行适应的回报曲线。PACE在各个环境中都能实现对同伴价值偏好的适应,随着交互过程的推进回报逐步提升。

图 PACE在各实验环境中适应同伴价值偏好的每轮次平均回报,其中参考最优值是对每个同伴组合专门训练的理论上界表现。

图 PACE(a)与基线方法LILI(b)的上下文向量的t-SNE可视化,PACE可以区分开与不同同伴(以颜色标注)进行交互时产生的上下文向量,而基线方法中所有上下文均混杂在一起。

图 PACE在胡闹厨房环境中的价值探索示例。在第一个轮次(左图)中,自身智能体(左侧,蓝色)发现同伴智能体(右侧,红色)偏好洋葱,并制作了一道包含洋葱的菜品,但同伴智能体没有选择上菜。在第二个轮次(右图)中,自身智能体制作了另外一道包含洋葱的菜品,并成功满足了同伴智能体的偏好。

06 结 语
现实世界中的智能体需要在多智能体交互中主动对其他智能体的价值函数进行探索和建模,以适应同伴的价值偏好,从而更好地进行竞争或合作。PACE通过同伴识别任务同伴识别回报,鼓励智能体在环境中主动试探、了解和适应同伴的价值偏好,解决了传统方法中探索不足的问题。PACE的创新设计不仅为智能体在部分可观测环境中的快速适应提供了解决方案,还为未来社会智能体的发展奠定了坚实基础。通过高效的探索与适应,PACE为多智能体交互研究开辟了新的方向,展现了其在复杂场景中的广泛应用潜力。

Facebook
Twitter
LinkedIn
Email