浙大&中科院让Agent学会自我进化，玩德州扑克心机尽显

　　Wenqi Zhang 投稿

　　量子位公众号 QbitAI

　　基于大模型的 Agent，已经成为了大型的博弈游戏的高级玩家，而且玩的还是德州扑克、21 点这种非完美信息博弈。

　　来自浙江大学、中科院软件所等机构的研究人员提出了新的 Agent 进化策略，从而打造了一款会玩德州扑克的“狡猾”智能体 Agent-Pro。

　　通过不断优化自我构建的世界模型和行为策略，Agent-Pro 掌握了虚张声势、主动放弃等人类高阶游戏策略。

　　Agent-Pro 以大模型为基座，通过自我优化的 Prompt 来建模游戏世界模型和行为策略。

　　相比传统的 Agent 框架，Agent-Pro 能够变通地应对复杂的动态的环境，而不是仅专注于特定任务。

　　而且，Agent-Pro 还可以通过与环境互动来优化自己的行为，从而更好地达成人类设定的目标。

　　同时作者还指出，在竞争、公司谈判和安全等现实世界中遇到的情景，大多可以抽象为 multi-agent 博弈任务，而 Agent-Pro 通过对这类情境的研究，为解决众多现实世界的问题提供了有效策略。

　　那么，Agent-Pro 在博弈游戏中的表现究竟如何呢？

　　进化出游戏世界模型

　　在研究中，作者使用了“21 点”和“有限注德州扑克”这两款游戏对 Agent 进行了评估。

　　首先简要介绍下两个博弈游戏的基本规则。

　　21 点

游戏中包含一个庄家和至少一名玩家。玩家可以看到自己的两张手牌，以及庄家的一张明牌，庄家还隐藏了一张暗牌。玩家需要决定是继续要牌（Hit）还是停牌（Stand）。游戏的目标是在总点数不超过 21 点的前提下，尽量使总点数超过庄家。

　　有限注德州扑克

游戏开始阶段为 Preflop 阶段，每位玩家将获得两张只属于自己且对其他玩家保密的私牌（Hand）。随后，会有五张公共牌面(Public Cards)依次发出：首先翻牌（Flop）3 张，其次转牌（Turn）1 张，最后是河牌(River）1 张。玩家有四种选择：弃牌（fold）、过牌（check）、跟注（call）或加注（raise）。目标是利用自己的两张 Hand 和五张 Public Cards 任意组合，尽可能构造出最佳的五张扑克牌组合。

　　在“21 点”当中，同样是使用 GPT-4 作为基础模型，Agent-Pro 的表现超过了 ReAct 框架。

　　在手牌相同的情况下，二者的表现如下图所示。

　　Agent-Pro 通过分析得出自我信念（Self-Belief）和对外部世界的信念（World-Belief），正确认识到自己的手牌已接近 21 点，合理的选择了停牌。

　　而 ReAct 则未能及时停牌，导致最终爆牌，输掉了游戏。

　　从游戏中能够看出 Agent-Pro 更好的理解了游戏的规则，并给出了合理的选择。

　　接下来再看看在德州扑克中 Agent-Pro 的表现。

　　一次牌局中，参赛选手分别是训练后的 DQN、DMC 策略，原生 GPT3.5 和 Agent-Pro（基于 GPT-4），他们的手牌和公共牌如下图所示：

　　△S、H、C、D分别代表黑桃、红桃、梅花、方块

　　在当前游戏状态（Current game state）下，Agent-Pro 分析得出 Self-Belief、World-Belief 和最终的 Action，并随着游戏状态的变化，不断更新 Belief，根据自身和对手的情况，做出灵活合理的选择。

　　△相同牌局同一位置的 Baseline（原始大模型）结果为-13

　　统计数据上看，21 点游戏中，在使用 GPT、Llama 等多种大模型的情况下，Agent-Pro 的表现都显著超过了原始模型和其他参与对比的 Agents 框架。

　　在更为复杂的德州扑克游戏中，Agent-Pro 不仅超过了原始大模型，还击败了 DMC 等训练后的强化学习 Agent。

　　那么，Agent-Pro 是如何学习和进化的呢？

　　三管齐下提高 Agent 表现

　　Agent-Pro 包括“基于信念的决策”“策略层面的反思”和“世界模型和行为策略优化”这三个组件。

　　基于信念的决策（Belief-aware Decision-making）

　　Agent-Pro 根据环境信息，首先形成 Self-Belief 和 World-Belief，然后基于这些 Belief 做出决策（Action）。

　　在后续环境交互中，Agent-Pro 动态更新 Belief，进而使做出的 Action 适应环境的变化。

　　例如，德州扑克游戏中：

环境信息可包括手牌（Private State）、公共牌（Public State）、行动轨迹（Trajectory）等； Agent-Pro 对手牌（State）、出牌计划（Plan）及潜在风险（Risk）的预估等信息构成了它的 Self-Belief；而 Agent-Pro 对对手（Opponent）、环境（Environment）和规则（Rule）的理解则构成了它的 World-Belief；这些 Belief 在每一个决策周期中都会被更新，从而影响下个周期中 Action 的产生

　　策略层面的反思（Policy-Level Reflection)

　　与人类一样，Agent-Pro 会从历史经验、历史认知和历史结果中进行反思和优化。它自主调整自己的 Belief，寻找有用的提示指令，并将其整合到新的策略 Policy 中。

　　首先，Agent-Pro 以文字的形式设计了一个对任务世界的建模以及对行为准则的描述，他们一起被当做 Policy：

World Modeling：任务世界的建模，例如对游戏环境的理解、对手们的风格分析、环境中其他 Agent 的策略估计等； Behavioral Guideline：行为准则的描述，例如对游戏目标的认识、自己策略规划、未来可能面临的风险等

　　其次，为了更新 World Modeling 和 Behavioral Guideline，Agent-Pro 设计了一个 Policy-level Reflection 过程。

　　与 Action-level Reflection 不同，在 Policy-level 的反思中，Agent-Pro 被引导去关注内在和外在信念是否对齐最终结果，更重要的是，反思背后的世界模型是否准确，行为准则是否合理，而非针对单个 Action。

　　例如，德州扑克游戏中 Policy-level 的反思是这样的：

在当前世界模型和行为准则(World Modeling & Behavioral Guideline)的指导下，Agent-Pro 观察到外部状态，然后生成 Self-Belief 和 World-Belief，最后做出 Action。但如果 Belief 不准确，则可能导致不合逻辑的行动和最终结果的失败； Agent-Pro 根据每一次的游戏来审视 Belief 的合理性，并反思导致最终失败的原因（Correct，Consistent，Rationality…）；然后，Agent-Pro 将反思和对自身及外部世界的分析整理，生成新的行为准则 Behavioral Guideline 和世界建模 World Modeling；基于新生成的 Policy（World Modeling & Behavioral Guideline），Agent-Pro 重复进行相同游戏，来进行策略验证。如果最终分数有所提高，则将更新后的 World Modeling & Behavioral Guideline 和保留在提示中。

　　世界模型和行为准则的优化（World Modeling & Behavioral Guideline Evolution）

　　在 Policy-level Reflection 之上，面对动态的环境，Agent-Pro 还采用了深度优先搜索（DFS）和策略评估，来持续优化世界模型和行为准则，从而找到更优的策略。