对话超参数：Agent 诞生于游戏，最终会走进生活

复杂性科学的奠基人布莱恩·阿瑟总结：「新技术诞生于已有的技术组合。」

超参数科技成立于 2019 年初。时间上，是如今被称为上一代 AI——即「模式识别」，浪潮顶峰的尾巴。泡沫尾随其后。那时候，OpenAI 和 DeepMind 还专注于用强化学习 RL（Reinforce Learning) 教 AI 玩游戏。优化 LLM 输出的核心方法 RLHF 也诞生于彼时。

当下，在 Scaling Law 边际效应递减的时候，技术界又将目光投回了强化学习 RL。于是，Scaling Law+ RLHF 成为目前最受关注的技术组合之一。

超参数创始人刘永升是腾讯围棋 AI「绝艺」、王者荣耀 AI「绝悟」项目负责人。他也是在用 RL 教 AI 下棋、玩游戏中，对 AI 产生了信心。「像训练一个小朋友一样，看到 AI 从什么都不会，到慢慢学会各种本领……最终看到 AI 做出人类做不出来地动作，冲击感太强了」。

也是最初对于 AI 的信心，让他和团队从腾讯出来，成立了超参数。这之后，外界对 AI 信心，从顶峰降至谷底，又迎来了 2.0 的高潮。

在大模型出来之后，聊起游戏 AI 时，不时会听到新生代的创业者，将超参数定义为「上一代」。而市面上，的确很少听见这家公司的声音。

最近，极客公园和刘永升做了一次交流，请他讲了讲从 RL，再到 LLM+RL 一路走来做的事情，正在推进的 AI- Native 游戏项目，还有他对游戏 AI 的看法。

超参数科技创始人&CEO 刘永升

游戏Agent：

从比人强、到拟人、再到有温度

极客公园：LLM 出现以来，人们开始讨论 AI 对游戏领域带来变革，你观察到这个领域里出现了怎样的变化？

刘永升：我观察到两个方向。

一个是能不能通过 LLM 和 AIGC，用更低的成本产生更多差异化的内容，目前能看到生产各种素材的尝试。另外一条是沿着 GameAgent 的路线，能不能让游戏里面的 Bot、NPC 变得更有生命感。

以前，我们通过强化学习的方式，能让游戏里的 Bot 变得很厉害。但是这仅仅是游戏体验的一个方面，玩家还是希望更有差异化、以及人性化的体验。

很多人认为游戏中加上了 AI 能力就是 AI 游戏，我们认为这是一种「掺水」，或者说是对 AI 游戏标准、对自己的作品的一种「宽容」。有些界定，最好是能比较清晰的。以 AI 游戏来说，AI 从游戏的底层架构开始就应该发挥作用，而不是加点 AI 的边角料就说自己是 AI 游戏。

极客公园：怎么理解「拟人化」的体验？

刘永升：我们以前做强化学习，让游戏里的 Bot 能力变得很强，甚至比真人还要厉害。但是对于玩家来说，希望在游戏里遇到的 Bot 不要完全碾压自己，TA 能够对我好，有温度。比如我在游戏里面遇到的队友、角色也能够跟进我的要求。

我们之前通过 SL（Supervise Learning) 和 RL（Reinforce Learning）结合起来，能够解决在操作上「拟人」的问题。

比如物理上的一些限制，人在游戏操作里不能够瞬间 180 度转身，决策一次需要 0.1~0.2 秒，这些限制对于 AI 来说不存在。

通过建模，我们可以把人在游戏世界里操作时的限制、或者模式写进去。这是我们以前解决比较多的一个点。

极客公园：在 LLM 出现之后，技术可以对游戏体验的提升带来哪些影响？

刘永升：玩家也会希望 Agent 在游戏世界的行为更像人，跟人的互动更加丰富，（这意味着）Agent 不仅能够响应玩家的命令，还能够主动地向玩家提出一些请求。

这种效果在 LLM 技术出来之前，用之前的一套技术栈满足互动性的需求，是比较难的。

我们的目标一直是提高 Agent 的自主性和互动性。在 2021 年之前，我们一直在提高自主性，让 AI 在复杂场景里做决策。在 2021 年我们发布了「猎户座α」，相当于突破了 3D 环境里的 GameAgent，让 AI 可以玩射击类的游戏，这也是全球范围内我们最先做出这个成果。

极客公园：似乎是 LLM 出来之后，像斯坦福小镇这样的研究出现之后，人们开始对 Agent 在游戏里的具体形态有了更多想象。

刘永升：现在，Agent 除了实现自主决策是不够的，还需要具有的「互动性」，也就是它们之间彼此互动产生足够多的内容。于是我们做了「活的长安城」这样一个城市 Demo，里面有很多不同背景、不同职业的人，他们之间有各种复杂的关系，形成自运转的一个小型社会。对应这个 Demo 同时发布的叫做「游戏 NPC 生态技术」。

在 2019、2020 年的时候，我们讨论过 Agent 这个概念。但是那个时候，Agent 会翻译成代理，近一两年才翻译成「智能体」。

如果在当时的环境下，翻译成代理跟别人去介绍，对方完全会一脸懵逼。所以当时我们就退而求其次，叫做 GameBot。

极客公园：对于未来 Agent 的发展，会怎样设想？

刘永升：未来我们的生活中会出现越来越多 Agent，比如越来越多的机器狗、无人机。某种意义上，机器人属于 Agent 的一种，未来的硬件、具身智能也会越来越发达。

具体到游戏领域，Agent 也会走出来，因为你在游戏世界和 Agent 有大量的互动，它会加深对你的了解，你对他就会产生很强的羁绊，这种羁绊是可以延续到生活中的。

那么当游戏的周边实体出现，比如游戏里的一些角色，就能够变成你生活中的高级玩具，他能够和你一起创建 Both Reality，在游戏世界与你探索，在生活中与你进行各种互动。所以我们认为未来是 10 亿人和 100 亿 AI 共同生活的世界。

游戏研发是一个非常复杂的系统工程

极客公园：「活的长安城」这个虚拟城市 Demo 对应的「游戏 NPC 生态技术」，这个技术栈要怎么理解？

刘永升：在 Agent 的技术拆分上，我们和大多数团队的处理方式都一样，分成不同的模块，Control、Plan、Memory、Reflection 等。这是每一个个体，也就是一个 Agent 的底层架构。

此外，这个生态需要更好地运转，也就是 Agent 和 Agent 之间更好地互动，需要有更上层的设计。可以将它理解为一个「事件的触发器」，进行 top-down 的控制。如果没有这种 top-down 的控制，只靠底层的涌现，生产的内容很快就会让人觉得索然无味了。

实际上最难的是在顶层要做多大的控制，即事件触发。某个事件触发之后，会改变游戏世界的很多状态或数值，进而影响到最底层的 Agent。

很像人和国家的关系、国家之间的关系博弈，（一个顶层事件）会改变很多东西，再进一步传递到个体，个体也会受到影响。在没有大模型之前，或者是大模型没有这么强的时候，「事件触发」做起来是挺难的。

极客公园：需要写很多规则？

刘永升：要依靠策划，并且做大量的修改。但是我们发现像 GPT-4 出来之后，上层的事件触发和 LLM 结合起来，是比较有效的。首先，大的事件不会特别高频，不会时时刻刻变化。第二，发生变化之后，传递到底层「人们」的行为发生变化，也会有一个过程。

极客公园：底层的 Agent，和上层触发器之间的如何联动很关键。

刘永升：我认为最牛逼的就是这样一套全新的体系。底下的互动，也会影响上层事件触发的逻辑。如果只是 Bottom-up，相当于只给了一个起点，具体会发生什么，完全是不可控的。如果我给的是很多关键节点 a、b、c、d、e。这些节点是确定的，但是每个节点之间怎么走，是交给 AI 自己决定的，但是整体主线是 make sense 的。

极客公园：目前这套技术框架，有没有应用到具体的游戏开发中？

刘永升：我们最近在和一个 Steam 游戏团队合作，把这样的技术架构落到一个商业化游戏里面去。

关于太空商人和经营类的游戏。大致设定是在太空里有很多星球，有很多 Agent，而 A 国和 B 国之间的关系会影响到商人之间的经营。比如两国关系紧张了，可能 B 国就突然不跟 A 国做生意了，或者提价等等。

极客公园：这套新的技术框架，应用到游戏开发的过程中，最大的挑战在哪里？

刘永升：对现有游戏研发管线造成了很大冲击。

现在的游戏研发比较追求确定性。而游戏研发本身是一个非常复杂的系统工程，有很多不同工种、不同专业的人参与进来，也有非常严密的项目管理。

AI 最大的特点是不确定性，怎么让对确定性要求非常高的一套管理软件，去兼容不确定性，是很难的。

比如合作中经常会发生 AI 和策划同学都崩溃了的情况，怎么把双方都梳理好，这里面临巨大的挑战。

这也可以解释，为什么所谓的 AI-Native 的商业化游戏还没有出来，因为你不是有个想法就行，具体到团队付诸实施的层面，经常会被整疯了。要不做游戏的疯了，要不做 AI 的疯了。（笑）

极客公园：那就超参数自己探索的经验来说，有什么心得？

刘永升：团队很重要。选人的时候，对团队的要求变高了，真正有信仰的人，疯了一段时间之后，又能冷静下来，具体去探讨怎么把这个问题解决。对于整个项目而言，耐心程度要更高一些。

这里面，除了 AI 的不确定性，最终的整体游戏体验也有不确定性。那么整个过程中就不像传统游戏的 Milestone，很够很清晰地建立对下一个版本的预期。

比较难建立预期的时候，团队怎样保持住凝聚，就需要内心强大。

坚韧是机缘巧合

你身上就具备的某种东西

极客公园：外界常常将超参数视为游戏 AI 公司，但是似乎这和超参数对自己的理解有所不同？

刘永升：我们也很无奈，可能我们身上的「游戏」标签比较重，我们只是把游戏作为一个 AI 技术迅速落地的场景而已。

此前，游戏是一个适合强化学习、无监督学习迭代的场景。那么现在 LLM+RL 的技术栈，依旧是合适在 GameAgent 的场景中去迭代。

极客公园：毕竟从商业化角度而言，超参数约等于是中国最大的第三方 AI NPC 供应商。

刘永升：作为技术公司，我们不像 DeepMind 有大公司养活，所以我们需要考虑商业化，游戏领域的商业化我们做的的确不错。

我们也在其它的领域尝试应用，比如将 Agent 技术应用在低空交通领域，包括自动驾驶。还有一个非常重要的方向叫做 Agent based simulation，比如我们在和一个大学合作，对古代的城市进行模拟，对经济系统中人的行为进行模拟。

很多复杂系统不能归纳推理，利用 AI 技术将一些场景模拟出来，再返回生活的场景，能够解决一些问题。

极客公园：怎么看今年夏天谷歌推出的 AI 游戏引擎？

刘永升：如果他们想做一种新的游戏引擎，去取代现有的引擎，我觉得会很难。现在的游戏项目已经是一个超级复杂的工程，有非常复杂的管线的管理。有内容、运营、商业化的，很多不同的要素。如果你想让 AI 进行端到端的尝试，非常不利于人与人协同开发。即使现在生成的视频，最后要用起来，还是需要人做后期的处理。

如果作为视频生成的加强版，除了呈现还增加了互动，我觉得是一个比较好的科研项目。能够让 AI 更好地理解物理世界。因为生成内容于对一致性的要求更高，如果真的能够解决一致性，势必对物理世界的理解会更深。

极客公园：那怎么看前不久一家初创公司实现的实时可交互世界模型 Oasis？

刘永升：现在挺多人会尝试用自然语言聊天的方式来实现一个游戏，我自己也会跟进一些这样的项目。我自己最大的感受是，不见得写代码就会比语言更复杂。

极客公园：但是降低了门槛。

刘永升：所以我倾向于认为，未来通过语言交互生产的内容，很难做一些非常复杂的系统，因为复杂的东西，你要用语言描述出来其实是很难的，效率也很低。

极客公园：这样的视角，或许与超参数这些年作为一个成熟技术的供应商有关？除了技术突破之外，也很注重工程的稳定性，效率等因素。

刘永升：碰到这个话题，我挺想多说一点。很多时候，大家一讲到技术，就会更多讲算法，比如在强化学习的时候，大家会对 PPO、DQN 等很感兴趣。

但是在这次大模型出来之后，大家开始注意工程。比如让 10 万块 A100 或者 H200 并行，面临大量的工程挑战。

从我的视角去看，这仅仅是 offline 的工程，还有另外一块非常重要的点是 Online，就是模型怎样去 delivery 服务。

特别是像我们需要在全球去提供服务，在南美、东南亚很多地方，IDC 不具备部署新型 GPU 的条件，这种时候要提供实时的服务，本身就是一个巨大的难题。我们过去一直在解决这些问题，比如如何让压缩过的小模型在 10 年前的 CPU 上都能够跑起来，做大量的压缩和预测，在网络质量差的情况下也做到低延时。

看到大家现在重视工程，比较欣喜。我也相信接下来，过去两年积累起来的大模型的能力，真的去大规模服务的话，高并发、低延时的场景，会遇到很多 Online 的巨大挑战。

极客公园：创业者这么多年，肯定经历了很多的挑战，其中也有起起伏伏，有什么体会特别想分享的吗？

刘永升：我对自己比较震惊的一点，就是我觉得自己肯定不会犯的错误，我还是老老实实犯了两次。从理智角度来讲，你觉得自己绝对不会犯这个错误，但还是犯了——就是不够聚焦。

大家都知道，创业应该聚焦，用有限的资源去做最重要的事情。道理都是知道的，但是我为什么还会犯错误，我自己想这里面的原因是什么。很大一个原因是，之前在大厂各方面资源支持比较充足，也赶上了趋势，加上团队很给力，在很长一段时间里呈现出「没有做不到，只有想不到」的状态。惯性或者说潜意识里就会过于乐观。

到今年 4 月份之后，我们深刻认识到要有敬畏之心。经历过教训，会告诉自己一定要控制好自己的手脚，不要分兵，是一件很难很难，但是非常非常重要的事情。

极客公园：听员工说，你经常给大家写内部信。最近的内部信，有写到什么？

刘永升：上次我写的内部信，我最喜欢的是标题，「坚韧如歌，随风起舞」。像坚韧，也是很难通过后天去习得的，是机缘巧合你身上就会具备的某种东西。

「最后，我想与大家分享一篇最近读到的英文文章的标题：Whispers of Resilience: Dancing with the Winds of Change，挺难完美翻译出英文的味道。最打动我的是 Whispers of Resilience 这个短语，它以一种独特的方式描述了身处困境时的坚韧，如轻声低语，既轻盈又自信，是一种内在的、持久的力量。它让我联想到古希腊吟游诗人荷马，荷马的坚韧与「Whispers of Resilience」中的力量如出一辙。他在失明、孤独的境遇中，依然创作出传世的史诗《伊利亚特》和《奥德赛》。他没有被命运打倒，而是以音乐和诗歌为武器，描绘战争与漂泊，传递希望与勇气。荷马的诗句，犹如微风中的低语，在逆境中保持优雅与从容。他用艺术为世界带来光明，用内心的坚定与乐观，告诉后世：即便面对风暴，也能与命运共舞。」

From 超参数科技第十一封全员信《坚韧如歌，随风起舞》

{{userData.name}}已认证

使用Ollama和OpenWebUI，轻松探索Meta Llama3–8B

大模型技术讲解：大模型训练的数据