复杂性科学的奠基人布莱恩·阿瑟总结:「新技术诞生于已有的技术组合。」
超参数科技成立于 2019 年初。时间上,是如今被称为上一代 AI——即「模式识别」,浪潮顶峰的尾巴。泡沫尾随其后。那时候,OpenAI 和 DeepMind 还专注于用强化学习 RL(Reinforce Learning) 教 AI 玩游戏。优化 LLM 输出的核心方法 RLHF 也诞生于彼时。
当下,在 Scaling Law 边际效应递减的时候,技术界又将目光投回了强化学习 RL。于是,Scaling Law+ RLHF 成为目前最受关注的技术组合之一。
超参数创始人刘永升是腾讯围棋 AI「绝艺」、王者荣耀 AI「绝悟」项目负责人。他也是在用 RL 教 AI 下棋、玩游戏中,对 AI 产生了信心。「像训练一个小朋友一样,看到 AI 从什么都不会,到慢慢学会各种本领……最终看到 AI 做出人类做不出来地动作,冲击感太强了」。
也是最初对于 AI 的信心,让他和团队从腾讯出来,成立了超参数。这之后,外界对 AI 信心,从顶峰降至谷底,又迎来了 2.0 的高潮。
在大模型出来之后,聊起游戏 AI 时,不时会听到新生代的创业者,将超参数定义为「上一代」。而市面上,的确很少听见这家公司的声音。
最近,极客公园和刘永升做了一次交流,请他讲了讲从 RL,再到 LLM+RL 一路走来做的事情,正在推进的 AI- Native 游戏项目,还有他对游戏 AI 的看法。