LLM-based Agent,已经不再需要人类监督者的帮助,开始实现「自我进化」!
这个智能体在学习了专家轨迹以后,获得了基础的通用能力,能够在更广泛、更真实的未知环境与任务上进行探索和学习,在外部的反馈下不断提升自己。
最近,复旦大学语言与视觉团队推出的 AgentGym 平台,打通了大语言模型智能体「数据采样、训练微调、自我进化、能力评测」全流程。基于该平台提出的 AgentEvol 算法,首次探索了通用智能体的自我进化能力,并在多项智能体任务上表现非凡,与 GPT-4、Claude 等 SOTA 模型比肩。
-
论文链接:https://arxiv.org/abs/2406.04151
-
AgentGym代码仓库:https://github.com/WooooDyy/AgentGym
开发一个能够解决和适应复杂工作的多任务通用智能体,一直是人工智能社区长久以来的重要目标。
类似于人类的学习过程,通用智能体首先通过模仿,开始学习最基础的知识和技能。
随着基础能力的掌握,我们不仅期望智能体可以通过与不同环境的交互,持续学习和适应许多先前未见的任务,还能从自身经验以及外部反馈中汲取丰富的智慧,发展出一定程度的泛化能力(图1)。
图1:基础通用智能体实现「自我进化」的示意图。该智能体首先在人类监督下进行行为克隆,随后在不同的外部环境和任务中进行探索和学习,以实现自我进化。
大语言模型凭借其卓越的通用能力,被视为构建此类智能体的重要基础之一。目前的研究领域正沿着两个主要方向进行探索,以推动智能体技术的进一步发展。
-
依赖于人类监督的行为克隆(Behavior Cloning)方法,需要智能体逐步模仿专家提供的轨迹数据。这种方法虽然有效,但由于标注资源的限制,难以扩展。对环境的探索也较为有限,容易遇到性能或泛化性的瓶颈。
-
允许智能体根据环境反馈,不断提高能力的自我改进(Self Improving)方法,减少了对人类监督的依赖,同时丰富对环境的探索深度。然而,它们通常在特定任务的孤立环境中进行训练,得到一批无法有效泛化的专家智能体。
面对上述挑战,作者首次探讨了一个具备基础能力的通用智能体——在多种环境和任务中——自我进化的潜力。
为了实现这一研究目标,作者确定了推动智能体自我进化的「三大关