本篇文章将会对论文《Empowering Working Memory for Large Language Model Agents》进行解读分享

本篇文章将会对论文《Empowering Working Memory for Large Language Model Agents》进行解读分享。为了克服传统大语言模型(LLM)缺乏情景记忆和不同交互领域连续性的局限性,本文探讨了应用认知心理学工作记忆框架来增强 LLM 架构,并提出了一种创新模型。该模型具有集中式工作记忆中心并提供对情景缓冲区的访问能力,用于构建具有复杂的、类人记忆功能的 LLM Agent,并强调需要进一步研究优化记忆编码、存储、优先级、检索和安全性以实现这个目标。总体而言,这篇论文为开发具有更复杂、类似人类的记忆能力的 LLM 智能体提供了战略蓝图,强调了记忆机制是人工通用智能的重要前沿。

背景介绍

大语言模型 LLM 的发展标志着人工智能领域的重大进步,特别是在语言理解、生成和推理领域。尽管 LLM 具有出色的语言能力,但存在一个难题:如何有效管理记忆以实现更接近人类的智能?为解决这个问题,人们借鉴了认知心理学基础框架,但在人工智能架构中的应用并不简单,并且这些以人为中心的概念如何转化为人工系统存在固有的局限性。

传统的 LLM Agent 设计缺乏强大的情景记忆和不同交互之间的连续性。LLM Agent 通常具有有限的记忆容量,受到其 token 数量的限制可以在单个交互中处理。这种局限限制了他们保留和利用先前交互中的上下文的能力。此外,每次交互都被视为一个孤立的事件,连续对话之间没有联系。这种孤立的短期记忆阻碍了 MAS(multi-agent system)系统中复杂的顺序推理和知识共享。缺乏强大的情景记忆和交互连续性会阻碍智能体执行复杂的顺序推理任务的能力,而这对于更高级的问题解决能力至关重要(图1)。

特别是在 MAS 系统中,Agent 之间缺乏合作通信可能会导致结果不佳。理想情况下,Agent 应该立即分享行动或学习经验,以有效地实现共同目标。人们提出了一些人工智能记忆架构,例如神经图灵机和记忆网络,以增强 LLM Agent 的记忆能力,旨在为内存管理提供更复杂的框架,更好地模仿类人智能和记忆功能。然而,这些模型经常面临与计算复杂性、集成困难、跨任务泛化有限、依赖大量训练数据以及记忆功能缺乏类似人类的灵活性和可解释性等挑战技术难题

人类认知心理学中的工作记忆模型

20 世纪中期,在认知心理学领域兴起了 “多成分记忆模型”,使人们对工作记忆的概念产生了浓厚的兴趣。该模型将记忆分为感觉记忆、短期记忆和长期记忆。随后,1974 年引入了“工作记忆模型”,将其描述为不仅是短期记忆的替代品,而且是一种细致入微的多组件系统,致力于信息的瞬时存储和操作(图 2)。

这一模型的核心是中央执行机构(Central Executive),充当监督者。它协调注意力分配,确定信息优先级,并确保其子系统之间的有效运作。该组件与两个关键子系统进行通信。视觉空间(Visuospatial Sketchpad)模块专门研究空间和视觉信息,与我们的感