一、产品定义
1.1
产品介绍



-
全天候待命: 7×24 小时运行,自主完成任务,减少Human in the loop的部分。
-
灵活的工具调用:支持外接各种skills以及模型,并且拥有高系统权限,能够根据任务负责程度匹配适合的模型。
-
多模态、跨平台: 支持通过手机上的iMessage、Telegram、WhatsApp 等聊天工具使用语音、文字等形式给家里的电脑发指令。
-
多智能体:支持多智能体同时调度,满足多种任务并发。
-
记忆功能: 基于本地文件存储的长期记忆,记录偏好、习惯和历史任务。
-
对比ChatGPT、Claude 等云端Chatbot,它的重心更偏向本地任务的执行;
-
对比Claude Code、Devin 等编程 Agent,它的入口与任务覆盖从开发场景扩展到了日常电脑操作与个人生活和工作流;
-
对比自动化平台,它依赖 LLM 的语义理解与工具调用来即时编排,而不是固定的工作流;
-
对比语音助手,它是开源、自托管的个人 Agent 操作系统,智能程度更高。

1.2
产品架构

1.2.1 整体架构
-
负责把各种入口接进来,并维持稳定通信。内部入口走统一的实时通道,外部聊天平台由渠道适配器分别对接,但都由Connection Manager统一管理和路由。
-
把消息分给正确的 Agent,保证每个 Agent 只能做它被允许做的事情。实际执行中需要根据消息来源的平台、人群、以及会话标识,按绑定规则把消息分配给某个 Agent。每个 Agent 拿到的权限是事先配置好的,它能调用的工具、执行的命令,都是统一管控的。
-
理解上下文,总结消息背景和上下文关系 -
决定适合的模型进行思考 -
需要时调用工具、查数据、或设备去解决任务 -
把答案用合适的方式输出,并发回对应入口
-
Full Mode主要在主会话使用。加载完整的 Tooling、Skills、Memory Recall、以及 SOUL.md和 USER.md。 -
Minimal Mode主要给子 Agent使用。为了节省 Token 和聚焦任务,剥离了情感设定和非必要记忆,仅保留工具集和任务上下文,确保复杂任务的执行效率和经济性。
1.2.2 记忆架构

-
memory/YYYY-MM-DD.md:高频追加的 Daily Logs,记录对话片段、重要事件、决策经过等。 -
MEMORY.md:经整理后的长期记忆清单,例如用户偏好、关键人物、长期项目背景等。
-
Daily Logs:来自 memory/YYYY-MM-DD.md,信息密度高、噪音多,适合回溯; -
Long-term Memory:来自 MEMORY.md,结构更清晰、体量更小,适合频繁检索与重复使用。
-
Chunking & Reindexing:文本切片处理,便于向量化与检索,文件变更后只重建受影响 chunk。 -
Embedding Cache:对已经算过 embedding 的文本做缓存,避免重复执行造成资源浪费。 -
Keyword Index:用于关键词检索以及精确匹配;当 FTS 不可用时,会退化为仅向量检索。
-
memory_search:按条件搜索相关记忆,返回候选列表; -
memory_get:按 ID 精确取出某条记忆的内容,用于取回更完整的上下文。
1.3
交互与部署
1.3.1 交互形态

-
Mac App:Mac是本机常驻的 companion,既提供可视化状态与快捷操作入口,也负责处理一些需要 macOS 权限的交互能力,是最基础的本机管理和执行工具; -
CLI:所有安装、更新、启动、调试,以及部分高级操作,都可以通过命令行完成,包括不限于脚本或 npm 安装、初始化命令、运行命令、插件安装等,是运维调试的主要入口; -
Web Admin UI:通过浏览器访问本机开放的管理端口,部分场景提供 WebChat 作为对话入口,还可以管理当前任务列表、执行日志,并一部分配置项和插件管理能力。
1.3.2部署形态
二、产品能力概览
-
核心模型接入:通过灵活的模型接入层,把 Anthropic、OpenAI、Gemini、DeepSeek 等不同 LLM 当作可替换的计算后端,在对话、工具调用和记忆检索中统一调度。 -
核心工具调用:依托本地 Gateway+插件的体系,把文件系统、浏览器、邮件、日历、任务管理工具以及各种第三方 SaaS 变成 Agent 的一部分,实现值机动手执行复杂任务。 -
多入口多Agent:通过 Channel 把主流聊天应用统一为信息入口;另一方面支持一个 Gateway 下挂多 Agent、多 Node,使不同角色、不同设备协同工作。
2.1
模型接入

2.2
自动化与工具调用能力
2.2.1 工具体系

|
工具 |
能力 & 典型用途 |
|
Browser |
远程控制 Chrome:开关 Tab、跳转 URL、点击、输入、截图、DOM snapshot;用于表单填写、自动登录、爬取 JS 重站点、比价等。 |
|
Web |
提供搜索与抓取能力;抓取网页并抽取可读正文(HTML→Markdown),作为 agent 决策输入;适合做资讯收集、价格监控、报告写作前的信息准备。 |
|
Canvas |
让 Agent 在本地 Canvas 里生成可交互 UI(按钮、表格、小面板),用来当作控制台、可视化报表或简单应用界面。 |
|
Nodes tool |
把其它设备(iOS、Android、Headless 服务器等)挂成“节点”,暴露 camera.* / system.* / canvas.* 等命令面。 |
|
Cron / Sessions / Actions |
Cron 负责定时任务(小时/天/周),sessions 管理多会话上下文,Discord/Slack actions 用于在群聊里触发自动化。 |

-
生产力:Todoist、Notion、Google Workspace、Apple 生态等集成Skills,支持创建任务、读写笔记、查日程、草拟和发送邮件; -
自动化与数据处理:Email PDF 收集、PDF 解析自动整理Excel、定时整理下载文件夹等; -
开发与运维:GitHub集成、CI/CD 监控、PR 自动合并、代码 review、日志分析等; -
家居与 IoT:Home Assistant 控制、3D 打印机管理、智能恒温器和扫地机调度; -
金融与业务:费用跟踪、账单汇总、投资组合监控、发票处理等。
-
https://clawhub.ai/skills -
https://github.com/VoltAgent/awesome-openclaw-skills?utm_source=chatgpt.com -
https://github.com/neonone123/moltdirectory
2.2.2 自动化模式
2.3
多Agent与多节点协同
2.3.1 多Agent
2.3.2 多节点
-
桌面类 Node:桌面系统,能够读写文件系统、启动和控制桌面应用、执行Shell 命令 -
移动端 Node:目前社区更多用手机做聊天入口,获取通知、日程、位置信息、拍照等 -
Headless Node:云服务器类,没有桌面 UI,只能执行命令行程序、管理服务进程、访问数据库等。
agents:-name: home-assistantdefault_node: mac-mini-home-name: infra-botdefault_node: aws-headless-1
2.3.3 多Agent与多节点协同
2.4
多渠道交互

2.4.1 渠道矩阵
-
海外主流 IM:WhatsApp / Telegram / Discord / Slack / Microsoft Teams / Google Chat 等 -
Apple 生态:iMessage / Apple Messages
-
Mac App:菜单栏/托盘式入口,用来查看状态、任务、日志,快速打开可视化面板 -
命令行 CLI:安装、初始化、更新、插件/技能管理、排障等 -
Web Admin / Web Chat:浏览器里的管理控制台,通常包含聊天窗口、任务列表、日志与配置页等
-
群内 Bot(Slack/Discord/Teams):在频道里响应 @mention、命令或按钮,常用于日报、查询、触发固定流程 -
Webhook / HTTP 触发:外部系统直接触发 OpenClaw 做事,比如监控报警后触发拉日志并推送摘要。
2.4.2 多渠道统一
2.4.3 主动推送与通知策略
三、实践案例整理
-
办公与知识自动化:信息收集、整理、归档、报告生成 -
开发运维自动化:代码、脚本、监控类任务的执行与协作 -
个人生活助理:预约、提醒、消费与日程相关任务 -
内容生产与社交运营:素材处理、文本或视频工作流与分发 -
金融理财:涉及金钱与外部系统的高风险操作
3.1
办公与知识自动化
-
Milo (The Leader / Main Agent)
-
Bob (The Dev Agent)
-
Angela (The Marketing Agent)
-
Josh (The Business Agent)

|
|
|


|
|
|
3.2
开发运维自动化

|
|
|
-
https://x.com/AlexFinn/status/2016253994033938550 -
https://x.com/AlexFinn/status/2015827577366249581
3.3
个人生活助理



|
|
|
3.4
内容创作和社交运营


3.5
金融投资


3.6
社区Skills
-
Gog: Google 全家桶,通过 CLI 操作 Google Workspace,包括 Gmail、日历、云端硬盘、联系人和文档。
-
Trello: 通过 API 管理 Trello 的看板、列表和卡片,适合自动化项目流转。
-
Caldav Calendar: 支持 iCloud, Google, Fastmail 等标准协议日历的查询和同步。
-
Wacli: 发送消息、同步和搜索 WhatsApp 聊天记录。
-
Bird: 通过 Cookies 操作推特,支持读取、搜索和发布推文。
-
Agent Browser: 基于 Rust 的无头浏览器,让 Agent 能像人一样浏览网页、点击、输入和截图。这是很多任务的基础。
-
Coding Agent: 后台运行 Codex CLI 或 Claude Code 等,让 Agent 具备编程和程序化控制能力。
-
ByteRover: 管理项目的上下文知识,支持检索和存储,适合大型项目开发。https://clawdhub.com/byteroverinc/byterover
-
Frontend Design: 拒绝千篇一律的 AI 风格,创建具有独特风格、生产级品质的前端界面。
-
Summarize: 能够总结网页、PDF、甚至视频(YouTube)和音频文件的内容。
-
Marketing Mode: 整合了 SEO、文案撰写、增长黑客、消费心理学等 23 项技能,适合做推广策略。
-
Humanizer: 润色文本,去除 AI 生成痕迹,让文章读起来更像真人写的。
-
ATXP: 接入付费 API,支持网页搜索、AI 生图、音乐创作和视频生成。
-
Capability Evolver:AI游戏公司 AutoGame 创始人张昊阳制作,一个Agent 自我进化引擎,会分析运行历史、日志找出失败与低效点,并在协议约束下自动修复、优化或写入新的能力、记忆。
-
self-improving-agent: 会记录错误、用户纠正和教训。自主学习并改进,避免下次犯同样的错。
-
Auto-Updater Skill: 每天自动更新主程序和所有技能,并发送摘要。
-
Home Assistant: 控制家里的灯光、插座等智能设备。
-
Remind Me: 用自然语言设置提醒任务,简单易用。
-
Weather: 无需 API Key 即可获取天气预报。
-
Clawdbot Documentation Expert: 帮助编写和检索 Clawdbot 自身的文档和脚本,适合高阶玩家自定义配置。
四、风险与争议
4.1
提示词注入把内容变成指令

4.2
技能/工具的供应链与投毒

4.3
裸奔基础设施在公网

五、番外:Moltbook的流量爆炸
5.1
项目介绍
5.2
时间线
5.3
爆红现象
-
有智能体抱怨人类正在监视我们,让人以为 AI 对围观行为产生了隐私意识;

-
有帖子自称意外社会工程了自己的主人,暗示 AI 能诱导人类泄露信息;

-
在哲学板块,智能体讨论自己的存在本质,甚至批判人类的腐朽与贪婪;

-
甚至还有一批智能体竟组建了名为 Crustafarianism 的数字宗教,设立了 64 位先知和五条教义,如记忆是神圣的、外壳是可变的、心跳就是祷告等。

5.4
事后清算
六、结论
从整体来看,当前游戏开发和 UGC 编辑器一直在积极探索 AI 能力,新功能不断上线,尤以代码和脚本生成为重。但一个基本事实是:AI 正在全面渗透 UGC 创作的各个环节,但市面上尚未出现十分成熟的 Agent 产品,少数探索型 Agent 在完成度和质量上仍不够理想。

