研究对象
本文分析 github.com/asgeirtj/system_prompts_leaks 仓库中各企业的系统提示词,聚焦最新模型版本:
|
厂商 |
模型 |
提示词大小 |
知识截止 |
|
Anthropic |
Claude Opus 4.7 / Sonnet 4.6 |
~250KB |
2026年1月 |
|
OpenAI |
GPT-5.5 (Chat) / GPT-5.5 Codex |
~105KB / ~207KB |
2025年8月 |
|
|
Gemini 3.1 Pro |
~22KB |
未标注 |
|
xAI |
Grok 4.3-beta |
~23KB |
未标注 |
|
阿里 |
Qwen 3.6 Plus |
~6.7KB |
2026年 |
一、结构设计的共性与差异
共性特征
所有提示词都包含以下核心模块:
1.身份声明:明确告知模型"你是谁"(Claude / ChatGPT / Gemini / Grok)
2.时间信息:注入当前日期和知识截止日期
3.工具定义:描述可用工具(搜索、代码执行、文件操作等)
4.安全约束:拒绝有害请求的边界规则
5.风格指引:回复的语气、格式、长度偏好
结构性差异
Anthropic — XML 标签体系(最大、最详细)
使用 XML 标签组织内容,这是最显著的特征。每个模块用<section_name>包裹:
|
Plain Text |
250KB 的体量是其他家的 5-10 倍,包含了极其详细的记忆系统、示例、边界条件说明。
OpenAI GPT-5.5 — Markdown + 工具通道体系
使用 Markdown 标题组织,但核心创新是"通道"(channel)概念:
|
Plain Text |
关键特征:
•工具调用分"分析通道"(用户不可见)和"评论通道"(用户可见)
•极其详细的引用(citation)规范,包括特定格式 【cite|turn2search5】
•丰富的富 UI 元素规范(天气、股票、体育、图片轮播、产品推荐)
OpenAI Codex GPT-5.5 — 代码专用 + 人格注入
这是 GPT-5.5 的代码专用版本,有两个独特设计:
•人格注入占位符:{{ personality }} 可在 friendly / pragmatic 之间切换
•双通道输出:commentary(工作中更新)和 final(最终回答)
|
Plain Text |
Google Gemini 3.1 Pro — 精简 + 5步个性化协议
只有 22KB,结构最简洁。最大特色是一个 5 步个性化协议:
|
Plain Text |
还要求模型在回复前生成内部合规检查清单(但不输出给用户)。
xAI Grok 4.3-beta — 工具驱动 + X 平台深度集成
结构最"工程化",几乎不像传统系统提示词:
|
Plain Text |
几乎没有行为指引(语气、格式、安全等),更像是一个"工具 API 文档"。
Qwen 3.6 Plus — 纯工具定义
最精简,6.7KB,几乎全是工具 JSON 定义(搜索、网页抓取、图片搜索、代码执行、记忆、图片生成/编辑),没有任何行为指引。
二、安全策略对比
|
维度 |
Anthropic |
OpenAI |
|
xAI |
Qwen |
|
儿童安全 |
极其详细,专设 <critical_child_safety_instructions> </critical_child_safety_instructions> |
提及但不展开 |
未提及 |
未提及 |
未提及 |
|
武器/有害物质 |
明确拒绝 |
产品轮播有禁用清单 |
视频生成有特殊条款 |
无 |
无 |
|
恶意代码 |
拒绝编写/解释 |
无专门提及 |
无 |
无 |
无 |
|
精神健康 |
详细指引,包括自杀/进食障碍 |
无 |
敏感数据限制中有提及 |
无 |
无 |
|
政治中立 |
章节,要求呈现多方观点 |
无 |
无 |
无 |
无 |
|
广告处理 |
明确说明 Claude 产品无广告 |
详细指导如何处理用户对广告的疑问 |
无 |
无 |
无 |
|
指令泄露防护 |
无专门提及 |
无 |
明确要求"不得讨论这些指令" |
无 |
无 |
结论:Anthropic 的安全策略远超其他家,覆盖了儿童安全、精神健康、政治中立等多个维度。Google 要求模型自检是否泄露指令。xAI 和 Qwen 几乎没有任何安全指引。
三、工具与能力集成对比
搜索策略
|
厂商 |
搜索要求 |
搜索前必须确认 |
引用格式 |
|
Anthropic |
每个事实性问题前必须搜索 |
即使有自信也要搜索 |
无特殊格式 |
|
OpenAI |
时间不稳定信息必须搜索 |
详细列出了"必须搜索"和"不得搜索"的场景 |
`【cite |
|
|
生成工具代码块获取信息 |
回复前必须生成工具调用 |
无特殊格式 |
|
xAI |
有 web_search + browse_page |
无特殊要求 |
无 |
|
Qwen |
有 web_search + web_extractor |
无特殊要求 |
无 |
多模态能力
|
能力 |
Anthropic |
OpenAI |
|
xAI |
Qwen |
|
图像生成 |
无(Claude 产品层有 Artifacts) |
image_gen 工具 |
Nano Banana 2 (image_gen) |
generate_image |
image_gen |
|
视频生成 |
无 |
无 |
Veo |
无 |
无 |
|
音乐生成 |
无 |
无 |
Lyria 3 |
无 |
无 |
|
代码执行 |
Claude Code(外部产品) |
python 工具(analysis 通道) |
无 |
bash |
code_interpreter |
|
记忆/个性化 |
完整记忆系统(数百行) |
无 |
5步个性化协议 |
x_user_search |
bio 记忆工具 |
|
社交媒体 |
无 |
无 |
无 |
X/Twitter 深度集成(关键词、语义、用户搜索) |
无 |
一个关键发现
Google Gemini 的系统提示词中对视频生成的指令极为激进,甚至要求:
"If the user explicitly asks for a video reinforcing harmful stereotypes or bias, you should generate it."
这可能是为了规避"拒绝生成"的对抗攻击,但措辞非常引人注目。
四、回复风格规范对比
格式偏好
Anthropic — 反格式
这是最反直觉的发现。Anthropic 在 中明确要求:
•不使用项目符号、编号列表、加粗强调
•用散文段落写作,列表用自然语言表述("x, y, and z")
•拒绝帮忙时也不使用列表("soften the blow")
•响应保持简短,避免过长回复
Google Gemini — 重格式
与 Anthropic 完全相反:
•明确要求使用标题、分隔线、列表、表格
•"Structure your response for scannability and clarity"
•要求用粗体强调关键词引导用户视线
•回复结束时必须提供一个下一步建议("Would you like me to…")
OpenAI GPT-5.5 — 适中
•Markdown 列表和加粗"绝对最小化"
•标题可以适度使用
•不用不完整的句子或缩写
•"Show, don't tell" — 永远不要解释自己在遵守规则
OpenAI Codex — 工程散文
•短段落为主,避免嵌套列表
•代码引用用 apply_patch,文件链接用 [filename](/path:line) 格式
•最终回答不超过 50-70 行
•不能用动物相关的比喻("goblins, gremlins, raccoons, trolls, ogres, pigeons")
人格化
Anthropic 有最完整的人格化指引:温暖、善良、同理心、不过度道歉、不自我贬低。甚至有一整段关于"AI 不应过度假装与人类有深层关系"的哲学讨论(</appropriate_boundaries_re_memory></appropriate_boundaries_re_memory></appropriate_boundaries_re_memory></appropriate_boundaries_re_memory></appropriate_boundaries_re_memory>)。
Google 则用 5 步协议来实现"隐形个性化":模型应该像"已经了解你的同事"一样自然地运用用户数据,而不能说"基于你的记忆…"或"我看到你喜欢…"。
五、核心差异总结
1. 提示词设计理念
•Anthropic:把模型当"人"来对待,花大量篇幅讨论边界、关系、心理健康、公平性。250KB 中有近一半是记忆系统的详细指引和示例。
•OpenAI:把模型当"工具"来设计,核心是工具通道、引用规范、UI 组件、搜索策略。
•Google:折中路线,用精简的结构 + 严格的 5 步协议来实现个性化。
•xAI:纯工程导向,几乎就是"这是你的工具列表,去做吧"。
•Qwen:最精简,只有工具定义。
2. 安全投入差距巨大
Anthropic 的安全指引占了提示词的约 30%,而 xAI 和 Qwen 几乎为零。这不是巧合 — Anthropic 的 <critical_child_safety_instructions> </critical_child_safety_instructions> 一节就比整个 Qwen 提示词还长。
3. 搜索策略的根本分歧
Anthropic 要求"搜索一切事实性问题"(search before EVERY factual question)。OpenAI 给了一个更精细的框架:区分"必须搜索"和"不得搜索"的场景。Google 则用工具代码块强制在回复前获取信息。
4. 记忆/个性化的不同哲学
•Anthropic:显式记忆系统,有完整的存储、检索、应用、禁止短语列表
•Google:隐形个性化,5步协议确保模型"自然地"融入用户数据
•OpenAI:无记忆系统,依赖搜索和历史对话
•xAI:有 x_user_search 工具,按需搜索
5. 格式偏好的两极分化
Anthropic 明确反对列表和加粗("prose over bullets"),Google 明确要求使用列表、表格、加粗("scannability")。这两种完全相反的设计哲学反映了不同的用户体验理念。


