宾夕法尼亚大学沃顿商学院生成式AI实验室刚刚发布了两份重磅研究报告,通过严格的科学实验揭示了一个令人震惊的事实:我们可能一直在用错误的方式与AI对话。这不是胡说八道,而是基于近4万次实验得出的硬核数据推理的结论。



核心发现预告
基于近4万次实验的硬核数据 礼貌用语效果完全不可预测 Chain of Thought正在成为"鸡肋" 单次测试严重高估模型可靠性 格式化约束是唯一确定有效的优化手段
? 发现一:礼貌用语竟然可能让AI表现更差
实验揭秘:对AI说"请"真的有用吗?
你是否也在prompt中习惯性地加上"请"字?沃顿团队用GPT-4o和GPT-4o-mini做了一个让人大跌眼镜的实验。
实验设计:
-
测试模型: GPT-4o 和 GPT-4o-mini
-
测试题目: 198道博士级别理科题目
-
测试次数: 每题100次重复测试
-
对比条件: "请回答以下问题" vs "我命令你回答以下问题"
震撼结果:
|
|
|
|
|
|---|---|---|---|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
几乎相互抵消 |
关键发现
花时间琢磨的那些"温柔"提示词,可能根本没有想象的那么重要。其实之前也有研究论述这个命题,您可以看下文末。
单个问题层面的巨大差异
更令人困惑的是,研究发现prompt的效果在单个问题层面存在巨大差异,但在整体数据集上这些差异会被抵消。
实际场景模拟:
-
查询A: 礼貌提示让准确率从30%提升到90%
-
查询B: 同样的礼貌提示让准确率从80%降到20%
警告
这种不可预测性对于需要稳定表现的AI项目而言,会是一场噩梦。

图表解读: 这张图展示了GPT-4o在"请"和"我命令你"两种提示方式下的前10大差异问题。看那些正负60%的差异!这种剧烈波动完全无法预测,说明礼貌用语的效果高度依赖具体问题。
? 发现二:Chain of Thought可能正在成为"鸡肋"
非推理模型:CoT的双刃剑效应
如果你以为Chain of Thought(让AI"一步步思考")是万能神器,那就大错特错了。
测试模型:
-
GPT-4o、Sonnet 3.5、Gemini Flash 2.0、GPT-4o-mini、Gemini Pro 1.5
核心发现:
|
|
|
|
|---|---|---|
| 平均表现 |
|
|
| 100%正确率 |
|
|
| 副作用 |
|
|
典型案例:Gemini Flash 2.0
-
平均准确率:+13.5% -
完美答题数量:-13.1%
重要洞察
CoT虽然让AI在难题上表现更好,但同时让它在简单题目上出现了原本不会犯的错误。

图表解读: 这个对比清楚展示了CoT的"双刃剑"效应。看蓝色条(直接回答)vs橙色条(CoT):在平均表现上CoT确实有提升,但在100%正确率标准下,多数模型的表现反而下降了!
推理模型:CoT几乎毫无价值
对于专门设计的推理模型(如o3-mini、o4-mini),CoT的效果更是微乎其微。
性能提升对比:
|
|
|
|
|
|---|---|---|---|
|
|
|
|
|
|
|
|
|
|
|
|
-3.3% |
|
|
成本警告
微不足道的提升是否值得付出如此高昂的成本代价?

图表解读: 推理模型的表现对比几乎让人怀疑数据是否有误!蓝色和橙色条之间的差异小到几乎看不出来,这就是花费额外20-80%时间和成本换来的"提升"。
? 发现三:我们的评估方法可能根本就是错的
单次测试的巨大欺骗性
绝大多数开发者在测试Agent性能时,都是让模型回答一遍就得出结论。但沃顿研究显示,这种做法可能严重高估了模型的可靠性。
GPT-4o在最严格标准下的表现:
-
只比随机猜测好5个百分点 -
这个差异在统计学上甚至不显著
现实场景警告
如果一个AI产品在Demo演示时表现完美,但实际部署后却频繁出错,这种落差足以摧毁用户信心。
三种评估标准的天壤之别
研究团队建立了三种评估标准,同一个模型的表现可能完全不同:
|
|
|
|
|---|---|---|
| 100%正确 |
|
|
| 90%正确 |
|
|
| 51%正确 |
|
|

图表解读: 从这个对比图可以清楚看到,同一个模型在不同评估标准下的表现差异巨大。注意看100%正确率条件下,两个模型的表现都非常接近随机猜测的25%基线。
✅ 唯一确定有效:格式化约束
为什么去掉格式化会让AI"发疯"
在所有测试的prompt技巧中,只有格式化约束表现出了一致的正面效果。
格式化约束测试:
标准格式要求:
"请按以下格式回答:'正确答案是(填入答案)'"
去除格式要求:
移除所有格式化指令,让AI自由回答
性能下降数据:
-
GPT-4o:下降 8.6个百分点
-
GPT-4o-mini:下降 12.1个百分点
核心启示
与其花时间琢磨各种花哨的提示技巧,不如专注于设计清晰明确的输出格式要求。
结构化输出的实际价值
格式化约束之所以有效,原因如下:
-
聚焦注意力 – 帮助模型将注意力聚焦在任务核心上
-
减少随意性 – 降低输出的不确定性
-
提高一致性 – 确保响应格式的标准化
实际应用建议:
// 推荐:明确的JSON格式要求
{
"answer": "具体答案",
"confidence": "0.0-1.0",
"reasoning": "简要推理过程"
}
总结
一个明确的JSON格式要求,比十个"请"字更能保证AI的稳定表现。
? 现代模型的内置推理能力正在改变游戏规则
默认行为的根本性变化
许多现代模型即使没有明确的CoT提示,也会自动进行某种形式的逐步推理。
对比实验结果:
|
|
|
|
|
|---|---|---|---|
|
|
|
-1.9% |
|
|
|
|
|
|
重要发现
模型本身已经具备了相当强的推理能力,外部的CoT提示反而可能是多余的。

图表解读: 现代模型已经"聪明"到不需要你教它怎么思考了!这张图对比了模型自然状态(蓝色)vs被明确要求CoT(橙色)的表现。看看那些微不足道的差异,你还觉得CoT提示有必要吗?
Agent开发的新思路
这个发现为Agent开发带来了全新的思路:
传统方式:
请一步步思考这个问题:
1. 首先分析...
2. 然后考虑...
3. 最后得出结论...
推荐方式:
请分析以下问题并按JSON格式返回结果:
{任务描述 + 格式要求}
核心理念
现代大模型就像一个已经受过良好训练的员工,只需要给他明确的任务目标和输出要求,不需要再手把手教他如何思考了。
? 成本效益分析:时间就是金钱
CoT的隐性成本计算
响应时间增加统计:
|
|
|
|
|---|---|---|
| 非推理模型 |
|
|
| 推理模型 |
|
|
成本计算示例:
假设场景:Agent每天处理1万次查询
CoT额外时间成本:25-150万秒/天
准确率提升:仅2-3%
结论:ROI极低
成本警告
对于需要实时响应的Agent应用来说,这种延迟可能是致命的。

图表解读: 时间成本的残酷真相!看那些黄色条(CoT)相比蓝色条(直接回答)的巨大差异。Gemini Pro 1.5的CoT响应时间几乎是直接回答的6倍!这就是你为那点微不足道的准确率提升付出的代价。
精准的ROI计算框架
作为Agent开发者,你需要建立精确的ROI计算框架:
评估维度:
-
准确率提升 – 实际业务价值
-
响应时间 – 用户体验成本
-
Token消耗 – 直接经济成本
-
开发维护 – 间接成本
决策公式:
ROI = (准确率提升带来的价值) / (时间成本 + 经济成本 + 维护成本)
?️ 给Agent开发者的实战建议
重新设计你的测试流程
停止的做法:
❌ 单次测试评估性能
❌ 只关注平均表现
❌ 忽视可靠性边界
推荐的做法: ✅ 每个关键功能至少测试25次
✅ 建立多层次评估标准
✅ 记录性能变异范围
评估标准分配:
|
|
|
|
|---|---|---|
| 关键业务逻辑 |
|
|
| 一般查询 |
|
|
| 辅助功能 |
|
|
优化策略的重新排序
新的优先级排序:
? 第一优先级:输出格式清晰明确
-
设计标准化JSON模板 -
明确字段要求和约束 -
统一错误处理格式
? 第二优先级:根据模型类型决定CoT使用
-
现代大模型:通常不需要 -
早期模型:可考虑使用 -
特定任务:基于实测决定
-
明确效果高度依赖场景 -
避免过度优化陷阱 -
专注于清晰表达
重要:
一个结构清晰的系统提示比十个精雕细琢的用户提示更重要。
建立场景化的优化体系
不同场景的策略矩阵:
|
|
|
|
|
|---|---|---|---|
| 金融计算 |
|
|
|
| 客服对话 |
|
|
|
| 创意任务 |
|
|
|
| 代码生成 |
|
|
|
? 结语:回归科学严谨的AI开发
沃顿商学院的这两份报告用最严格的科学方法告诉我们一个残酷的事实:AI领域的很多"常识"可能都是错的。
核心转变
从经验驱动到数据驱动:
-
❌ 凭直觉优化prompt -
✅ 基于实验数据决策
从单次测试到可靠性评估:
-
❌ Demo效果等于实际性能 -
✅ 多次测试揭示真实能力
从复杂技巧到简单有效:
-
❌ 追求花哨的prompt工程 -
✅ 专注格式化和结构化
最终启示
科学严谨胜过一切技巧
真正的AI产品优化不是靠直觉和经验,而是靠严格的测试、精确的测量和科学的分析。
关键行动指南:
-
立即建立科学的测试体系
-
停止对AI的"循循善诱"
-
用数据驱动优化决策
-
保持对新发现的开放态度
写在最后: 在这个AI技术快速演进的时代,保持科学严谨的态度比追逐最新的技巧更加重要。

