曾几何时,Prompt(提示词)被视为与大型语言模型(LLM)交互的一种“临时方案”。但随着 AI 技术的迅猛发展,它已经跃升为 AI 系统能否高质量输出的核心变量。
本文将结合 Y Combinator 旗下 S24 孵化项目 Parahelp 的实践经验,以及 YC YouTube 视频《State-Of-The-Art Prompting For AI Agents》的精彩内容,带你深入理解:如何通过提示工程(Prompt Engineering),构建真正智能、可控的 AI 代理(Agent)系统。
-
视频参考 -
— 来源:Y Combinator(YouTube) -
— 标题:State-Of-The-Art Prompting For AI Agents -
— 正如视频简介所说: “提示起初看似只是临时变通,目的是最大限度发挥 LLM 能力。但如今,它已成为我们与 AI 交互方式的关键。”
一、提示结构要素:Prompt ≠ 文本,而是逻辑代码
01、角色定义
给模型明确身份,让它知道“我是谁”。
如Parahelp 的 Manager Prompt——“你是一个客服代理的经理,职责包括监督工具调用、评估任务执行、提供反馈等。”这种角色设定为模型提供了行为边界与判断准则。
Parahelp 是一家专注于 AI 客服与代理系统的科技公司,其 官方Prompt设计博客 公开了核心设计理念: 提示链接如下:https://parahelp.com/blog/prompt-design

Parahelp开源了其部分核心Prompt,包括“manager”Prompt和部分“planning”Prompt。
•Planning Prompt(规划提示词):

•Manager Prompt(经理提示词):

02、任务分解
将复杂任务拆解为可执行步骤。
如 Parahelp 工具调用审批流程的五步法:
1.分析调用目标
2.检查上下文完整性
3.比对业务政策
4.判断风险边界
5.给出批准/拒绝+理由
通过结构化步骤,引导模型“逐步推理”。
03、输出格式控制
用 XML 风格标签强化结构,比如:这使模型响应便于自动解析、测试与部署,适用于 API 场景。
<accept_tool_call>
Reason: Tool meets business policy.
</accept_tool_call>
04、Markdown结构清晰
用清晰标题、列表、缩进提升提示语的“可编程性”,增强 LLM 的语义理解能力。
二、提示的三种类型
01、系统提示(System Prompt)
定义公司范围逻辑的核心“API”(例如,Parahelp 的 6 页提示)。
02、开发者提示(Developer Prompt)
嵌入客户/业务特定规则,在系统提示基础上动态注入。
03、用户提示(User Prompt)
面向终端用户,常见于 Web 工具或 B2C 产品,例如,Replit 的“使用这些按钮生成网站”
三、元提示技巧
01、自我优化
让LLM批改自己的提示。 例如:
-
输入:“你是一位专业的提示工程师。请批评此提示:[原始提示]。” -
输出:增强提示,提供更清晰的指示
02、提示折叠
动态生成专属子提示,如 Trope 用分类器自动匹配不同意图的子提示模板。
03、逃生口机制
让LLM可以说“不知道”或请求澄清。如YC 的“debug_info”参数,其中 LLM 报告令人困惑的要求。
04、模型蒸馏
使用更大的模型(GPT-4、Gemini 1.5)来设计更小、更快的模型(例如 Mistral)的提示。如:需要低延迟响应的语音 AI 代理。
四、提示工程配套工具
01、示例注入
用经典难题样例训练推理路径。 例如:Jasperberry 通过注入专家级示例(例如,N+1 查询错误)来自动查找代码错误。
02、Evals测试
Parahelp 认为评估是他们的“皇冠上的宝石”(而不是提示本身)。 好的提示 = 多轮测试驱动出来的。
03、推理链分析
①将模型“思维过程”+“原始Prompt”一起送入Gemini Pro,并要求他对提示提出一系列编辑建议,以便将他们很好地结合起来。
②在Gemini 2.5 Pro中显示 step-by-step 的思考过程,用于复盘失败原因并优化提示。
五、创始人视角:FDE模型
01、什么是FDE(Forward-Deployed Engineer)?
创始人 / 工程师亲自下场,深入用户流程、嵌入产品逻辑,持续迭代提示与功能。
例如:
-
Giger ML:工程师与支持团队一起优化语音响应延迟。 -
快乐机器人:创始人通过为经纪人定制提示达成了 7 位数的物流交易。
02、典型打法
用户需求 → 快速修改 Prompt → 在线演示 → 锁定合同
六、模型个性化与评分机制
01、GPT-4
严守评分机制的“士兵型”。
02、Gemini 1.5
灵活处理边界情况的“高自主员工型”。
03、评分提示建议
例如“打分0-100,边界情况请单独说明”。
核心总结
① Prompt ≈ Code:要像写程序一样优化它。
②Evals胜于Prompt:质量测试胜过提示设计。
③创始人作为 FDE:最懂用户的人写最强Prompt。
④Metaprompting是Kaizen(持续改进):使用 LLM 不断自我改进提示。
原提示的入门模板
“你是专家级提示工程师。请从歧义性、结构问题、遗漏边界情况三个角度评估以下提示,并重写为更可靠版本: [你的提示语]”
本文灵感来自 YC 的经典分享。未来的 AI 系统,不再是“堆算力”就能赢的游戏,而是“拼提示+拼评估+拼流程理解”的综合战场。提示工程师在白板前写公式的画面

