让大模型“看得懂”的写作准则

知识库不是写给人看的,而是写给大模型“读”的。本文结合RAG原理,详细讲解如何规范撰写文档,让文档真正成为大模型的“知识来源”。

一、原理篇:文档是大模型生成答案的“参考书”

在AI问答系统中,RAG(Retrieval-Augmented Generation,检索增强生成)是最常用的技术之一。它的工作原理如下:

✅ RAG工作流程简述:

  1. Retrieval(检索):根据用户提问,从知识库中找出相关段落。

  2. Augmentation(增强):将这些段落作为“上下文”输入给大模型。

  3. Generation(生成):大模型基于这些上下文,生成回答。

关键点:

  • 模型不是“查找答案”,而是“读了上下文后,用自己的理解去作答”。

  • 因此,文档结构与表达方式将直接影响生成结果。


二、规范篇:写给大模型看的文档该怎么写?

✍️ 保持语义清晰

  • 避免“人类读得懂、模型却理解不了”的模糊表述。

  • 句式完整、主谓宾明确、不要省略核心信息。

? 保持结构合理

  • 使用统一标题层级(如 # 一级标题## 二级标题)。

  • 保持段落自洽,信息尽量集中在同一段中。

  • 避免将关键信息拆成多个段落,大模型可能只“看到”部分内容。

表格与图片

  • 表格应结构清晰,避免嵌套、合并单元格。

  • 图片仅当必要时使用,并先写文字说明,再插入图片

  • 图片会被转化为链接,模型本身并不会“识图”。

  • 一问一答结构(适用于FAQ)

  • 每条FAQ尽量独立,便于系统切片和定位。

  • 保证每个问答对可脱离上下文也能读懂。


三、反例篇:这些错误,千万别犯!

以下是我们在实际知识库运维中发现的4类常见问题类型,以及它们可能带来的后果:

类型
问题表现
说明
先图后文结构错误
检索顺序错乱
模型无法理解图片,需先文字说明后图片
语义重复知识污染
回答不准确
多段表达相似,模型回答混杂
页眉/Logo/标签干扰
输出混乱
模型将装饰信息误认为内容
语句不完整
模型不参考
缺主语/动词,导致生成不准确


以下是一些典型的负向案例:


❌ 案例1:先图后文,顺序错误


# 如何在 Teams 中添加会议背景

![image001.jpg]

用户可自定义会议背景。



  • 问题: 模型先读到图片链接,语义缺失。


  • 建议: 先提供文字说明,再补图:


用户可自定义会议背景,点击“更多操作” → “应用背景效果”,然后上传图片。![image001.jpg]



❌ 案例2:语义重复,知识污染


Outlook自动回复可以设置为外出状态。

您可以在假期时设置自动回复。

这是Outlook的重要功能。



  • 问题: 多段表述,检索时一起出现,模型无法判断主句。

  • 建议: 精炼为一条标准问答:


您可以通过“文件 → 自动答复”设置Outlook自动回复,适用于假期场景。



❌ 案例3:页眉、图标干扰内容

【HR内参】

员工离职后账号多久注销?

答:5个工作日内自动注销。

  • 问题: 多余的标记会被解析为图片或非结构内容。

  • 建议: 保持简洁纯文本风格:


# 员工离职后账号多久注销?

答:员工离职后,账号将在5个工作日内自动注销。



❌ 案例4:语句不完整,模型难以参考


# 如何申请AD账号权限

填写申请表并提交至IT

  • 问题: 主语缺失,动作含糊。

  • 建议: 句子结构完整,动作为主:

员工需填写《AD权限申请表》,提交至IT服务台审批。




四、总结篇:三句话记住规范核心

✅ 文档是写给模型“读”的,不是给人“看”的。

✅ 结构清晰、语义完整、格式统一,是知识可用的基本前提。

✅ “写得好”,才能“答得准”;“看得懂”,才有“用得上”。

AI知识库企业落地新闻资讯

你是否有这样的困惑:AI大模型交流了好几天,企业还是不知道做什么?

2026-4-27 7:56:33

RAG技术前沿技术新闻资讯

Chonkie:开源、轻量、极速的 RAG 分块神器 🦛

2026-4-27 8:03:34

0 条回复 A文章作者 M管理员
    暂无讨论,说说你的看法吧
购物车
优惠劵
搜索