构建生产级RAG系统注意事项

charles

构建生产级 RAG（检索增强生成）AI 系统是一个艰难的任务。

?是 RAG 系统中的一些关键组件，你需要对它们进行管理和持续优化，以实现预期的效果（不要错过最后的 H 部分）：

检索（Retrieval）

F) 数据切分（Chunking） – 如何对用于外部上下文的数据进行切分？

小块 vs. 大块。
滑动窗口（sliding window）或滚动窗口（tumbling window）进行切分。
在搜索时是检索父级或关联块，还是仅使用原始检索数据？

C) 选择嵌入模型（Choosing the embedding model）

用于将数据嵌入和查询外部上下文的模型选择。
考虑上下文化嵌入（Contextual embeddings）。

D) 向量数据库（Vector Database）

选择哪种数据库。
部署位置。
需要存储哪些元数据以便与嵌入向量关联。
索引策略。

E) 向量搜索（Vector Search）

相似度度量的选择。
查询路径的选择：先基于元数据还是先使用 ANN（近似最近邻）搜索？
采用混合搜索（Hybrid Search）。

G) 规则与启发式（Heuristics） – 在检索过程中应用的业务规则。

时间权重（Time importance）。
重新排序（Reranking）。
处理重复上下文（多样性排序）。
来源检索（Source retrieval）。
条件性文档预处理。

生成（Generation）

A) LLM 选择（Choosing the right Large Language Model）

✅ 随着 LLM 的发展，这个问题变得越来越简单。当前，开源和专有 LLM 的性能正在趋同，主要的选择在于：

使用专有模型（Proprietary model）。
自行托管（Self-hosting）。

B) Prompt 设计（Prompt Engineering）

即使有了外部上下文，仍然需要精心设计 Prompt：

使系统生成符合预期的输出。
预防越狱（Jailbreak）场景。

别忘了一个容易被忽略的部分

H) 观察、评估、监控和安全性（Observing, Evaluating, Monitoring and Securing）

确保生产环境下的应用运行稳定、安全，并能持续优化！

构建生产级RAG系统注意事项

前沿技术大模型技术新闻资讯

混合专家 (MoE) 架构：现代大模型的“秘密武器”

2025-5-11 20:59:15

前沿技术多模态技术新闻资讯

硬核升级！在Ollama中使用Llama3.2视觉模型

2025-5-11 21:50:01

0 条回复 A文章作者 M管理员

更换删除

暂无讨论，说说你的看法吧

❯

购物车

优惠劵

搜索

幸运之星正在降临...

点击领取今天的签到奖励！

恭喜！您今天获得了{{mission.data.mission.credit}}积分

今日签到

连续签到

{{item.credit}}

连续{{item.count}}天

查看所有

我的优惠劵

_￥_优惠劵

使用时效：无法使用

使用时效：
之前

使用时效：永久有效

优惠劵ID：
×

限制以下商品使用：限制以下商品分类使用：不限制使用：

[{{ct.name}}]

所有商品和商品类型均可使用

没有优惠劵可用!

购物车

×

删除

购物车空空如也!

清空购物车前往结算

您有新的私信

没有新私信

写新私信查看全部