在AI开发的路上,我们总会遇到各种技术难题。今天想和大家分享一个最近解决的RAG(检索增强生成)项目难题。
最近接手了一个企业级AI项目,面临的第一个难题就是文件格式混乱:
-
PDF文档 -
Excel表格 -
Word文件 -
网页内容 -
各种格式混杂
传统的RAG架构在处理这些异构数据时表现不佳,召回精度始终达不到理想效果。RAG的召回质量直接决定了大模型生成的质量。召回不准确,再强大的生成模型也会"瞎答"。
我尝试了各种优化方案,包括:
-
调整embedding模型 -
优化chunk分割策略 -
改进相似度计算方法
但效果始终不尽如人意。
就在上周,我发现客户企业有SharePoint平台,并且基本处于闲置状态。
作为十几年的SharePoint老兵,我立即想到了一个新思路:让SharePoint来承担文档管理和检索的重任?
技术实现思路
1. 文档统一管理
将所有异构文档上传到SharePoint,利用其强大的:
-
文档解析能力 -
元数据提取功能 -
全文索引机制
2. 权限体系整合
SharePoint自带的权限管理系统完美解决了企业级应用的权限控制需求,这是意外收获。
3. 双轨检索策略
结合SharePoint的Microsoft Search和传统的语义检索:
- 关键词检索:利用SharePoint的全文索引
- 语义检索:保留原有的向量检索能力
这样形成了"关键词+语义"的双轨并行检索机制。