一、环境准备(5分钟)
-
克隆代码库
git clone git@github.com:infiniflow/ragflow.git -
本地hosts配置
在/etc/hosts添加:127.0.0.1 es01 infinity mysql minio redis
-
Docker一键部署
cd ragflow/dockerdocker compose -f docker-compose.yaml up -d

-
支持Mac/Linux/Windows -
自动启动ElasticSearch、MinIO等核心服务
二、核心优化技巧

1. DeepDoc视觉分块技术
-
智能分块策略
分块类型 适用场景 突出优势 General 通用网页 自动合并相邻文本块(重叠率75%) Table 财务/科研数据 保留跨行合并单元格结构 Paper 学术论文 公式识别准确率>92% Laws 法律合同 条文编号自动提取 示例:上传PDF论文自动解析章节结构,公式上下文保留完整
2. RAPTOR增强检索(论文级优化)
- 树状语义网络构建

- 参数调优指南
参数 推荐值 作用 最大Token 2048 长文本处理 聚类阈值 0.15-0.3 平衡召回率与精度 随机种子 17/619 控制生成多样性
3. 嵌入模型选择策略
- 场景化选型表
需求场景 推荐模型 优势 多语言支持 BGE-M3 100+语言覆盖 长文本处理 Nomic Embed 支持8K tokens 低成本部署 Jina Embedding 开源免费
三、进阶配置
1. 知识图谱生成
- 自动化实体抽取
python
# 示例:法律合同实体归一化
from ragflow.knowledge_graph import EntityNormalizer
normalizer = EntityNormalizer(pattern=r"第[一二三四五六七八九十]+条")
normalized_entities = normalizer.extract("本合同第三条...")
四、对比dify的决胜优势
|
|
|
|
|---|---|---|
| 网页解析 |
|
|
| 检索质量 |
|
|
| 合规性 |
|
|
| 部署成本 |
|
|
五、成功案例
某法律科技公司部署实录
-
使用Laws分块解析2000+份合同 -
配置RAPTOR阈值0.2提升多条款关联分析 -
通过知识图谱实现法条智能推荐
结果:合同审核效率提升300%,错误率下降至0.5%


