Dify知识库调优浅聊


dify的重点其实是在工作流,知识库虽然有但是并不是最好用的,但是好处是使用Dify的可以不用额外部署别的知识库的项目。那么,我们在现有的条件下,如何让Dify的知识库更加好用呢?下面我们就浅聊一下,欢迎大家一起讨论,有说的不正确的地方,也请帮我指出!
一、文件格式推荐

经过多次的测验,最终总结出Markdown格式是知识库最合适的,Excel格式的文件算是支持的比较差的,所以,如果是Excel的表格数据,可以考虑转换成Markdown格式的表格,会比单纯的Excel文件上传给知识库的效果会更好。

1、表格内容转Markdown

我用DeepSeek生成了一个网页版的excel表格内容转Markdown格式的工具,需要的文末会有下载方式。

下面是我获取这个工具的一个过程,其实现在AI可以帮我们做很多工作,只要能够合理利用,会提高我们的工作效率:

Dify知识库调优浅聊
Dify知识库调优浅聊
Dify知识库调优浅聊

2、文本内容转Markdown

文本内容转Markdown格式我推荐一个开源项目,可以自己部署在本地或者服务器上,上传文件可以转换成markdown格式文件。

自己部署的话可以在github上下载源码去部署:

https://github.com/opendatalab/MinerU
最近看了下,这款开源项目提供了客户端软件,也是免费试用,同时也有免费的在线网站。
https://mineru.net/
3、图片内容
建议使用支持多模态的模型,将图片内容结构化为文本内容,这里比较推荐的还是gemma3模型。
其实,不仅仅是Dify,比如RAGFlow、MaxKB等等的知识库其实也是一样的,最推荐的还是Markdown格式,其次就是txt格式。
但是,并不是说我们用了这些格式就能够让我们的知识库用的很顺手,实际上知识库的搭建也是个很大的工程,很可能会占据50%以上的工作内容,同时搭建知识库需要比较专业、具有比较强的业务能力的人员来操作。
二、推荐的嵌入式模型

现在市面上Embedding模型有很多,那么我们需要选择哪一款呢?

经过我个人测试以及群友和其他大佬们的推荐,最后总结为bge-m3这款Embedding模型是最值得推荐的,

如果是本地Ollama部署LLM的,可以直接用下列命令安装:
ollama pull bge-m3
Dify知识库调优浅聊
如果使用的是在线模型的话,硅基流动提供了免费版本的bge-m3模型,有需要的可以直接使用硅基流动的这款模型:
Dify知识库调优浅聊
三、检索方式的选择

Dify的知识库提供了三种检索方式,分别是:向量检索、全文检索和混合检索这三种方式。

Dify知识库调优浅聊

其中,更推荐使用混合检索的方式

将语义值拉至1,表示仅启用语义检索模式。借助 Embedding 模型,即便知识库中没有出现查询中的确切词汇,也能通过计算向量距离的方式提高搜索的深度,返回正确内容。此外,当需要处理多语言内容时,语义检索能够捕捉不同语言之间的意义转换,提供更加准确的跨语言搜索结果。

将关键词的值拉至1,表示仅启用关键词检索模式。通过用户输入的信息文本在知识库全文匹配,适用于用户知道确切的信息或术语的场景。该方法所消耗的计算资源较低,适合在大量文档的知识库内快速检索。

除了上述两种方式,我们还可以不断调试语义值和关键词这两者的权重,根据知识库文件的内容及形式进行反复判断和调整,找到符合业务场景的最佳权重比例。
四、知识库检索效果优化

1、可以通过调整检索算法来优化;

2、也可以通过工作流控制知识库访问来优化;

3、可以对知识库进行结构化、层次化的细分,然后基于细分后的内容进行渐进式的访问,也能有效优化检索效果;
4、可以配合用户的交互,进行缩小范围并精准化检索。
五、长文本的处理

可以通过对内容的分割,把长文本的数据处理成短文本的数据,这样有助于知识库的优化检索。

同时也可以考虑根据长文本的内容或目录等结构性内容,构建知识图谱。


其实还有很多方式,篇幅有限也就先简单的介绍一些,实际上知识库的调优远远不止我介绍的这些点,我只是抛砖引玉,期待大家可以提出更多的方法!

Agent智能体新闻资讯

在Dify中使用本地MCP工具

2025-5-9 11:00:09

Agent智能体新闻资讯

MinerU教程第一弹丨Dify插件超详细配置攻略和工作流搭建案例,不允许还有人不会

2025-5-9 18:43:42

0 条回复 A文章作者 M管理员
    暂无讨论,说说你的看法吧
购物车
优惠劵
搜索