近期收到大量读者反馈:上传pdf/图文PDF到dify、Cherry Studio等知识库时,普遍存在格式错乱、图片丢失、表格失效三大痛点。
在试用的几款知识库中除了ragflow具备图片解析的能力外,其他的都只能解析文本。

如果想要解析扫描件,或者带图片的pdf或word,怎么办?
通过工具将文档转成markdown
私密性的文件,建议本地部署,本地模型,非私密性的文件,可以使用一些在线服务。
marker
https://github.com/VikParuchuri/marker
在github上21.6k星
总结下用途
-
• 多格式转换:支持 PDF、图像、PPTX/DOCX/XLSX/HTML/EPUB → Markdown/JSON/HTML -
• 复杂内容提取:表格、公式、代码块、链接,支持图像保留与 OCR 修复,适配论文、金融文档等场景。 -
• 可扩展优化:通过 --use_llm调用 Gemini/Ollama 等模型提升准确率,支持自定义处理规则。
优点
-
1. 速度与精度:单页平均处理仅 0.18 秒(H100 GPU),基准测试优于 Llamaparse/Mathpix; -
2. 灵活性强:兼容 GPU/CPU/MPS,支持批量并发(122 页/秒多 GPU 模式); -
3. 开源易扩展:模块化设计,可自定义 Processor/Renderer。
缺点
-
1. 文档复杂度限制:复杂嵌套表格需依赖 LLM 辅助; -
2. 商业化壁垒:模型权重非商用,企业使用需营收<$5M; -
3. 硬件高需求:GPU 加速依赖显存(单进程峰值 5GB)。
所需硬件资源
-
• 基础配置:CPU/MPS(Mac 芯片)可轻量运行,但速度下降; -
• 推荐配置:多 CUDA GPU(如 H100/A100)提升吞吐,显存≥16GB 优化并行; -
• LLM 附加:启用 --use_llm需联网调用云服务(Gemini/Claude/Ollama)。
markitdown
https://github.com/microsoft/markitdown
在github上39.4k星
用途
将多种文件类型(PDF、Office文档、图像、音频、HTML、ZIP、YouTube等)转换为Markdown格式,支持文本分析、索引生成等场景,并提供插件扩展能力。
优点
-
1. 格式丰富:支持超过20种文件格式(含音视频、图像OCR、YouTube字幕)。 -
2. 灵活安装:按需选择依赖(如[pdf]/[docx]),减少冗余资源占用。 -
3. 扩展性强:支持第三方插件(GitHub搜索 #markitdown-plugin),适配定制需求。 -
4. 集成AI能力:结合Azure文档智能、OpenAI模型(如GPT-4o)增强OCR、音频转录与图像描述功能。 -
5. 多场景适配:提供CLI、Python API、Docker镜像,适合本地开发与云环境。
缺点
-
1. 依赖管理复杂:需手动选择安装依赖项(默认不全覆盖),可能引发兼容性问题。 -
2. 外部服务依赖:Azure/OpenAI功能需API密钥和网络支持,增加配置门槛。 -
3. 版本变更风险:v0.0.1至v0.0.2存在破坏性更新,旧项目迁移需调整。
所需硬件资源
-
• 基础配置:适用于常规文件处理(CPU/RAM需求低)。 -
• 复杂任务:大文件处理、AI模型调用(如OCR/语音转录)建议高配置CPU/内存。 -
• 云服务依赖:Azure或OpenAI功能需稳定网络环境及对应API资源。
MinerU
https://github.com/opendatalab/MinerU
在github上27.1k星
用途
-
• 文档结构化转换:PDF转Markdown/JSON,保留文本、表格、公式、图像结构。 -
• 学术/技术处理:精准提取论文公式(LaTeX)、表格(HTML)。 -
• 多语言OCR:支持84种语言的扫描文档识别。
优点
-
1. 高效精准:多模型加速(10倍+速度),跨页拼接优化。 -
2. 多模态支持:图文表公式一体化提取。 -
3. 跨平台加速:兼容CPU/GPU/NPU/MPS,灵活部署。
缺点
-
1. 场景局限:复杂布局(杂志/艺术册)、垂直文本支持不足。 -
2. 硬件门槛:GPU需8GB+显存,NPU需华为Ascend生态。 -
3. 小语种误差:变音符号或罕见字符OCR可能偏差。
所需硬件资源
-
• 最低配置:8GB内存+SSD(CPU模式)。 -
• 推荐配置: -
• GPU:RTX 3060+(8GB显存); -
• NPU:华为Ascend 910B; -
• Apple:M2芯片+16GB内存(禁用公式识别优化性能)。
官方硬件推荐

本想在线体验下,打开报

docling
用途
Docling 是文档处理工具,支持多格式解析(PDF、DOCX、HTML、图片等),重点增强 PDF 的布局、表格、代码、公式理解及 OCR 功能,提供统一文档结构表达,并与 LangChain、LlamaIndex 等 AI 框架集成,助力生成式 AI 应用开发。
优点
-
1. 多格式支持:覆盖 PDF、DOCX、HTML 等常见格式。 -
2. 高级 PDF 解析:精准识别布局、表格、公式、图像分类。 -
3. 本地化执行:支持敏感数据和断网环境。 -
4. 生态系统集成:无缝对接 LangChain 等 AI 工具链。 -
5. OCR 能力:有效处理扫描件与图片文本提取。
缺点
-
1. 复杂结构支持待完善:图表、分子结构等理解功能标注为“即将推出”。 -
2. 外部模型依赖:需遵守第三方模型许可协议,可能存在版权风险。 -
3. 实验性功能:部分功能(如 VLM 管道)可能稳定性不足。
所需硬件资源
-
• 跨平台支持:macOS/Linux/Windows(x86_64 及 arm64)。 -
• 推荐配置:未明确具体需求,但 OCR 与视觉模型可能需中等以上 CPU/GPU 资源,本地执行时需预留存储空间(依赖 HuggingFace 模型缓存)。 -
• 轻量场景:基础文档解析可在普通配置运行,复杂任务建议配备 GPU 加速。
然后我deepseek综合对比了下这款产品,各有优缺点,联网竟然没有查到Docling
|
|
|
|
|
|
| Marker |
|
– 表格转Markdown格式 – 开源(GitHub Star 14.5k) |
– 目录误判为表格 – 复杂表格解析混乱 |
|
| MinerU |
|
– 表格定位能力强 – 目录和标题识别优于Marker |
– 图片识别偶尔错误 |
|
| MarkitDown |
|
– 可结合AI模型生成智能描述 – MIT开源协议,灵活扩展 |
– 复杂PDF解析能力有限 |
|
| Docling |
|
|
|
|
|
|
|
|
|
|
在线服务TextIn

-
• 点击位置 1上传文件,上传文件以后先不要执行 -
• 点击位置 2参数配置 -
• 调整完参数点击 3
特别注意:它家的速度贼快,第一次没注意配置,上传一个99页的演示稿,直接点击识别,几秒就用了99页的免费额度。

-
• 这里 1可以设置从哪页开始解析 -
• 同时可以设置解析的页数 2 -
• 如果pdf有密码,可以输入pdf的密码 -
• 最重要的是要设置下 4全文识别

-
• 可以通过 1查看识别出来的表格、公式等是否正确,特别是公式 -
• 通过 2可以看到整个的识别还是蛮准确的 -
• 通过 3可以复制出结果 -
• 通过 4可以导出结果,我们一般用这个 -
• 通过 5可以对文档进行编辑,目前的识别准确率还是很不错的。
导出结果如下。


在dify中建立知识库,导入文档。

-
• 注意分段标识符, 1位置使用正则^###(?!#)s。 -
• 2设置把分段长度往长了设置,如果文档不大全文作为整体 -
• 3子分段以句号为分隔符
按照官方的说法,是可以按照https://regexr.com/ 进行正则解析的,但是我在实际使用的时候,官方是可以的,到dify中并没有生效。


然后我又看了下表格解析。

好家伙,影印件中那么模糊的文本,都能扫描出来,我特意用自己高度近视的眼睛(堪比24K钛合金探测器)逐字比对,结果发现字符识别零误差,实在是太强大,速度又快,准确率又高。Textln不仅有文档解析,还有很多的其他的服务。

这么好用的东西,我以前竟然没有发现,而且这个公司我以前怎么没听过,然后看了一下公司业务。

噢,原来是,扫描全能王,以前经常用的app。


