在线文档解析服务横评:TextIn、MinerU、MonkeyOCR 谁最适合企业知识库?

 

在线文档解析服务横评:TextIn、MinerU、MonkeyOCR 谁最适合企业知识库?

文档解析服务是知识库数据集的源头,它直接决定了问答的准确性。特别是在海量文档规模场景下,文档解析服务质量直接决定了知识库产品的交付成本

在知识库交付的过程中,经常会出现这样的问题:表格错位、公式展示不出来、标题识别错乱,没有层级关系、图文结构信息丢失等。这些问题会导致后续的分块、检索召回动作都是基于一个错误的数据源基础上错上加错,结果可想而知。

对于 KnowFlow 而言,我们想找到一种相对最优的解析服务,尽可能的提升数据源质量,降低数据治理成本。

测试标准

经过我们社区同学日常沟通交流,我选择了 MinerU、TextIn、MonkeyOCR 这三款产品进行横向比较。

PaddleOCR 体验网站上 OCR 结果无法生成 Markdown 文件,所以不在此次测试范围之内;另外 Dolphin 在线体验地址,只能上传文件,无法预览 Markdown

由于本地部署比较耗时,我们统一采用在线官方体验地址进行比较,离线/开源版本不在本次测评范围之内。

模型优先采用 VLM 模型,确保更好的识别效果。测试结果优先以 Markdown 文件 产物作为标准,因为对于知识库而言 Markdown 非常友好。

这里有一点需要注意,文档转换成 Markdown 必然会损失一些信息,因为 Markdown 是一种轻量级标记语言,专注于文本内容,不能表达复杂的排版和样式。

由于评测文档样例有限,本次测评仅面向于样例文档解析服务的表现,且以官方服务默认参数为前提,并不代表服务厂商其他文档表现。

测试方案

考虑到文档格式多样性,本次以 PDF 、Word 这两种最常用的文档格式为主。

文档结构层面,重点关注表格、图文混排、分页、目录识别、复杂版式,测试指标以 Makrdown 文档还原度为核心指标,

测试数据集

围绕上述测试标准和方案,精心挑选了以下文档:

  1. 1. 某知名品牌电风扇使用说明书 (pdf)

该文档使用说明书图文混排复杂,重点关注文档结构还原、图片提取能力。


在线文档解析服务横评:TextIn、MinerU、MonkeyOCR 谁最适合企业知识库?


  1. 2. 邮件模版 EMAIL(doc)

文档含表格内嵌表格,文本中包含删除线等特殊格式。重点关注 word 文档表格还原能力。

  1. 3. 跨页表格(pdf)
在线文档解析服务横评:TextIn、MinerU、MonkeyOCR 谁最适合企业知识库?

全英文文档,关注目录级别识别效果,以及文中存在的跨页表格识别效果

4 煤矿安全规程2022版(pdf)

在线文档解析服务横评:TextIn、MinerU、MonkeyOCR 谁最适合企业知识库?

图文混排,表格加文字和公式,重点关注表格呢的公式符号还原程度

测试网址

  • • MinerU:https://mineru.net/OpenSourceTools/Extractor
  • • TextIn:https://cc.co/16YSVg
  • • MonkeyOCR:http://vlrlabmonkey.xyz:7685/

测试过程

测试案例一:某品牌电风扇使用说明书 PDF 文档

客观来说,这个文档结构还是非常复杂的。

MinerU 实测表现

整体文本还原度是可以的,不知道是配置问题或是其他。无序列表的层级关系没有表达出来,而是合并成一段,丢失了列表排版。

• 左手按高度调节按钮,固定解除,再用右手捏着升降杆向上升或向下降并根据喜好来调节高度。(如图2)- 按到最低时,升降杆可以固定。其它位置都不可固定。

MonkeyOCR 实测表现

在线文档解析服务横评:TextIn、MinerU、MonkeyOCR 谁最适合企业知识库?

左手按高度调节按钮, 固定解除, 再用右手捏着升降杆向上升或向下降并根据喜好来调节高度。 (如图2)
● 按到最低时,升降杆可以固定。其它位置都不可固定。

层级关系和图片都丢失了,整体表现较差

TextIn 实测表现

无序列表的关系还原出来了,另外图片也还原回来了,和原文没有区别。

·左手按高度调节按钮,固定解除,再用右手捏着升降杆向上升或向下降并根据喜好来调节高度。(如图2)
·按到最低时,升降杆可以固定。其它位置都不可固定。

从该文档结构还原来看,TextIn 表现最优

测试案例二:邮件模版 EMAIL doc

为什么选择这个文件?这个文件格式比较特殊,表格相互嵌套,而且存在特殊格式删除线,这个文件本地 liboffice 转 pdf 直接崩溃。

MinerU 实测表现

在线文档解析服务横评:TextIn、MinerU、MonkeyOCR 谁最适合企业知识库?

由于表格跨页,第一页的表格 MinerU 识别的特别好,但第二页列已经对不上了。

MonkeyOCR 实测表现

MonkeyOCR 在线体验地址不支持 doc 文件,此文件无法进行对比。

TextIn 实测表现

在线文档解析服务横评:TextIn、MinerU、MonkeyOCR 谁最适合企业知识库?

将部分单元格进行了错误的合并,整体来看,还原度比较高,体结构信息能够维持。

除却 MonkeyOCR 在线网址不支持 doc 意外,TextIn 表格还原相对好点。

跨页表格 PDF

MinerU 实测表现

预期是连续表格,实际识别出来被标题分割在中间,不符合预期。

MonkeyOCR 实测表现

在线文档解析服务横评:TextIn、MinerU、MonkeyOCR 谁最适合企业知识库?

正确识别出跨页的表格,但没有合并操作。

TextIn 实测表现

测试结果超出我的预期,完美合并。

煤矿安全规程2022版 PDF

MinerU 实测表现

在线文档解析服务横评:TextIn、MinerU、MonkeyOCR 谁最适合企业知识库?

不知道为啥这个表格识别的这么差,表格最后两列直接丢失了;表格标题识别到了表格下方,整体效果还是不尽人意。

MonkeyOCR 实测表现

在线文档解析服务横评:TextIn、MinerU、MonkeyOCR 谁最适合企业知识库?

识别基本准确,「说明」一列的合并单元格识别有误,但基本上效果还是挺好的

TextIn 实测表现

识别准确,完美还原。

测试结论

本次给的文档客观来说都有点超标,结构较复杂,围绕是以「知识库问答系统」为目的的文档解析服务。

由于样本文档、参数配置的局限性,本次测试可能存在一定的随机性。 相对而言,TextIn 在线解析服务在表格识别、文档结构、跨页表格场景下比较优秀。

从文档解析服务全局来看,文档排版、复杂图标、表格单元格仍然是文档解析的难点,而文档分级目录相对简单。

对于重视文档解析质量的企业来说,搭建企业知识库,在线文档解析服务 TextIn 当下来看是个很不错的选择。

企业落地数字员工新闻资讯

Anthropic核心成员揭秘Claude 4:2027年,AI模型将有能力自动化几乎所有白领工作

2026-5-2 2:30:40

前沿技术新闻资讯知识图谱

知识图谱增强的合规医学大模型产学研新范式探索

2026-5-2 2:34:14

0 条回复 A文章作者 M管理员
    暂无讨论,说说你的看法吧
购物车
优惠劵
搜索