多模态文档智能解析最新开源进展:GLM-OCR方法概述


继续跟进【文档智能】解析进展,继《多模态文档智能解析开源进展:针对形变文档优化的PaddleOCR-VL-1.5架构改进点》、《多模态文档智能解析持续开源进展:Youtu-Parsing模型架构、数据、训练方法》等开源后,这周又开源了一个GLM-OCR模型,从技术路线上,仍然是内卷式的重复造轮子,其解析pipeline遵循layout+vlm的两阶段方式,即:layout部分(模型使用的是paddleocr-PP-DocLayout-V3)、vlm是小参数的多模态模型。

功能

  • 文档解析:在 OmniDocBench V1.5 测试中获得 94.62 分,最近上新的模型似乎都差不多这个性能,可见这个评测榜也快被刷“废了”。
  • 多模态信息抽取(较其他新增):增加了一些KIE能力,比如卡证等信息抽取能力。

RAG技术前沿技术新闻资讯

基于 Ray 的蚂蚁数据构建引擎在搜推和 RAG 场景的实践

2026-4-14 5:17:21

RAG技术前沿技术新闻资讯

NotebookLM如何在48小时内分析2万份论文?

2026-4-14 6:12:25

0 条回复 A文章作者 M管理员
    暂无讨论,说说你的看法吧
购物车
优惠劵
搜索