继续跟进【文档智能】解析进展,继《多模态文档智能解析开源进展:针对形变文档优化的PaddleOCR-VL-1.5架构改进点》、《多模态文档智能解析持续开源进展:Youtu-Parsing模型架构、数据、训练方法》等开源后,这周又开源了一个GLM-OCR模型,从技术路线上,仍然是内卷式的重复造轮子,其解析pipeline遵循layout+vlm的两阶段方式,即:layout部分(模型使用的是paddleocr-PP-DocLayout-V3)、vlm是小参数的多模态模型。
功能
-
文档解析:在 OmniDocBench V1.5 测试中获得 94.62 分,最近上新的模型似乎都差不多这个性能,可见这个评测榜也快被刷“废了”。 -
多模态信息抽取(较其他新增):增加了一些KIE能力,比如卡证等信息抽取能力。


