前段时间在B站上看到一个up主分享了一个如何《将图片或PDF中复杂的表格数据转成纯文本输入大模型,如何保持表格文字的排版布局不变?》,后面在评论中和up主讨论了一下,当一个文档中出现了多种数据结构形式,比如文本、图片、表格、公式,而不是视频分享中的单一模式,对于这些形式内容的提取可以采用哪些方法呢?
https://www.bilibili.com/video/BV1hJvQeyEZS/?vd_source=a686566edc80a9ac643686804824933c#reply249547265968
其实这种非结构性数据文本在生活中似乎更长见,大家对这种数据的处理也确实比较头疼,后台也有很多好友咨询我处理的方式,这里对我自己的做法进行如下分享:
整体思路可以参考omniparser,首先读取整个文本切分成单叶,然后对于每一页数据结合yolov8等模型对该页文本进行检测切分,整体结构如下,
而对于文章中经常出现的文本、图片、表格、公式等非结构性数据形式,通过检测模型得到对应的模块,然后分别送入对应的sota识别模块,这里可以结合传统的技术,也可以采用多模态技术,比如对于表格内容识别就可以利用Table-LLaVA等。然后再将提取的信息embedding到数据库,结合rag技术实现对基座llm在垂直领域的回答能力。
最后,对于非结构性数据信息的提取,各种新的方式方法有很多,大家在学习中不断总结吧!