RAG之对于非结构性数据提取


      前段时间在B站上看到一个up主分享了一个如何《将图片或PDF中复杂的表格数据转成纯文本输入大模型,如何保持表格文字的排版布局不变?》,后面在评论中和up主讨论了一下,当一个文档中出现了多种数据结构形式,比如文本、图片、表格、公式,而不是视频分享中的单一模式,对于这些形式内容的提取可以采用哪些方法呢?
https://www.bilibili.com/video/BV1hJvQeyEZS/?vd_source=a686566edc80a9ac643686804824933c#reply249547265968
其实这种非结构性数据文本在生活中似乎更长见,大家对这种数据的处理也确实比较头疼,后台也有很多好友咨询我处理的方式,这里对我自己的做法进行如下分享:
RAG之对于非结构性数据提取
       整体思路可以参考omniparser,首先读取整个文本切分成单叶,然后对于每一页数据结合yolov8等模型对该页文本进行检测切分,整体结构如下,
RAG之对于非结构性数据提取
而对于文章中经常出现的文本、图片、表格、公式等非结构性数据形式,通过检测模型得到对应的模块,然后分别送入对应的sota识别模块,这里可以结合传统的技术,也可以采用多模态技术,比如对于表格内容识别就可以利用Table-LLaVA等。然后再将提取的信息embedding到数据库,结合rag技术实现对基座llm在垂直领域的回答能力。
RAG之对于非结构性数据提取
     最后,对于非结构性数据信息的提取,各种新的方式方法有很多,大家在学习中不断总结吧!

前沿技术大模型技术新闻资讯

我对2025年AI发展的几点预测

2025-5-9 14:50:47

前沿技术多模态技术新闻资讯

探索阿里通义千问的 Qwen2-VL:新一代视觉语言模型本地体验实战大全

2025-5-9 15:00:40

0 条回复 A文章作者 M管理员
    暂无讨论,说说你的看法吧
购物车
优惠劵
搜索