RAG之对于非结构性数据提取

前段时间在B站上看到一个up主分享了一个如何《将图片或PDF中复杂的表格数据转成纯文本输入大模型，如何保持表格文字的排版布局不变？》，后面在评论中和up主讨论了一下，当一个文档中出现了多种数据结构形式，比如文本、图片、表格、公式，而不是视频分享中的单一模式，对于这些形式内容的提取可以采用哪些方法呢？

https://www.bilibili.com/video/BV1hJvQeyEZS/?vd_source=a686566edc80a9ac643686804824933c#reply249547265968

其实这种非结构性数据文本在生活中似乎更长见，大家对这种数据的处理也确实比较头疼，后台也有很多好友咨询我处理的方式，这里对我自己的做法进行如下分享：

整体思路可以参考omniparser，首先读取整个文本切分成单叶，然后对于每一页数据结合yolov8等模型对该页文本进行检测切分，整体结构如下，

而对于文章中经常出现的文本、图片、表格、公式等非结构性数据形式，通过检测模型得到对应的模块，然后分别送入对应的sota识别模块，这里可以结合传统的技术，也可以采用多模态技术，比如对于表格内容识别就可以利用Table-LLaVA等。然后再将提取的信息embedding到数据库，结合rag技术实现对基座llm在垂直领域的回答能力。

最后，对于非结构性数据信息的提取，各种新的方式方法有很多，大家在学习中不断总结吧！

{{userData.name}}已认证

RAG之对于非结构性数据提取

我对2025年AI发展的几点预测

探索阿里通义千问的 Qwen2-VL：新一代视觉语言模型本地体验实战大全