通过结合PDF文件和Excel文件,演示查询“显示所有与2011年和2021年发生的事件相关的文档及其组成部分。” PDF文件包含2011年至2021年香港的人口规模和结构信息。Excel文件包含2021年至2023年的人口普查记录。(青色表示PDF文档;绿色用于Excel文件;红色为PDF页面;卡其色为标题;海洋蓝为段落)


-
布局知识图谱 -
文档的布局有助于我们理解文档的结构。 -
因此,在统一的多模态知识图谱中体现它也是必要且重要的。 -
语义知识图谱 -
当阅读文献时,大脑会对语义联系感兴趣的部分。 -
在LLM的帮助下,可以尝试从文档中提取语义联系。 -
这可以帮助人类从语义角度更好地理解文档。

总体步骤包括:
-
数据处理 -
双路径数据处理 -
将来自不同来源、不同格式的文档转换为 Markdown、CSV、JSON 等。 -
统一的多模态知识图谱构建 -
GraphDB加载器 -
将统一的多模态知识图谱加载到GraphDB 中
-
使用Neo4j作为GraphDB
-
下游应用基于向量的RAG:
-
首先获取每个节点的嵌入,然后使用查询的嵌入进行相似性搜索以提取图内的锚节点。使用这些节点作为锚节点,进行多跳信息提取来增强查询。使用LLM根据增强查询进行最终生成。
https://arxiv.org/pdf/2406.02962Docs2KG: Unified Knowledge Graph Construction from Heterogeneous Documents Assisted by Large Language Modelspip install Docs2KGhttps://docs2kg.ai4wa.com/


