-
对PDF文档进行清洗,去除重复的页眉、页脚以及目录中的过长连字符,以尽量减少API调用次数(毕竟每次调用都需要花费)。 -
将文档按段落切片,对于过长的段落则拆分成两部分。 -
将所有切片输入API生成embedding,并将其存储到 parquet 文件格式中,便于后续复用。
-
读取文档前10页(不超过4096个token)的数据量,提交给GPT-4以生成概述。 -
让GPT-4根据概述提出五个相关问题。至此,阅读文档和提出问题的第一步已完成。
-
将“问题一”输入API生成embedding-1。 -
将embedding-1与之前生成的embedding集合进行一一比对,计算余弦相似度。 -
对数据进行排序,筛选出Top N条相似的embedding。 -
将第3步筛选出的embedding原文提交给GPT-4,让其生成一段通顺的回答。 -
输出第3步Top N的embedding原文,以便了解答案来源。


