
-
定义了92个基于真实世界文档的问题。 -
创建了四个文档集,每个集合都包含相同的310页核心文档,这些文档包含了92个测试问题的答案。 -
在核心文档的基础上,逐步增加无关文档的数量,创建了四个测试集:1,000页、10,000页、50,000页和100,000页。


-
在1,000页文档集上,三种方法的性能差异不大。 -
到10,000页时,LangChain和LlamaIndex(简单RAG)的准确率开始明显下降,大约下降了5%。 -
在50,000页文档集上,这两种方法的准确率进一步下降,降幅接近10%。 -
当文档数量达到100,000页时,LangChain和LlamaIndex的性能损失高达12%。


