PageIndex 是一個基於推理的 RAG系統,它構建長文檔的樹狀索引,並基於該索引進行推理以進行檢索。它模擬了人類專家如何通過樹狀搜索從長文檔中導航和提取知識,使語言學習者能夠思考和推理,從而找到最相關的文檔部分。它分兩步執行檢索:
- 生成文檔的“目錄”樹狀結構索引
- 通過樹搜索執行基於推理的檢索
功能
與傳統的基於向量的 RAG 相比,PageIndex 具有以下特點:
- 無需向量:使用文檔結構和 LLM 推理進行檢索。
- 無需分段:文檔按自然章節組織,而不是人為分段。
- 類人檢索:模擬人類專家如何瀏覽和提取複雜文檔中的知識。
- 透明檢索過程:基於推理的檢索——告別近似向量搜索(“感覺檢索”)。
PageIndex 為基於推理的 RAG 系統提供支持,該系統在 FinanceBench 上達到了98.7% 的準確率,在專業文檔分析方面展現了最先進的性能(詳情可參閲博客文章)。