騰訊開源宣佈推出 finLLM-Eval,一套專為大模型金融場景設計的幻覺評測方案,在行業內首次提出無 GroundTruth 下金融數據準確性的評測方法,填補了大模型金融領域評測的空白,旨在推動AI技術在高風險、高要求的金融領域安全、可靠地落地。
本次開源版本包含以下核心能力:
- 邏輯一致性 & 事實準確性評測模塊:完整工程代碼,示例評測集,支持用户自定義評測集,自動化輸出模型表現詳情。提供完整評測報告,包括總分、錯誤點分佈、千字幻覺率等指標。
- 端到端金融數據準確性對比模塊:技術方案
核心功能亮點
面向大模型生成能力評測
- 事實準確性評測:檢測模型輸出是否與客觀事實一致,避免無中生有、張冠李戴等問題。
- 邏輯一致性評測:評估模型分析過程中的前提、論證和結論是否符合金融市場規律與投資理論,杜絕邏輯謬誤。
面向大模型端到端應用評測
- 無GroundTruth的金融數據準確性評測:基於真實用户問答,自動提取“標的×時間×指標”金融事實三要素,通過內部金融數據庫進行自動化驗證,無需人工標註標準答案。
AgentAsJudger自動化評測
- 全程無需人工干預,通過AI Agent自動提取事實點與邏輯鏈,並與RAG內容或金融數據庫進行比對,準確率高達96%以上。
接下來,項目團隊計劃將持續迭代 finLLM-Eval,未來將支持非金融指標數據核驗、結果歸因等能力。