騰訊開源 finLLM-Eval:大模型金融場景幻覺專業評測方案

新聞
HongKong
12
05:14 PM · Jan 19 ,2026

騰訊開源宣佈推出 finLLM-Eval,一套專為大模型金融場景設計的幻覺評測方案,在行業內首次提出無 GroundTruth 下金融數據準確性的評測方法,填補了大模型金融領域評測的空白,旨在推動AI技術在高風險、高要求的金融領域安全、可靠地落地。

本次開源版本包含以下核心能力:

  • 邏輯一致性 & 事實準確性評測模塊:完整工程代碼,示例評測集,支持用户自定義評測集,自動化輸出模型表現詳情。提供完整評測報告,包括總分、錯誤點分佈、千字幻覺率等指標。
  • 端到端金融數據準確性對比模塊:技術方案

核心功能亮點

面向大模型生成能力評測

  • 事實準確性評測:檢測模型輸出是否與客觀事實一致,避免無中生有、張冠李戴等問題。
  • 邏輯一致性評測:評估模型分析過程中的前提、論證和結論是否符合金融市場規律與投資理論,杜絕邏輯謬誤。

面向大模型端到端應用評測

  • 無GroundTruth的金融數據準確性評測:基於真實用户問答,自動提取“標的×時間×指標”金融事實三要素,通過內部金融數據庫進行自動化驗證,無需人工標註標準答案。

AgentAsJudger自動化評測

  • 全程無需人工干預,通過AI Agent自動提取事實點與邏輯鏈,並與RAG內容或金融數據庫進行比對,準確率高達96%以上。

接下來,項目團隊計劃將持續迭代 finLLM-Eval未來支持金融指標數據核驗結果歸因能力

user avatar
0 位用戶收藏了這個故事!
收藏

發佈 評論

Some HTML is okay.