騰訊開源 finLLM-Eval：大模型金融場景幻覺專業評測方案 - 新聞詳情 | YeLogs.com

騰訊開源 finLLM-Eval：大模型金融場景幻覺專業評測方案

新聞

HongKong

12

05:14 PM · Jan 19 ,2026

騰訊開源宣佈推出 finLLM-Eval，一套專為大模型金融場景設計的幻覺評測方案，在行業內首次提出無 GroundTruth 下金融數據準確性的評測方法，填補了大模型金融領域評測的空白，旨在推動AI技術在高風險、高要求的金融領域安全、可靠地落地。

本次開源版本包含以下核心能力：

邏輯一致性 & 事實準確性評測模塊：完整工程代碼，示例評測集，支持用户自定義評測集，自動化輸出模型表現詳情。提供完整評測報告，包括總分、錯誤點分佈、千字幻覺率等指標。
端到端金融數據準確性對比模塊：技術方案

核心功能亮點

面向大模型生成能力評測

事實準確性評測：檢測模型輸出是否與客觀事實一致，避免無中生有、張冠李戴等問題。
邏輯一致性評測：評估模型分析過程中的前提、論證和結論是否符合金融市場規律與投資理論，杜絕邏輯謬誤。

面向大模型端到端應用評測

無GroundTruth的金融數據準確性評測：基於真實用户問答，自動提取“標的×時間×指標”金融事實三要素，通過內部金融數據庫進行自動化驗證，無需人工標註標準答案。

AgentAsJudger自動化評測

全程無需人工干預，通過AI Agent自動提取事實點與邏輯鏈，並與RAG內容或金融數據庫進行比對，準確率高達96%以上。

接下來，項目團隊計劃將持續迭代 finLLM-Eval，未來將支持非金融指標數據核驗、結果歸因等能力。

0 位用戶收藏了這個故事！