螞蟻數科在香港金融科技節上發佈了一項“多語種多模態大模型訓練框架”技術,旨在解決當前大模型在多語言環境中的應用瓶頸。該框架在埃及阿拉伯語、印尼爪哇語、巴哈薩語及巽他語等資源稀缺的小語種上表現尤為突出。
這一突破的核心在於創新的語言感知優化框架。該框架通過 “以目標語言進行思考” 的機制,結合細粒度多維度的獎勵策略與自動化數據解決方案,實現在小語種的深度理解和處理。
根據測試結果,與同等規模的開源模型相比,該框架在主流多語言視覺問答(Multilingual Visual Question Answering, VQA)基準測試中準確率提升了約9.5%,在部分任務中甚至優於 GPT-4o 和 Gemini-2.5-flash 等國際主流閉源模型,獲得評測總分第一。
在安全能力方面,螞蟻數科還推出了圖像安全框架,結合視覺分析與常識推理的偽造識別路徑,能夠高效識別圖像中的視覺不一致性和邏輯矛盾。這一技術不僅能夠定位篡改區域,還能進行可解釋分析,顯著提升數字內容的風險控制能力。
作為螞蟻數科全球業務的核心技術,這兩項能力已在 ZOLOZ 文檔識別鑑真產品(RealDoc)中實現了規模化應用,支持119種語言,能夠高效處理多語種商務文檔、合同和證件,覆蓋保險理賠、信貸審核及跨境貿易等多個場景。