Stories

Detail Return Return

多模態文本智能大模型前沿技術與應用論壇在上海召開,合合信息推出多模態文本智能技術方案 - Stories Detail

隨着人工智能深入各行各業,多模態大模型正在成為AI發展的重要方向之一。近期,由中國圖象圖形學學會、中國人工智能學會、中國計算機學會和中國自動化學會聯合主辦,上海交通大學承辦的第八屆中國模式識別與計算機視覺學術會議(PRCV 2025)順利舉行。大會期間,“多模態文本智能大模型前沿技術與應用”論壇(簡稱“論壇”)獲得了廣泛關注。論壇彙集了來自華南理工大學、哈爾濱工業大學、南開大學、華中科技大學、小紅書及合合信息技術團隊的頂尖專家與學者,深入探討多模態文本智能領域的最新技術突破與場景應用案例。

圖片

圖説:中國圖象圖形學學會(CSIG)常務理事、華南理工大學教授金連文致辭

如同人類需要同時調用視覺、聽覺、觸覺等多感官來全面地理解外部世界,大模型也需要綜合處理文字、圖片、表格等文本信息後做出判斷。“實戰”應用標準對大模型的多模態內容深度整合能力提出了新的要求,語義割裂、場景理解侷限、決策失誤等常見的模型缺陷制約了其在行業中的應用發展。合合信息在論壇期間推出“多模態文本智能技術”方案,該方案可通過文本相關空間位置理解深層語義邏輯,實現對多模態信息的“立體化綜合化理解”,賦予模型真正的文本“閲讀理解”能力。

文本智能技術助力解決多模態AI應用難題

多模態指利用多種不同形式或感知渠道的信息進行表達、交流和理解的方式,數據模態包括文本、圖像、音頻、視頻等。2025年Gartner人工智能技術成熟度曲線顯示,多模態AI將在未來五年成為各行業提升所有應用和軟件產品功能的核心技術。圍繞多模態大模型性能優化及行業應用等問題,論壇嘉賓開展了一場深刻的討論。

為了助力大模型實現跨越模態的推理能力,哈爾濱工業大學計算學部長聘教授、博士生導師車萬翔重點分享了“多模態思維鏈”技術,該技術將推理邏輯分解為一系列可解釋的跨模態推理步驟,最終生成更為精準和可靠的結論。除了幫助大模型理清邏輯,解決“胡編亂造”問題也是提升AI能力的重要方向。南開大學教授周宇介紹了一種系統化的OCR幻覺緩解方案,為多模態大模型的可視文本感知能力提升提供了有效路徑。

圖片

圖説:哈爾濱工業大學計算學部長聘教授、博士生導師車萬翔教授進行主題分享

圖片

圖説:南開大學教授周宇進行主題分享

真實的應用場景是技術不斷迭代更新的動力。論壇現場,合合信息圖像算法研發總監郭豐俊重點分享了文本智能技術的創新應用,幫助用户解決複雜場景下的文檔圖像問題。小紅書hi lab團隊算法工程師燕青結合行業實踐,分享了一款基於單視覺語言模型的多語言文檔佈局解析工具“dots.ocr”。

圖片

圖説:合合信息圖像算法研發總監郭豐俊進行主題分享

圖片

圖説:小紅書hi lab團隊算法工程師燕青進行主題分享

除了商業應用,在文保領域,多模態大模型也發揮出了巨大價值。華中科技大學教授劉禹良在主題演講中介紹了首個覆蓋甲骨文專家破譯全流程的輔助考釋框架AlphaOracle,通過人類工作流啓發的音形義理破譯流程,實現字形分析、拓片用法總結和傳世文獻做證的思路,成功在“勞”等字的輔助破譯上取得突破。

圖片

圖説:華中科技大學教授劉禹良進行主題分享

多模態文本智能技術構建“感知-認知-決策”技術新範式

從文字、圖像到視頻,無論模態如何演變,其所承載的文本信息始終是AI理解世界的基座。實現具備自主感知、認知與決策能力的通用人工智能(AGI),首要前提是讓機器充分理解作為知識載體的“文本”。基於此,合合信息推出了“多模態文本智能技術”方案,將技術處理對象從傳統的文檔(如PDF、Word等格式文件)延伸至多種承載文本信息的媒介,無論是論文、財報還是視頻、自然場景,都能成為系統的理解對象。

在傳統的文檔處理技術中,“如何準確地提取信息”是重點關注方向。然而在真實業務場景中,信息往往以多模態組合形態存在,例如財報的數據需對照表格驗證,國家標準文件中的插圖依賴圖例説明。為了解決多模態信息的協同解讀需求,方案建立了從複雜場景文本感知到深層語義理解的技術閉環,讓AI不僅能夠“看清”文本,更能夠理解其佈局關聯,解決不同模態間的信息割裂問題。

目前,“多模態文本智能技術”方案已將文本智能認知程度從語義理解拓展到類人推理及自主機器決策,形成了從感知到認知再到決策的技術實現路徑。相較於傳統的文檔解析、識別系統,該方案讓系統具備了更接近人類判斷邏輯的自主決策能力,在完成對多模態信息的感知和理解後,能夠根據用户意圖,做出正確的決策。

隨着多模態大模型融入產業進程,行業對AI系統的需求正從“功能實現”向“業務賦能”深化。合合信息“多模態文本智能技術”方案旨在推動AI系統從輔助工具進化為具備自主決策能力的業務夥伴,提升其在複雜場景中展現出的問題分析、決策思維及端到端解決問題的能力。方案已在金融、醫藥、教育等專業領域開展應用,通過對複雜文本的精準感知、綜合理解和可靠決策,實現對業務流程的智能重構。

user avatar zhidechaomian_detxs7 Avatar u_16756731 Avatar ting_61d6d9790dee8 Avatar whaosoft143 Avatar u_15591470 Avatar u_17397181 Avatar u_15641375 Avatar bizseerbishikeji Avatar xialeistudio Avatar fabarta Avatar haijun_5e7e16c909f52 Avatar writers Avatar
Favorites 24 users favorite the story!
Favorites

Add a new Comments

Some HTML is okay.