博客 / 詳情

返回

NeurIPS 2025!電子科大同濟等提出Table2LaTeX-RL:表格轉 LaTeX 精準度再突破

論文標題:Table2LaTeX-RL: High-Fidelity LaTeX Code Generation from Table Images via Reinforced Multimodal Language Models

作者團隊:電子科技大學、浙江實驗室科學數據樞紐研究中心、同濟大學

發佈時間:2025年9月22日

👉一鍵直達論文

👉Lab4AI大模型實驗室論文閲讀

✅Lab4AI平台提供AI導讀和AI翻譯等工具,輔助論文閲讀。

⭐研究背景

在科學文檔與技術報告的自動化處理過程中,表格作為數據呈現與結構化表達的重要形式,其準確重建對於文檔數字化具有關鍵意義。現有的表格識別方法多聚焦於生成 HTML 結構,難以滿足學術出版中對版式、語法及數學內容精度的嚴格要求。特別是對於包含多級表頭、複雜合併單元格及符號表達的表格,現有系統往往在結構一致性和可編譯性方面表現不足。因此,如何從表格圖像中直接生成語法正確、視覺一致的 LaTeX 代碼,成為表格理解領域的核心挑戰。

⭐核心創新

提出一個基於強化多模態大語言模型的高保真表格生成框架:Table2LaTeX-RL,旨在實現表格圖像到 LaTeX 代碼的精確映射。

⭐主要創新點

  1. 大規模數據構建:構建首個超過 120 萬對錶格圖像–LaTeX 源代碼的高質量訓練數據集,依據結構複雜度劃分為簡單、中等與複雜三級,為模型提供了全面的結構學習基礎。
  2. 雙重獎勵強化學習策略(VSGRPO):在 Group Relative Policy Optimization(GRPO)框架下,引入結構層獎勵(TEDS-Structure)與視覺層獎勵(CW-SSIM)的聯合優化機制,有效提升了模型對複雜表格的生成穩定性與結構保真度。
  3. 混合評估體系:提出結合結構相似度與視覺相似度的綜合評估協議,克服傳統指標僅依賴文本層面對視覺一致性缺乏刻畫的問題,更準確地反映生成結果的質量。
user avatar
0 位用戶收藏了這個故事!

發佈 評論

Some HTML is okay.