論文標題:Table2LaTeX-RL: High-Fidelity LaTeX Code Generation from Table Images via Reinforced Multimodal Language Models
作者團隊:電子科技大學、浙江實驗室科學數據樞紐研究中心、同濟大學
發佈時間:2025年9月22日
👉一鍵直達論文
👉Lab4AI大模型實驗室論文閲讀
✅Lab4AI平台提供AI導讀和AI翻譯等工具,輔助論文閲讀。
⭐研究背景
在科學文檔與技術報告的自動化處理過程中,表格作為數據呈現與結構化表達的重要形式,其準確重建對於文檔數字化具有關鍵意義。現有的表格識別方法多聚焦於生成 HTML 結構,難以滿足學術出版中對版式、語法及數學內容精度的嚴格要求。特別是對於包含多級表頭、複雜合併單元格及符號表達的表格,現有系統往往在結構一致性和可編譯性方面表現不足。因此,如何從表格圖像中直接生成語法正確、視覺一致的 LaTeX 代碼,成為表格理解領域的核心挑戰。
⭐核心創新
提出一個基於強化多模態大語言模型的高保真表格生成框架:Table2LaTeX-RL,旨在實現表格圖像到 LaTeX 代碼的精確映射。
⭐主要創新點
- 大規模數據構建:構建首個超過 120 萬對錶格圖像–LaTeX 源代碼的高質量訓練數據集,依據結構複雜度劃分為簡單、中等與複雜三級,為模型提供了全面的結構學習基礎。
- 雙重獎勵強化學習策略(VSGRPO):在 Group Relative Policy Optimization(GRPO)框架下,引入結構層獎勵(TEDS-Structure)與視覺層獎勵(CW-SSIM)的聯合優化機制,有效提升了模型對複雜表格的生成穩定性與結構保真度。
- 混合評估體系:提出結合結構相似度與視覺相似度的綜合評估協議,克服傳統指標僅依賴文本層面對視覺一致性缺乏刻畫的問題,更準確地反映生成結果的質量。