博客 / 詳情

返回

TextIn文檔解析表格處理模型優化,顯著提升表格解析性能

近期,TextIn通用文檔解析最新推出表格處理優化版本。

此前版本中,表格解析處理針對有線表格與無線表格預先分類,並基於框線進行模型預測。在運行過程中,我們發現,分類錯誤問題對錶格解析準確率有負面影響。

本次優化主要改善了表格識別效果,以統一方案替代有線表格與無線表格分類處理方法,減少了級聯損失,大幅度提升表格全對率。

通用文檔解析鏈接:https://www.textin.com/market/detail/pdf_to_markdown

表格全對率指標包含了對文本全對率和結構準確度的測量。文本全對率評估的是,解析出的表格中每個單元格的文本是否與原始表格完全一致,沒有遺漏、錯誤或多餘的字符。結構準確度測量模型對錶格結構的預測是否正確,排除錯行、漏行或合併單元格錯誤等問題。

根據TextIn測試指標,一個表格中,文本或結構解析有任何問題,即判為錯誤。表格全對率不僅考慮了單元格的內容,還考慮了表格的層次結構和佈局,以確保信息的完整性與準確性。

對於此前表格處理模型,技術團隊診斷:解決過於依賴邏輯位置預測與跨cell填充問題,能夠進一步提升表格引擎性能。

TextIn技術團隊在當前表格解析模型及後處理算法的基礎上,結合模型預測的位置信息和邏輯信息,引入軸對齊處理思路,避免僅依賴邏輯信息預測的問題,減少單元格劃分錯誤的情況;通過上下文信息與行列查詢,解決跨行列cell填充問題;基於表格內容OCR匹配,實現物理位置修正。經測試,優化版本表格全對率有顯著提升。

我們將通過幾個案例,直觀展示本次表格解析性能優化的表現。

1

圖片
識別錯誤
圖片
優化結果
如圖所示,左側圖片是無線表格解析中常見的bad case:合併單元格結構識別不準確。由於合併單元格有頂部對齊、垂直居中多種形式,在實際文檔中版面複雜多變,在沒有框線的情況下,更增加了解析模型的識別難度。右側圖中可以看到,TextIn文檔解析本次表格性能優化後,能妥善處理這類難點情況,實現正確的表格還原,保障下游信息處理的準確性。

2

圖片
識別錯誤
圖片
優化結果缺少結構信息的表格文字識別會丟失重要價值,導致數據成為無意義的數字。
PDF文件中,擁有不同行列數的不規則無線表格在同一版面呈現的情況相當常見。以圖中的金融機構報告為例,值得注意的是,TextIn本次表格優化後,模型會同步預測空cell,以提升整體表格解析準確率。

3

圖片
識別錯誤
圖片
優化結果
如圖所示,對於清晰度較低、噪點多的掃描圖像,優化後的表格模型也能實現精準的識別。
從具體案例來看,這一次表格解析優化,對解決單元格中的多行問題有優異的效果,用户如有產品説明書、體檢報告、技術規格書等文件及其他類型多行復雜表格的解析需求,解析引擎的準確性和使用體驗都將大幅度提升,能夠滿足教育、金融、數據處理等多種場景的精細化使用需求。

前端功能新增:支持表格編輯、導出Excel

新版前端組件支持在線表格編輯,包括文字編輯、插入或刪除行列、單元格合併與拆分等一系列常用表格編輯操作,便於直接通過窗口操作對識別結果進行修改或校正。
圖片
支持單獨提取文檔中的表格元素,導出為Excel。
圖片

SDK工具包:支持表格處理

目前,SDK工具有Python和Java兩種語言版本,支持獲取並打印文檔中的所有表格,也支持將表格轉換為excel文件,並保存到指定路徑。
具體代碼請見:https://github.com/intsig-textin/parsex-sdk
目前,優化版本已全量上線,用户可隨時在線試用。接下來,TextIn技術團隊將繼續完成檢測網絡優化,提升表格解析準確率。

user avatar
0 位用戶收藏了這個故事!

發佈 評論

Some HTML is okay.