博客 / 詳情

返回

文檔數字化採集與智能處理:圖像彎曲矯正技術概述

由於電子文檔更容易存檔、編輯、簽名和共享的特點,文檔電子化的趨勢逐年顯著,而隨着高質量攝像頭在手機等移動設備上的普及,利用移動設備對文檔進行數字化採集已經非常普遍。
移動設備讓每一位使用者能夠便捷採集文檔圖像,不過,這也使原始文檔圖像的情況變得複雜多變:頁面彎曲、陰影遮擋、摩爾紋、圖片模糊、字跡不清晰等問題都是文本圖像處理中常見的干擾狀況,阻礙了文檔的智能化處理,導致OCR識別、信息提取、版面分析和還原等任務難度增加。
在本篇中,我們將從圖像彎曲矯正這一圖像處理技術重點出發,討論其發展過程與前沿技術。
首先,讓我們先來看看圖像形變矯正技術對OCR、信息提取等智能處理下游任務的重要性。
圖片
圖1 圖像矯正對比
如圖中所示,形變矯正前後,同一個解析引擎對圖像中的表格進行提取,得到的結果相差甚遠,矯正技術對正確的信息獲取具有關鍵影響。
為解決文檔彎曲矯正問題,學術界已有多種方案。在2015年之前,主流方案是基於文本行線擬合和座標變換方法,通過文本行檢測、使用數學模型進行文本行線擬合與座標變換,使得文本行變得水平或垂直。但是,其校正效果受文字行檢測準確度的限制,對文檔版式、清晰度和規律性比較敏感,無法處理存在大量圖表的文檔,且誤檢的文字行有可能會對校正造成嚴重干擾。
圖片
圖2 基於文本行線座標變換的方法
在這種背景下,基於文本行線擬合的優化方法被提出,利用損失函數緩慢迭代優化以獲得形變矯正結果,但它的缺點在於時間較長,不適合實時應用。
圖片
圖3 基於文本行線座標變換的優化方法
2019年後,基於學習的方法因大型數據集的可用性而越來越受到歡迎。基於數據驅動的位移場學習方法是一種利用深度學習技術從數據中直接學習位移場的方法,它的核心在於使用神經網絡來模擬和預測位移場,從而實現對物體變形的高精度測量。

圖片
圖4 基於偏移場學習的方法
Das等人[2]首次在這項任務中使用卷積神經網絡(CNNs),他們採用CNNs來檢測摺痕,並將文件分割成多個塊進行矯正,這種方法能夠解決簡單變形和單調背景下的問題。
Ma等人[4]提出了一個堆疊的 U-Net,它經過訓練端到端預測翹曲的前向映射。Das等人[1]認為當合成訓練數據集僅使用 2D 變形進行訓練時,彎曲矯正模型並不總是表現良好,因此他們創建了一個 Doc3D 數據集,該數據集具有多種類型的像素級文檔圖像偏移場,同時使用真實世界文檔和渲染軟件。
Feng等人[3]使用Transformer[5]作為網絡架構,取得了進一步優化的性能。然而,在實際應用中,這些方法的去畸變性能仍有不足之處。
合合信息參考配準中的流模型(fluid model),用速度場來建模形變場,並通過積分層來實現最終的形變場。事實上,位移場也可以被視作是軌跡固定的流場(直線)。對於不同的正則項,在大部分情況下,直線軌跡並不是最優解。直線軌跡得到的正則項的值很多情況下會更大點。作為對比,引入速度場在這種情形下實現了更多的自由度。我們可以通過一個簡單的類比理解這一問題:連接世界地圖上兩個地方的最短路徑,大部分情況下都不是直線。速度場求解可轉換為如下問題,其中L是對速度場施加的正則項。

圖片
空間變換網絡一開始提出時只是簡單用作仿射變換等,後來採用了採樣網格的方式使得它功能更加強大。對於大小為[W, H]的二維圖像來説,其位移場大小為[W, H, 2]。位移場表示每個像素在各個方向(x,y軸)的位移。空間變換網絡會根據位移場生成一個歸一化後的採樣網格,然後用該網絡對圖像進行採樣,就得到了矯正後的圖像。
目前,合合信息技術團隊開發的邊緣移除和內容迭代矯正方案,已展現出處理複雜文檔圖像的能力。這些技術的進步提升了OCR系統的性能,也改善了圖像智能處理能力。未來,圖像彎曲矯正算法將實現端到端優化與實時處理能力的提升,應對更多樣化場景。隨着數據集的擴大和計算能力的提高,這些算法將更加精準和魯棒,為AI自動化和智能化系統提供強有力的視覺支持。

Reference:
[1] Sagnik Das, Ke Ma, Zhixin Shu, Dimitris Samaras, and Roy Shilkrot. 2019. DewarpNet: Single-image document unwarping with stacked 3D and 2D regression networks. In ICCV. 131–140.
[2] Sagnik Das, Gaurav Mishra, Akshay Sudharshana, and Roy Shilkrot. 2017. The common fold: utilizing the four-fold to dewarp printed documents from a single image. In DocEng. 125–128.
[3] Hao Feng, Yuechen Wang, Wengang Zhou, Jiajun Deng, and Houqiang Li. 2021. DocTr: Document image transformer for geometric unwarping and illumination correction. In ACM MM. 273–281.
[4] Ke Ma, Zhixin Shu, Xue Bai, Jue Wang, and Dimitris Samaras. 2018. DocUNet: Document image unwarping via a stacked U-Net. In CVPR. 4700–4709.
[5] Ashish Vaswani, Noam Shazeer, Niki Parmar, Jakob Uszkoreit, Llion Jones, Aidan N Gomez, Łukasz Kaiser, and Illia Polosukhin. 2017. Attention is all you need. In NeurIPS. 5998–6008.
user avatar
0 位用戶收藏了這個故事!

發佈 評論

Some HTML is okay.