1. 解析模型
1.1 解析模型(Parsing Model) & MOI
解析模型是指用於從複雜文檔(如 PDF、掃描圖、報告等)中識別結構要素(如標題、段落、表格、圖像等)並提取其內容模型。在MatrixOne Intelligence(下文簡稱MOI)產品中,採用了 MinerU (mineru.readthedocs.io),一個開源的將PDF轉化為markdown 解析工具。
MinerU 用於解析PDF,主要的解析流程如下:
- 掃描識別:判斷 PDF 是否為掃描件,自動觸發 OCR
- 佈局分析:用多模型組合檢測標題、段落、圖表、公式等區域
- 內容識別:OCR 識別文本;公式識別為 LaTeX;表格識別為結構化數據
- 清洗輸出:去除頁眉頁腳、調整自然閲讀順序,導出 Markdown 或 JSON 格式
1.2 MinerU 模型組合與原理
下面是 MinerU系列在 MOI 中的主要模型組合架構表格
| 子任務 | 默認模型 | 作用 |
|---|---|---|
| 版面分析 | PDF-Extract-Kit + DocLayout-YOLO | 劃分段落、表格、公式、圖片 |
| OCR | PaddleOCR / RapidOCR | 識別文字,支持80+語種 |
| 表格結構 | RapidTable / StructTable-InternVL2-1B | 表格解析模型,能夠解析行列、合併單元格 |
| 公式識別 | UniMERNet | 將公式轉 LaTeX |
| 圖像抽取 | 內置 CV 算法 | 裁剪並標註座標 |
其中不難看出兩個比較重要的模塊——版面分析和OCR,是MinerU實現文檔解析的核心。接下來我們詳細介紹這兩個模塊的原理。
1.2.1 版面分析 (Layout Analysis)
版面分析的目標是在文檔圖像中準確地定位不同類型的區域,例如段落、標題、表格和圖片。MinerU 中使用的 DocLayout-YOLO 是基於YOLO目標檢測框架進行優化的。其將版面分析任務視為一個計算機視覺中的對象檢測問題。模型將整個文檔頁面作為輸入圖像,並學習直接預測出代表不同版面元素(如文本塊、表格)的邊界框(Bounding Box)和類別。
相比於通用物體檢測,DocLayout-YOLO 針對文檔的特性進行了專門優化:
- 多樣化數據預訓練: 在大規模、多樣化的合成文檔數據集(
DocSynth-300K)上進行預訓練,使其能更好地泛化到現實世界中各種複雜的文檔佈局。 - 全局到局部的感受野: 引入了 GL-CRM (Global-to-Local Controllable Receptive Module) 模塊,使模型能夠靈活地調整其"視野",從而有效處理從單行標題到整頁表格等不同尺度的版面元素。
簡而言之,版面分析就是應用並改造強大的圖像目標檢測技術,使其專門用於快速、準確地識別文檔的結構。
1.2.2 OCR (Optical Character Recognition)
OCR 的目標是將圖像中的文字轉換為機器可讀的文本格式。MinerU 中使用的 PaddleOCR 是一個典型的多階段 OCR 系統,其核心原理如下:
文本檢測 (Text Detection): 首先,需要一個模型來確定圖像中文字的位置。這個模型會輸出包含文字區域的邊界框。PaddleOCR 通常使用 DB (Differentiable Binarization) 算法來完成這個步驟。
文本識別 (Text Recognition): 在檢測到文本區域後,每個包含文本的圖像塊會被裁剪出來,並送入一個識別模型中進行"閲讀"。目前主流的識別模型是 CRNN (Convolutional Recurrent Neural Network),它包含三個關鍵部分:
- CNN (Convolutional Neural Network): 卷積神經網絡作為特徵提取器,從輸入的文本行圖像中提取豐富的視覺特徵序列。
- RNN (Recurrent Neural Network): 通常使用雙向 LSTM,用於處理 CNN 提取出的特徵序列。RNN 擅長處理序列數據,能夠學習到字符之間的上下文依賴關係。
- CTC (Connectionist Temporal Classification): RNN 的輸出是每個特徵步長上所有字符的概率分佈,CTC 算法能夠智能地將這個概率序列解碼為最終的文本字符串。簡而言之,就是將RNN的輸出序列轉換為最終的文本字符串。
這套組合的優勢在於模塊化、靈活控制與高準確率。但也存在缺點:
- 依賴多個子模型:像OCR模型本身不是一個端到端的模型,而是由文本檢測和文本識別兩個子模型組成。再加上版面分析模型和一系列的表格、公式、圖像識別模型,整體邏輯複雜,模型切換、接口對接邏輯稍複雜
- 工程化實現邏輯複雜:需要對接調整每一個子模型,並且需要對每一個子模型進行優化和調整,以達到最優的性能。
- 模型併發難及效率低:由於模型之間存在依賴關係,無法並行處理,導致效率低下。
1.3 業界前沿思路
1.3.1 端到端解析模型
AllenAI olmOCR:
olmOCR (arxiv.org)是第一個利用了VLM (Vision-Language Model) 模型進行SFT (Supervised Fine-Tuning) 解析的開源模型,端到端地將PDF轉化為markdown。其主要特點如下:
- 收集並標註了一批高質量的PDF,利用微調後的 7B Vision-Language Model,提取 PDF 結構順序、表格、公式、手寫體
- 支持自然閲讀順序輸出 Markdown,成本低至每百萬頁約 200 美元
- 屬於端到端 VLM 推理,無需多模型管道切換,但需要大量的標註數據。
ByteDance Dolphin:
Dolphin (arxiv.org) 是字節跳動提出的一個端到端的解析模型。其不僅僅是微調現有的VLM模型,而是重構了整個模型架構,並提出了先解析結構後解析內容(analyze‑then‑parse)的架構。其主要特點如下:
- 首先進行整頁佈局分析,生成結構 anchor 順序
- 然後並行解析各 anchor 組成內容,支持段落/表格/圖片/公式等
1.3.2 優勢和劣勢
相比起傳統的layout+OCR pipeline,端到端解析模型具有以下優勢:
- 利用大模型強大的Multi-task能力,一個模型完成所有任務,無需多模型管道切換
- 由於是單模型,方便推理加速,能夠實現更多的併發
但也有劣勢:
- 數據依賴性強: 模型效果高度依賴於微調所用的標註數據,高質量的數據集構建成本高昂。
- 可控性與可解釋性差: 端到端模型如同一個"黑箱",當特定類型的解析(如表格)出錯時,難以像模塊化流程那樣進行針對性的調試和優化。
- 計算資源要求高: 微調或部署大型 VLM 模型需要巨大的計算資源,對於多數團隊來説門檻較高。
1.4 趨勢:
- 總體趨勢是從 layout+OCR pipeline到對VLM進行SFT (Supervised Fine-Tuning),再到解析型 LLM 架構
- 現階段趨勢:結合 layout 分析 + OCR pipeline。典型流程:先用專屬 layout 檢測模型,再交由 OCR 與結構解析模型處理。這種方式在 MOI(MinerU)中仍是主力,精度高控制性強。
- 未來方向:全面過渡到 VLM / LLM 架構(如 olmOCR, Dolphin)。如 olmOCR, Dolphin,甚至即將興起的如 MonkeyOCR(路徑 SRR Triplet 模型),它們利用llm的能力,實現佈局、內容、關係的統一處理。
2. 微調(SFT)
接下來簡單介紹一下如何微調llm,以適用於文檔解析任務。
SFT (Supervised Fine-Tuning) 即監督微調,是讓已經預訓練好的大模型"學會"特定任務或特定"説話風格"的核心技術。其原理很簡單:就像教學生做特定類型的應用題一樣,我們給模型提供一批高質量的"問題-標準答案"對(即標註好的數據集),然後讓模型根據這些範例來調整自己的內部參數,使其輸出越來越接近我們提供的"標準答案"。
在前文提到的文檔解析任務中,這個"問題-標準答案"對就是"一篇PDF文檔"和"它對應的完美Markdown格式文本"。
2.1 結合解析模型的大模型微調方法
數據準備完成之後,就可以開始進行SFT了。下面是兩種比較常用的微調策略:
2.1.1 全參量微調 (Full-parameter Fine-tuning)
這是最直接的方式。顧名思義,它會更新模型中所有的參數(幾億到幾百億個)。
- 原理: 將整個預訓練模型放在新的任務數據上繼續訓練,不凍結任何權重。
- 優劣: 效果潛力最大,能讓模型最充分地適應新任務。但缺點也極其明顯:計算資源消耗巨大(需要大量高端GPU,如A100、H100等)、訓練時間長,且容易產生災難性遺忘(Catastrophic Forgetting)——模型為了學習新知識而忘記了部分通用能力。對於文檔解析,全量微調一個大型VLM模型來輸出Markdown,成本和門檻都非常高。
2.1.2 LoRA微調 (Low-Rank Adaptation)
LoRA 是一種高效參數微調(PEFT, Parameter-Efficient Fine-Tuning)技術的傑出代表。它巧妙地解決了全參量微調的痛點。
- 原理: LoRA的核心思想是"大模型本身已經足夠強大,我們只需微調一小部分參數來引導它"。它凍結預訓練模型的全部原始參數,然後在模型的關鍵部分(如Transformer的注意力層)旁邊注入兩個小型的、可訓練的"旁路"矩陣(低秩矩陣)。微調時,只更新這兩個小矩陣的參數。在推理時,可以將這兩個小矩陣的乘積與原始參數矩陣相加,不引入任何額外的延遲。
- 優劣: 訓練參數量極少(可能只有總參數的0.01%),顯著降低了顯存佔用和訓練成本,通常使用消費級顯卡(如RTX 4090)就可以實現LoRA微調。可以為不同任務訓練不同的LoRA模塊,靈活切換,非常適合在同一個基礎模型上適配多種解析需求(如簡歷解析、財報解析等)。其效果通常能逼近全參量微調的90%以上,是一種性價比極高的方案。
2.2 SFT總結
總的來説,SFT 是將通用大模型(如VLM)特化為專業文檔解析模型的關鍵步驟。在實踐中,LoRA 因其高效、低成本和靈活性,已成為當前微調任務的主流選擇;而全參量微調則更像是一種保留選項,用於資源充足且對模型性能有極致追求的場景。