技術解讀|MatrixOne Intelligence模型解析原理及微調實踐詳情 - 技術,模型 MatrixOrigin 博客

1. 解析模型

1.1 解析模型（Parsing Model） & MOI

解析模型是指用於從複雜文檔（如 PDF、掃描圖、報告等）中識別結構要素（如標題、段落、表格、圖像等）並提取其內容模型。在MatrixOne Intelligence（下文簡稱MOI）產品中，採用了 MinerU (mineru.readthedocs.io)，一個開源的將PDF轉化為markdown 解析工具。

MinerU 用於解析PDF，主要的解析流程如下：

掃描識別：判斷 PDF 是否為掃描件，自動觸發 OCR
佈局分析：用多模型組合檢測標題、段落、圖表、公式等區域
內容識別：OCR 識別文本；公式識別為 LaTeX；表格識別為結構化數據
清洗輸出：去除頁眉頁腳、調整自然閲讀順序，導出 Markdown 或 JSON 格式

1.2 MinerU 模型組合與原理

下面是 MinerU系列在 MOI 中的主要模型組合架構表格

子任務	默認模型	作用
版面分析	PDF-Extract-Kit + DocLayout-YOLO	劃分段落、表格、公式、圖片
OCR	PaddleOCR / RapidOCR	識別文字，支持80+語種
表格結構	RapidTable / StructTable-InternVL2-1B	表格解析模型，能夠解析行列、合併單元格
公式識別	UniMERNet	將公式轉 LaTeX
圖像抽取	內置 CV 算法	裁剪並標註座標

其中不難看出兩個比較重要的模塊——版面分析和OCR，是MinerU實現文檔解析的核心。接下來我們詳細介紹這兩個模塊的原理。

1.2.1 版面分析 (Layout Analysis)

版面分析的目標是在文檔圖像中準確地定位不同類型的區域，例如段落、標題、表格和圖片。MinerU 中使用的 DocLayout-YOLO 是基於YOLO目標檢測框架進行優化的。其將版面分析任務視為一個計算機視覺中的對象檢測問題。模型將整個文檔頁面作為輸入圖像，並學習直接預測出代表不同版面元素（如文本塊、表格）的邊界框（Bounding Box）和類別。

相比於通用物體檢測，DocLayout-YOLO 針對文檔的特性進行了專門優化：

多樣化數據預訓練: 在大規模、多樣化的合成文檔數據集（DocSynth-300K）上進行預訓練，使其能更好地泛化到現實世界中各種複雜的文檔佈局。
全局到局部的感受野: 引入了 GL-CRM (Global-to-Local Controllable Receptive Module) 模塊，使模型能夠靈活地調整其"視野"，從而有效處理從單行標題到整頁表格等不同尺度的版面元素。

簡而言之，版面分析就是應用並改造強大的圖像目標檢測技術，使其專門用於快速、準確地識別文檔的結構。

1.2.2 OCR (Optical Character Recognition)

OCR 的目標是將圖像中的文字轉換為機器可讀的文本格式。MinerU 中使用的 PaddleOCR 是一個典型的多階段 OCR 系統，其核心原理如下：

文本檢測 (Text Detection): 首先，需要一個模型來確定圖像中文字的位置。這個模型會輸出包含文字區域的邊界框。PaddleOCR 通常使用 DB (Differentiable Binarization) 算法來完成這個步驟。

文本識別 (Text Recognition): 在檢測到文本區域後，每個包含文本的圖像塊會被裁剪出來，並送入一個識別模型中進行"閲讀"。目前主流的識別模型是 CRNN (Convolutional Recurrent Neural Network)，它包含三個關鍵部分：

CNN (Convolutional Neural Network): 卷積神經網絡作為特徵提取器，從輸入的文本行圖像中提取豐富的視覺特徵序列。
RNN (Recurrent Neural Network): 通常使用雙向 LSTM，用於處理 CNN 提取出的特徵序列。RNN 擅長處理序列數據，能夠學習到字符之間的上下文依賴關係。
CTC (Connectionist Temporal Classification): RNN 的輸出是每個特徵步長上所有字符的概率分佈，CTC 算法能夠智能地將這個概率序列解碼為最終的文本字符串。簡而言之，就是將RNN的輸出序列轉換為最終的文本字符串。

這套組合的優勢在於模塊化、靈活控制與高準確率。但也存在缺點：

依賴多個子模型：像OCR模型本身不是一個端到端的模型，而是由文本檢測和文本識別兩個子模型組成。再加上版面分析模型和一系列的表格、公式、圖像識別模型，整體邏輯複雜，模型切換、接口對接邏輯稍複雜
工程化實現邏輯複雜：需要對接調整每一個子模型，並且需要對每一個子模型進行優化和調整，以達到最優的性能。
模型併發難及效率低：由於模型之間存在依賴關係，無法並行處理，導致效率低下。

1.3 業界前沿思路

1.3.1 端到端解析模型

AllenAI olmOCR:
olmOCR (arxiv.org)是第一個利用了VLM (Vision-Language Model) 模型進行SFT (Supervised Fine-Tuning) 解析的開源模型，端到端地將PDF轉化為markdown。其主要特點如下：

收集並標註了一批高質量的PDF，利用微調後的 7B Vision-Language Model，提取 PDF 結構順序、表格、公式、手寫體
支持自然閲讀順序輸出 Markdown，成本低至每百萬頁約 200 美元
屬於端到端 VLM 推理，無需多模型管道切換，但需要大量的標註數據。

ByteDance Dolphin:
Dolphin (arxiv.org) 是字節跳動提出的一個端到端的解析模型。其不僅僅是微調現有的VLM模型，而是重構了整個模型架構，並提出了先解析結構後解析內容（analyze‑then‑parse）的架構。其主要特點如下：

首先進行整頁佈局分析，生成結構 anchor 順序
然後並行解析各 anchor 組成內容，支持段落／表格／圖片／公式等

1.3.2 優勢和劣勢

相比起傳統的layout+OCR pipeline，端到端解析模型具有以下優勢：

利用大模型強大的Multi-task能力，一個模型完成所有任務，無需多模型管道切換
由於是單模型，方便推理加速，能夠實現更多的併發

但也有劣勢：

數據依賴性強: 模型效果高度依賴於微調所用的標註數據，高質量的數據集構建成本高昂。
可控性與可解釋性差: 端到端模型如同一個"黑箱"，當特定類型的解析（如表格）出錯時，難以像模塊化流程那樣進行針對性的調試和優化。
計算資源要求高: 微調或部署大型 VLM 模型需要巨大的計算資源，對於多數團隊來説門檻較高。

1.4 趨勢：

總體趨勢是從 layout+OCR pipeline到對VLM進行SFT (Supervised Fine-Tuning)，再到解析型 LLM 架構
現階段趨勢：結合 layout 分析 + OCR pipeline。典型流程：先用專屬 layout 檢測模型，再交由 OCR 與結構解析模型處理。這種方式在 MOI（MinerU）中仍是主力，精度高控制性強。
未來方向：全面過渡到 VLM / LLM 架構（如 olmOCR, Dolphin）。如 olmOCR, Dolphin，甚至即將興起的如 MonkeyOCR（路徑 SRR Triplet 模型），它們利用llm的能力，實現佈局、內容、關係的統一處理。

2. 微調（SFT）

接下來簡單介紹一下如何微調llm，以適用於文檔解析任務。

SFT (Supervised Fine-Tuning) 即監督微調，是讓已經預訓練好的大模型"學會"特定任務或特定"説話風格"的核心技術。其原理很簡單：就像教學生做特定類型的應用題一樣，我們給模型提供一批高質量的"問題-標準答案"對（即標註好的數據集），然後讓模型根據這些範例來調整自己的內部參數，使其輸出越來越接近我們提供的"標準答案"。

在前文提到的文檔解析任務中，這個"問題-標準答案"對就是"一篇PDF文檔"和"它對應的完美Markdown格式文本"。

2.1 結合解析模型的大模型微調方法

數據準備完成之後，就可以開始進行SFT了。下面是兩種比較常用的微調策略：

2.1.1 全參量微調 (Full-parameter Fine-tuning)

這是最直接的方式。顧名思義，它會更新模型中所有的參數（幾億到幾百億個）。

原理: 將整個預訓練模型放在新的任務數據上繼續訓練，不凍結任何權重。
優劣: 效果潛力最大，能讓模型最充分地適應新任務。但缺點也極其明顯：計算資源消耗巨大（需要大量高端GPU，如A100、H100等）、訓練時間長，且容易產生災難性遺忘（Catastrophic Forgetting）——模型為了學習新知識而忘記了部分通用能力。對於文檔解析，全量微調一個大型VLM模型來輸出Markdown，成本和門檻都非常高。

2.1.2 LoRA微調 (Low-Rank Adaptation)

LoRA 是一種高效參數微調（PEFT, Parameter-Efficient Fine-Tuning）技術的傑出代表。它巧妙地解決了全參量微調的痛點。

原理: LoRA的核心思想是"大模型本身已經足夠強大，我們只需微調一小部分參數來引導它"。它凍結預訓練模型的全部原始參數，然後在模型的關鍵部分（如Transformer的注意力層）旁邊注入兩個小型的、可訓練的"旁路"矩陣（低秩矩陣）。微調時，只更新這兩個小矩陣的參數。在推理時，可以將這兩個小矩陣的乘積與原始參數矩陣相加，不引入任何額外的延遲。
優劣: 訓練參數量極少（可能只有總參數的0.01%），顯著降低了顯存佔用和訓練成本，通常使用消費級顯卡（如RTX 4090）就可以實現LoRA微調。可以為不同任務訓練不同的LoRA模塊，靈活切換，非常適合在同一個基礎模型上適配多種解析需求（如簡歷解析、財報解析等）。其效果通常能逼近全參量微調的90%以上，是一種性價比極高的方案。

2.2 SFT總結

總的來説，SFT 是將通用大模型（如VLM）特化為專業文檔解析模型的關鍵步驟。在實踐中，LoRA 因其高效、低成本和靈活性，已成為當前微調任務的主流選擇；而全參量微調則更像是一種保留選項，用於資源充足且對模型性能有極致追求的場景。

MatrixOrigin 博客

MatrixOrigin 博客

博客 / 詳情