MinerU 上線網頁解析功能,支持將 URL 一鍵變 Markdown

新聞
HongKong
5
03:37 PM · Jan 22 ,2026

MinerU 是一款將 PDF 轉化為機器可讀格式的工具(如 markdown、json),可以很方便地抽取為任意格式。該項目近日宣佈上線“網頁解析”功能,只需輸入鏈接或上傳 HTML,即可實現網頁到 Markdown 的完美轉換。

解析成功後會看到左右分欄視圖,左邊是網頁快照,右邊是清晰的 Markdown 或 JSON。支持高質量縮放,對照查看,所見即所得。

技術報告鏈接:https://arxiv.org/pdf/2511.16397v1
模型鏈接:https://huggingface.co/opendatalab/MinerU-HTML

據介紹,這次更新的核心利器“MinerU HTML”網頁解析系統具有以下核心亮點:

  1. 極致轉化,秒變 Markdown。無需複雜操作,在統一輸入框內粘貼網址,無論是圖文並茂的深度長文,還是結構複雜的動態頁面,MinerU 都能將其精準轉化為邏輯嚴密、結構清晰的 Markdown 文檔。

  2. 深度解析,繼承技術優勢。該功能充分繼承了 MinerU 在公式、表格識別領域的領先優勢。網頁中嵌入的複雜科學公式、嵌套表格均能被精準還原,確保解析後的文檔具備極高的可讀性與專業性,完美適配學術研究與專業分析場景。

  3. 韌性解析,自帶 “重試” 機制。如果動態加載出現問題,系統會自動切換重試。無論是複雜的交互頁面還是難以提取信息的站點,在 MinerU 面前統統都要乖乖變回結構化的數據。

  4. 無懼動態渲染,深度兼容。針對現代網頁常見的 React、Vue 等框架生成的動態內容,MinerU 展現了強大的解析能力。告別亂碼與格式錯位,讓 “所見即所得” 成為現實。

  5. 純淨體驗,去冗留精。系統會自動識別並過濾廣告干擾、側邊欄雜訊及無關鏈接,剔除冗餘信息,只為您提取最核心、最純淨的高價值內容。

目前,MinerU 網頁端與桌面客户端提供了每人每日 100 次的免費配額。體驗地址:https://mineru.net/OpenSourceTools/Extractor

user avatar
0 位用戶收藏了這個故事!
收藏

發佈 評論

Some HTML is okay.