MinerU 是一款將 PDF 轉化為機器可讀格式的工具(如 markdown、json),可以很方便地抽取為任意格式。該項目近日宣佈上線“網頁解析”功能,只需輸入鏈接或上傳 HTML,即可實現網頁到 Markdown 的完美轉換。
解析成功後會看到左右分欄視圖,左邊是網頁快照,右邊是清晰的 Markdown 或 JSON。支持高質量縮放,對照查看,所見即所得。
技術報告鏈接:https://arxiv.org/pdf/2511.16397v1
模型鏈接:https://huggingface.co/opendatalab/MinerU-HTML
據介紹,這次更新的核心利器“MinerU HTML”網頁解析系統具有以下核心亮點:
-
極致轉化,秒變 Markdown。無需複雜操作,在統一輸入框內粘貼網址,無論是圖文並茂的深度長文,還是結構複雜的動態頁面,MinerU 都能將其精準轉化為邏輯嚴密、結構清晰的 Markdown 文檔。
-
深度解析,繼承技術優勢。該功能充分繼承了 MinerU 在公式、表格識別領域的領先優勢。網頁中嵌入的複雜科學公式、嵌套表格均能被精準還原,確保解析後的文檔具備極高的可讀性與專業性,完美適配學術研究與專業分析場景。
-
韌性解析,自帶 “重試” 機制。如果動態加載出現問題,系統會自動切換重試。無論是複雜的交互頁面還是難以提取信息的站點,在 MinerU 面前統統都要乖乖變回結構化的數據。
-
無懼動態渲染,深度兼容。針對現代網頁常見的 React、Vue 等框架生成的動態內容,MinerU 展現了強大的解析能力。告別亂碼與格式錯位,讓 “所見即所得” 成為現實。
-
純淨體驗,去冗留精。系統會自動識別並過濾廣告干擾、側邊欄雜訊及無關鏈接,剔除冗餘信息,只為您提取最核心、最純淨的高價值內容。
目前,MinerU 網頁端與桌面客户端提供了每人每日 100 次的免費配額。體驗地址:https://mineru.net/OpenSourceTools/Extractor