claude-agent-sdk mineru-parser-skill發票識別
不談玄學,只講落地。 我是一名深耕算法工程化一線的實踐者,擅長將 新技術、關鍵技術、AI/ML 技術從論文和 demo 轉化為可規模化部署的生產系統。在這裏,你看不到堆砌公式的理論空談,只有真實項目中踩過的坑、趟過的路,每一篇文章都源自實戰經驗的提煉。我相信技術的價值在於解決真實問題,而不是製造焦慮。如果你也厭倦了"收藏即學會",渴望掌握讓算法真正跑起來的硬核能力,那麼這裏就是你的技術補給站。
摘要
在 AI 驅動的文檔處理領域,Claude Agent SDK 和 MinerU 的結合提供了一個解決方案。Claude Agent SDK 的 Skills 功能讓 AI 能夠調用外部工具和服務,而 MinerU 提供文檔解析能力,支持 OCR 和 VLM(視覺語言模型),可提取 PDF、Word、PPT 等文檔中的文本、表格、公式和結構化內容。 通過將 MinerU 封裝為 Claude Agent SDK 的 Skill,實現了從文檔 URL 到結構化 Markdown 的端到端自動化流程。用户只需提供文檔鏈接和自然語言指令,Claude AI 就能自動調用 MinerU API 完成解析、狀態輪詢和結果提取,最終生成結構化數據。該方案適合發票處理、合同分析、學術論文提取等場景,降低了技術門檻,提升了處理效率和準確性。
核心亮點
- 智能化工作流:Claude Agent SDK 的 Skills 機制讓 AI 能夠自主決策何時調用 MinerU,實現智能化文檔處理
- 強大的解析能力:MinerU 支持 OCR 和 VLM 雙模型,能夠處理複雜佈局、手寫文字、數學公式等多種內容
- 異步流式處理:基於異步編程模型,支持實時反饋和進度追蹤,提升用户體驗
- 零代碼集成:通過 Skills 配置即可完成集成,無需編寫複雜的 API 調用邏輯
- 結構化輸出:自動將文檔內容轉換為 Markdown 格式,便於後續分析和處理
用户指令 → Claude Agent SDK → MinerU Skill → MinerU API → 結構化 Markdown
mineru-pareser發票識別
官方文檔
https://platform.claude.com/docs/en/agent-sdk/python
獲取mineru-parser skills
https://github.com/nilecui/mineru-parser-skills
git clone https://github.com/nilecui/mineru-parser-skills.git
python -m venv venv
source venv/bin/activate
(venv) nilecui@DESKTOP-28RSMOM:~/demo/mineru-parser-skills$ pip install -r requirements.txt
註冊mineru服務
需要申請,這裏需要等待幾分鐘,會發送郵箱通知:
然後創建秘鑰就可以了,記得保存秘鑰!
運行demo腳本
# 導入秘鑰
export MINERU_API_KEY= *******
python demo.py
啓動過程
模型用的glm-4.7, 相關配置可參考上篇文章:claude-code 國產glm替代方案, 有時候很快大概20幾步就出現了結果,有時達到了70多個請求;可能和我設計的skills有關,如果再加上python腳本,估計就省掉了再創建python腳本的過程,希望大家多提技巧。
結果
參考: https://platform.claude.com/docs/en/agent-sdk/python https://github.com/nilecui/mineru-parser-skills