背景
某高校師資網站全面採用網絡圖片展示,網站是禁止右鍵使用下載,也不允許複製信息。我們試圖採集這些信息,使用目前智能體任務+VibeCoding+Deepsee-OCR解析
來突破這個問題。
流程拆解
第一步 html解析
智能體我們方便選擇space.coze.cn, 可以自行部署其他開源智能體框架
解析為一定格式的文本
XPath查詢
圖片URL結果集
Vide coding生成處理markdown的代碼
Trae重構代碼
最後圖片下載輸出文件夾
在線DeepSeek-OCR
VibeCoding過程
Deepseek-OCR調用參數參考
max_tokens = 4096,
temperature = 0.0,
top_p = 0.7,
top_k = 50
提示詞
輸出markdown
<|grounding|>Convert the document to markdown.
其他場景提示詞參考如下
General OCR: Free OCR.
Table: <|grounding|>Extract all tables and convert to markdown format.
代碼Debugging
調用接口文檔參考
運行日誌
調用DeepSeek-OCR的API,輸出
調用生成解析後文本markdown文件
原圖
總結
我們使用了一套以 Agent 為核心驅動的自動化信息處理系統,旨在實現網頁內容的深度解析、有效鏈接抽取,以及圖片內容的結構化轉換(通過調用 DeepSeek-OCR 將圖片識別結果轉為 Markdown 格式)。整個流程由 Agent 統籌調度,各模塊協同運作,形成從網頁信息採集到結構化輸出的完整閉環。
今天先到這兒,希望對AI,雲原生,技術領導力, 企業管理,系統架構設計與評估,團隊管理, 項目管理, 產品管理,信息安全,團隊建設 有參考作用 , 您可能感興趣的文章:
微服務架構設計
視頻直播平台的系統架構演化
微服務與Docker介紹
Docker與CI持續集成/CD
互聯網電商購物車架構演變案例
互聯網業務場景下消息隊列架構
互聯網高效研發團隊管理演進之一
消息系統架構設計演進
互聯網電商搜索架構演化之一
企業信息化與軟件工程的迷思
企業項目化管理介紹
軟件項目成功之要素
人際溝通風格介紹一
精益IT組織與分享式領導
學習型組織與企業
企業創新文化與等級觀念
組織目標與個人目標
初創公司人才招聘與管理
人才公司環境與企業文化
企業文化、團隊文化與知識共享
高效能的團隊建設
項目管理溝通計劃
構建高效的研發與自動化運維
某大型電商雲平台實踐
互聯網數據庫架構設計思路
IT基礎架構規劃方案一(網絡系統規劃)
餐飲行業解決方案之客户分析流程
餐飲行業解決方案之採購戰略制定與實施流程
餐飲行業解決方案之業務設計流程
供應鏈需求調研CheckList
企業應用之性能實時度量系統演變
如有想了解更多軟件設計與架構, 系統IT,企業信息化, 團隊管理 資訊,請關注我的微信訂閲號:
作者:Petter Liu
出處:http://www.cnblogs.com/wintersun/
本文版權歸作者和博客園共有,歡迎轉載,但未經作者同意必須保留此段聲明,且在文章頁面明顯位置給出原文連接,否則保留追究法律責任的權利。 該文章也同時發佈在我的獨立博客中-Petter Liu Blog。