簡介

Skyvern是一個基於大模型的瀏覽器自動化開源項目,已獲GitHub近2萬星。它通過規劃-執行-驗證的AI架構(Planner/Task/Validator),像人類一樣理解網頁內容,解決了傳統RPA工具因頁面結構變化導致腳本失效的問題。項目提供Docker部署和Python SDK兩種使用方式,讓開發者能輕鬆實現智能網頁自動化操作,是學習大模型實際應用的好案例。


逛 GitHub 的時候,發現一個叫 skyvern 的開源項目登上了熱榜。

這是一個 AI 控制瀏覽器自動化工作流的項目。

現在已經在 GitHub 上斬獲近 2 萬的 Star 了。

GitHub上爆紅!這個瀏覽器自動化工具為何能狂攬2萬Star?_#大模型學習

一、 開源項目簡介

在傳統的網頁自動化 RPA 開發中,最讓人頭疼的莫過於頁面結構變了。

如果你寫過 Selenium 或 Puppeteer 腳本,一定經歷過因為網站開發者修改了一個 CSS 類名或調整了按鈕位置,導致整套腳本報錯失效的崩潰瞬間。

為了維護這些腳本,開發者往往需要花費大量時間去修補 XPath 或 CSS 選擇器。Skyvern 這個開源項目試圖用大模型和計算機視覺徹底解決這個問題。

它不再依賴死板的代碼選擇器,而是像人類一樣看懂網頁,從而進行自動化操作。

GitHub上爆紅!這個瀏覽器自動化工具為何能狂攬2萬Star?_#github_02

堪稱Token 消耗神器

下面這張圖就是開源項目 Skyvern 的核心原理:

拿 AI 在亞馬遜(Amazon.com)上完成購物任務的詳細工作流舉例。

整個系統分為三個主要模塊:Planner(規劃器)Task(任務執行器)Validator(驗證器)

本質上就是 規劃-執行-驗證的 AI 架構:

GitHub上爆紅!這個瀏覽器自動化工具為何能狂攬2萬Star?_#運維_03

用户輸入:去亞馬遜網站買一台 iPhone 16,一個手機殼和一個屏幕保護膜。

  • 左側的 Planner 模塊負責將上述複雜的宏觀指令拆解成一步步可執行的子步驟。
  • 中間的 Task 模塊負責具體執行 Planner 分配的某一個步驟。
  • 左下角的 Validator 模塊是一個反饋機制,用於確認任務是否真的完成了。

Validator 的存在確保了每一步都確實完成了才進行下一步,防止 AI 在網頁加載失敗或操作失誤時繼續盲目執行。

比如下面這個視頻,就是用這個開源項目自動化的獲取 Hacker News 上的熱門帖子:

你也可以自己去 skyvern 部署的網站體驗一下。可以通過界面看到瀏覽器自動操作的實時畫面,整體感覺是,很慢很慢。。。

體驗地址:https://app.skyvern.com/workflows

GitHub上爆紅!這個瀏覽器自動化工具為何能狂攬2萬Star?_#大模型學習_04

二、 如何使用

Skyvern 提供了 Python 庫和基於 Docker 的獨立服務兩種主要使用方式。為了體驗完整功能,包括 UI 界面,推薦使用 Docker 部署。

① 部署環境:你需要安裝 Docker 和 Docker Desktop。

② 快速啓動(Docker Compose)

克隆開源項目並啓動服務:

# 克隆代碼
git clone https://github.com/Skyvern-AI/skyvern.git
cd skyvern
# 初始化配置文件(會生成 .env 文件)
# 此時需要根據提示填入你的 LLM API Key(如 OpenAI 或 Claude 的 Key)
./run_skyvern.sh init
# 啓動服務
docker compose up -d

啓動成功後,訪問瀏覽器 http://localhost:8080 即可看到可視化的操作界面。

③ 通過 Python 代碼調用

如果你希望將它集成到自己的代碼中,可以安裝 SDK:

pip install skyvern

簡單的代碼示例:

from skyvern import Skyvern
# 初始化
skyvern = Skyvern(api_key="你的_SKYVERN_API_KEY")
# 注:如果是本地部署,需配置 base_url 指向本地服務
# 下達任務
task = await skyvern.run_task(
prompt="去 Hacker News 網站找到今天熱度最高的帖子,並返回標題和鏈接"
)
print(task)

在運行過程中,你甚至可以通過 UI 界面看到瀏覽器自動操作的實時畫面,非常適合調試和監控。

開源地址:https://github.com/Skyvern-AI/skyvern