知名開源瀏覽器自動化項目 BrowserUse 發佈了其首個自研大語言模型——BU-30B-A3B-Preview。
BU-30B-A3B-Preview採用混合專家(MoE)架構,總參數規模達30B(300億),但實際推理時僅激活3B(30億)參數。這使得模型在保持頂級智能水平的同時,資源消耗大幅降低,僅需單張消費級GPU即可流暢運行。
該模型基於阿里雲通義千問Qwen3-VL-30B-A3B-Instruct進行深度微調,專為瀏覽器自動化場景優化,支持多模態輸入(視覺+文本),上下文長度高達32K tokens,能夠輕鬆處理複雜長網頁內容。
BU-30B-A3B-Preview在瀏覽器操作任務中表現出色,具備全面的網頁交互功能,包括精準元素定位、點擊、滾動、表單填寫等。其突出的DOM(文檔對象模型)理解能力和視覺推理能力,讓AI代理能像人類一樣“看懂”頁面佈局和截圖,實現高度可靠的自動化執行。
官方強調,該模型特別適合構建Web Agent應用場景,如自動化測試、數據採集、RPA流程等,已在內部基準測試中達到業內領先水平。
官方發佈的對比數據顯示,BU-30B-A3B-Preview在任務完成速度和經濟性上遠超主流商用模型:
- 平均每步操作僅需1.2秒,整體任務完成時間大幅領先。
- 成本效益驚人:每1美元計算資源可可靠完成約200個瀏覽器任務,是部分競品模型的數十倍。
由於模型體積相對較小(單GPU部署友好),開發者可輕鬆本地下載測試,無需高額雲端費用。