大模型新戰場：智譜開源“會點手機”的AutoGLM 詳情 - 開源多情的青蛙博客

繼文本、圖像、代碼和語音之後，大模型競爭的下一個焦點正轉向“與物理世界交互”的能力。日前，國內AI公司智譜AI正式宣佈，開源其“具身智能”大模型AutoGLM系列。該模型能理解圖形化界面，並模擬人類操作手機，自動執行如點外賣、訂機票、發微博等複雜任務，引發業界廣泛關注。

根據智譜AI在開源平台GitHub及官方渠道發佈的技術報告，AutoGLM-3B版本模型具備“視覺-語言-動作”的協同能力。它不僅能“看懂”手機屏幕截圖，理解圖標、按鈕和文字，還能規劃操作步驟，並輸出精確的點擊、滑動等模擬指令。為訓練此能力，團隊構建了包含大量手機界面像素與操作序列的數據集。此次開源遵循Apache 2.0協議，意味着開發者可免費商用（來源：智譜AI官方開源文檔及技術報告）。當前，各大模型廠商在純對話能力上的差距逐漸縮小，競爭延伸至“AI智能體”這一前沿領域——即能自主理解目標、使用工具、完成任務的AI。谷歌、微軟等巨頭早已佈局。智譜通過開源AutoGLM，一方面旨在吸引全球開發者共建生態，快速積累真實場景數據，反哺模型迭代；另一方面，也是將其在通用大模型（GLM）上的技術優勢，向更具實用價值的應用層拓展，試圖定義下一代AI交互的入口。

然而，讓AI可靠地操作錯綜複雜的真實應用，仍面臨安全性、可靠性和泛化能力的巨大挑戰。

多情的青蛙博客

多情的青蛙博客

博客 / 詳情

大模型新戰場：智譜開源“會點手機”的AutoGLM

發佈評論

Product

Company

Support

Company

博客 / 詳情

大模型新戰場：智譜開源“會點手機”的AutoGLM

發佈 評論

發佈評論