繼文本、圖像、代碼和語音之後,大模型競爭的下一個焦點正轉向“與物理世界交互”的能力。日前,國內AI公司智譜AI正式宣佈,開源其“具身智能”大模型AutoGLM系列。該模型能理解圖形化界面,並模擬人類操作手機,自動執行如點外賣、訂機票、發微博等複雜任務,引發業界廣泛關注。
根據智譜AI在開源平台GitHub及官方渠道發佈的技術報告,AutoGLM-3B版本模型具備“視覺-語言-動作”的協同能力。它不僅能“看懂”手機屏幕截圖,理解圖標、按鈕和文字,還能規劃操作步驟,並輸出精確的點擊、滑動等模擬指令。為訓練此能力,團隊構建了包含大量手機界面像素與操作序列的數據集。此次開源遵循Apache 2.0協議,意味着開發者可免費商用(來源:智譜AI官方開源文檔及技術報告)。當前,各大模型廠商在純對話能力上的差距逐漸縮小,競爭延伸至“AI智能體”這一前沿領域——即能自主理解目標、使用工具、完成任務的AI。谷歌、微軟等巨頭早已佈局。智譜通過開源AutoGLM,一方面旨在吸引全球開發者共建生態,快速積累真實場景數據,反哺模型迭代;另一方面,也是將其在通用大模型(GLM)上的技術優勢,向更具實用價值的應用層拓展,試圖定義下一代AI交互的入口。
然而,讓AI可靠地操作錯綜複雜的真實應用,仍面臨安全性、可靠性和泛化能力的巨大挑戰。