近期,AI 圈的風向標正以前所未有的速度指向同一個方向:GUI Agent 國內,智譜開源 AutoGLM,讓Agent像人類一樣操作手機執行跨 App 任務;字節跳動發佈豆包手機助手,演示了驚豔的屏幕理解與自動操作能力。 放眼全球,剛剛結束的 AWS re:Invent 大會更是將 “Agentic AI” 推向了舞台中央。從 Amazon Bedrock 的更新到各類企業級演示,行業共
從“動口”到“動手” AI 的新進化過去,我們熟悉的AI助手只能“回答”問題;今天,一種叫 CUA(Computer-Using Agent,計算機使用代理)的 AI 正在悄悄學會“動手”——像人一樣看屏幕、點鼠標、敲鍵盤,把一句話指令直接變成一整套電腦操作。它不再是“顧問”,而是“數字實習生”。 CUA 的三件套:眼睛、大腦、雙手 眼睛:圖形界面視覺理解通過截圖實時“看”屏幕,識別按鈕、