從“動口”到“動手”
AI 的新進化過去,我們熟悉的AI助手只能“回答”問題;今天,一種叫 CUA(Computer-Using Agent,計算機使用代理)的 AI 正在悄悄學會“動手”——像人一樣看屏幕、點鼠標、敲鍵盤,把一句話指令直接變成一整套電腦操作。它不再是“顧問”,而是“數字實習生”。
CUA 的三件套:眼睛、大腦、雙手
眼睛:圖形界面視覺理解通過截圖實時“看”屏幕,識別按鈕、輸入框、圖表,甚至能讀懂驗證碼(合規前提下)。
大腦:任務規劃與推理把“做一份季度銷售 PPT”自動拆成:打開 Excel→清洗數據→生成圖表→粘貼到 PowerPoint→保存文件。遇到異常或突發狀況(如軟件打開失敗)會自主調整策略。
雙手:底層控制接口直接調用系統級 API 或模擬鼠標鍵盤,像素級精準操作。
工作原理:閉環智能體
傳統大模型是“開環”——問一句答一句;CUA 是“閉環”:理解任務→觀察屏幕→輸出動作→等待新屏幕→再思考下一步,形成“感知-決策-執行”循環,隨時根據界面反饋修正路線。
與 RPA、ChatBot 的區別
一句話:RPA 像“提線木偶”,CUA 像“有腦子的實習生”。
落地的場景暢想
• 辦公自動化:自動把 100 份 Excel 彙總成圖表並插入週報 Word。
• 電商運營:登陸後台→下載訂單→錄入 ERP→生成發貨單→回傳快遞單號。
• 財務對賬:登陸網銀→導出流水→與金蝶明細比對→標紅差異。
• 醫療輔助:自動把檢查報告 PDF 中的關鍵數據填入電子病歷。
以上流程無需提前寫腳本,只需一句自然語言指令。
安全與倫理:給“數字員工”戴上“緊箍”
CUA 擁有系統級操控權,人類對智能的信任度必然受到挑戰,因此“沙盒+審計”雙保險對CUA來説非常有必要:沙盒運行:所有操作在虛擬機或容器完成,隔絕敏感操作。全程錄屏:每一步點擊、輸入、API 調用可回溯,方便審計與糾錯。最小權限:通過角色賬號只開放必要目錄與軟件,防止“越權”。
如何上手?
快速體驗:可以訪問Lybic 公開的體驗地址:https://playground.lybic.cn,無需科學即可直接試用GUI Agent。
應用開發:關注Lybic的開源項目Agentic Lybic:https://github.com/lybic/agent,可在本地、虛擬機以及Lybic沙盒等環境部署。
上手實踐:掌握基礎“提示詞工程”——越清晰的目標描述,CUA 成功率越高。例如:“把桌面‘報銷’文件夾裏所有發票 PDF 的金額、税率提取到新的 Excel,並生成柱狀圖”比“幫我整理髮票”更易執行。
CUA 不是又一個聊天AI升級,而是一次“讓 AI 長出手”的交互範式升級。未來,你的電腦也許不再需要菜單和按鈕——只要告訴AI目標,剩下的,它全包了。