智元 AGIBOT 宣佈,來自香港大學、智元 AGIBOT、復旦大學和上海創智學院的聯合研究團隊提出了 WholeBodyVLA,這是一種面向真實世界的人形機器人全身 Vision–Language–Action 框架。
https://opendrivelab.com/WholeBodyVLA/
https://github.com/OpenDriveLab/WholebodyVLA
據介紹,該工作基於智元靈犀X2研究發佈,將 VLA 擴展至雙足人形機器人的全身控制,驗證了其在全身 loco-manipulation 任務中的可行性。
WholeBodyVLA 展示了 VLA 擴展到雙足人形機器人自主全身控制的可行路徑。通過從人類視頻中學習,並結合針對移動操作的RL控制器,WholeBodyVLA 使機器人能夠在真實世界中穩定完成行走與操作交織的長時序任務,為推動人形機器人走向製造、服務、物流等複雜場景提供重要基礎。