過去的十年,互聯網通過屏幕連接了“人與人”,而未來的十年,將是AI通過傳感器與“物理世界”深度交互的十年。隨着大模型(LLM)向多模態發展,具身智能(Embodied AI)——指的是擁有物理實體,能夠與環境進行感知與交互的智能系統(如人形機器人、自動駕駛汽車、工業無人機)——正成為科技界的下一個風口。 在這個巨大範式轉移的背景下,音視頻行業也迎來了它的“下半場”。在這個階