Zoom 憑藉聯邦 AI 刷新全球最難 AI 考試紀錄

新聞
HongKong
10
01:43 PM · Jan 16 ,2026

Zoom 的人工智能系統近日在被譽為“人類最後的考試”(Humanity's Last Exam, HLE)的頂級基準測試中,以 48.1% 的成績刷新了世界紀錄,超越了此前由谷歌 Gemini3Pro 保持的45.8%。

面對“一家非底層模型廠商如何反超模型巨頭”的質疑,Zoom 首席技術官、前微軟 AI 大將黃學東(Xuedong Huang)表示,Zoom 並非通過燒錢訓練自己的萬億參數大模型,而是開發了一套精密的“聯邦式人工智能方法”:

  • Z 評分器(Z-Scorer):系統的核心大腦,負責實時評估來自 OpenAI、Google 和 Anthropic 等多個模型的響應,挑選出針對特定任務的最優解。
  • 探索-驗證-聯合策略:這是一套智能體(Agent)工作流,通過讓多個人工智能系統進行“辯證協作”,互相挑戰並完善推理結果。
  • 流量控制器:簡單來説,Zoom 構建了一個極其聰明的人工智能“調度中心”,通過集成而非自研,實現了“超越任何單一模型極限”的性能表現。

這一成績在開發者社區引發了巨大的分歧。以工程師 Max Rumpf 為代表的批評者認為,Zoom 只是通過 API “套殼”了別人的成果,在對實際用户意義有限的基準測試中刷分,這種“剽竊他人勞動果實”的行為並無實質技術貢獻。

然而,另一派觀察家如開發者朱宏成則認為,在 AI 評估中勝出必然需要“模型聯邦”。這好比數據競賽平台 Kaggle 的獲勝者總是依賴模型集成,而非單打獨鬥。這種策略在商業上極其聰明:它避免了昂貴的算力投入,同時讓 Zoom 能在不同供應商之間靈活切換,徹底擺脱了供應商鎖定。

黃學東將這一成就視為對 Zoom 戰略的驗證。對於 Zoom 的3億用户而言,更有意義的較量將在即將上線的AI Companion3.0中展開。雖然48.1% 在 HLE 這種涉及高等數學與哲學的考試中代表了機器智能的前沿,但用户更在乎的是:當數億人開始使用它總結會議、提取行動項時,這套“聯邦大腦”能否真的比單一模型更省時、更準確。

user avatar
0 位用戶收藏了這個故事!
收藏

發佈 評論

Some HTML is okay.