博客 / 詳情

返回

重磅!圖靈獎得主 Bengio 領銜 30 + 頂流學者聯合發文!首次給 AGI 下量化定義

論文標題:A Definition of AGI

作者團隊:人工智能安全中心、加州大學伯克利分校、Morph實驗室、密歇根大學等

發佈時間:2025年10月21日

👉一鍵直達論文

👉Lab4AI大模型實驗室論文閲讀

✅Lab4AI平台提供AI導讀和AI翻譯等工具,輔助論文閲讀。您還可以投稿復現這篇論文~

⭐論文簡介

本文旨在提出一個全面、可量化的框架,以澄清AGI的定義,並精確測量AI系統在通用認知能力上與人類的差距。其核心目標是將AGI操作化定義為“能夠匹配或超越一位受過良好教育的成年人的認知廣度和熟練度”,從而為評估AI系統提供一個堅實、統一的基準。

⭐核心貢獻

本文的核心貢獻是首次引入了一個基於人類認知心理學經典理論的、系統化的AGI量化評估框架。該框架:

  • 提出了一個從0%到100%的標準化“AGI分數”,使不同AI系統的通用智能水平可以相互比較。
  • 明確指出AGI不僅僅是經濟價值或自動化潛力的代名詞,而是專注於認知能力的評估。

⭐研究方法

核心是借鑑並改造用於評估人類智力的心理測量學方法,將其應用於AI系統評估。

  • 理論基礎:以CHC人類認知能力理論為藍圖,將通用智能分解為10個核心認知領域(廣度能力),每個領域權重為10%。
  • 評估維度:這十個領域包括:通用知識、讀寫能力、數學能力、即時推理、工作記憶、長期記憶存儲、長期記憶提取、視覺處理、聽覺處理和處理速度。
  • 操作化:為每個認知領域設計了一系列具體的測試任務(窄能力),這些任務改編自成熟的人類心理測量量表要求AI系統在多模態(文本、視覺、聽覺)環境下接受評估。

⭐研究結果

應用框架評估GPT4、GPT5,揭示關鍵發現:AI呈“鋸齒狀”認知剖面,知識密集領域表現優、基礎認知有缺陷;長期記憶近零是AGI瓶頸,即時/視覺推理亦弱;給出AGI分數,顯進步與人類智能差距;模型以優勢補弱勢,造“通用性”假象,實則脆弱低效。

user avatar
0 位用戶收藏了這個故事!

發佈 評論

Some HTML is okay.