論文標題:A Definition of AGI
作者團隊:人工智能安全中心、加州大學伯克利分校、Morph實驗室、密歇根大學等
發佈時間:2025年10月21日
👉一鍵直達論文
👉Lab4AI大模型實驗室論文閲讀
✅Lab4AI平台提供AI導讀和AI翻譯等工具,輔助論文閲讀。您還可以投稿復現這篇論文~
⭐論文簡介
本文旨在提出一個全面、可量化的框架,以澄清AGI的定義,並精確測量AI系統在通用認知能力上與人類的差距。其核心目標是將AGI操作化定義為“能夠匹配或超越一位受過良好教育的成年人的認知廣度和熟練度”,從而為評估AI系統提供一個堅實、統一的基準。
⭐核心貢獻
本文的核心貢獻是首次引入了一個基於人類認知心理學經典理論的、系統化的AGI量化評估框架。該框架:
- 提出了一個從0%到100%的標準化“AGI分數”,使不同AI系統的通用智能水平可以相互比較。
- 明確指出AGI不僅僅是經濟價值或自動化潛力的代名詞,而是專注於認知能力的評估。
⭐研究方法
核心是借鑑並改造用於評估人類智力的心理測量學方法,將其應用於AI系統評估。
- 理論基礎:以CHC人類認知能力理論為藍圖,將通用智能分解為10個核心認知領域(廣度能力),每個領域權重為10%。
- 評估維度:這十個領域包括:通用知識、讀寫能力、數學能力、即時推理、工作記憶、長期記憶存儲、長期記憶提取、視覺處理、聽覺處理和處理速度。
- 操作化:為每個認知領域設計了一系列具體的測試任務(窄能力),這些任務改編自成熟的人類心理測量量表要求AI系統在多模態(文本、視覺、聽覺)環境下接受評估。
⭐研究結果
應用框架評估GPT4、GPT5,揭示關鍵發現:AI呈“鋸齒狀”認知剖面,知識密集領域表現優、基礎認知有缺陷;長期記憶近零是AGI瓶頸,即時/視覺推理亦弱;給出AGI分數,顯進步與人類智能差距;模型以優勢補弱勢,造“通用性”假象,實則脆弱低效。