中國人工智能產業發展聯盟(以下簡稱“AIIA”)緊密跟蹤大模型和智能體的技術發展與行業應用動態,構建併發布了“方升”(FactTesting)大模型基準測試體系,自2024年以來已對國內外開源與閉源大模型開展了6輪能力監測,累計測試了200餘個大模型,持續跟蹤其技術演進與表現,為行業技術選型與能力評估提供了重要依據。2025年,評測範圍進一步擴展至多模態理解、文生圖、文生視頻等領域,並率先開展智能體測試的研究與實踐,初步構建了智能體測試驗證平台,為產業界提供全面的技術評估參考。
2025年4月9日,在南京召開的中國人工智能產業發展聯盟第十四次全體會議上,中國人工智能產業發展聯盟正式發佈“方升”大模型基準測試結果(2025年1季度)。
“方升”大模型基準測試結果發佈現場
在權威發佈環節,AIIA 總體組組長、中國信通院人工智能研究所所長魏凱發佈了“方升”人工智能基準測試結果及測試觀察。在大語言模型測試結果中,文心大模型4.5在基礎能力結果、文心大模型X1在推理能力結果中均名列前茅。
大語言模型-基礎能力測試結果
大語言模型-推理能力測試結果
3月16日,百度正式發佈文心大模型4.5和文心大模型X1。
文心大模型4.5是百度自主研發的新一代原生多模態基礎大模型,通過多個模態聯合建模實現協同優化,多模態理解能力優秀;具備更精進的語言能力,理解、生成、邏輯、記憶能力全面提升,去幻覺、邏輯推理、代碼能力顯著提升。
文心大模型X1具備更強的理解、規劃、反思、進化能力,並支持多模態,是首個自主運用工具的深度思考模型。作為能力更全面的深度思考模型,文心大模型X1兼備準確、創意和文采,在中文知識問答、文學創作、文稿寫作、日常對話、邏輯推理、複雜計算及工具調用等方面表現尤為出色。
文心一言官網
目前,兩款模型已在文心一言官網上線,免費向用户開放。(_https://yiyan.baidu.com_)
2025是大模型技術全面迭代的一年,百度將在人工智能、數據中心、雲基礎設施上更大膽地投入,打造更好、更智能的下一代模型。
----------END----------
推薦閲讀
飛槳新一代框架3.0正式發佈:加速大模型時代的技術創新與產業應用
即刻體驗!文心大模型X1現面向企業用户全面開放!
一篇論文,看見百度廣告推薦系統在大模型時代的革新
前沿多模態模型開發與應用實戰3:DeepSeek-VL2多模態理解大模型算法解析與功能搶先體驗
秒噠首發即爆發!上線首日吸引2萬用户,打造3萬應用!