百度文心多模態思考模型 ERNIE-4.5-VL-28B-A3B-Thinking 宣佈正式開源,僅 3B 激活參數。
根據介紹,ERNIE-4.5-VL-28B-A3B-Thinking是在ERNIE-4.5-VL-28B-A3B基礎上訓練的深度思考模型,在視覺語言多模態理解能力上實現了顯著提升。模型具備領先的文檔與圖表理解能力,在理科與文科綜合推理、通用視覺推理等任務中表現優異,展現出更強的跨模態推理與問題解決能力。同時,結合空間定位與工具調用,該模型推出“圖像思考”等創新功能,為多模態思維與交互應用帶來更豐富的可能。
在中期訓練(Mid-Training)階段,模型引入了海量高質量視覺-語言數據,顯著增強了模型的表徵能力與跨模態語義對齊能力,從而顯著提升了視覺文本推理性能。
同時,ERNIE-4.5-VL-28B-A3B-Thinking在可驗證的任務上採用大規模多模態強化學習,它利用GSPO和IcePop策略來穩定基於MoE的RL訓練,結合了動態難度採樣機制,提升強化學習的有效率。
ERNIE-4.5-VL-28B-A3B-Thinking 還進一步強化了模型的定位能力,提升了模型的指令遵循性。當用户需要時,可更便捷地觸發視覺定位功能。以及引入了“圖像思考”創新能力,讓模型兼備圖片放大和圖片搜索等工具調用能力。