百度開源 ERNIE-4.5-VL-28B-A3B-Thinking

百度文心多模態思考模型 ERNIE-4.5-VL-28B-A3B-Thinking 宣佈正式開源，僅 3B 激活參數。

根據介紹，ERNIE-4.5-VL-28B-A3B-Thinking是在ERNIE-4.5-VL-28B-A3B基礎上訓練的深度思考模型，在視覺語言多模態理解能力上實現了顯著提升。模型具備領先的文檔與圖表理解能力，在理科與文科綜合推理、通用視覺推理等任務中表現優異，展現出更強的跨模態推理與問題解決能力。同時，結合空間定位與工具調用，該模型推出“圖像思考”等創新功能，為多模態思維與交互應用帶來更豐富的可能。

在中期訓練（Mid-Training）階段，模型引入了海量高質量視覺-語言數據，顯著增強了模型的表徵能力與跨模態語義對齊能力，從而顯著提升了視覺文本推理性能。

同時，ERNIE-4.5-VL-28B-A3B-Thinking在可驗證的任務上採用大規模多模態強化學習，它利用GSPO和IcePop策略來穩定基於MoE的RL訓練，結合了動態難度採樣機制，提升強化學習的有效率。

ERNIE-4.5-VL-28B-A3B-Thinking 還進一步強化了模型的定位能力，提升了模型的指令遵循性。當用户需要時，可更便捷地觸發視覺定位功能。以及引入了“圖像思考”創新能力，讓模型兼備圖片放大和圖片搜索等工具調用能力。

發佈評論

Product

Company

Support

Company

百度開源 ERNIE-4.5-VL-28B-A3B-Thinking

發佈 評論

發佈評論