tag bert-language-model

標籤
貢獻1
15
08:33 PM · Nov 22 ,2025

@bert-language-model / 博客 RSS 訂閱

deephub - mmBERT:307M參數覆蓋1800+語言,3萬億tokens訓練

mmBERT是一個純編碼器架構的語言模型,在1800多種語言、3萬億tokens的文本上完成了預訓練。它的架構設計借鑑了ModernBERT,但又加入了不少創新點,比如逆掩碼比率調度和逆温度採樣。而且研究團隊還把1700多種低資源語言放在了衰減階段加入訓練,這個策略帶來了相當不錯的效果提升,充分利用了那些數據量本身就不大的語言資源。 模型架構 整體架構和ModernBERT保持一致,但換成

bert-language-model , 神經網絡 , 人工智能 , 深度學習

收藏 評論