mmBERT是一個純編碼器架構的語言模型,在1800多種語言、3萬億tokens的文本上完成了預訓練。它的架構設計借鑑了ModernBERT,但又加入了不少創新點,比如逆掩碼比率調度和逆温度採樣。而且研究團隊還把1700多種低資源語言放在了衰減階段加入訓練,這個策略帶來了相當不錯的效果提升,充分利用了那些數據量本身就不大的語言資源。 模型架構 整體架構和ModernBERT保持一致,但換成