@bert-language-model - DEFAULT 標籤詳情

mmBERT是一個純編碼器架構的語言模型，在1800多種語言、3萬億tokens的文本上完成了預訓練。它的架構設計借鑑了ModernBERT，但又加入了不少創新點，比如逆掩碼比率調度和逆温度採樣。而且研究團隊還把1700多種低資源語言放在了衰減階段加入訓練，這個策略帶來了相當不錯的效果提升，充分利用了那些數據量本身就不大的語言資源。模型架構整體架構和ModernBERT保持一致，但換成