tag batch

標籤
貢獻1
22
03:21 PM · Dec 03 ,2025

@batch / 博客 RSS 訂閱

嘴巴吃糖了 - 【值得收藏】大模型必備知識:Transformer為何選擇Layer Normalization而非Batch Normalization

前言 無論是 BERT、GPT 還是 ViT,幾乎都不用 Batch Normalization,而是清一色地用 Layer Normalization。 這不是巧合,而是 Transformer 架構中一個非常深層的設計選擇。 一、BN 和 LN 到底在做什麼? BN 和 LN 的出發點其實一樣——穩定訓練,防止梯度

後端開發 , 人工智能 , transformer , batch , 大模型入門 , 大模型學習 , Python

收藏 評論