batch

標籤

貢獻1

03:21 PM · Dec 03 ,2025

@u_16163453

暱稱嘴巴吃糖了

Last seen

@batch / 博客 RSS 訂閱

Dec 03 2025

嘴巴吃糖了 - 【值得收藏】大模型必備知識：Transformer為何選擇Layer Normalization而非Batch Normalization

前言無論是 BERT、GPT 還是 ViT，幾乎都不用 Batch Normalization，而是清一色地用 Layer Normalization。這不是巧合，而是 Transformer 架構中一個非常深層的設計選擇。一、BN 和 LN 到底在做什麼？ BN 和 LN 的出發點其實一樣——穩定訓練，防止梯度

後端開發 , 人工智能 , transformer , batch , 大模型入門 , 大模型學習 , Python

收藏評論

batch

@batch / 博客 RSS 訂閱

嘴巴吃糖了 - 【值得收藏】大模型必備知識：Transformer為何選擇Layer Normalization而非Batch Normalization

Product

Company

Support

Company