tag 注意力

標籤
貢獻1
13
08:40 PM · Nov 22 ,2025

@注意力 / 博客 RSS 訂閱

deephub - 從另一個視角看Transformer:注意力機制就是可微分的k-NN算法

注意力機制聽起來很玄乎,但我們可以把它看作一個軟k-NN算法。查詢向量問:"誰跟我最像?",softmax投票,相似的鄰居們返回一個加權平均值。這就是注意力頭的另外一種解釋: 一個可微分的軟k-NN:計算相似度 → softmax轉換為權重 → 對鄰居值求加權平均。 通過 1/sqrt(d) 縮放防止softmax在高維時飽和,掩碼決定哪些位置可以互相"看見"(處理因果關係、填充等問題)。

注意力 , 神經網絡 , transformer-model , 人工智能 , 深度學習

收藏 評論