注意力機制聽起來很玄乎,但我們可以把它看作一個軟k-NN算法。查詢向量問:"誰跟我最像?",softmax投票,相似的鄰居們返回一個加權平均值。這就是注意力頭的另外一種解釋: 一個可微分的軟k-NN:計算相似度 → softmax轉換為權重 → 對鄰居值求加權平均。 通過 1/sqrt(d) 縮放防止softmax在高維時飽和,掩碼決定哪些位置可以互相"看見"(處理因果關係、填充等問題)。