Transformer多頭自注意力相關 QKV投影及反向傳播更新參數(∂loss/∂W_q,∂loss/∂W_k,∂loss/∂W_v) ∂loss/∂W_q:鏈式法則層層傳遞梯度,最終告訴 W_q:往這個方向更新,可以減少損失函數(達到優化模型效果) 其他可訓練參數也都是求損失函數對這個參數的偏導數,然後朝着損失函數值降低的方向改變參數值(即權重值)達到優化模