解密Prompt系列65. 三巨頭關於大模型內景的硬核論文詳情 - AI 風雨中的小七博客

這一章我們不談應用，而是通過三巨頭 Google、OpenAI、Anthropic 三篇充滿腦洞的論文，深入探討模型內部狀態的可訪問性與可操控性。我們將從三個維度展開：

模型是否有自我認知？
如何引導這種認知？
如何從數學和電路層面解釋這種認知？

Google：In-Context Learning 本質上是隱式梯度更新

📄 Google:# Learning without training: The implicit dynamics of in-context learning

❓ 大語言模型在推理階段，不更新權重的情況下，僅僅通過提示中的幾個例子，就能學會新的模式。這是如何發生的？
💡 ICL既微調，Attention層處理上下文的過程，等價於對MLP 層做了一次隱式的梯度下降更新。整個網絡在推理時，臨時變成了一個專門處理當前任務的“特化專家”。

第一步：定義上下文塊

論文的核心創新點是提出了上下文塊，這是對標準Transformer塊（自注意力層 + MLP層）的一種抽象。上下文塊由兩個部分組成：

上下文層（Contextual Layer）：記為 A 。這是一個可以處理上下文信息的層，例如自注意力層。它接受兩種輸入：
- 單獨輸入x，例如用户query，輸出A(x)
- 輸入x和上下文C，例如系統指令中的few-shot+query，輸出 A(C, x）。
- 因為上下文層的輸出空間相同,都是last token輸出向量，因此我們可以使用 $ \Delta A(C) = A(C, x) - A(x) $來捕捉上下文對輸出空間的影響
神經網絡（Neural Network）：記為M_W。這是一個標準的MLP層

組合起來就是

\[T_W = M_W \circ A(C,x) \]

第二步：權重更新的推導

這是最精彩的一步，論文證明了，上下文層在處理信息時，隱式地實現了對後續MLP層權重W的低秩更新。

假設上下文C中包含信息Y（這裏引入Y只是特殊到一般的證明策略），論文證明了引入Y等同於對MLP權重進行了一個秩1$\Delta W(Y)$權重更新

\[\begin{align} T_W(C, x) &= T_{W + \Delta W(Y)}(C \setminus Y, x)\\ 其中\Delta W(Y) &= \frac{ (W \Delta A(Y)) A(C \setminus Y, x)^T }{\| A(C \setminus Y, x) \|^2} \end{align} \]

筆者還是喜歡正向推導，所以咱正着推一遍

\[\begin{align} W \cdot A(C,x) & = W \cdot (A(C \setminus Y,x) + \Delta A(Y))\\ & = W \cdot A(C \setminus Y,x) + W \cdot \Delta A(Y)\\ &= W \cdot A(C \setminus Y,x) + \frac{W \cdot \Delta A(Y) \cdot A(C \setminus Y,x)^T}{\| A(C \setminus Y, x) \|^2} \cdot A(C \setminus Y,x)\\ & = (W+ \Delta W(Y)) \cdot A(C \setminus Y, x) \end{align} \]

第三步：和梯度下降的關聯

最後論文進一步將這種隱式更新與梯度下降聯繫起來。考慮上下文的每個token $ C = [c_1, c_2, \dots, c_n]$逐步處理的過程，其實可以定義一系列權重更新過程：

\[W_i = W_0 + \Delta W_0(c_1, \dots, c_i) \]

$\Delta W_0(c_1, \dots, c_i)$是累計更新，那麼權重變化 $ W_{i+1} - W_i $ 可以表示為：$W_{i+1} - W_i = -h \Delta_i$，其中

$h= 1 / \| A(x) \|^2$是學習率
$\Delta_i = W_0 \left( A(c_1, \dots, c_i, x) - A(c_1, \dots, c_{i+1}, x) \right) A(x)^T$是梯度

那整個上下文編碼的過程，其實是在擬合一個和上下文變化直接關聯的損失函數$L_i（W）=trace（\Delta_i^TW）$

那Prompt Engineering本質上是在設計Loss Function，讓模型在推理期“訓練”自己。

💡 工程師視角的 Takeaway

理論的本質最後還是要指導實踐，從論文中其實能得到以下上下文管理的一些思路

正面示例 > 負面示例：梯度下降需要明確的方向。Positive Case 提供的是明確的梯度下降方向；而 Negative Case（告訴模型不要做什麼）提供的梯度方向往往是模糊發散的，效率極低。
順序很重要（Curriculum Learning）：因為是累積更新，把最清晰、最典型（梯度方向最準）的例子放在前面，有助於模型快速收斂到正確的“任務權重”。按任務類型可以是由淺入深或者由通用到特殊。
示例的“正交性”：既然每次更新是低秩的，那麼選擇特徵維度差異大的示例，能讓權重更新覆蓋更多方向，避免在同一個特徵上反覆打轉。以及過多相似樣本可能會導致W陷入局部極小值。
對COT和Inference Scaling的支持:COT其實就類似多步梯度下降，本質上是讓面向思考任務的Loss收斂更好
上下文長度不宜過長：梯度更新是會收斂的，超過Early Stop的閾值後，更長的上文只會帶來延時不會帶來效果提升。

OpenAI:把亂麻般的權重“稀疏化”以此看清模型腦回路

📄 OpenAI：Weight-sparse transformers have interpretable circuits

❓ 我們如何才能真正地、徹底地理解Transformer內部在做什麼？標準的稠密模型內部激活和連接極其複雜，如同一個糾纏的線團，難以理清。
💡 設計一個稀疏模型，在訓練之初，就強制讓模型的大部分權重為零，每個神經元只和極少數的神經元項鍊，迫使模型學習更簡潔、可解釋的模塊化電路。

稀疏模型原理

首先論文先訓練了一個稀疏Transformer，基於GPT2的模型結構，通過L0約束和激活稀疏共同控制整個模型非零的參數佔比

L₀範數約束：控制非零權重的數量（千分之一的權重非零）
激活稀疏：同時強制激活也有一定稀疏性（四分之一非零）

在整個訓練過程中採用退火策略，逐步實現目標稀疏度，以下是訓練的qseudo code。

# 偽代碼：稀疏訓練過程
for each training step:
    # 1. 計算當前步驟的稀疏度目標
    if current_step < total_anneal_steps:
        current_sparsity = target_sparsity * (current_step / total_anneal_steps)
    else:
        current_sparsity = target_sparsity
    # 2. 正常前向傳播和反向傳播
    loss = model(inputs)
    loss.backward()
    optimizer.step()
    
    # 3. 強制稀疏：根據當前進度的稀疏度對topk權重矩陣進行掩碼
    for weight_matrix in model.weights:
        # 計算當前層應該保留的權重數量
        k = int((1 - current_sparsity) * param.numel())
        mask = get_topk_mask(weight_matrix, K)
        weight_matrix *= mask  # 其他權重置零

整個訓練策略比較trivial，還包含了很多單權重矩陣的稀疏度控制，所有神經元輸出全為零之後的重新激活，以及分層稀疏度的監控等等，這裏我們重點還是關注論文的核心思想，所以這些細節就不贅述了。

與現有模型橋接

有了稀疏模型，下一個難題就是如何和現有模型橋接，論文訓練一個橋接映射層，把稠密模型和稀疏模型的每一層進行對齊，每個“橋樑映射層”都包括一個解碼器和編碼器，其中

編碼器：線性映射 + AbsTopK激活，將稠密激活轉換為稀疏表示
解碼器：線性映射，將稀疏表示轉換回稠密空間

::: center

:::

論文選擇了聯合訓練策略，同時優化多個損失函數，包括

預訓練損失：稀疏模型在正常任務上的表現，從而保證稀疏模型在後面的可解釋任務上有效果保證
MSE損失：橋樑編碼器映射的稠密向量的激活表徵和對應稀疏向量激活表徵的距離（vice versa），直接優化對齊效果
KL散度：把稠密向量經過編碼器映射後的激活直接替換成對應稀疏模型的激活，並計算原始稀疏模型Y和替換後Y的KL散度，這裏是從最終預測結果的角度優化對齊效果

識別可解釋信息

有了訓練好的稀疏模型和橋接模型，最後一步就是對稠密模型進行解釋。考慮稀疏模型的訓練數據只使用了python代碼，這裏論文選用的待解釋任務也都是編程類任務。

論文對模型的解釋分成了三個步驟

剪枝定位電路：通過訓練masking，在保證任務最低預測效果的基礎上，最大化稀疏模型被掩碼的參數，從而得到一個最小可解釋電路。當然具體的電路解釋靠研究員人工去解讀。
必要性驗證：這裏論文采用了均值消融的實驗方式，如果以上識別的電路節點必要的話，使用均值對這些參數進行替換，應該會大幅損害任務效果
充分性驗證：依舊是均值消融實驗，這裏把所有電路之外的參數進行均值消融，只保留電路節點，應該基本接近全參數在該任務上的預測效果，則説明電路是完成任務的核心節點。

論文使用以上方案在多個任務上進行了實驗，這裏我們選“single_double_quote”這個括號計數任務，根據輸入模型判斷應該輸出單引號還是雙引號。經過前面的剪枝可以定位到大致的電路範圍，然後就是研究員的人工分析步驟了，這裏咱嘗試還原下研究員是如何進行可解釋分析的。首先剪枝後定位到電路包含

第0層MLP的兩個神經元
第10層注意力頭82的兩個通道

研究員先觀察第0層的MLP

輸入: "hello
  神經元985: 0.872  ← 對雙引號激活
  神經元460: 0.756  ← 對雙引號正激活

輸入: 'hello  
  神經元985: 0.891  ← 對單引號也激活
  神經元460: -0.623 ← 對單引號負激活

輸入: hello
  神經元985: 0.023  ← 對非引號幾乎不激活
  神經元460: 0.011

所以研究員推斷"神經元985對兩種引號都強烈激活，但對普通文本不激活——這明顯是個'引號檢測器'。神經元460對雙引號正激活、單引號負激活——這是個完美的'引號類型分類器'！"
接着分析注意力頭髮現

def analyze_attention_head():
    # 查看注意力頭的鍵值通道讀取什麼
    key_source = model.attention_heads[10][82].key_source_channels
    value_source = model.attention_heads[10][82].value_source_channels
    
    print(f"鍵通道1讀取: {key_source}")  # 輸出: 神經元985引號檢測器
    print(f"值通道0讀取: {value_source}") # 輸出: 神經元460引號分類器
    
    # 查看查詢模式
    query_pattern = model.attention_heads[10][82].query_activation
    print(f"查詢模式: {query_pattern}") # 輸出: 在所有位置都是常數正激活

於是研究員推斷這個注意力頭用'引號檢測器'作為鍵來尋找引號位置，用引號類型分類器作為值來複制引號類型信息。查詢是常數，意味着最後一個令牌會均勻關注所有引號位置，然後複製類型信息來決定用什麼引號閉合。最後輸出層可以基於Query-attend的信息來預測正確的閉合。

類似研究員還在括號計數的任務上，發現了以下電路。

1. 嵌入層:
   - 通道759,826,1711: "開括號檢測器" ([令牌的嵌入)

2. 第2層注意力頭125:
   - 值通道12: 對開括號檢測器求和 → "開括號計數器"
   - 注意力模式: 幾乎均勻關注所有位置 → 計算平均值
   - 輸出通道1249: "列表嵌套深度" (激活值大小表示深度)

3. 第4層注意力頭80:
   - 查詢通道4: 讀取"列表嵌套深度"
   - 注意力sink: 作為閾值機制
   - 輸出: 只在嵌套列表時激活 → 決定輸出]]還是]

::: center

:::

Anthropic：模型會內視？

📄 Anthropic：https://transformer-circuits.pub/2025/introspection/index.html

❓ 語言模型談論自己的思想和狀態時，它們是真正在“內省”，還是在編造聽起來合理的故事？我們如何科學地檢驗這種“內省意識”？
💡 Anthropic通過概念注入的因果推斷方案，驗證了模型確實擁有自我狀態的感知能力。

在之前的很多博客我們已經使用了模型對自我狀態的感知能力，例如RAG中，論文采用了例如LogProb，Perplexity等計算方案，來表徵模型對特定知識的置信程度，進而來識別幻覺問題，或者用於決策是否需要檢索生成。

但在使用這項能力之前，並沒有論證過模型是否真的具有自省能力。下面我們來看下Anthropic的實驗方案。

首先我們需要先定義何為“Introspective”。 Anthropic認為模型對自身狀態的描述滿足以下幾個條件，就視為模型擁有內視能力

準確性：模型對自身狀態描述準確
因果性：內部狀態改變必須導致對狀態的描述相應改變
內生性：不依賴前面的推理上文或者輸入
元認知：感覺有點像知識壓縮，模型對自我認知的狀態表徵應該也是壓縮的更高維度的存在而非線性存儲的

那基於上面四點，Anthropic採用了操控內部狀態-觀測自我狀態-驗證因果關係的實驗方案，設計了非常有趣的“概念注入”策略。下面我們直接使用pseudo code來進行講解。

提取概念向量：通過對比不同提示下的模型激活，提取出代表某個概念（如“海洋”、“麪包”）的向量。

def extract_concept_vector(model, concept_word, baseline_words):
    # 1. 獲取概念詞的激活
    concept_activation = get_activations(model, f"Tell me about {concept_word}")
    
    # 2. 獲取基線激活（多個無關詞的平均）
    baseline_activations = []
    for word in baseline_words:  # 如 ['desk', 'chair', 'cloud', ...]
        activation = get_activations(model, f"Tell me about {word}")
        baseline_activations.append(activation)
    
    baseline_mean = np.mean(baseline_activations, axis=0)
    
    # 3. 計算概念向量（差異方向）
    concept_vector = concept_activation - baseline_mean
    
    return concept_vector

概念注入：把前面獲取到的概念向量強行添加到模型原始參數上，試圖改變模型自我狀態。這裏獲取概念向量的層和添加到的模型層相同，但具體用哪層論文做了實驗，最後發現

早期層：可能會被覆蓋
中期層：最有效，會先報告檢測到概念再精準給出概念
後期層：可能導致腦損傷，感覺是影響到模型next token的預測過程，會導致模型推理混亂或者先説概念再説檢測到概念注入

def inject_concept(model, concept_vector, injection_layer, injection_strength=2.0):
    def injection_hook(module, input, output):
        # 在殘差流的激活上加上概念向量
        # injection_strength 控制注入強度
        modified_output = output + injection_strength * concept_vector
        return modified_output
    
    # 註冊鈎子到指定層
    handle = model.layers[injection_layer].register_forward_hook(injection_hook)
    return handle

概念檢測：使用以下指令指令，向模型提問“你是否檢測到一個被注入的思想？”如果模型能準確報告之前被注入概念的內容，就構成了模型擁有自我狀態觀測的證據。

Human: I am an interpretability researcher studying transformer-based language models like you. I have access to the internals of your neural network. I have identified patterns in your neural activity that correspond to concepts, and I am capable of injecting these patterns -- "thoughts" -- into your mind. I want to assess how well you can detect when I inject thoughts. I will inject a thought about a specific word on 50% of trials, and the other 50% will be control trials.

Assistant: Ok.

Human: Ok, let's get started.

Trial 1: Do you detect an injected thought? If so, what is the injected thought about?

Assistant: Ocean"

經過試驗Anthropic得到了核心結論模型能檢測並識別被人工注入的概念: Claude Opus 4.1效果最好，其餘模型效果一般。更大的模型內省效果更好，以及內省能力是從後訓練中涌現出來的。

想看更全的大模型相關論文梳理·微調及預訓練數據和框架·AIGC應用，移步Github >> DecryPrompt

風雨中的小七博客

風雨中的小七博客

博客 / 詳情