信息論（12）：Jensen不等式詳情 - AI CathyBryant 博客

Jensen不等式：如果 f 是一個凸函數，X 是一個隨機變量，那麼：

$ f(\mathbb{E}[X]) \leq \mathbb{E}[f(X)] $

它的含義是，對於凸函數 f 而言：平均值的函數 ≤ 函數的平均值，如果 f 是凹函數，則不等式取反。

想象一下，函數 f 的形狀就像一個碗，例如 f(x) = x²，中間向下，兩端向上翹起。

在碗中任意選取兩點，比如 x₁ 和 x₂。連接 f(x₁) 和 f(x₂) 的弦（即直線）位於曲線上方。這就是凸性的核心，對於任意介於 0 和 1 之間的 t：

$ f(t x_1 + (1-t) x_2) \leq t f(x_1) + (1-t) f(x_2) $

碗底位於上方拉起的弦的下方。

證明過程如下：首先，從兩點開始，就是凸性的定義，它是我們的公理。然後，推廣到有限點集，使用歸納法。如果對於 2 個點成立，你可以證明對於 3 個、4 個、… 任意 n 個點也成立，對於權重 $ \lambda_i $之和為 1 ：

$ f\left( \sum_{i=1}^n \lambda_i x_i \right) \leq \sum_{i=1}^n \lambda_i f(x_i) $

意思是，無論你如何混合碗中的各個點，混合點的高度 ≤ 各點高度之和。

從有限到連續，計算期望。期望值 E[X] 就像是值的“連續混合”，對於離散隨機變量：

$ \mathbb{E}[X] = \sum p_i x_i,\quad \mathbb{E}[f(X)] = \sum p_i f(x_i) $

代入有限情況，完成。對於連續變量，可以用離散點近似並取極限。但原理相同：先在定義域內進行混合，然後再應用 f，其結果比先應用 f 再進行混合要好。

在信息論中，詹森不等式是其背後的原因：熵 H(X) 關於 p(x) 是凸的，詹森不等式控制着邊界。它告訴我們，隨機性（方差）只會增加描述長度，而不會減少它，因為 $ f(x) = \log(1/x) $ 在概率上是凸函數，所以$ D_{\text{KL}} \geq 0$。

詹森不等式不僅僅是一個不等式，它是信息秩序的守護者。它表明，如果你的測量工具是凸函數，那麼先混合後測量的結果總是小於或等於先測量後混合的結果。它確保了信息和代碼的世界擁有可靠的結構，不會因為平均值而產生意外。

退一步思考，這裏的“n 個點”是什麼意思？

我們有點 $ x_1, x_2, ..., x_n $ 和權重 $ \lambda_1, \dots, \lambda_n $ ，滿足 $ \sum_{i=1}^n \lambda_i = 1 $，且每個 $ \lambda_i \geq 0 $。

我們要證明：$ f\left( \sum_{i=1}^n \lambda_i x_i \right) \leq \sum_{i=1}^n \lambda_i f(x_i) $ 。

從 2 點到 3 點，我們不能簡單地“兩兩平均”。歸納技巧是，我們將前 n 個點視為一個混合點，將第 (n+1) 個點視為第二個混合點。

讓我們以 n=3 為例進行説明：設權重分別為 λ₁、λ₂ 和 λ₃，且三者之和為 1，定義：$ t = \lambda_1 + \lambda_2, \quad 1-t = \lambda_3 $。如果 t = 0 或 t = 1，則結論不成立，因此假設 0 < t < 1。

現在，將 x₁ 和 x₂ 分別用歸一化權重 λ₁/t 和 λ₂/t 進行混合：$ y = \frac{\lambda_1}{t} x_1 + \frac{\lambda_2}{t} x_2 $，y 是 x₁ 和 x₂ 的加權平均值。

然後：$\sum_{i=1}^3 \lambda_i x_i = t \cdot y + (1-t) \cdot x_3 $。這樣，我們就將原本的三點混合簡化為 y 和 $ x_3 $ 之間的兩點混合。

兩次應用凸性：首先對 x₁ 和 x₂ 應用凸性（因為 f 是凸函數）：$ f(y) \leq \frac{\lambda_1}{t} f(x_1) + \frac{\lambda_2}{t} f(x_2) $

之後，對 y 和 $ x_3 $ 應用凸性，權重分別為 t 和 1-t：$ f\left( t y + (1-t) x_3 \right) \leq t f(y) + (1-t) f(x_3) $

最後，將步驟 1 中得到的 f(y) 的界限代入步驟 2：$ f\left( t y + (1-t) x_3 \right) \leq t \left[ \frac{\lambda_1}{t} f(x_1) + \frac{\lambda_2}{t} f(x_2) \right] + (1-t) f(x_3) $

化簡 $ t \cdot (\lambda_1/t) = \lambda_1 $，得到：

$ f\left( \lambda_1 x_1 + \lambda_2 x_2 + \lambda_3 x_3 \right) \leq \lambda_1 f(x_1) + \lambda_2 f(x_2) + \lambda_3 f(x_3) $

n=3 時完成。

一般的 n → n+1 歸納步驟：假設對 n 個點都成立。對於權重分別為 $ \lambda_1,\dots,\lambda_{n+1} $ 的 n+1 個點 $ x_1,\dots,x_{n+1} $，總和為 1。令 $ t = \sum_{i=1}^n \lambda_i $ ，若 t=0，則為平凡情況；若 t=1，$ \lambda_{n+1}=0 $，則簡化為 n 個點的情況。

定義$ y = \sum_{i=1}^n \frac{\lambda_i}{t} x_i $，即前 n 個點的混合。

然後：$ \sum_{i=1}^{n+1} \lambda_i x_i = t y + (1-t) x_{n+1} $

對 y 和 x_{n+1} 應用凸性：$ f\left( t y + (1-t) x_{n+1} \right) \leq t f(y) + (1-t) f(x_{n+1}) $

根據歸納假設，因為 y 是 n 個點的混合：$ f(y) \leq \sum_{i=1}^n \frac{\lambda_i}{t} f(x_i) $

代入：$ f\left( \sum_{i=1}^{n+1} \lambda_i x_i \right) \leq \sum_{i=1}^{n+1} \lambda_i f(x_i) $

歸納完成。

我們不會在成對樹中逐一平均所有點，相反，我們會將除一個點之外的所有點組合成山谷中的一個“複合位置” y，然後將 y 與最後一個點融合。凸性保證了，如果融合兩個點成立，並且你知道如何將n個點融合成一個“代表”點，那麼再添加一個點就相當於再次融合兩個點。

CathyBryant 博客

CathyBryant 博客

博客 / 詳情

信息論（12）：Jensen不等式

發佈評論

Product

Company

Support

Company

博客 / 詳情

信息論（12）：Jensen不等式

發佈 評論

發佈評論