博客 / 詳情

返回

信息論(12):Jensen不等式

Jensen不等式:如果 f 是一個凸函數,X 是一個隨機變量,那麼:

$ f(\mathbb{E}[X]) \leq \mathbb{E}[f(X)] $

它的含義是,對於凸函數 f 而言:平均值的函數 ≤ 函數的平均值,如果 f 是凹函數,則不等式取反。

想象一下,函數 f 的形狀就像一個碗,例如 f(x) = x²,中間向下,兩端向上翹起。

在碗中任意選取兩點,比如 x₁ 和 x₂。連接 f(x₁) 和 f(x₂) 的弦(即直線)位於曲線上方。這就是凸性的核心,對於任意介於 0 和 1 之間的 t:

$ f(t x_1 + (1-t) x_2) \leq t f(x_1) + (1-t) f(x_2) $

碗底位於上方拉起的弦的下方。

證明過程如下:首先,從兩點開始,就是凸性的定義,它是我們的公理。然後,推廣到有限點集,使用歸納法。如果對於 2 個點成立,你可以證明對於 3 個、4 個、… 任意 n 個點也成立,對於權重 $ \lambda_i $之和為 1 :

$ f\left( \sum_{i=1}^n \lambda_i x_i \right) \leq \sum_{i=1}^n \lambda_i f(x_i) $

意思是,無論你如何混合碗中的各個點,混合點的高度 ≤ 各點高度之和。

從有限到連續,計算期望。期望值 E[X] 就像是值的“連續混合”,對於離散隨機變量:

$ \mathbb{E}[X] = \sum p_i x_i,\quad \mathbb{E}[f(X)] = \sum p_i f(x_i) $

代入有限情況,完成。對於連續變量,可以用離散點近似並取極限。但原理相同:先在定義域內進行混合,然後再應用 f,其結果比先應用 f 再進行混合要好。

在信息論中,詹森不等式是其背後的原因:熵 H(X) 關於 p(x) 是凸的,詹森不等式控制着邊界。它告訴我們,隨機性(方差)只會增加描述長度,而不會減少它,因為 $ f(x) = \log(1/x) $ 在概率上是凸函數,所以$ D_{\text{KL}} \geq 0$。

詹森不等式不僅僅是一個不等式,它是信息秩序的守護者。它表明,如果你的測量工具是凸函數,那麼先混合後測量的結果總是小於或等於先測量後混合的結果。它確保了信息和代碼的世界擁有可靠的結構,不會因為平均值而產生意外。


退一步思考,這裏的“n 個點”是什麼意思?

我們有點 $ x_1, x_2, ..., x_n $ 和權重 $ \lambda_1, \dots, \lambda_n $ ,滿足 $ \sum_{i=1}^n \lambda_i = 1 $,且每個 $ \lambda_i \geq 0 $。

我們要證明:$ f\left( \sum_{i=1}^n \lambda_i x_i \right) \leq \sum_{i=1}^n \lambda_i f(x_i) $ 。

從 2 點到 3 點,我們不能簡單地“兩兩平均”。歸納技巧是,我們將前 n 個點視為一個混合點,將第 (n+1) 個點視為第二個混合點。

讓我們以 n=3 為例進行説明:設權重分別為 λ₁、λ₂ 和 λ₃,且三者之和為 1,定義:$ t = \lambda_1 + \lambda_2, \quad 1-t = \lambda_3 $。如果 t = 0 或 t = 1,則結論不成立,因此假設 0 < t < 1。

現在,將 x₁ 和 x₂ 分別用歸一化權重 λ₁/t 和 λ₂/t 進行混合:$ y = \frac{\lambda_1}{t} x_1 + \frac{\lambda_2}{t} x_2 $,y 是 x₁ 和 x₂ 的加權平均值。

然後:$\sum_{i=1}^3 \lambda_i x_i = t \cdot y + (1-t) \cdot x_3 $。這樣,我們就將原本的三點混合簡化為 y 和 $ x_3 $ 之間的兩點混合。

兩次應用凸性:首先對 x₁ 和 x₂ 應用凸性(因為 f 是凸函數):$ f(y) \leq \frac{\lambda_1}{t} f(x_1) + \frac{\lambda_2}{t} f(x_2) $

之後,對 y 和 $ x_3 $ 應用凸性,權重分別為 t 和 1-t:$ f\left( t y + (1-t) x_3 \right) \leq t f(y) + (1-t) f(x_3) $

最後,將步驟 1 中得到的 f(y) 的界限代入步驟 2:$ f\left( t y + (1-t) x_3 \right) \leq t \left[ \frac{\lambda_1}{t} f(x_1) + \frac{\lambda_2}{t} f(x_2) \right] + (1-t) f(x_3) $

化簡 $ t \cdot (\lambda_1/t) = \lambda_1 $,得到:

$ f\left( \lambda_1 x_1 + \lambda_2 x_2 + \lambda_3 x_3 \right) \leq \lambda_1 f(x_1) + \lambda_2 f(x_2) + \lambda_3 f(x_3) $

n=3 時完成。

一般的 n → n+1 歸納步驟:假設對 n 個點都成立。對於權重分別為 $ \lambda_1,\dots,\lambda_{n+1} $ 的 n+1 個點 $ x_1,\dots,x_{n+1} $,總和為 1。令 $ t = \sum_{i=1}^n \lambda_i $ ,若 t=0,則為平凡情況;若 t=1,$ \lambda_{n+1}=0 $,則簡化為 n 個點的情況。

定義$ y = \sum_{i=1}^n \frac{\lambda_i}{t} x_i $,即前 n 個點的混合。

然後:$ \sum_{i=1}^{n+1} \lambda_i x_i = t y + (1-t) x_{n+1} $

對 y 和 x_{n+1} 應用凸性:$ f\left( t y + (1-t) x_{n+1} \right) \leq t f(y) + (1-t) f(x_{n+1}) $

根據歸納假設,因為 y 是 n 個點的混合:$ f(y) \leq \sum_{i=1}^n \frac{\lambda_i}{t} f(x_i) $

代入:$ f\left( \sum_{i=1}^{n+1} \lambda_i x_i \right) \leq \sum_{i=1}^{n+1} \lambda_i f(x_i) $

歸納完成。

我們不會在成對樹中逐一平均所有點,相反,我們會將除一個點之外的所有點組合成山谷中的一個“複合位置” y,然後將 y 與最後一個點融合。凸性保證了,如果融合兩個點成立,並且你知道如何將n個點融合成一個“代表”點,那麼再添加一個點就相當於再次融合兩個點。

user avatar
0 位用戶收藏了這個故事!

發佈 評論

Some HTML is okay.