close

先考慮個簡單的例子,以下是Howard Marks所著《有關投資與人生最重要的事》的其中一頁:

未命名.png

。Howard Marks舉了個很生活化的例子:「以氣象預報人員為例,他說明天下雨的機率是70%。明天果然下雨了;他的預報是對或錯?或者明天沒有下雨;他的預報是對或錯?」

 

在此介紹一種機率公理下常用的測度:KL散度Kullback-Leibler divergence),或稱相對熵。其定義及特性就不贅述了,Wiki寫的非常清楚,此文僅示範如何應用於Howard Marks所舉的例子。

 

令$X$為一隨機變量,其樣本空間為$\{0,1\}$,且

$$X=\begin{cases}0&,明天沒下雨\\1&,明天有下雨\end{cases}$$

。令$f_X$為氣象預報人員的預測,即

$$f_X(x)=\begin{cases}0.7&,x=1\\0.3&,x=0\end{cases}$$

;再令$g_X$為真實的機率質量函數,由於結果是「明天有下雨」,故

$$g_X(x)=\begin{cases}1&,x=1\\0&,x=0\end{cases}$$

。接著就可以計算氣象預報人員的預測$f_X$對於真實情況$g_X$的相對熵

$$\begin{align}D_{KL}(g_X||f_X)&=g_X(0)\ln\frac{g_X(0)}{f_X(0)}+g_X(1)\ln\frac{g_X(1)}{f_X(1)}\\&=0\cdot\ln\frac{0}{0.3}+1\cdot\ln\frac{1}{0.7}\\&=\ln\frac{1}{0.7}\doteqdot 0.356675\end{align}$$

,即為此次天氣預報人員的預報和真實情況的誤差。

  • 注意,雖然用「誤差」可以讓人更具體的理解KL散度,卻也容易使人忘記$D_{KL}(g_X||f_X)\neq D_{KL}(f_X||g_X)$。

 

至此我們計算出了誤差,但我們如何判斷這樣的誤差算大還是小?每個人的標準都不同,例如可以和均勻分布相比,或是和真實情況的機率分布的資訊熵相比。在這例子中,由於估測的目標不是機率分布,而是出像,所以和均勻分布相比是比較合適的。令$h_X$為均勻分布的機率質量函數,即

$$h_X(x)=\begin{cases}0.5&,x=1\\0.5&,x=0\end{cases}$$

。則

$$\begin{align}D_{KL}(g_X||h_X)&=g_X(0)\ln\frac{g_X(0)}{h_X(0)}+g_X(1)\ln\frac{g_X(1)}{h_X(1)}\\&=0\cdot\ln\frac{0}{0.5}+1\cdot\ln\frac{1}{0.5}\\&=\ln 2\doteqdot 0.693147\end{align}$$

  • 上文只提到和均勻分布相比,卻沒有提到是和均勻分布的估測誤差相比還是和均勻分布的資訊熵相比,原因在於兩者的值恰巧是一樣的。
  • 這裡提到的相對熵指的是Shannon Information,切勿和費雪信息Fisher Information)搞混。

 

單論這次估測,氣象預報人員的估測誤差和擲公正硬幣相比,其相對熵只有大約一半而已。若能取得更多次的預報記錄,就可以計算出天氣預報人員估測誤差的統計特性,諸如平均、標準差等。

 

 

附註:若看了Wiki仍舊有疑問,歡迎留言提出問題。

arrow
arrow
    全站熱搜
    創作者介紹
    創作者 潔旻 的頭像
    潔旻

    笨潔旻畫蝴蘭

    潔旻 發表在 痞客邦 留言(0) 人氣()