相信多數人都曾經問過老師:樣本標準差和母體標準差的異同為何?通常老師給的標準答案是:樣本標準差少一個維度。想必很多人聽到這答案的表情是六臉矇逼,我當初也是一臉黑人問號。直到上了大學,有了相關知識才理解那句話的意思。這篇文章會用截然不同且淺顯易懂的方式說明樣本標準差和母體標準差的由來。
考慮一獨立同分布隨機過程$\{X_n|n\in\mathbb{N}\cap[1,N]\}$,且其隨機變量服從常態分布$N(\mu,\sigma^2)$,即
$$\left\{\forall n\in\mathbb{N}\cap[1,N]\right\}\left\{f_{X_n}(x_n|\mu,\sigma)=\frac{1}{\sigma\sqrt{2\pi}}\exp\left(-\frac{(x_n-\mu)^2}{2\sigma^2}\right)\right\}$$
。則取得樣本為$\{x_1,x_2,...,x_N\}$之機率為
$$\begin{align}f_{X_1,X_2,\cdots,X_N}(x_1,x_2,\cdots,x_N|\mu,\sigma)&=f_{X_1}(x_1)\cdot f_{X_2}(x_2)\cdot\cdots\cdot f_{X_N}(x_N)\\ &=\left(\frac{1}{\sqrt{2\pi}\sigma}\right)^N\exp\left({-\frac{(x_1-\mu)^2}{2\sigma^2}}-{\frac{(x_2-\mu)^2}{2\sigma^2}}\cdots-{\frac{(x_N-\mu)^2}{2\sigma^2}}\right)\\ &=\left(\frac{1}{\sqrt{2\pi}\sigma}\right)^N\exp\left(-\frac{1}{2\sigma^2}\left(\sum_n x_n^2-2\mu\sum_n x_n+N\mu^2\right)\right)\\ &=\left(\frac{1}{\sqrt{2\pi}\sigma}\right)^N\exp\left(-\frac{1}{2\sigma^2}\left(T_2-2\mu T_1+N\mu^2\right)\right)\end{align}$$
,其中
$$\begin{align}&T_1=\sum_n x_n &,T_2=\sum_n x_n^2\end{align}$$
,而我們要估計的就是$\mu$和$\sigma$。接下來我將用兩種估計方法,分別推導出母體標準差以及樣本標準差。
先從母體標準差的部分開始,因為這部分比較容易。母體標準差是應用最大似然估計( Maximum Likelihood Estimation )得到的結果,最大似然估計是將令似然函數最大化的值採用作估計值,意即
$$\hat{\theta}=\arg\max_\theta f_X(x|\theta)$$
。其中$\theta$是我們要估計的參數,$\hat{\theta}$是估計值,$f_X(x|\theta)$則是條件機率密度函數(或條件機率質量函數)。
將上面的$f_{X_1,X_2,\cdots,X_N}$代入最大似然估計,估計的目標是$\theta=\{\mu,\sigma\}$。為了取得$\mu$的估計值,將$f_{X_1,X_2,\cdots,X_N}$對$\mu$偏微分,以找到能使似然函數最大的$\mu$,
$$\frac{\partial f_{X_1,X_2,\cdots,X_N}(x_1,x_2,\cdots,x_N|\mu,\sigma)}{\partial\mu}=f_{X_1,X_2,\cdots,X_N}(x_1,x_2,\cdots,x_N|\mu,\sigma)\left(-\frac{1}{2\sigma^2}\right)\left(-2T_1+2N\mu\right)\\\rightarrow \left\{\frac{\partial f_{X_1,X_2,\cdots,X_N}(x_1,x_2,\cdots,x_N|\mu,\sigma)}{\partial\mu}=0\right\}\Rightarrow\left\{\mu=\frac{T_1}{N}=\frac{1}{N}\sum_n x_n\right\}$$
接著如法炮製,將$f_{X_1,X_2,\cdots,X_N}$對$\sigma$偏微分,
$$\frac{\partial f_{X_1,X_2,\cdots,X_N}(x_1,x_2,\cdots,x_N|\mu,\sigma)}{\partial\sigma}=f_{X_1,X_2,\cdots,X_N}(x_1,x_2,\cdots,x_N|\mu,\sigma)\left(\frac{-N}{\sigma}+\frac{T_2-2\mu T_1+N\mu^2}{\sigma^3}\right)\\\rightarrow\left\{\frac{\partial f_{X_1,X_2,\cdots,X_N}(x_1,x_2,\cdots,x_N|\mu,\sigma)}{\partial\sigma}=0\right\}\Rightarrow\left\{\sigma=\sqrt{\frac{T_2-2\mu T_1+N\mu^2}{N}}=\sqrt{\frac{\sum_n (x_n-\mu)^2}{N}}\right\}$$
至此我們利用最大似然估計得到了估計結果
$$\begin{align}&\hat{\mu}=\frac{\sum_n x_n}{N}&,\hat{\sigma}=\sqrt{\frac{\sum_n (x_n-\mu)^2}{N}}\end{align}$$
,恰巧為平均數和母體標準差。
剩下樣本標準差,為免篇幅過長,留待《母體標準差?樣本標準差?(下)》贅述。