接續《母體標準差?樣本標準差?(上)》,此篇繼續講解樣本標準差的由來。首先複習上篇考慮的例子,
$$\begin{align}f_{X_1,X_2,\cdots,X_N}(x_1,x_2,\cdots,x_N|\mu,\sigma)&=f_{X_1}(x_1)\cdot f_{X_2}(x_2)\cdots f_{X_N}(x_N)\\
&=\left(\frac{1}{\sqrt{2\pi}\sigma}\right)^N\exp\left({-\frac{(x_1-\mu)^2}{2\sigma^2}}-{\frac{(x_2-\mu)^2}{2\sigma^2}}\cdots-{\frac{(x_N-\mu)^2}{2\sigma^2}}\right)\\
&=\left(\frac{1}{\sqrt{2\pi}\sigma}\right)^N\exp\left(-\frac{1}{2\sigma^2}\left(\sum_n x_n^2-2\mu\sum_n x_n+N\mu^2\right)\right)\\&=\left(\frac{1}{\sqrt{2\pi}\sigma}\right)^N\exp\left(-\frac{1}{2\sigma^2}\left(T_2-2\mu T_1+N\mu^2\right)\right)\end{align}$$
,其中
$$\begin{align}&T_1=\sum_n x_n&,T_2=\sum_n x_n^2\end{align}$$
,$\mu$和$\sigma$是我們要估計的參數。
樣本標準差源自最小方差無偏估計( Minimum-Variance Unbiased Estimator),無偏估計的意思是估計值和實際值之間誤差的期望值為0,最小方差的意思則是將誤差的變異數最小化。綜上所述,最小方差無偏估計顧名思義就是在其估計值能使誤差期望值為0的情況下,同時能有最小的誤差變異數。
為了求得最小方差無偏估計,首先要瞭解什麼是充分統計量(Sufficient Statistic)。在此直接引用Wiki的解釋: 「沒有任何其他可以從同一樣本中計算得出的統計量可以提供任何有關未知參數的額外信息」。另外,也可參考我的文章《充分統計量(Sufficient Statistic)》,內容涵蓋了接下來用到的所有定理,而且比Wiki的說明要易懂許多。
根據Fisher–Neyman Factorization Theorem,$T_1$及$T_2$恰巧就是$\{X_n\}$充分統計量。接著分別計算$T_1$和$T_2$的期望值,
$$\begin{align}E(T_1)&=E\left(\sum_n X_n\right)=N\mu\\E(T_2)&=E\left(\sum_n X_n^2\right)=\sum_n (\mu^2+\sigma^2)=N(\mu^2+\sigma^2)\end{align}$$
。最後利用Lehmann–Scheffé Theorem以求最小方差無偏估計$\hat{\mu}$和$\hat{\sigma}$,令
$$\begin{align}h_\mu&=\frac{T_1}{N}\\h_\sigma&=\sqrt{\frac{T_2}{N}-\left(\frac{T_1}{N}\right)^2}\end{align}$$
。再分別對$h_\mu$及$h_\sigma$求期望值,這些操作的目的都是為了湊出無偏估計以滿足Lehmann–Scheffé Theorem的條件,
$$\begin{align}E(h_\mu)&=E\left(\frac{T_1}{N}\right)=E\left(\frac{\sum_n x_n}{N}\right)=\mu\\E(h_\sigma^2)&=E\left(\frac{T_2}{N}-\left(\frac{T_1}{N}\right)^2\right)\\&=\frac{E\left(\sum_n X_n^2\right)}{N}-E\left(\frac{\left(\sum_n X_n\right)}{N}\right)^2\\
&=\mu^2+\sigma^2-\frac{1}{N^2}E\left(\sum_n X_n^2+\sum_{i\neq j} X_i X_j\right)\\
&=\mu^2+\sigma^2-\frac{1}{N^2}\left(N(\mu^2+\sigma^2)+N(N-1)\mu^2\right)\\
&=\mu^2+\sigma^2-\frac{1}{N^2}\left(N\sigma^2+N^2\mu^2\right)=\left(1-\frac{1}{N}\right)\sigma^2\end{align}$$
。至此終於得到我們要的$\hat{\mu}$和$\hat{\sigma}$,
$$\begin{align}\hat{\mu}&=h_\mu=\frac{1}{N}\sum_n x_n\\\hat{\sigma}&=\sqrt{\frac{N}{N-1}}h_\sigma=\sqrt{\frac{N}{N-1}}\sqrt{\frac{T_2}{N}-\left(\frac{T_1}{N}\right)^2}\\&=\sqrt{\frac{1}{N-1}\left(\sum_n X_n^2-\frac{1}{N}\left(\sum_n X_n\right)^2\right)}\\
&=\sqrt{\frac{1}{N-1}\sum_n \left(X_n-\frac{1}{N}\sum_n X_n\right)^2}\end{align}$$
,恰巧就是平均值和樣本標準差。