為什麼樣本標準差要除以 n-1?
眾所周知,標準差是離均差的方均根,取平均時的分母自然是數據的數量 \(n\),但這個標準差只限於用在計算母體,抽樣後計算樣本標準差時卻要改成除以 \(n-1\),這是為什麼呢?
本文將以兩種方式來說明,第一種方法比較容易理解但也較不嚴謹,第二種則涉及較多數學運算,但可以彌補第一種的缺失,提供更明確的佐證。
附上樣本標準差的公式:
\[
s = \sqrt{\vphantom{\displaystyle\sum_{i=1}^n}
\frac{\displaystyle\sum\limits_{i=1}^{n}\left(X_i-\overline{X}\right)^{2}}{n-1}}
\]
從自由度的角度來看
什麼是「自由度(degree of freedom)」?自由度一詞在許多領域都有,這裡是指統計學上數據的自由度,意思是一個樣本中其數值能夠自由變動的數據個數。
我們先看母體標準差的公式:
\[
\sigma = \sqrt{\vphantom{\displaystyle\sum_{i=1}^n}
\frac{\displaystyle\sum\limits_{i=1}^{n}\left(x_i-\mu\right)^{2}}{n}}
\]
公式將所有數據和平均的差異加總(平方是為了確保其恆正,最後再開根號修正單位),並平均分配給 \(n\) 個數據。換個角度來看,每個數據偏移平均的量有大有小,標準差就是將數據偏離平均 \(\mu\) 的程度平均分散給所有數據,因此達到呈現出「平均的數據差異程度」、「平均的差距」的效果。
順便提醒一個小細節,慣用上會將隨機變數用大寫字母表示,小寫的會是指(母體的)固定數值,所以在前面的樣本標準差的公式中會將抽樣出的隨機的數值用 \(X_i\),在母體標準差公式中則用 \(x_i\)。
當進行抽樣時,我們會期望樣本的行為和母體一樣,這樣這個樣本才有足夠的代表性,來作為母體的縮影。而在計算標準差前必須知道平均是多少才有辦法計算離均差,我們當然也不知道母體的平均 \(\mu\),所以估計樣本平均 \(\overline{X}\) 會和母體平均 \(\mu\) 相差不多。就像我們做民調時,也是預期隨機抽出的部份人民的結果,會呈現出全體人民的意志(畢竟做普查的成本太高,只好參考抽樣結果)。
所以用 \(\overline{X}\) 來估計 \(\mu\),公式中原本 \(\mu\) 的位置被 \(\overline{X}\) 取代。
可是明明抽樣是隨機的,如果我們又擅自將 \(\overline{X}\) 定為 \(\mu\),強制這個樣本成為母體的縮影,那麼相較於原本以獨立於這組數據的 \(\mu\) 為基準,這樣本相當於反過來讓數據變得沒那麼隨機、不自由。可以想像當我們抽了第 \(1, 2, 3, …, n-1\) 個數據後,如果 \(\overline{X}\) 可以等於 \(\mu\),相當於第 \(n\) 個數據必須要很神奇地是某個特定值(雖然事實上當然不會),如此才會滿足我們原先對 \(\overline{X}\) 的期待。還是不太理解的話可以想像 \(n=2\) 這種極端情況,當你將兩數據的平均訂為真值,可能的誤差就只能來自其一,因為另一數是多少已經同時被它確定了(不自由),相加除以二之後才會是這個真值,不是嗎?
現在要來計算標準差,一樣我們期望可以從樣本的標準差來推估母體,所以計算樣本的每個數據的離均差(這裡的「均」當然是指 \(\overline{X}\)),進行平方加總後就可以得到總共的差距,然後要將這個總差距平均分散給所有數據⋯⋯?
欸?可是並不是每個數據都能夠自由變動,獨立於其他數據,這樣還把誤差分給所有 \(n\) 個數據還合理嗎?因為我們是拿樣本來推估母體,可以將每個數據的離均差想成是它和平均 \(\overline{X}\) 之間的誤差,而又因為我們對 \(\overline{X}\) 的期望,其中至少要有 \(1\) 個數據為了要使 \(\overline{X}\) 等於 \(\mu\),它的值會由其他數據決定,那麼它和平均的差距當然也是,所以它的離均差其實是來自於其他 \(n-1\) 個數據,並不是這數據獨立造成。
簡言之,為了滿足原先對 \(\overline{X}\) 的期待,至少其中 \(1\) 個數據必須受限,合理化這個估計本身;或者反過來說,因為我們進行了估計,所以會期望至少有 \(1\) 個數據是受限的,統計學上用「自由度少了 \(1\) 」來描述這個概念。
因此計算樣本標準差 \(s\) 時就必須把總共的誤差只分配給 \(n-1\) 個數據,不只是不違背我們期望的數據行為,除以一個較小的數讓 \(s\) 稍微大一點,這樣估計也更加保守,而且也不用減 \(2\) 或減 \(3\) 等更大的數,減 \(1\) 已足夠。
不知道看到這裡是否有注意到,這樣計算出的結果本質上其實不是「樣本的標準差」,而只是一個我們給出的適合樣本的標準差公式,目的是為了做出適當的估計。這樣的估計方法在統計學上稱為「點估計(point estimation)」,因為這只用單一數值來估計實際值,有別於「區間估計(interval estimation)」是用一段區間來進行估計,例如信賴區間就屬此類。
樣本標準差 \(s\) 其實不是「樣本的標準差」,而是適合給樣本用來估計母體標準差 \(\sigma\) 的計算公式。
意識到了這件事之後,應該就能明白為何原本會對除以 \(n-1\) 這件事感到莫名其妙了,因為它根本不是在算樣本本身的標準差啊。
從不偏估計量的角度來看
看完上面的論述後,應該會有一種好像有道理但又不太確定的感覺吧?我們要怎麼比較嚴謹地確定這樣的估計是妥當的呢?這就必須要介紹所謂的「不偏估計量(unbiased estimator)」。如果一個用於點估計的統計量,它的所有可能值的平均會等於實際值,這樣的估計就是「不偏的(unbiased)」,而這統計量就可以稱為不偏估計量。
「所有可能值的平均」?這個概念不就是期望值嗎?所以我前面才不斷使用「期望」這個字眼來敘述。
一般大家對期望值的印象應該是加權平均吧,而且如果當所有數據取到的機率相同,那期望值就是算術平均:
\[ \displaystyle E(X) = \mu \]
從母體中隨機抽出的第 \(i\) 個數據 \(X_i\),重複抽取很多次之後,這些抽出的值會很接近母體平均 \(\mu\),直到取到全部的可能值,取平均當然就是 \(\mu\),而其實這個 \(\mu\) 正是我們對 \(X_i\) 的期望:如果取夠多次的話它就會接近平均(畢竟實際上要取完母體的所有數據往往不切實際)。
如果一個統計量做的估計是合理的、不偏的,我們就可以期望如果重複進行這樣的抽樣估計,直到所有可能值都被取過後,這些值的平均就會等於我們的期望。
利用這樣的道理,以下先來算樣本平均 \(\overline{X}\) 的期望值,檢驗看看用 \(\overline{X}\) 來估計 \(\mu\) 是否是妥當的,或者是說「不偏的」:
\[
\begin{align*}
E\left(\overline{X}\right) &=E \left( \frac{X_1+X_2+\dots +X_n}{n} \right) \\
&=\frac{1}{n}\cdot E\left(X_1+X_2+\dots+X_n\right)\\
&=\frac{1}{n}\cdot \left(E\left(X_1\right)+E\left(X_2\right)+\dots+E\left(X_n\right)\right)\\
&=\frac{1}{n}\cdot n\mu\\
&=\mu
\end{align*}
\]
關於期望值的性質可以看文末的附錄,隨機變數相加的期望值可以拆開成各自的期望值相加。
由上面的推導可知,不只是單一數據 \(X_i\) 的期望值會是 \(\mu\),一次取 \(n\) 個數據算出的平均 \(\overline{X}\) 的期望值也是,所以 \(\overline{X}\) 的確是 \(\mu\) 的不偏估計量。
同樣道理,那麼樣本標準差 \(s\) 的期望值為何?我們一般會很直覺地認為應該和母體標準差公式一樣,也就是分母要除以 \(n\),所以以下我將分母寫成 \(n\),來看看會發生什麼事,但為了計算方便以下改求變異數:
\[
\begin{align*}
E(s^2)&=E\left(\frac{1}{n}\cdot \displaystyle{\sum_{i=1}^{n}\left(X_i-\overline{X}\right)^2}\right)\\
&=\frac{1}{n}\cdot E\left(\sum_{i=1}^{n}X_i^2-2\overline{X}\sum_{i=1}^{n}X_i +\sum_{i=1}^{n}\overline{X}^2 \right)\\
&=\frac{1}{n}\cdot E\left(\sum_{i=1}^{n}X_i^2-2\overline{X}\cdot n\overline{X} +n\overline{X}^2 \right)\\
&=\frac{1}{n}\cdot E\left(\sum_{i=1}^{n}X_i^2-n\overline{X}^2 \right)\\
&=\frac{1}{n}\cdot \left(nE\left(X^2\right)-nE\left(\overline{X}^2\right) \right)\\
&=E\left(X^2\right)-E\left(\overline{X}^2\right)\\
&=\left(\mu^2+\sigma^2\right)-\left(\mu^2+\frac{\sigma^2}{n}\right)\\
&=\frac{\left(n-1\right)}{n}\cdot \sigma^2
\end{align*}
\]
關於倒數第二行,只是變異數的定義移項整理後常用的等式,\(E\left(X^2\right)=E\left(X\right)^2+\mathrm{Var}\left(X\right)\),或者對高中程度的讀者來說,\(\displaystyle{\sum_{i=1}^{n}}x_i^2=n\mu^2+n\sigma^2\) 應該會是你更熟悉的形式;至於後者 \(\overline{X}\) 的期望值在前面已經證明過了(這和他是 \(\mu\) 的不偏估計是同一件事),變異數則也可以輕易證明如下:
\[
\mathrm{Var}\left(\overline{X}\right)=\frac{1}{n^2}\cdot \mathrm{Var}\left(\sum_{i=1}^{n}X_i\right)=\frac{1}{n^2}\cdot n\mathrm{Var}\left(X\right)=\frac{\mathrm{Var}\left(X\right)}{n}=\frac{\sigma^2}{n}
\]
這兩個結果和「中央極限定理」會用到的抽樣分布息息相關,更多內容可以介紹參考這篇文章。
於是從上面的推導可以發現,關鍵在於「樣本平均」的變異數(或標準差)的存在,才導致最後的結果不會是單純的 \(\sigma^2\)。那麼為什麼 \(\mathrm{Var}(\overline{X})\ne 0\)?這不是理所當然嗎?因為 \(\overline{X}\) 就是抽樣得到的,幾乎總是和 \(\mu\) 有差異,即便可能有某一次抽樣運氣好到 \(\overline{X}=\mu\),但我們在討論的是長期下來的期望值與變異數,在樣本不等同母體時(\(n\) 仍小於母體大小時)就必然存在差異,\(\overline{X}\) 肯定平均而言和 \(\mu\) 有偏差,甚至你本就可以預期,上面未經修正的 \(s^2\) 肯定會小於 \(\sigma^2\),因為樣本小於母體,你會算到的離均差多半也更集中在更小範圍內不是嗎?
如果一開始將分母除以 \(n-1\),以上推導過程最外面提出的就會是 \(\displaystyle{\frac{1}{n-1}}\),就剛好抵銷了這個失準的估計,並得到 \(E(s^2)=\sigma^2\) 的結果,所以樣本變異數 \(s^2\) 的公式改成除以 \(n-1\),才會是 \(\sigma^2\) 的不偏估計量。這個校正被稱為「貝索校正(Bessel’s correction)」,紀念 19 世紀初的普魯士天文學家 Friedrich Wilhelm Bessel 的使用,但確切的最早使用紀錄其實是 1823 年的德國數學家高斯(Carl Friedrich Gauß),或許是因為以高斯為名的東西實在太多了所以還是冠以 Bessel 的名字。
回顧一下用自由度的角度解釋的部分,你會發現那種好似預期數據會自我修正、自圓其說的原因,就來自長期下來樣本的綜合表現終將趨近母體的這個事實。
未竟之處?
以上的論述看似合理地來到了我們在課本上最終看到的結果,但不知是否有人注意到這其中仍有瑕疵?
首先最明顯的應該就是:樣本變異數的期望值難道會等同樣本標準差的期望值?\(E\left(\sqrt{s^2}\right)\) 和 \(\sqrt{E\left(s^2\right)}\) 有相等嗎?更白話一點舉例的話,\(3\) 和 \(5\) 的平均,難道等於 \(3^2\) 和 \(5^2\) 的平均開根號嗎?顯然沒有。那何以將變異數的不偏估計拿來說明標準差也是不偏估計?
所以其實還有別的校正版本,也有各自的其他理由,但這些努力真的有意義嗎?
試著反思一下,要求估計的「不偏」真的好嗎?真的有達到我們想要的效果嗎?我們的終極目標是可以利用樣本的數據來得到可以盡量等於母體標準差的統計量,但不偏估計確保的是期望值,只是在長期下來的理想上會達到這個目標,然而現實是我們的抽樣次數總是有限甚至少量的,「不偏」並不保證個別抽樣的結果良好,甚至也可能因為數值的極端,連大多數的抽樣都無法保證。
舉個例子,對於含有 \(99\) 個 \(1\) 和 \(1\) 個 \(10001\) 這些共 \(100\) 個數據的母體,平均是 \(101\),但是你對他抽樣得到的數據卻有 \(99%\) 會得到 \(1\),稍微去算一下母體標準差會是大概 \(995\),但你抽的樣本卻很可能都是滿滿的 \(1\),然後計算經 Bessel 校正的樣本變異數得到 \(0\)。是的,這公式會是不偏估計,但這組樣本實際上卻「偏」大了,而且你還很可能總是取到這種樣本,只是因為有那個爆大的值在讓你長期下來會不偏,那這樣的「不偏」有什麼實際效益嗎?這實在有待商榷。
總之,這種點估計的操作在計算上方便但問題其實依然不少,本文就只先帶到這裡,剩下的課題請讀者自行去往統計學更深處探索了,關於本次的主題先就此打住。
附錄:期望值與變異數的性質
因為不偏估計量的推導過程用到了一些性質,在這裡補充說明一下,對於任意隨機變數 \(X\) 和 \(Y\),以及實數 \(a\) 和 \(b\):
\[
\begin{align*}
E(aX+b) &=aE(X)+b \\
E(X+Y)&=E(X)+E(Y)\\
\mathrm{Var}(aX+b)&=a^2 \mathrm{Var}(X)
\end{align*}
\]
注意到第二條的 \(X\) 和 \(Y\) 兩隨機變數不需要互相獨立,所以在內文的推導過程中可以直接展開 \(E(X_1+X_2+\dots)\)。順帶一提,如果獨立的話還會滿足以下性質:
\[
\begin{align*}
E(XY) &= E(X)\cdot E(Y)\\
\mathrm{Var}(X+Y) &= \mathrm{Var}(X)+\mathrm{Var}(Y)
\end{align*}
\]
\(\mathrm{Var}(XY)\) 則不能拆成各自的變異數相乘。對於這些性質的推導有興趣的讀者可以去翻閱數理統計或機率論相關的課本,或是網路上也已有許多證明可以參考。
參考資料
- Theoria combinationis observationum erroribus minimis obnoxiae: pars posterior.
C. F. Gauss|1873|Carl Friedrich Gauss Werke, 5, 29-53.
1873 年出版的 Carl Friedrich Gauss Werke(高斯全集)第五卷的第二篇文章,撰於 1823 年。
