為什麼信心水準不是機率?
如果要用一句話概括統計學,我想可以說是「用局部推估全部的一門學問」。因為實際上我們要探討的對象的數目往往非常大,要獲得母體全部的數據幾乎是不可能的,只能用抽樣的方式來估計母體的真實情況。真要說的話,這還真是在「以偏概全」,但統計學可以用嚴謹的方式來說明如何精準地用「偏」來描述「全」,並妥當地分析這件事的可靠程度,讓我們可以知道該對它投以多大的信任。本文要探討的就是其中一個很多統計學初學者會有疑惑的概念:信賴區間與信心水準。
大部分的統計數據呈現,像是人口調查、民調等等,都會利用抽樣來推估真實值,並在抽樣的結果附近加上一段信賴區間,可以簡單理解為誤差範圍(如果涉及統計推論則會呈現 \(p\) 值)。那個範圍會有他對應的信心水準,但很多人將其理解為「真實值落在這個範圍內的機率」,然而這其實是錯誤的。
我之前在網路上幫高中生解題多年(雖然現在 108 課綱把信賴區間刪掉了),發現造成這樣錯誤解讀的根本原因是大家對於「抽樣分佈」,也就是 \(\overline{X}\)(樣本平均)的機率分布的理解不正確導致,以下就從這點開始解釋。
什麼是抽樣分布?
假設今天我們對一個母體(比方說全台灣的人口)進行抽樣,母體的平均和標準差是 \(\mu\) 和 \(\sigma\)(這兩個我們當然不知道是多少),且每次抽樣取 \(n\) 個樣本,抽完之後放回再重抽。第一次抽樣得到 \(n\) 個數據,然後算它的平均,就會得到第一次的樣本平均 \(\overline{X}_1\),然後再進行第二次抽樣,也是抽 \(n\) 個數據,得到第二次的 \(\overline{X}_2\),以此類推,直到從母體抽出這種 \(n\) 個樣本的組合的所有可能都抽完。很明顯每一次的 \(\overline{X}_i\) 幾乎都不同,因為每次抽樣得到的樣本是隨機的。
注意一下 \(n\) 不是抽樣的次數,而是每次抽樣的樣本數。總共抽樣幾次得看母體有多大,有多少可能抽出的組合,造成各種可能的 \(\overline{X}\) 值,最後當所有的 \(\overline{X}\) 值都抽到了,也有了抽到這個值的次數,就可以知道得到各個 \(\overline{X}\) 值發生的機率,所以 \(\overline{X}\) 是隨機變數。我們將這個機率分布畫出來,橫軸是 \(\overline{X}\) 的各種可能值,縱軸是它發生的機率,這就是「抽樣分佈(sample distribution)」。
更嚴謹的說法(各位的課本通常會有的說法)其實應該要是這個抽樣的次數要趨近無限次,這是因為理論上我們討論的母體可能是連續變數(不像我前面讓讀者想像的只能是整數的人口數),或是母體大小趨近無窮大(例如人口數趨近無窮),那麼選取的樣本組合的可能數當然也趨近無窮,也是因此才可能真正抽到連續的各種 \(\overline{X}\) 的值,於是這時我們可以直接說抽樣次數趨近無窮就能確保形成連續的 \(\overline{X}\) 值。只是我這裡為了方便讀者具體想像,描述成母體大小有限且離散的情況。
你可能想說,我們怎麼可能抽完母體的所有抽樣可能?如果母體是全台灣 2300 萬人,我每次抽樣 10 人,抽樣的可能數(\(C^{23000000}_{10}\))大概是 \(1.14 \times 10^{67} \),這最好抽得完?不是的,我們現在根本還沒實際進行抽樣,以上都是在抽樣前,對於抽樣這件事所進行的事前分析,當你看清了這點,應該就想通抽樣分佈是什麼了。
中央極限定理
接著,統計學家分析這個抽樣分佈的性質得到了「中央極限定理(central limit theorem, CLT)」,證明有點複雜所以通常教科書只會寫以下結論:
- 抽樣分佈的平均正好是母體平均 \(\mu\)。
- 抽樣分佈的標準差是母體標準差除以 \(\sqrt{n}\),即 \(\dfrac{\sigma}{\sqrt{n}}\)。
- 如果 \(n\) 夠大的話,抽樣分佈會接近常態分佈(normal distribution)。

稍微分析一下這結果:第三條說這分佈會呈現出鐘型曲線,可見這分佈的平均大概在中央最高峰處,而且第一條告訴你它等於母體平均,也就是說樣本平均和母體平均相同的機率超高,這相當直觀;第二條則說明了抽出的樣本平均之間的差異程度,比單獨觀測母體的各個值的差異程度還小(因為 \(n\) 是正整數),這也很好理解,畢竟你觀察了更多值,只是證明就是個大工程了。
再次強調 \(n\) 是每次抽樣的樣本數,而且你應該已經注意到,如果 \(n\) 越大,抽樣分布的標準差 \(\sigma/\sqrt{n}\) 會趨近 \(0\)!這意味著如果你每次抽超多樣本的話,每次得到的 \(\overline{X}\) 會幾乎沒有差異,而且肯定都非常接近 \(\mu\)(也就是說這時常態分布的鐘型曲線會幾乎往中央靠攏)。你也可以想像最極端的情況:當 \(n\) 幾乎等於母體大小時(當然前提是母體有限大),你的這個「樣本」根本就是母體,樣本平均當然要是母體平均,且每次抽這樣的樣本得到的結果根本幾乎一樣!(不過這樣也就不能說是在抽樣而是普查了)
另外再注意一個細節,原本母體的數據可以是隨便任何種類的分佈(高中的話就是拿二項分布當母體),但 \(\overline{X}\) 的機率分佈是常態分佈,這兩者所描述的對象完全不同!不論母體是何種分佈,他的平均值 \(\sigma\) 都是一個固定數值,而現在這裡討論的是另一個架空的模型(抽樣分佈)的數值(樣本平均 \(\overline{X}\))和 \(\sigma\) 這個數值的關聯,然後根據中央極限定理,這個抽樣分佈在 \(n\) 夠大時會呈現常態分佈,跟母體的分佈從頭到尾都無關喔。
抽樣分佈是實際抽樣前對 \(\overline{X}\) 的機率分析,並由中央極限定理說明其性質。
數據的標準化:z 分數
從中央極限定理知道抽樣分佈是常態分佈,為了方便透過查表來計算,統計學常把數據標準化,將原始數據扣掉平均,再除以標準差,這樣平均就平移到 \(0\),標準差則伸縮成 \(1\),這東西就是「\(z\) 分數(\(z\)-score)」。中央極限定理也已經告訴你抽樣分佈的平均和標準差是多少,則公式如下:
\[ z=\dfrac{\overline{X}-\mu}{\sigma/\sqrt{n}} \]
當機率分佈橫軸的隨機變數標準化後,一切就好辦了,例如如果我想求抽樣得到的 \(\overline{X}\) 換算成 \(z\) 分數後,這個值落在標準化後的數據中央的平均值(其值為 \(0\))往左右展開一個標準差(加減 \(1\))的機率,那就將這個常態分佈的機率函數積分,算 \(\pm 1\) 之間的曲線下面積,相較於曲線下的總面積(其實就是 \(1\),因為是機率函數)的比值。

由於這組經過伸縮平移的數據的平均和標準差都是固定值,他的常態分佈的函數也是固定的,那就可以建出固定的表讓任何母體的任何 \(\mu\) 與 \(\sigma\) 值都能如此對應,以後只要查這張表就能知道你要的曲線下面積並換算回去,這就是所謂的數據的「標準化(standardization)」。


上面是兩種版本的標準化後的常態分佈的表,各位的統計學課本可能會有這兩種版本的其中一種。兩者的查表數值都是 \(z\) 分數從中央的 \(0.00\) 往正的方向延伸到 \(3.49\),但差別在於表一是呈現從該處(你要查的 \(z\) 分數)往正無窮大累積的面積,表二則是另一邊從負無窮大累積至該處(如表二上方的示意圖的塗色部分),因此兩張表只是一體兩面,仔細觀察會發現他們的相同位置數值相加都是曲線下總面積 \(1\)(可能因為四捨五入有誤差)。
例如我們如果要查在 \(\pm 1\) 之間(加減 \(1\) 個標準差)的曲線下面積,在表一查 \(1.00\)(在左側直行找 \(1.0\) 再對到上方橫列的 \(0.00\))會找到是 \(0.159\),這代表 \(z\) 分數在區間 \(\left[1,\infty\right)\) 的曲線下面積總和,而我們要算的是區間 \(\left[-1,1\right]\),且由於這個常態分佈的鐘型曲線左右對稱,因此 \(\left(-\infty,-1\right]\) 也會是 \(0.159\),所求面積就是 \(1-2\times 0.159 = 0.682\)。同樣道理你可以自己查表再計算看看 \(\pm 2\)(加減 \(2\) 個標準差)的,結果會是 \(0.954\),\(\pm 3\)(加減 \(3\) 個標準差)的則是 \(0.997\)。這三組範圍的機率就是俗稱的「68-95-99.7 的經驗法則(empirical rule)」因為這比例早在 18 世紀初就被觀察到,而不是這樣精準計算出來的。
信賴區間與信心水準
之所以做以上的分析是要讓你了解 \(\overline{X}\) 的行為並建立理論模型,接下來你只需要進行一次抽樣得到一個 \(\overline{X}\),就能利用抽樣分佈來告訴你這數據有多可靠。那你抽樣出的樣本平均有沒有等於母體平均呢?答案顯而易見:要嘛有,要嘛沒有,對吧?
那信賴區間(confidence interval)是什麼?它是你得到的 \(\overline{X}\) 所展開的一定範圍,畢竟除非你的籤運好到離譜,不然你應該不會很有自信地聲稱你的 \(\overline{X}\) 就是母體的平均 \(\mu\),所以要展開一段區間作為誤差範圍,保守一點地說 \(\mu\) 在這裡面。這個範圍要取多大由你決定,如果取得超大,你自然就有更高的信心來宣稱這範圍涵蓋 \(\mu\),這個信心程度就是所謂的信心水準(confidence level)。
當然你也可以取到讓整個信賴區間涵蓋所有 \(\overline{X}\) 的可能值,然後說你有 \(100\%\) 的信心這會涵蓋 \(\mu\),那這就只是個廢話。就好像你想知道台灣人平均年齡,抽了一個樣本出來後說平均年齡在 \(0\) 到 \(1000\) 歲之間,那其實跟沒說一樣。所以信賴區間能夠取得越小越好,但越小的話信心水準肯定會下降,也不能取太小,要自己在這兩者間權衡。
信賴區間越小越好,與此同時,其信心水準要越高越好。
那信心水準怎麼算,總不是靠感覺來說自己多有信心吧?以下我以加減 \(2\) 個標準差的信賴區間為例,用數學式表達在這區間的機率的話就是(\(P\) 指 “probability”):
\[ P(-2\le z \le 2) = 0.954\]
然後再將 \(z\) 分數的公式代入移項,讓 \(\mu\) 在中間:
\[
\begin{align*}
&\displaystyle{P\left(-2\le\frac{\overline{X}-\mu}{\sigma/\sqrt{n}}\le 2 \right) = 0.954}\\
&\displaystyle{\Rightarrow P\left(-2\cdot\frac{\sigma}{\sqrt{n}}\le\overline{X}-\mu\le 2\cdot\frac{\sigma}{\sqrt{n}}\right) = 0.954}\\
&\displaystyle{\Rightarrow P\left(-2\cdot\frac{\sigma}{\sqrt{n}}-\overline{X} \le -\mu\le 2\cdot\frac{\sigma}{\sqrt{n}}-\overline{X} \right) = 0.954}\\
&\displaystyle{\Rightarrow P\left(\overline{X}+2\cdot\frac{\sigma}{\sqrt{n}} \ge \mu\ge \overline{X}-2\cdot\frac{\sigma}{\sqrt{n}} \right) = 0.954}\\
&\displaystyle{\Rightarrow P\left(\mu\in \left[\overline{X}-\frac{2\sigma}{\sqrt{n}}, \overline{X}+\frac{2\sigma}{\sqrt{n}}\right]\right) = 0.954}
\end{align*}
\]
這告訴我們:如果我們抽樣的話,抽出來的 \(\overline{X}\) 加減 \(2\) 個標準差的區間內涵蓋 \(\mu\) 的機率是 \(95.4\%\)。這是機率,因為 \(\overline{X}\) 的值是隨機的,且再次提醒,現在還只是抽樣前進行的分析。
現在實際進行抽樣,會得到一個固定的 \(\overline{X}\) 值,此時 \(\overline{X}\) 不再是隨機變數,它展開的信賴區間有沒有涵蓋 \(\mu\) 已變成既定事實(儘管你不知道到底有沒有),而 \(\mu\) 也不是隨機變數,哪來的機率可言?
但是我們可以回顧抽樣分佈,來得知對於所有可能的 \(\overline{X}\) 值在展開特定範圍(信賴區間)後,有多少比例涵蓋了 \(\mu\)。你只需要將你抽樣用到的樣本數 \(n\) 和母體標準差 \(\sigma\) 代入上面的公式,搭配查表得到的理論機率(展開兩個標準差的話就是 \(95.4\%\)),就能用這個數值來說明你對這結果有多大的信心。如果你還沒進行抽樣的話,那麼你當然有 \(95.4\%\) 的機率會抽到展開的那個區間涵蓋 \(\mu\) 的 \(\overline{X}\) 值;但現在進行抽樣後事已成定局,你的區間要嘛有涵蓋 \(\mu\),要嘛沒有,雖然不知道有沒有,但你可以有 \(95.4\%\) 的信心宣稱有,基於先前抽樣分佈的分析。
抽樣後的 \(\overline{X}\) 不再是隨機變數,所以原先的機率僅是信心水準的參考依據,而信心水準本身並不是機率。
還是覺得有點奇怪?我想可能是因為以上用「\(\mu\) 落在 \(\overline{X}\) 展開的區間內的機率」來描述導致,明明母體平均 \(\mu\) 是定值,之所以這件事可以有發生的機率可言是因為原先樣本平均 \(\overline{X}\) 還是隨機變數,那麼上面用 \(\overline{X}\) 描述出的區間範圍其實是以 \(\mu\) 為中心在變動的。
更直觀的描述應該是將前面機率函數中的移項處理改成讓 \(\overline{X}\) 在不等式的中間,反過來描述成「\(\overline{X}\) 落在 \(\mu\) 展開的區間內的機率」:
\[
\begin{align*}
&\displaystyle{P\left(\mu-2\cdot\frac{\sigma}{\sqrt{n}} \le \overline{X}\le \mu+2\cdot\frac{\sigma}{\sqrt{n}} \right) = 0.954}\\
&\displaystyle{\Rightarrow P\left(\overline{X}\in \left[\mu-\frac{2\sigma}{\sqrt{n}}, \mu+\frac{2\sigma}{\sqrt{n}}\right]\right) = 0.954}
\end{align*}
\]
雖然這不是我們定義信賴區間的方式,但這時的區間是固定大小(因為 \(\mu,\sigma ,n\) 都是定值),且描述的是同一個相對關係的發生機率,那麼這個隨機的 \(\overline{X}\) 的行為當然是機率問題(原本前面的當然也是但是這個版本更直觀吧?)之所以不用這樣的定義的原因也很明顯,我們實際上就是不知道 \(\mu\) 所以才要來抽樣啊。但是 \(\mu\) 無論如何都是定值,於是現在在抽樣之後連 \(\overline{X}\) 都固定下來了,這個相對關係發生與否不再是機率性的,我們所描述的信心水準,不過是將當初在做抽樣之前,抽樣結果會成功發生如此相對關係的機率拿來描述成對這個結果的信心。
等等,但是在之前的信賴區間定義中會要用到的參數是 \(\overline{X},\sigma ,n\),我們是怎麼知道其中的母體標準差 \(\sigma\) 是多少的?當你在寫課本題目時通常他會直接給你,但現實中不可能開上帝視角知道這件事,所以自然要有別的方式去評估(例如直接用樣本標準差 \(s\),關於這東西的計算可以參考這篇文章),至於為何那些方法合理且有效,就讓我先賣個關子,之後會再介紹。