第七章
抽樣及抽樣分配
學習目標
學習為何樣本經常是唯一用來認識母體的途徑。
學習如何抽取樣本。
學習樣本平均數之抽樣分配。
學習中央極限定理。
學習樣本比例之抽樣分配。
學習
t
分配。
本章架構
1
抽樣
2
抽樣方法
3
統計量與抽樣分配
4
樣本平均之抽樣分配
5
樣本比例之抽樣分配
6
t
分配
1.
抽樣理論及方法
母體
(Population )
在所欲研究之問題中,合於研究之元素其相關的測量值及司能的數值所成之集合稱之為
母體
,而其部份集合稱之為
樣本
。
母體中包含有限個元素稱之為
有限母體
。母體中包含無限個元素稱之為
無限母體。
普查
(Census )
普查乃是對母體中全部個體都逐一加以調查。
1.
抽樣理論及方法
抽樣調查
(Sampling survey)
抽樣調查乃是對所欲研究問題之母體中抽取其中一部分個體,構成所謂之
樣本
,再利用此樣本之分析結果去
推估
母體之一些特徵。
估計誤差
(error of estimation)
抽樣誤差
(sampling error)
:
由隨機抽樣代替普查所發生之不確定性。
非抽樣誤差
(
nonsampling
error)
:
其他種種非因隨機抽樣之不確定性所造成的誤差
包括
樣本選擇偏差
(sample selection bias)
、測量偏差
(response bias)
以及
自我選擇偏差
(self-selection bias)
。
1.
抽樣理論及方法
(
續
)
非抽樣誤差的來源
樣本選擇偏差
(sample selection bias)
由於抽樣方法的不正確所造成的 。
測量偏差
(response bias)
包含了資料記錄錯誤、受訪者故意提供不實資訊等。
自我選擇偏差
(self-selection bias)
包含了受訪者拒絕回答、或在
call-in
投票中,投票者通常是有主動傾向且有強烈意見者 。
普查與抽樣調查之優劣點
普查之優劣點
普查與抽樣調查之優劣點
抽樣調查之優劣點
抽樣調查實例
—
電視收視率調查
以國內的收視率調查公司來看,共分幾種不同的類型,
AC
尼爾森公司以裝設
people-meter
來進行家戶收視調查。潤利收視率調查公司所做的收視率調查則採用分層隨機抽樣電話訪問的方式,與潤利相同的還有天和水行銷顧問公司(僅作廣播收聽率調查)。此外,從民國八十九年起,財團法人廣播電視事業發展基金也加入收視率調查的準備工作,與日本的收視率調查公司合作,先期以進行電視收視行為調查和廣播收聽行為調查研究為主。
以現有的收視率調查技術而言,其調查僅以量化的衡量為原則,無法進行質的調查。若僅作為節目品質評定的單一標準,在說服力上略顯不足,因為收視率調查為一「點人頭式」的調查方式,可算出「有多少人正在看」,但卻無法調查收視者對該節目的優劣評價,因此,收視率高低與節目品質並無直接關係。
2 .
常見之抽樣方法
簡單
隨機抽樣
(simple random sampling)
分
層隨機抽樣
(stratified random sampling)
部落
抽樣
(cluster sampling)
系統
抽樣
(systematic sampling)
非
隨機抽樣
(nonrandom sampling)
(1)
簡單隨機抽樣
定義
使得母體內所有可能抽出的樣本被抽出的機率均相等,而由這種方法所抽出的樣本就稱為簡單隨機樣本
(simple random sample)
,或簡稱為隨機樣本
( random sample)
。
重要的統計特質
不偏
(unbiased)
母體內每一個體被抽到的機會均等。
獨立
(independence)
母體內某一個體被抽到與否不會影響其他個體被抽到之機會。
簡單
隨機抽樣
(
續
)
優點:
母體名冊完整時,樣本抽取方便,方法簡單 。
估計式簡單(樣本機率為定值,甚至相等)。
缺點:
完整母體名冊不易取得,或取得成本很大時實行困難 。
當母體樣本單位過多時,抽樣作業相對上不便(如母體名冊幾萬戶)。
樣本分配分散,增加調查行政作業困難(如台灣地區住戶
580
萬戶要抽
18000
戶)。
當樣本單位差異大時,樣本代表性恐有不足
(
如估計所得,抽到高所得或偏低所得
)
。
簡單隨機抽樣實例
某公司舉辦尾牙餐會,會中並有抽獎活動,為了獎勵員工這一年來的辛勞,公司提供一部汽車及若干家電作為抽獎用,與會的員工每人發給一張兩頭印有號碼的摸彩券
(
兩頭的號碼相同,且一半為存根聯,一半為抽獎聯
)
,撕下其中的抽獎聯後投入摸彩箱中,然後由董事長將之攪拌均勻,依序請公司各級主管抽出摸彩券,以決定家電與汽車的得獎人。這就是簡單隨機抽樣。
抽樣方法實例
—
電腦輔助電話訪問系統
近年來,國內的民意調查幾乎都採電話訪問方式來進行。主要原因是電話在國內普及率已近
99%
,幾乎家家都有電話,無法接受電話訪問的民眾極少。電腦輔助電話訪問系統
(Computer Assisted Telephone Interviewing System
,簡稱
CATIS)
, 利用電腦儲存電話號碼的母體清冊,利用電腦程式執行
統計的隨機取樣
,架設問卷在電腦中,然後由電腦直接自動撥號,訪員在線上直接鍵入訪問結果,再經由電腦的監聽、看、錄系統,更有效的管理電訪的執行,使民意調查在統計抽樣調查執行技術上的可能缺失減到最低程度。
(2)
分層隨機
抽樣
(Stratified Random Sampling)
定義
將母體依母體內個體的某些特性分為若干沒有交集的層
(strata)
,務必使層內的差異小(又稱為同質
(homogeneity)
),而層間的差異大(又稱為異質
(heterogeneity)
)。
母體內的每一個體均只屬於其中一層,再自每層中抽取簡單隨機樣本,這些來自各層之簡單隨機樣本即構成一分層隨機樣本
(stratified random sample)
。
2.
分層隨機抽樣
(
續
)
比例分層隨機抽樣
(proportionate stratified random sampling)
在每一層中所抽取之隨機樣本數若按照每一層中個體數在總母體中所佔比例決定。
非比例分層隨機抽樣
(disproportionate stratified random sampling)
若各層所抽出之隨機樣本數不能反映出各層在母體中所佔比例。
樣本
母體
2.
分層隨機抽樣
(
續
1)
分
層隨機抽樣
第一層
第二層
第三層
…………
第
K
層
2
分層隨機抽樣
(
續
2)
優點:
樣本分配較均勻
,可提高估計確度 。
可以分別得各層訊息
,並做比較分析。
各層可視情形採取不同之抽樣方法。
便於尋找樣本跳動之來源(如連續性調查每季每月就業、失業、人力資源調查)。
可在各層設立行政單位,以利調查方便。
限制:
分層變數之選取(分層特性)需多加注意。
分層不能有重疊現象。
分層後樣本資料之整理與估計較簡單隨機抽樣複雜。
分層抽樣實例
交通部觀光局為瞭解週休二日制度實施後,對國人國內旅遊的影響及改變,於
87
年首次辦理
『
週休二日實施對國內旅遊的影響調查
』
, 以提供政府及旅遊相關業者參考之依據。
以各縣市之住宅電話號碼簿做為抽樣清冊, 即抽樣母體之來源。抽樣方式採分層抽樣法:臺灣地區依北、中、南、東分為四層,各層依照層內戶數占台灣省總戶數的比例分配樣本數;層內各縣市再依照其戶數比例分配其樣本。預計樣本數
1,500
人。以電話訪問調查,居住在臺灣地區之家庭住戶內十二歲以上之國民,且就讀學校或服務單位已實施週休二日或隔週休二日者。
<
資料來源:行政院主計處
>
(3)
部落抽樣
定義
將母體分為若干沒有交集的部落,母體內的每一個體均只屬於其中一部落,再自所有部落中簡單隨機抽取若干部落樣本,並對這些簡單隨機部落樣本作完整的普查。
不同於分層隨機抽樣,其要求部落內要異質。理論上,每一個部落均可視為母體的縮小,最常見的部落區分便是按照地域來區分。
部落抽樣
(
續
)
部落抽樣之優
點
部落抽樣因調查範圍僅限於較小範圍的部落內,因此也較節省人力時間與經費
。
3.
部落抽樣
(
續
1)
圖
部落抽樣
部落抽樣實例
假設某公司想調查高雄市市民每月消費在甲產品的支出,計畫在所有
11
個行政區中隨機抽出
4
個行政區,然後再從被抽出的行政區中隨機抽出一條路
(
街
) (
如遇街道跨區時,則僅調查屬於該區的住戶
)
,然後普查該條路
(
街
)
的所有住戶。這就是部落抽樣。
分層與部落抽樣兩方法之差異為何
?
(4)
系統抽樣
系統抽樣之定
義
將大小為
N
的
母體內之個體隨機排序,再自前
k
個個體中隨機抽取一個體作為第一個樣本,然後自該個體起,每隔
k
個個體選取一個樣本,直到選滿
n
個樣本為止。
k
值的決定
其中
,
n=
樣本大小
N=
母體大小
k=
樣本選取間隔
4.
系統抽樣
(
續
)
當母體大小為無限時,
k
值大小則可依方便決定之。
系統抽樣的目的並不在降低抽樣誤差,而是純粹為了方便及管理考量。
當母體內個體排序出現某一週期性或規則時,系統抽樣的使用就必須非常小心,不然,則很容易增加抽樣誤差 。
系統抽樣實例
某製造燈泡的工廠,計畫生產
5000
個燈泡,想從中抽取
50
個樣本,以了解不良品的比例,若採取系統抽樣,則依
5000
個燈泡生產的順序,做為假想的編號,其次決定抽樣區間
k
,
k=5000/50 =100
,然後從
1
至
100
中以簡單隨機抽樣抽出一數,做為起始點,如抽出
35
,最後只要每生產第
100
個燈泡,便將該燈泡抽出,即生產順序為
35,135,235,335,…,4935
的燈泡,就被抽出做為樣本。
(5)
非隨機抽樣
非隨機抽樣
(nonrandom sampling)
任何一種抽樣方法在自母體選取樣本的過程中並不包括隨機選取者,均屬於非隨機抽樣。
非隨機抽樣方法因非機率抽樣,所以也不適合做統計分析與推論,抽樣誤差也無法客觀的計算出來。一般在廣播電視常出現的叩應(
call-in
)民調即屬非隨機抽樣的一種。
隨機抽樣與非隨機抽樣的比較
估計值的信賴度:機率抽樣可依統計理論求得樣本的估計值、抽樣誤差和信賴區間。非機率抽樣的估計值則包含難以衡量的偏差,無法客觀評估樣本估計值的正確性。
統計效率評估:機率抽樣可比較不同樣本設計的相對效率,非機率抽樣則沒有客觀的統計方法比較。
母群體的情報:機率抽樣所需有關母群體的情報較少。非機率抽樣,所需的情報較多。
經驗和技巧:機率抽樣的設計和執行比非機率抽樣需要專業化的技巧和經驗。
時間:機率抽樣的設計和執行較繁雜,花費時間較長。
成本:機率抽樣的設計和執行為達到某些目的,費用較多。
3.
統計量與抽樣分配
母數
(parameter)
由母體中計算出用來描述母體的數值測量結果。
統計量
(statistic)
由樣本中計算出用來描述樣本的數值測量結果。
抽樣分配
(sampling distribution)
在一母體中重複抽取固定大小的隨機樣本,由該隨機樣本所計算出之統計量的所有可能結果之機率分配, 稱為該統計量的抽樣分配。
例
1
考試平均
成績
假設某次統計學考試前五名高分的成績分別為
91
、
92
、
93
、
94
及
95
分,若將這五名同學當成一母體,則母體之平均成績為
= (91+92+93+94+95)/6 = 93
(分)
今若自該母體中隨機抽取兩名同學為樣本
(n=2)
計算平均成績,則該平均成績之抽樣分配為何?
解答:若自該母體中隨機抽取兩名同學為樣本
(n=2)
計算平均成績,則所有可能抽出之成對樣本及其平均成績
見下表 。
例
1
考試平均成績(續)
表
2
所有
可能樣本及樣本平均
(
n=2)
例
1
考試平均成績
(
續
1)
例
1
考試平均成績
(
續
2)
圖
樣本平均的抽樣分配圖(
n = 1
和
2
)
例
1
考試平均成績
(
續
3)
今若自該母體中隨機抽取三名同學為樣本
(n=3)
計算平均成績,則該平均成績之抽樣分配又為何?
解:
表
所有
可能樣本及樣本平均
(n = 3)
例
1
考試平均成績
(
續
4)
表
5
樣本平均的抽樣分配表
(n = 3)
例
1
考試平均成績
(
續
5)
樣本平均的抽樣分配圖
(n = 3)
4.
樣本平均之抽樣分配
取出放回或無限母體
自一平均數為
與標準差為
的母體中抽取一大小為
n
之隨機樣本
(X
1
, X
2
,
…,
X
n
)
,樣本平均之期望值與變異數如下
4
樣本平均之抽樣分配
(
續
)
4
.
樣本平均之抽樣分配
(
續
1)
在有限母體中採抽出後不放回
樣本平均之期望值與變異數如下
其中, 為
有限母體修正因子,一般認為,當
n
0
.05N
時,上式中的修正因子即可省略不用 。
4.
樣本
平均數的抽樣
分配
(
續
1)
抽樣分配:
(1)
若採放回抽樣
(
2)
若採不放回抽樣
例
2
平均月薪之期望值與標準差
假設高科公司有
1000
名員工,已知其平均月薪為
40,000
元,月薪標準差為
5,000
元,今若自該公司中隨機抽取
25
名員工調查其月薪,該
25
名員工之平均月薪之期望值與標準差為若干?今若改自該公司隨機抽取
100
名員工調查其月薪,則該
100
名員工之平均月薪之期望值與標準差為若干?
例
2
平均
月薪之期望值與標準差
(
續
)
解:
25
名員工之平均月薪期望值為
40,000
元。因
n
(25
1,000)
,平均月薪之標準差為
(
元)
100
名員工之平均月薪期望值仍為
40,000
元。但因
n >
,須用有限母體修正因子計算標準差
(元)
4.
樣本平均之抽樣分配
(
續
2)
【定理一】
在常態母體
X ~ N (
,
2
)
的假設下
樣本平均的抽樣分配
若母體分配為常態分配,則抽樣分配必為常態分配。
例
3
銀行等待時間
假設泛太銀行每位顧客等待服務的時間呈常態分配,平均等待時間為
10
分鐘,標準差為
2
分鐘。為作服務品質調查,隨機抽選
16
名顧客瞭解其等待服務時間,問該
16
名顧客平均等待時間超過
11
分鐘的機率為何?
解:
令
X
為每位顧客等待服務時間,由題意知為常態分配且
= 10
、
=
2
X ~ N(10 , 2
2
)
例
3
銀行等待時間(續)
故 ,
即
因此該
16
名顧客平均等待時間超過
11
分鐘的機率為
%
。
例
3
銀行等待時間
(
續
1)
圖
顧客平均等待時間超過
11
分鐘的機率(例
3
)
4.
樣本平均之抽樣分配
(
續
3)
【定理
二
】
在
常態母體
X ~ N (
,
2
)
的假設下
樣本和的抽樣分配
例
4.
飲料會被退貨嗎?
「喝好茶」盒裝飲料平均每盒重量為
500
克,標準差為
10
克。今「每日」便利商店進了一批「喝好茶」盒裝飲料並隨機抽取一箱(內含
20
盒)飲料進行重量檢驗,若該箱飲料重量不足
9900
克,則整批飲料通通退貨。若該盒裝飲料之重量呈常態分配,請問該批飲料會被退貨的機率為何?
解:令
X
為「喝好茶」盒裝飲料每盒之重量而得到
例
4
飲料會被退貨嗎?
(
續
)
故
,
因此該批飲料會被「每日」便利商店退貨的可能性為
%
。
例
4
飲料會被退貨嗎?
(
續
1)
圖
整箱飲料不足
9900
克重的機率(
例
4
)
樣本
平均數抽樣分配的共通性質
所謂共通性質,係指 分配的性質,是在任何型態
(
不限型態
)
母體分配下都成立的。
對抽樣分配而言,其標準差為
標準誤
。
由標準誤公式可知:
表示母體分配的分散度直接影響 分配的分散
度。
成反比,表示當樣本次數增大時, 分配的分散度會隨之減少。
較大的樣本次數,提高推論的可靠性。
樣本
平均數抽樣分配的共通性質
大數法則:不限母體分配型態為何,當樣本次數增大時,樣本平均數 與母體分配之平均數
μ
會逐漸接近。
中央極限
定理
(central limit theorem)
:
無論母體分配為何,自平均數為
、標準差為
的母體中抽取
n
個隨機樣本
,當
(
在實務上, 即可適用
)
時,則樣本平均數 的抽樣分配會趨近於
常態分配
。
4.
樣本
平均數之
抽樣分配
(
續
4)
中央極限
定理
(central limit theorem)
無限
母體樣本平均數的抽樣分配
有限
母體抽出後不放回
4.
樣本平均之抽樣分配
(
續
5)
中央極限定理亦適用於樣本和的抽樣分配
無限母體
有限母體抽出後不放回
4.
樣本平均之抽樣分配(續
5
)
圖
不同母體分配下,不同樣本大小樣本平均之抽樣分配
均勻分配
指數分配
例
5
年終獎金與減薪
假設某產品推銷員平均每天賣出
1000
件產品,每天賣出產品數之標準差為
100
件。今公司於年終欲瞭解該銷售員之銷售業績,遂隨機選取了
100
天的銷售業績來檢驗,若該
100
天的平均銷售數量超過
1025
件,則發給該銷售員年終獎金;若該
100
天的平均銷售數量不足
985
件,則要扣減其薪資。問該銷售員既得不到獎金亦沒有受到減薪懲罰之機率為何?
例
5
年終獎金與減薪
(
續
)
解:
令
X
為該銷售員之每天銷售產品數量,雖然
X
之分配未知,因為樣本夠大(
n
= 100 > 30
),所以該銷售員任
100
天的平均銷售數量之抽樣分配近似常態分配 ,故
今欲求該銷售員既得不到獎金亦沒有受到減薪懲罰之機率,即為
例
5
年終獎金與減薪(續
1
)
因此該銷售員年終收入沒有任何新的變化之機率為
。
例
5
年終獎金與減薪
(
續
2)
圖
平均銷售數量介於
985
與
1025
件之機率(例
5
)
例
6
接力賽破紀錄
假設某大專院校全體學生參加
100
公尺賽跑的平均時間為
15
秒,標準差為
3
秒。今學校隨機抽選
36
位同學參加大專運動會之
3600
公尺接力賽跑,若
3600
公尺接力賽跑之大會紀錄為
8
分鐘整,試問該
36
位同學破紀錄之機率為何?
例
6
接力賽破紀錄
(
續
)
解:
令
X
1
, X
2
, …, X
36
為該校隨機抽選之
36
位同學各跑
100
公尺所花時間,因學生人數夠多(
n= 36>30
)
該
36
位同學跑出的成績是低於
8
分鐘(或
480
秒)之機率為
例
6
接力賽破紀錄
(
續
1)
因此,若自該校中隨機抽取
36
位同學參加
3600
公尺 接力賽跑,其成績破大會紀錄之機率為
%
。
例
6
接力賽破紀錄(續
2
)
圖
接力賽跑破紀錄之機率(例
6
)
4
樣本平均之抽樣分配
(
續
6)
結論
母體是常態分配,則樣本平均的抽樣分配
亦是常態分配
。
母體不是常態分配,則在樣本夠大時,樣本平均的抽樣分配會
近似常態分配
。
樣本平均的期望值等於
母體
平均數
。
樣本平均的標準差比母體標準差小 倍。
5.
樣本比例之抽樣分配
樣本比例(
Sample Proportion
)
其中
X
:
樣本中某特定類別族群之發生次數
n
:
樣本大小
5.
樣本
比例 之
抽樣分配
(
續
)
樣本比例之平均數與變異數
無限母體
有限
母體且母體大小(
N
)與樣本大小(
n
)的比例關係
n/N
為
>
情況下,
5.
樣本比例之抽樣分配
(
續
1)
自一成功機率為
p
的二項分配抽取
n
之隨機樣本
,在大樣本(
np
5
且
n
(
1
-
p
) ≦
5
)
的情況下
,樣本比例
( )
的抽樣分配近似為
無限母體或有限母體大小
N
滿足
有限母體大小
N
滿足
例
7
保單之續保率
某保險公司宣稱其保單每年之續保率為
85%
,遠高於全國所有保險公司之總續保率。假設全國的續保率為
80%
,並且該保險公司之宣稱正確,今自該公司去年之保單中隨機抽取
100
份檢查是否在今年又續保,問這
100
份隨機抽取之保單之續保率高於全國之機率為何?
例
7
保單之續保率
(
續
)
解:
令
p
為該公司保單之續保率,
n
為樣本大小,由題意知,
p
=
且
n
= 100
。因
np
= (100)() = 85 >5
且
n(1-p)
= (100)() = 15 > 5
,根據中央極限定理,該
100
份隨機保單之續保率的抽樣分配近似常態分配
例
7
保單之續保率
(
續
1)
因此在續保率為
85%
之保險公司中隨機抽取
100
份保單,而此
100
份保單之續保率高於全國續保率
80%
之機率為
。
例
7
保單之續保率
(
續
2)
圖
樣本
保單續保率超過全國平均的機率(例
7
)
6.
兩
樣本平均數差的抽樣分配
假設有兩個獨立母體,分別具有平均數為
1
,
2
,標準差為
1
,
2
,隨機抽出
n
1
,
n
2
個樣本,則兩樣本平均數
差
的抽樣分配為何呢?
不管來自常態母體或是來自非常態母體之大樣本,則
或
Z
=
N
(0,
1)
例
8
兩條獨立之生產線
假設有兩條獨立之生產線,已知兩生產線產品之平均重量分別為
公克及
6
公克,標準差分別為
公克及
公克,今隨機由兩生產線分別抽出
36
件及
49
件產品為樣本。請問第一組樣本平均數大於或等於第二組樣本平均數
1
公克之機率為何
?
例
8
兩條獨立之生產線
(
續
)
解:
令 分別表兩組樣本之平均重量
∴
第一組樣本平均數大於或等於第二組樣本平均數
1
公克之機率
為
7.
兩樣本比例差的抽樣分配
設從兩個獨立二項母體
X~
B
(
n
1
,
p
1
)
,
and Y~
B
(
n
2
,
p
2
)
,當
n
1
,
n
2
夠大時,
(
通常,
n
1
p
1
5
,
n
1
(1 -
p
1
)
5
,
and n
2
p
2
5
,
n
2
(1
-
p
2
)
5
),依
C L T
,
可知兩樣本比例
差
的抽樣分配為
近似於常態分配,
則
或
Z
=
【練習
3】
一個在全省各地開了三千家分店的大企業,想要抽樣估計去年每家分店發生物品損壞的平均損失金額。假設母體平均數 元,而母體標準差 元,試求
(a)
倘若抽取
n=100
家分店當成隨機樣本,則樣本平均數與母體平均數之差在
60
元以內的機率是多少?
(b)
倘若將抽取的分店家數增加到
n=256
家,則樣本平均數與母體平均數之差在
60
元以內的機率又是多少?
解
:
由
題意可以得知,母體
平均數
與標準
差
分別為與,令
X
代表該企業的去年的損失金額,則
X
~
N
(1630 ,400
)
。
(a)
由於母體總數
N
=3000
,而樣本數
n
=100
,這兩者的比例相當小,因此在求 時,可以將有限母體校正因子省略不計,因此我們可以求得
由此可知,樣本平均數 的抽樣分配為
~
N
(1630,
)
,而所欲求的機率為:
由以上的結果,我們有約
87
%的信心,斷定的誤差不會超過
60
元
(b)
倘若將樣本數增加到
n
=256
時,其 依然等於母體平均數 ,而樣本平均數 的標準差則為
此時樣本平均數 的抽樣分配
為
所
欲求的 機率為:
樣本數增加到
256
家時,估計誤差不超過
60
元的機率增加到了
98
%
結論:當樣本數愈大時,估計值將愈精確,其樣本平均數 愈趨近於母體的平均數。
【練習
4】
在上次的選舉,一位州代表得到
52%
的選票。
在選後的一年這位代表發起一個調查,詢問
300
位民眾的隨機樣本,在下次的選舉中他們是否還會投給他。
如果我們假設他受歡迎的程度沒有改變,則此樣本中會有一半以上的民眾投票給他的機率為何?
將會投給這位代表的受訪者人數是一具有
n
=
300
與
p
=
.52
的二項隨機變數。
我們想要決定
樣本比例大於
50%
的機率
。也就是,我們要找出
我們現在知道樣本比例 是服從近似的常態分配,有平均數
p
=
.52
與標準差
= .0288
。
因此,
結論
:
如果我們假設支持度維持在
52%
,則在
300
位民眾的樣本中,超過半數會投票給此位代表的機率是
.7549
。
【練習
5】
假設
(WLU) MBA
畢業生與
(UWO) MBA
畢業生的起薪是常態分配,且具有平均數與標準差。如果
WLU
以及
UWO
的
MBA
畢業生的隨機樣本分別被選出,如下所示
……
求
WLU
畢業生的樣本平均起薪超過
UWO
畢業生
的樣本平均起薪的機率為何?
我們想要決定
我們知道
是常態分配
我們可以將此項變數標準化:
結論
:
對於
50
位從
WLU
畢業生與
60
位
UWO
畢業生的樣本而言,
WLU
的樣本平均起薪超過
UWO
的樣本平均起薪的
機率是
.7389
Z
8.
與常態分配有關之三種抽樣分配
學生
t
分配
(Student t distribution)
卡方分配
(chi-squared distribution)
F
分配
(F distribution)
(1)
學生
t
分配
使用字母
t
代表隨機變數
[
Gosset
以筆名「學生」發表他的發現,並且使用字母
t
代表隨機變數,
又被稱為學生的
t
分配
(Student’s
t
distribution)
]。
學生
t
分配的密度函數如下:
ν
(
希臘字母
nu
)
被稱為
自由度
(
degrees of freedom
)
,
π
等於
,
Γ
是
gamma
函數,
Γ
(k)=(k-1)(k-2)…(2)(1)
(
1)
學生
t
分配
這個分配與標準常態分配是類似的。學生
t
分配為山形
(mound shaped)
以及對稱於
0
(
兩隨機變數的平均數皆為
0)
。
一個
學生
t
隨機變數的平均數與變異數是:
E
(
t
) = 0
以及
學生
t
分配
如同
µ
與
σ
解釋常態分配
,
ν
(
自由度數值
)
解釋學生
t
分配
:
當
ν
越大,學生
t
分配越接近
標準常態分配
。
(
1)
期望值
E(t) = 0
(2
)
變異
數
(3)
E(t
)=0
得
t
分配為
對稱分配
,
(4)
當
(
實務上
)
,
t
分配以
標準常態分配
為極限。
學生
t
分配
的
性質
學生
t
分配
之性質
5.
【
定理
】
(
重要
!!!)
設
X
1
,
X
2
,
. . . . . .
,
X
n
為出自於一具有常態母體
N (
,
2
)
之隨機樣本,
若
與
互相獨立
,
則
決定學生
t
的數值
學生
t
分配廣泛應用於統計推論
。
表
三
列出
t
A,
ν
的數值。
它們是具有自由度
ν
且滿足下列關係式的學生
t
隨機變數的數值
A
值是預定的
“
關鍵的”
數值
,
具
代表性
的數值在
, , , and
範圍
之內
。
8.
用
t
表
(
表三
)
求值
…
例如,要找自由度為
10
,並且使得在它左邊的面積為
.05
的
t
值是
:
面積
(
t
A
) :
行
自由度
:
列
t
.05,10
t
.05,10
=
(2)
卡方分配
卡方密度函數是
:
參數
ν
是自由度的數值。
(2)
卡方分配
注意:
卡方分配 是不對稱的。
平方,如
,
影響不對稱的值
(
如:發現
P(
< 0)
是不合邏輯的
)
。
附錄
B
的
表四
讓我們很容易的查看這類的機率
,
如
:
P
( > ) =
A
:
(2)
卡方分配
這個類型的可能性:
我們用
1–
A
,
如:我們決定
P
( <
)
=
A
範例
:
求
代表意義為
:
要
找出在自由度為
8
的卡方分配上的一個點,其右邊面積為
.
05
找出在列上自由度
8
與欄位
中
的交叉點,
我們得到數值
範例
:
求
代表意義為:
要
找出在自由度為
8
的卡方分配上的一個點,其左邊面積為
.05
找出在列上自由度
8
與欄位
中 的
交叉點,
我們得到數值
範例
因此,下列是有意義
(
合理
)
的:
記得 的開始,零與增加
!
=
=
卡
方
χ
2
分配
之
性質
(
加法
性
)
,
,且
與
互相
獨立,則
。
若
,則
。
【定理】
(
重要
!!!)
設
X
1
,
X
2
,
. . . . . .
,
X
n
為出自於一具有常態母體
N (
,
2
)
之隨機樣本,
若
則
為具有自由度
n
的χ
2
分配
.
卡
方
χ
2
分配
之性質:
4.
【
定理
】
(
重要
!!!)
設
X
1
,
X
2
,
. . . . . .
,
X
n
為出自於一具有常態母體
N (
,
2
)
之隨機樣本,
若
與
互相獨立
,
則
卡
方
χ
2
分配之
用途
單一
母體
之
母體
變異
數
σ
2
之
估計與檢定。
無
參數統計中一些檢定方法如,
適合
度
檢定
、
獨立性
檢定
、
齊一性檢定
等。
例
9
由常態母體
N (
μ
,
)
抽出一組樣本數為
25
的隨機樣本,問
樣本
變異數
S
2
會超過
的機率為多少
?
例
9
由常態母體
N (
μ
,
)
抽出一組樣本數為
25
的隨機樣本,問
(2) S
2
會介於
與
之間的機率為多少
?
(3) F
分配
F
分配
(F distribution)
的密度函數如下所列:
其中
F
的範圍
從
0
到∞
,並且
ν1
與
ν2
是分配的參數被稱為
自由度
。
為
分子自由度
(numerator
.
)
為
分母自由度
(denominator
.
)
F
分配隨機變數的平均數與變異
數為
:
F
分配
隨機變數像卡方隨機變數一樣只能為
正數
。
F
分配
F
分配
的
圖形
範例
:
求
F
,3,7
的
數值
代表意義為:
在
右邊曲線尾端之下的
面積
為
,
分子自由度
3
與
分母自由度
7
的
F
值
解
:
使用
F
查
(
表
五
)
分子自由度
:
行
分母自由度
:
列
F
.05
,
3
,
7
不同的表有不同的
A
值。
確認你使用
正確的表
!!
F
.05,3,7
=
1.
若
與
互相獨立
,
且 ,
,則
稱為
自由度
為
ν
1
與
ν
2
之
F
分配
F
分配 的性質
2
.
在
左邊曲線之下的面積,我們可以使用槓桿原理來平衡下列關係:
F
分配 的性質
請密切注意各項目的順序
!
範例
:
求
F
,3,7
的
數值
代表意義為:
在
右邊曲線尾端之下的
面積
為
,
分子自由度
3
與
分母自由度
7
的
F
值
解
:
使用
F
查
(
表
五
)
分子自由度
:
行
分母自由度
:
列
F
.95
,
3
,
7
查
表
F
.05,7,3
=
3
.
設
(
X
1
,
X
2
,
.
.
. .
,
X
n1
)
與(
Y
1
,
Y
2
,
.
…
,
Y
n2
)
為分別由常態母體
N (
1
,
1
2
)
與
N (
2
,
2
2
)
抽出之二組獨立之隨機樣本,
F
分配 的性質
F
分配之
用途
(
1)
檢定
二母體變異數
1
2
及
2
2
是否相等。
(2)
變異數分析
之
檢定。