第七部分 抽樣與抽樣分配 一、抽樣理論及方法 1. 基本概念 (一) 母體(Population ) 在所欲研究之問題中,合於研究之元素其相關的測量值及司能的數值所成之集合稱之為母體,而其部份集合稱之為樣本。母體中包含有限個元素稱之為__________________。母體中包含無限個元素稱之為_________________。 (二) 普查(Census ) 普查乃是對母體中全部個體都逐一加以調查。 (三) 抽樣調查(Sampling survey) 抽樣調查乃是對所欲研究問題之母體中抽取其中一部分個體,構成所謂之_______________,再利用此樣本之分析結果去_________________母體之一些特徵。 (四) 估計誤差(error of estimation) 1. 抽樣誤差(sampling error):由隨機抽樣代替普查所發生之不確定性。 2. 非抽樣誤差(nonsampling error):其他種種非因隨機抽樣之不確定性所造成的誤差,包括__________________、__________________以及__________________________________。 (五) 普查與抽樣調查之優劣點 1. 普查 優點 缺點 2 . 抽樣調查 優點 缺點 Part7-1
2、常見之抽樣方法 (一) 簡單隨機抽樣(simple random sampling) 定義: 使得母體內所有可能抽出的樣本被抽出的機率均相等,而由這種方法所抽出的樣本就稱為簡單隨機樣本(simple random sample),或簡稱為隨機樣本( random sample)。 重要的統計特質 - 不偏(unbiased) : 母體內每一個體被抽到的機會均等。 - 獨立(independence):母體內某一個體被抽到與否不會影響其他個體被抽到之機會。 簡單隨機抽樣實例:_________________、_________________ (二) 分層隨機抽樣(stratified random sampling) 定義:將母體依母體內個體的某些特性分為若干沒有交集的層(strata),務必使層內的差異小(又稱為同質(homogeneity)),而層間的差異大(又稱為異質(heterogeneity))。 母體內的每一個體均只屬於其中一層,再自每層中抽取簡單隨機樣本,這些來自各層之簡單隨機樣本即構成一分層隨機樣本(stratified random sample)。 - 比例分層隨機抽樣 (proportionate stratified random sampling) :在每一層中所抽取之隨機樣本數若按照每一層中個體數在總母體中所佔比例決定。 - 非比例分層隨機抽樣 (disproportionate stratified random sampling) : 若各層所抽出之隨機樣本數不能反映出各層在母體中所佔比例。 分層隨機抽樣實例:_________________、_________________ (三) 部落抽樣(cluster sampling) 定義: 將母體分為若干沒有交集的________,母體內的每一個體均只屬於其中一部落,再自所有部落中簡單隨機抽取若干部落樣本,並對這些簡單隨機部落樣本作完整的普查。 不同於分層隨機抽樣,其要求部落內要異質。理論上,每一個部落均可視為母體的縮小,最常見的部落區分便是按照地域來區分。 部落抽樣實例:_________________ 9 分層與部落抽樣兩方法之差異為何? 分層抽樣 部落抽樣 - 層內變異_______,而層與層之間變異______ - 群體內變異______,群體之間變異______ - 每層內____________個體被選入樣本中 - 所有群體中,只有__________被選為樣本 - 每層內皆進行_________ - 對被選中之群體,進行_______ - 此方法之目的在降低抽樣_______提高______ - 此方法之目的在降低抽樣___________ Q: 若欲調查某大學學生對多元入學方案之意見應如何抽樣? ___________________________________________________ Part7-2
(四) 系統抽樣(systematic sampling) 系統抽樣之定義:將母體所有個體依序排列,然後分成許多間隔,每隔若干個體抽取一個,是為系統抽樣法。步驟如下: 1. 先將母體所含各個體加以編號排列。 2. 依次劃分母體單位N為n個相等大小的區間,每一個區間大小為k=N/n(取整數) 3. 從第一個區間的k個單位中,採用簡單隨機抽樣方法抽取一單位,並以此點作為始點。 4. 由此始點起,每隔k個單位抽取一個樣本,直至抽取n個構成一樣本。 優劣點系統抽樣法唯一之優點,即是使用方便,但其缺點則為當資料具有週期性時,會造成嚴重之偏差,如果無完整之母體名冊,此方法無法進行。 系統抽樣實例:_________________ (五) 非隨機抽樣(nonrandom sampling) 非隨機抽樣(nonrandom sampling) :任何一種抽樣方法在自母體選取樣本的過程中並不包括隨機選取者,均屬於非隨機抽樣。 非隨機抽樣方法因非機率抽樣,所以也不適合做統計分析與推論,抽樣誤差也無法客觀的計算出來。一般在廣播電視常出現的叩應(call-in)民調即屬非隨機抽樣的一種。 二、 統計量與抽樣分配 1. 基本概念 (一) 隨機樣本 設X,X,. . . . . . ,X為由母體f(x) 中抽出的n個隨機變數,若滿足: 12n1. X,X, . . . . . . ,X皆為獨立 1 2n2. X, X,. . . . . . ,X的機率分配皆為f(x) 12n則稱 (X, X, . . . . . . ,X) 為由母體f(x) 中抽出的一組隨機樣本。 12n(二) 統計量(statistic) 由樣本中計算出用來描述樣本的數值測量結果,統計量為樣本內隨機變數之函數。 (三) 抽樣分配(sampling distribution) 在一母體中重複抽取固定大小的隨機樣本,由該隨機樣本所計算出之統計量的所有可能結果之_______________, 稱為該統計量的抽樣分配。 Part7-3
【例 1】 考試平均成績 假設某次統計學考試前五名高分的成績分別為 91、92、93、94及 95 分,若將這五名同學當成一母體,則母體之平均成績為 μ = (91+92+93+94+95)/6 = 93(分)。今若自該母體中隨機抽取兩名同學為樣本(n=2)計算平均成績,則該平均成績之抽樣分配為何?E(x)=? 可能樣本 樣本平均(x) 可能樣本 樣本平均(x) 91,92 92,94 91, 9392, 9591,94 93,94 91, 9593, 9592,93 94,95 x之抽樣分配為 x f(x) E(x)=_______________________________ 【習題 1】一離散均勻全體,並含四數0, 1, 2, 3。即f(x) =1/4, x=0, 1, 2, 3,今以取出放回法抽取兩個為一樣本,試求: (1) 求此試驗之樣本空間x, (2) 求x之抽樣分配, (3) E(x) , Var(x)。 2. 樣本平均之抽樣分配 (一) 取出放回或無限母體 自一平均數為 μ 與標準差為σ的母體中抽取一大小為 n 之隨機樣本(X, X, …, X),12n樣本平均之期望值與變異數如下: X 之變異數Var(x) X 之期望值 E(x) (二) 在有限母體中採抽出後不放回,樣本平均之期望值與變異數如下 X 之期望值 E(x) =____________________;X 之變異數Var(x)=____________________ Part7-4
其中 , __________________為有限母體修正因子,一般認為,當n ≤ 0 .05N時,上式中的修正因子即可省略不用 。 【例 2】平均月薪之期望值與標準差 假設高科公司有 1000 名員工,已知其平均月薪為 40,000 元,月薪標準差為 5,000 元,今若自該公司中隨機抽取 25 名員工調查其月薪,該25 名員工之平均月薪之期望值與標準差為若干?今若改自該公司隨機抽取 100 名員工調查其月薪,則該 100 名員工之平均月薪之期望值與標準差為若干? N=25 N=100 E(x) = E(x) = Var(x) Var(x) σ= σ= xx 2【定理一】設X,X,. . . . . . ,X為出自於一具有常態分配N (μ, σ)之母體,則樣本平12n均的抽樣分配2 σX~N(μ, ) n 【例 3】銀行等待時間 假設泛太銀行每位顧客等待服務的時間呈常態分配,平均等待時間為 10 分鐘,標準差為 2 分鐘。為作服務品質調查,隨機抽選 16 名顧客瞭解其等待服務時間,問該 16 名顧客平均等待時間超過 11 分鐘的機率為何? 2【定理二】設X,X,. . . . . . ,X為出自於一具有常態分配N (μ, σ)之母體,則樣本和12nn的抽樣分配 2X~N(nμ,nσ)∑i i=1 Part7-5
例 4 飲料會被退貨嗎? 「喝好茶」盒裝飲料平均每盒重量為 500 克,標準差為 10 克。今「每日」便利商店進了一批「喝好茶」盒裝飲料並隨機抽取一箱(內含20 盒)飲料進行重量檢驗,若該箱飲料重量不足 9900 克,則整批飲料通通退貨。若該盒裝飲料之重量呈常態分配,請問該批飲料會被退貨的機率為何? (三) 樣本平均數抽樣分配的共通性質 ‧ 所謂共通性質,係指x分配的性質,是在任何型態(不限型態)母體分配下都成立的。 ‧ 對抽樣分配而言,其標準差為標準誤。 σσ=x n‧ 由標準誤公式可知: 1. σ與σ成___________,表示母體分配的分散度直接影響x分配的分散度。 x2. σ與n成反比,表示當樣本次數增大時,x分配的分散度會隨之_____________。 x‧ 較大的樣本次數,提高推論的可靠性。 ‧ 大數法則:不限母體分配型態為何,當樣本次數________時,樣本平均數x 與母體分配之平均數 μ 會逐漸接近。 ‧ 中央極限定理(central limit theorem):不限母體分配型態為何,當 n→∞ (在實務上,__________ 即可適用)時,x分配趨近為_____________分配。 Part7-6
例 5 年終獎金與減薪 假設某產品推銷員平均每天賣出 1000 件產品,每天賣出產品數之標準差為 100 件。今公司於年終欲瞭解該銷售員之銷售業績,遂隨機選取了 100 天的銷售業績來檢驗,若該 100 天的平均銷售數量超過 1025 件,則發給該銷售員年終獎金;若該 100 天的平均銷售數量不足 985 件,則要扣減其薪資。問該銷售員既得不到獎金亦沒有受到減薪懲罰之機率為何? 例 6 接力賽破紀錄 假設某大專院校全體學生參加 100 公尺賽跑的平均時間為 15 秒,標準差為 3 秒。今學校隨機抽選 36 位同學參加大專運動會之 3600 公尺接力賽跑,若 3600 公尺接力賽跑之大會紀錄為 8 分鐘整,試問該 36 位同學破紀錄之機率為何? (四) 結論 母體是常態分配,則樣本平均的抽樣分配_____________。 母體不是常態分配,則在樣本夠大時,樣本平均的抽樣分配會________________。 樣本平均的期望值等於___________。 樣本平均的標準差比母體標準差小___________倍。 3. 樣本比例之抽樣分配 (一) 樣本比例(Sample Proportion)ˆp ˆ p=X/n 其中X: 樣本中某特定類別族群之發生次數; n: 樣本大小 樣本比例之平均數與變異數 無限母體 有限母體且母體大小(N)與樣本大小(n)的比例關係n/N為> 情況 μ=E(ˆp)= μ=E(ˆp)= pˆpˆ22σˆ=Var(p)= σˆ=Var(p)= pˆpˆPart7-7
自一成功機率為 p 的二項分配抽取 n 之隨機樣本,在大樣本(_____________且 _________)的情況下,樣本比例ˆ p的抽樣分配近似為 有限母體且母體大小(N)與樣本大小(n)n無限母體或有限母體大小N滿足≤的比例關係n/N為> 情況 ˆˆp~__________________ p~_________________ 例 7 保單之續保率 某保險公司宣稱其保單每年之續保率為85%,遠高於全國所有保險公司之總續保率。假設全國的續保率為 80%,並且該保險公司之宣稱正確,今自該公司去年之保單中隨機抽取 100 份檢查是否在今年又續保,問這 100 份隨機抽取之保單之續保率高於全國之機率為何? 4. 兩樣本平均數差的抽樣分配 假設有兩個獨立母體,分別具有平均數為μ,μ,標準差為σ,σ,隨機抽出 n,n個來121212自非常態母體之大樣本,則兩樣本平均數差 X−Y的抽樣分配為何呢? (X−Y)~N(___________, __________) or Z = ___________________~N(0, 1) 例 8 兩條獨立之生產線 假設有兩條獨立之生產線,已知兩生產線 產品之平均重量分別為公克及6公克, 標準差分別為公克及公克,今隨機由 兩生產線分別抽出36件及49件產品為樣 本。請問第一組樣本平均數大於或等於第二 組樣本平均數1公克之機率為何? Part7-8
【習題 2】某種貴賓狗之高度分配的平均數 為72公分,標準差為10公分,某種獅子狗的平均高度為28公分,標準差為5公分,假定樣本平均數可測度任何確度。今取貴賓狗64隻,獅子狗100隻為隨機樣本,求P(X−Y≤)=? 64100 5. 兩樣本比例差的抽樣分配 假設有兩個獨立母體, X~B(n, p),and Y~B(n, p),當 n,n夠大時,( 通常,n p ≥ 5,112212 11ˆˆn(1 - p) ≥ 5,and n p ≥ 5, n(1 - p) ≥ 5),依 C L T,則兩樣本比例差 P−P的抽樣分11222 212配為何呢? ˆˆ P−P~N(___________, __________) or Z = ___________________~N(0, 1) 12 第七章習題與解答 1、已知母體 5個家庭中,每個家庭擁有的寵物數量如下 可能樣本樣本平均 家庭寵物數量 AB 4 A 2 AC 3 B 6 AD C 4 AE D 3 BC 5 E 1 BD (1)計算母體平均及標準差。 (及) BE (2)若從母體取出 2個家庭,則有10種可能情形,列出10種可 CD 能樣本,並計算每組樣本的樣本平均。 CE (3)利用此 10個樣本平均計算平均的期望值及標準誤 (及 DE 2 ) 2、查特怒加市的田納西大學的學生共有 8,000人,所有學生的平均年齡為24歲,標準差為9歲。隨機抽取36個學生做為樣本 (1)計算平均的標準誤。 () (2)樣本平均會大於 歲的機率為何?() 本平均會介於(3)樣 到27歲的機率為何?() 3、某個城市的公車司機,其平均週收入為為即為。假設我 $950 即為標準差() $45 ()們隨機抽取機為樣本 81 位公車司 Part7-9
平均的標準誤(1)計算 (2)樣本平均會大於 $960的機率為何? (3)若母體大小為 400人,則平均的標準誤為何? 4、某汽車修理廠宣稱其平均維修時間為 2小時,標準差為32分鐘。隨機抽取64個維修時間做為樣本 (1)此樣本的平均服務時間會大於114分鐘的機率為何? () (2)假設此母體大小為400個,計算平均的標準誤。 () 5、一母體中有五台秤重機,其重量分別為1,3,5,7, 9 計算母體的(1)平均數及標準差(5及 8) (2)從母體中隨機取出 2個重量取出不放回,可以得到()10種可能的樣本。利用此10組樣本平均計算的母體平均及變異數。(5及3) (3)計算平均的標準誤。 () 6、某間大的大學學生每天午餐平均花費 $5,標準差為$3。隨機抽取36個學生。 (1)樣本平均抽樣分配的期望值、標準差及形狀分別為何? (; ; normal) (2)樣本平均至少 $4的機率為何?() 平均至少(3)樣本 $的機率為何?() 7、某間百貨公司宣稱他們的交易中有 25%為信用卡交易。隨機抽取75筆交易做為樣本 樣本比例會大於(1) 的機率為何?() (2)樣本比例會介於 到的機率為何?() (3)樣本比例會小於 的機率為何?() 樣本比例會小於(4) 的機率為何?() 8、在某間餐廳,客人會隨著晚餐點一杯咖啡的比例為。簡單隨機抽取144位餐廳顧客 (1)抽樣分配的期望值、標準差及形狀分別為何? (; ; 常態) (2)顧客隨餐點咖啡的比例介在 到的機率為何? (3)顧客隨餐點咖啡的比例至少 的機率為何? 9、麥可正在競選總統,投票者中有 的比例支持麥可。簡單隨機抽取100個投票者 (1)抽樣分配的期望值、標準差及形狀分別為何? (; ; normal) 樣本中不支持麥可的人數介於(2) 26到30人的機率為何?() (3)樣本中不支持麥可的人數大於16人的機率為何? () 10、某間公司有 500位員工,其中有45%為女性 例的標準誤。(1)計算比 () (2)此樣本比例女性比例會介於 ()到的機率為何?() Part7-10
【習題 3】一個在全省各地開了三千家分店解: 的大企業,想要抽樣估計去年每家分店發生(a) n=100 物品損壞的平均損失金額。假設母體平均數 μ=1630元,而母體標準差σ=400元,試求 (a)倘若抽取n=100家分店當成隨機樣本,則 樣本平均數與母體平均數之差在60元以內(b) n=256 的機率是多少?(b)倘若將抽取的分店家數增加到n=256家,則樣本平均數與母體平均數之差在60元以內的機率又是多少? 結論: ______________________________ 【練習4】在上次的選舉,一位州代表得到解: 52% 的選票。在選後的一年這位代表發起一 個調查,詢問300 位民眾的隨機樣本,在下次的選舉中他們是否還會投給他。 如果我們假設他受歡迎的程度沒有改變,則此樣本中會有一半以上的民眾投票給他的機率為何? 結論: ______________________________ 【習題 5】假設 (WLU) 畢業生與 (UWO) 畢業生的起薪是常態分配,且具有平均數與標準差。如果WLU 以及UWO 的MBA 畢業生的隨機樣本分別被選出,如下所示 WLU UWO 平均數 62,000 60,000 標準差 14,500 18,300 樣本數n 50 60 求WLU 畢業生的樣本平均起薪超過UWO 畢業生的樣本平均起薪的機率為何? 結論: ______________________________ 6. 【補充】與常態分配有關之三種抽樣分配 z 學生t 分配(Student t distribution) z 卡方分配(chi-squared distribution) z F 分配(F distribution) (一) t 分配(Student t distribution) 使用字母 t 代表隨機變數[Gosset以筆名「學生」發表他的發現,並且使用字母 t 代表隨機變數,又被稱為_________________(Student’s t distribution) ]。 Part7-11
−(ν+1)/22⎡⎤Γ[(ν+1)/2]t t 分配的機率密度函數. f(t)=1+ (重要!!!) ⎢⎥ννπΓ(ν/2)⎣⎦其中: ν (希臘字母nu) 被稱為_________ (degrees of freedom), π 等於, Γ 是gamma函數,Γ(k)=___________________ t 分配與標準常態分配是類似的: 學生 t 分配形狀為__________以及對稱於_____。 t分配之期望值 E(t) =_________ ;t分配之變異數Var(t)=__________ 如同µ 與 σ 解釋常態分配, ___________解釋學生 t 分配 t 分配的圖形注意 當 ν 越大,學生 t 分配越接近_____________。 決定學生 t 的數值: (請參考表三) 它們是具有自由度 ν 且滿足關係式______________的學生 t 隨機變數的數值 。A 值是預定的“關鍵的"數值,具代表性的數值在 ____、____、____、____、____。 查表練習: t, =____代表意義為:________________ .0510 t 分配的之性質: ν(1) 期望值 E(t) = 0 (2) 變異數 Var(t)= 對ν>2 ν−2(3) E(t)=0得 t 分配為________________ ν→∞(4) 當 (實務上,_________________),t 分配以標準常態分配為極限。 2(5)【定理】(重要!!!) 設X,X,. . . . . . ,X為出自於一具有常態母體N (μ, σ)之隨12n222X+X+...+X(X−X)+(X−X)+...+(X−X)212n12n機樣本,令X=(樣本平均數);S=nn−1X−μ2(樣本變異數),且X與S互相獨立,則 ~_________________ Sn2(二) 卡方分配 (χ distribution) 21122(ν/2)−1−χ/22 卡方分配的機率密度函數. f(χ)=(χ)e χ>0(重要!!!) ν/2Γ(ν/2)2其中: 參數ν (希臘字母nu) 被稱為___________ (degrees of freedom)。 Part7-12
2222 卡方χ分配之期望值 E(χ) =________;卡方χ分配之變異數Var(χ)=________。 注意 2 卡方χ分配的圖形2 卡方分配χ是___________。 2 ________,如χ,影響不對稱的值2(如:發現 P(χ < 0) 是不合邏輯的)。 2 查表練習: χ=____代表意義為:________________ ,82 查表練習: χ=____代表意義為:________________ ,82 卡方χ分配之性質: 2221. (加法性)X~χ,X~χ,且X與X互相獨立,則X+X~χ (ν)(ν)(ν+ν)1212121212X−μ22. Z=~N(0,1),則 Z=_________。 σ23. 【定理】(重要!!!) 設X1,X2,. . . . . . ,Xn為出自於一具有常態母體N (μ, σ)之隨X−μX−μX−μX−μ2222123n機樣本,若Y=()+()+().....+(),則Y為具σσσσ22有自由度n的χ分配 . Y~χ (Why??) (n)24. 【定理】(重要!!!) 設X1,X2,. . . . . . ,Xn為出自於一具有常態母體N (μ, σ)之隨X+X+...+X12n機樣本,令X=(樣本平均數統計量);n222(X−X)+(X−X)+...+(X−X)2212nS=(樣本變異數統計量),且X與S互相獨立,n−12(n−1)S則 ~________________ 2σPart7-13
25. 卡方χ分配之用途 單一母體其_____________之估計與檢定。 在無參數統計中一些檢定方法如,__________、____________、_________等。 2【例9】由常態母體N (μ, 6) 抽出一組樣本數為25的隨機樣本,問 2(1) 樣本變異數S會超過的機率為多少? 2(2) S會介於與之間的機率為多少?【習題6】已知學生身高之機率分配為常態分 2配N(160, 10) 。今隨機抽查25位學生身高為2樣本,其樣本平均為X,樣本變異數為S,問(1) P(X>163)=? 2(2) 已知P(S>a)=,求a=? (三) F 分配 (F distribution) F 分配(F distribution) 的密度函數.如下所列 ν+νν−2112νΓ()12νFν212f(F)=() F>0 ν+ν12ννννF12212Γ()Γ()(1+)22ν2其中F 的範圍_______________,並且ν 與ν 是分配的參數被稱為_________。 12 ν為_______________ ;ν為_______________ 122ν2ν(ν+ν−2)2212 F分配之期望值 E(F)= , ν>2;F分配之變異數 Var(F)= , ν>4 222ν−2ν(ν−2)(ν−4)2122 F分配的圖形注意 F隨機變數就像卡方隨機變數一樣只能____________。 Part7-14
查表練習: F=____,代表意義為:________________ ,3,7 F分配之性質: 2222221. χ與χ互相獨立且χ~χ,χ~χ,則 (ν)(ν)1212122χ/ν11F=~F(ν,ν)稱為自由度為ν 與ν之F分配。 12122χ/ν22 2. F(ν,ν)=_________。(重要!!!) 1−α12 查表練習: F=____,代表意義為:_____________ ,3,723. 設(X1,X2,. . . . . . ,Xn1)與(Y1,Y2,. . . . . . ,Yn2) ,為分別由常態母體N (μ1, σ1) 2與N (μ2, σ2)抽出之二組獨立之隨機樣本,則 22S/σ11~_____________ 22S/σ22(自己練習導一下) 4. F分配之用途 (1) 檢定_______________________是否相等。 (2) _______________之檢定。 Part7-15