25種統計方法秘技中文版張偉豪SPSS宏德國際軟體諮詢資深顧問成大企管博士候選人樹德科大企管系講師勞委會職訓局專任講師南部希望園區社長E-mail: xx000252@
YA教授開示2
統計學基礎很爛,可能聽得懂嗎?3
你會唱歌,但是你懂樂理嗎?你會開車,但是你懂汽車構造嗎?4
分析方法的基本分類統計方法的組合運用大綱認識統計方法5
統計方法的分類類別變數連續變數敘述性統計主成份分析關複選題分析係無因素分析因果(多重)交叉分析集群分析卡方(同質、獨立、適(偏)相關分析合度)檢定關係有因二元羅吉斯迴歸偏相關分析果區別分析迴歸(路徑)分析(多變量)變異數分析偏最小平方迴歸6
SPSS的統計應用有母數分析敘述統計推論統計(多變量分析)無母數分析質化研究量化研究7
敘述統計推論統計有母數分析無母數分析次數分配表9080交叉分析7060多重交叉分析50東部40中部複選題分析30北部20100第一季第二季第三季第四季8
敘述統計推論統計有母數分析無母數分析項目分析(t 檢定)迴歸分析信度檢定路徑分析(多個迴歸分析)變異數分析(ANOVA)偏最小平方迴歸多重比較(差異分析)羅吉斯分析(logistic)多變量變異數分析集群分析(MANOVA)區別分析相關分析主成份分析偏相關因素分析9
敘述統計推論統計有母數分析無母數分析卡方分析同質性檢定適合度檢定樣本獨立性檢定樣本樣本樣本結果最好是母體don’t reject10
連續Y(依變數)偏最小平方迴歸MANOVA路徑分析ANOVAt檢定(偏)相關分析迴歸分析不連續連續X敘述統計羅吉斯分析(自變數)卡方分析不連區別分析續11
xy?到底???何?者是x、何者是y呢?人口統計變項肯依照箭頭的方向定為x,其餘來決定y,箭尾構面視其位置而為x定;形成某構面A的題目可視為該MY構面之Bxn12
主成份與因素分析相同之處1.二者皆可用來將原有之P 個變項減為m 個成份分數或因素分數(m<p),以符合精簡(parsimony)的原則。2.當觀察變項數目多且共同性高之情況下,資料採此二種方法分析,所得結果近似。13
主成份與因素分析相異之處因素分析模式屬於統計的模式,變項之測量含有誤差(error)部分,而主成份分析模式屬於數學模式,故主成份分析模式為共同因素分析模式的一個特例。主成份分析的重點在解釋資料的變異量,而因素分析之重點在解釋變項間的相關。主成份分析中,成份是觀察變項的線性組合;而在因素分析中,觀察變項為各因素之線性組合加上誤差。14
主成份與因素分析相異之處因數分析中是把變數表示成各因數的線性組合,而主成分分析中則是把主成分表示成個變數的線性組合。主成分分析的重點在於解釋各個變數的總變異數,而因數分析則把重點放在解釋各變數之間的共變異數。15
主成份與因素分析相異之處主成分分析中不需要有假設(assumptions) ,因數分析則需要一些假設。因數分析的假設包括:各個共同因數之間不相關,獨特因數(specific factor)之間也不相關,共同因數和獨特因數之間也不相關。主成分分析中,當給定的共變異數矩陣或者相關矩陣的特徵值是唯一的時候,主成分一般是獨特的;而因數分析中因數不是獨特的,可以旋轉得到不同的因數。16
主成份與因素分析相異之處在因數分析中,因數個數需要分析者指定(spss根據一定的條件自動設定,只要是特徵值大於1的因數進入分析),而指定的因數數量不同而結果不同。在主成分分析中,成分的數量是一定的,一般有幾個變數就有幾個主成分。17
主成份與因素分析相異之處和主成分分析相比,由於因數分析可以使用旋轉技術幫助解釋因數,在解釋方面更加有優勢。大致說來,當需要尋找潛在的因數,並對這些因數進行解釋的時候,更加傾向於使用因數分析,並且借助旋轉技術幫助更好解釋。而如果想把現有的變數變成少數幾個新的變數(新的變數幾乎帶有原來所有變數的資訊)來進入後續的分析,則可以使用主成分分析。當然,這中情況也可以使用因數得分做到。所以這中間區分不是絕對的。18
主成份vs. 因素分析Formative indicatorReflective indicator形成型指標反映型指標X1充份條件必要條件Y1X2P1F1Y2X3Y3X4Y4X5P2F2Y5X6Y619
充份條件vs. 必要條件充份條件(sufficient condition) :該做什麼事,才足以(suffice) 達成目標?必要條件(necessary condition) :一旦達到目標了,必然(necessarily) 會有那些現象?血液酒精濃度啤酒消費量酒醉酒駕駛能力紅酒消費量情醉烈酒形情行為能力消費量形計算能力20
使用因素分析的理由當變項數目多且共同性高時,主成份分析與共同因素分析之結果十分近似。因素分析可以轉軸易於解釋命名。主成份分析之負荷量與真實的負荷量比較之下,有高估的現象。CFA 在複雜情境下(如偏態或峰度),與PCA 結果之比較,CFA 較能提供穩定的數值。傅粹馨(2002),主成份分析和共同因素分析相關議題之探究.教育與社會研究.第三期,p107-13221
因素分析(針對變數分類)為了要證實研究者所設計的測驗的確在測某一潛在特質,並釐清潛在特質的內在結構,能夠將一群具有共同特性的測量分數,抽離出背後潛在構念的統計分析技術,即為因素分析。主要目的是把數個不易解釋,但卻彼此相關的變項,轉化成少數幾個有概念化意義,而彼此獨立性大的因素;並可大幅縮減欲分析的變項,使之成為少數幾個因素,以利於資料分析的進行。22
主要的功能建立量表的建構效度。x1收斂效度及區別效度。F1x2簡化測量的內容。x3x4用來協助測驗編製,F2進行項目分析,x5檢驗試題的優劣好壞。x623
集群分析(針對人群分類)目的將資料分成幾個相異性最大的群組,而群組內的相似程度最高。分析工具二階段集群分析200個樣本以內採階層式集群分析(實務上100個判斷就有問題了)200個樣本以上採K-means集群分析(cluster analysis)分組完後,可用區別分析驗證之24
量尺名目因素分析生活型態因素oneone way MANOVA way MANOVA集群分析內外控生活型態群組人口統計變項卡方檢定卡方檢定名目名目多重交叉分析申購促名目動銷通機因路價產素因格品素因素因素25
樣本大小決定經驗:以問卷中最大的構面中的題項數目為主,以5~20倍為抽樣數目,依母體大小決定之(multivariate data analysis, 5th ed., Hair, Jr. et al)。計算:=(1−p)n=2e26
問卷發展流程驗證式分析問卷產生預試項目分析探索式分析問卷完成信度分析因素分析27
問理論基礎及研究目的卷半、開放式問卷編擬及修訂量表初稿多重選擇式問題發二分法問題展選取受試者預試選40~60員進行預試流項目分析t 檢定刪除決斷值(CR)未逹程顯著之題項CR值顯著題項反映像矩陣對角線之因素分析「抽樣適當值」以下者之題項及因素未刪除之題項負荷量小於刪除正式量表28
預試(pretest)目的:了解問項題意是否清楚及修正錯字等刪除不具鑑別力的題項,來提升問卷品質可供應用的統計方法:次數分配(檢查有無輸入錯誤或遺漏值)項目分析(刪除不具鑑別力的變數)因素分析(縮減變數的數量以利分析進行)信度分析(求得因素之內部一致性)29
一般統計方法運用的方式資料鍵檔(用excel建檔)檢查資料(檢查資料輸入是否有誤)遺漏值處理刪除資料(tip:由後往前刪)項目分析(問卷搜集完後)目的:減少題項,找出有鑑別力的題目因素分析(探索式)目的:再度縮減題項,並根據預試資料作初步的信度分析。30
統計分析流程驗證式分析探索式分析問卷回收,資料檢查因素分析key in寫結論選擇統計方法信度分析31
卡方分析(chi-square test)類別資料的產生原發性類別資料(自然分類)當被測定的變項的本質是名義性的屬性,例如性別資料。操弄性類別資料:以人為操作的手段所獲致的分類性資料,例如實驗操弄的分類結果。虛擬化類別資料:由其他類型的資料型態轉換成類別形式的資料,例如由連續變項轉換來的類別變項。32
t 檢定(t-test)平均數的差異考驗雙母群考驗如果研究者想同時考慮不同情況之下的平均數是否有所差異,例如男生與女生的平均數的比較,此時即牽涉到多個平均數的考驗;不同的平均數,代表背後具有多個母數的存在,因此被稱為多母數的平均數考驗。33
變異數分析—ANOVA平均數差異檢定:基本原理是計算兩個數值以上(平均數)之間的差異,如果差異夠大,大於統計上的隨機差異,便可能獲得顯著的結果,拒絕虛無假設、接受對立假設。平均數差異與隨機差異的比值,決定了統計的顯著與否。Y1=X1+X234
多變量變異數分析(MANOVA)在變異數分析中,如果要同時考驗數個依變項,且具中度相關,則採用MANOVA。MANOVA是ANOVA之擴展,當依變數有兩個以上時,採用多變量變異數分析可減少型一錯誤並同時了解群組間平均數在所有依變項的差異(Bryman& Cramer, 1997)。Y1+Y2+...=X1+X2+...35
多重比較(事後比較)一般在整體性之F檢定達顯著後才進行,比較方式為兩兩比較,但也可因研究目的的不同,只做平均數的多重比較,不必考慮整體性F檢定的結果。Bonferroni校正LSD多群比較產生的型一錯誤,校正方法為LSD的p-value×N(N-1)/2若在以下結果顯著。Scheffemethod(雪費法)適用於欲比較之各組之間人數不同或較複雜之比較時用之;對違反常態與同質假設不敏感,檢定結果具強靭性;對犯型一錯誤是最保守的方法。TukeyHSD method(誠實顯著差異法)較保守的檢定方法,適用於比較組數之各組人數相同。36
多重比較(事後比較)S-N-K (Student-Newman-Keuls)比Tukey較不會犯型二錯誤Duncan類似於S-N-K,但比較寛鬆,比較群組愈多愈容易顯著。Games-Howell method使用於群組間N不相等,異質性及非常態,是蠻新的檢定法且結果具強靭性。Dunnett檢定所有群組均與控制組平均數比較Hilton A & Armstrong R A (2006) Is one set of data more variablethan another? Microbiologist Vol. 7: 34-36 (June 2006)37
相關分析(皮爾森相關)相關(correlation)是用以檢驗兩個變項線性關係的統計技術,以相關係數(coefficient of correlation)來表示其相關程度。皮爾森相關係數是一個標準化的關聯係數。其原理是先計算出兩個變項的共變量,再除去兩個變項的標準差,加以標準化,得到的一個去除單位的標準化分數。相關係數介於-1至1之間。38
偏相關Y1使用時機:證明中介效果是否存在時使用。4零階相關(23Zero-Order)Y和X1的皮爾森相關(2+3)/(1+2+3+5674)。X1X2偏相關(Partial Correlations )Y和X1的偏相關(2/1+2) ;Y和X2為(4/1+4)。如標準化迴歸係數半偏相關(Semi-Partial Correlations)移去X1,X2對因變數的共同影響後, X1與因變數的相關(2/1+2+3+4);X2與因變數的相關(4/1+2+3+4)。係數愈大代表該變數對Y的影響愈大。39
迴歸分析(Regression)基本條件: 連續變項之間的關係線性關係(linear relationship),指兩個變項的關係可以被一條最具代表性的直線來表達之時,所存在的關連情形。迴歸分析的結果無法證明x 和y之間有因果關係存在。因果關係須滿足三個條件:1. 除了評估變數之外,其餘變數保持不變;2. x、y 有顯著相關;3. 因(x)必發生在果(y)之前。迴歸方程式Y1=aX1+bX2+...40
路徑分析(path analysis)路徑分析由一系列的迴歸分析所組成,除了借用迴歸方程式的原理,並透過假設性的架構,將不同的方程式加以組合,形成結構化的模式。優點:可用來證明中介變數的存在與否缺點:執行n次迴歸,其信賴數係數α成為。因此,執行愈多次迴歸,其模型之可信度愈低。AMYB41
多因多果及小樣本的分析利器-PLSR偏最小平方迴歸=多元線性回歸分析+典型相關分析+主成分分析價格快樂甜度牛酒排精點酸心度42
PLS的特點能夠在自變量存在嚴重多重共線性的條件下進行迴歸建模允許在樣本點個數少於變量個數的條件下進行迴歸建模PLS 在最終模型中將包含原有的所有自變數PLS 模型更易於辨識系統信息與誤差(甚至一些非隨機性的誤差)PLS 模型中,每一個自變量的迴歸係數更容易解釋43
項目分析與信度估計預試分析目的在確認量表題目的堪用程度最重要的工作為項目分析,試探性的信度分析,以作為題目改善的依據信效度檢驗提供各項客觀指標,作為測驗與量表良窳程度的具體證據。44
二元Logistic分析適用於兩群體的分類不需符合一般多變量的嚴格假設及較具強靭性與區別分析同樣具有正確的統計檢定能力及整合非線性影響的能力能應用於各種範圍的特徵適合用於建構決策模型45
區別分析區別分析(discriminate analysis)的主要目的在計算一組「自變項」的線性組合對「間斷變項」加以分類,並檢查再分組的正確率。Y1=X1+X2+...46
交叉分析(列聯表分析)變數須為名目尺度(不連續變數) 性別:男、女傳播媒體:電子媒體、平面媒體、網路媒體只能有兩個變數47
多重交叉分析(多重列聯表分析)變數須為名目尺度(不連續變數) 性別:男、女地區:如北、中、南傳播媒體:電子媒體、平面媒體、網路媒體三個變數以上,但仍以三個為主48
複選題處理程序1.資料輸入(以個別題目型態輸入)2.定義集群點選統計分析→複選題分析→定義集合定義集內的變數3.完成虛擬複選題變項4.次數分配表分析5.交叉表分析49
同質性檢定目的檢定不同人口母群,在某一變項的反應是否具有顯著差異;亦即兩個樣本在同一變項中之分佈情形。適用時機郵寄問卷時,比較早期回收群及後期跟催回收群之人口統計變項。街頭訪問時,比較願意主動作答群及被動作答群之人口統計變項。受訪者中包含不同團體。網路問卷與紙本問卷的比較。50
適合度檢定目的研究樣本是否抽樣母群分配相符合時,以卡方檢定進行之;每次檢定內容僅涉及一個變項。適用時機當研究者想知道樣本是否能代表母體時,用人口統計變項與母體資料比較。(如內政部有完整的人口統計資料)。51
獨立性檢定目的想要同時檢定兩個類別變項之間的關係是否相關時,採用卡方檢定。適用時機如研究者想知道學歷與性別之間是否有相關即可採用之。52
離散與連續變數的互換連續轉不連續採人為操弄,將連續變數分類。例:將全班成績改為高分組、中分組、低分組不連續轉連續虛擬變數(Dummy Variables)=水準數(n) -1例:地區:東部、北部、中部、南部等四個水準DV可設為(0,0,0) 、(1,0,0) 、(0,1,0) 、(0,0,1) 數量最多的設為(0,0,0) 。53
54