SPSS在社会统计中的应用
社会统计中的统计软件
SPSS基础
SPSS在社会统计学中的应用
描述性统计(( Descriptive Statistics Descriptive Statistics))
相关分析((CorrelateCorrelate))
回归分析((RegressionRegression))
均值比较与检验((Compare MeansCompare Means))
社会统计中的统计软件
统计分析软件是数据分析的主要工具
完整的数据分析过程包括:
数据的收集数据的收集
数据的整理数据的整理
数据的分析数据的分析
统计学为数据分析过程提供一套完整的科
学的方法论。统计软件为数据分析提供了
实现手段。
统计分析软件的一般特点
功能全面,系统地集成了多种成熟的统计
分析方法;
有完善的数据定义、操作和管理功能;
方便地生成各种统计图形和统计表格;
使用方式简单,有完备的联机帮助功能;
软件开放性好,能方便地和其他软件进行
数据交换。
常用统计软件简介
SASSAS:真正的巨无霸。被誉为国际上的标准统计:真正的巨无霸。被誉为国际上的标准统计
软件和最权威的组合式优秀统计软件。软件和最权威的组合式优秀统计软件。
SPSSSPSS:统计软件中的贵族:统计软件中的贵族
S-PlusS-Plus::SS语言(语言(AT&TAT&T贝尔实验室)的后续发展贝尔实验室)的后续发展
StataStata:软件小巧、功能强大:软件小巧、功能强大
以下,我们介绍的主要是以下,我们介绍的主要是SPSSSPSS。。
SPSS(PASW)基础
软件名称
Statistical Package for Social Science Statistical Package for Social Science ((1975-20001975-2000年)年)
Statistical Product and Service Solutions(2000Statistical Product and Service Solutions(2000年年-2009-2009年年44月月))
Predictive Analytics SoftwarePredictive Analytics Software((20092009年年44月起)月起)
软件发展软件发展
1960 1960 年代:美国斯坦福大学三位研究生研制年代:美国斯坦福大学三位研究生研制
1970 1970 年代:年代:SPSS SPSS 总部成立于芝加哥,推出总部成立于芝加哥,推出 SPSS SPSS 中小中小
型机版型机版 SPSSX— SPSSX—
1980 1980 年代:微机版(年代:微机版( V1~3 SPSS/PC+ 3 V1~3 SPSS/PC+ 3))
1990 1990 年代:年代:Windows Windows 版(版( v5~17 v5~17))
20092009年年44月:被月:被IBMIBM公司收购,改名为公司收购,改名为PASWPASW。。
第一节 描述性统计
频数分布(Frequencies)
数据描述(Descriptives)
数据探索(Explore)
交互列联表(Crosstab)
一、频数分布一、频数分布
在在SPSSSPSS中可以很容易地得出频数分布表,平均数,中可以很容易地得出频数分布表,平均数,
标准差等。标准差等。
频数分布:可以概略地看到资料的分布情况,可做频数分布:可以概略地看到资料的分布情况,可做
初步整理之用,从中还可检查数据输入情况。初步整理之用,从中还可检查数据输入情况。
命令选择:命令选择:Analyze Analyze ———— Descriptive Descriptive
Statistics Statistics ———— Frequencies Frequencies
备备 注:可选入多个变量注:可选入多个变量
Statistics:Statistics:
Dispersion(Dispersion(离差栏)离差栏)::
标准差标准差
Variance Variance 方差方差
Range Range 全距全距
Minimum Minimum 最小值最小值
Maximum Maximum 最大值最大值
均值的标准误均值的标准误
Central Tendency (Central Tendency (集中趋势栏)集中趋势栏)
Mean Mean 均值均值
Median Median 中位数中位数
Mode Mode 众数众数
Sum Sum 总和总和
Skewness Skewness 偏度(偏度(00,,,,,,))
Kurtosis Kurtosis 峰度(峰度(00,正,负),正,负)
例:例:09-0109-01
还可直接作出图形(Charts):
Bar charts:条形图
Pie Charts:圆图、饼图
Histograms:直方图,只适用于连续的
数值型变量。
二、数据描述分析过程
适用条件:对于定距以上变量,可以进行
集中趋势和离中趋势的统计
命 令:Analyze—— Descriptive
Statistics ——Descriptives
变量要求:可多选
可 选 项:Mean、、
Minimum
三、数据探索三、数据探索
11、对数据进行初步考察:、对数据进行初步考察:
检查数据是否有错误:过大或过小的数据有可能检查数据是否有错误:过大或过小的数据有可能
是奇异值、影响点或错误数据。一要找出,二是奇异值、影响点或错误数据。一要找出,二
要分析原因,三要决定是否从中剔除。要分析原因,三要决定是否从中剔除。
数据分布特征:许多分析方法对数据的分布有一数据分布特征:许多分析方法对数据的分布有一
定要求。从数据是否服从正态分布,决定他们定要求。从数据是否服从正态分布,决定他们
是否可以选用只对正态分布数据适用的分析方是否可以选用只对正态分布数据适用的分析方
法。法。
Explore :Explore :进行初步探索分析进行初步探索分析
09-0309-03
四、交互列联表
适用条件:根据变量的层次,统计学中有
各种不同的相关系数来描述,在社调中
常见的两个定类(或一个定类、一个定
序)
命 令:Analyze —— Descriptive
Statistics—— Crosstabs
变 量:选择一个或多个变量进入
Rows,Column框
对复选框的解释
(1)Chi-square,(1)Chi-square,卡方检验。卡方检验。
Pearson Chi-square test Pearson Chi-square test
Likehood ration Chi-square test Likehood ration Chi-square test 似然比卡方检验似然比卡方检验
FisherFisher’’s exactly test s exactly test 费雪精确检验费雪精确检验
((22))CorrelationCorrelation复选框。复选框。Pearson,SpearmanPearson,Spearman(只适(只适
用于数值型)用于数值型)
(3)Nominal Data(3)Nominal Data栏,适用于定类变量的统计量。栏,适用于定类变量的统计量。
LambdaLambda复选项复选项
((44))Ordinal DataOrdinal Data栏:适用于定序变量的统计量栏:适用于定序变量的统计量
GammaGamma、、Kendall”s tau-bKendall”s tau-b、、Kendall”s tau-cKendall”s tau-c
(5)Nominal by Interval:(5)Nominal by Interval:一个定类一个定距以上变量一个定类一个定距以上变量
EtaEta统计量,如收入和性别的关联性统计量,如收入和性别的关联性
Flag significant correlations:Flag significant correlations:用星号标记有统计学意用星号标记有统计学意
义的相关关系。义的相关关系。
第二节 相关分析
相关分析是研究变量间密切程度的一种统计方法。相关分析是研究变量间密切程度的一种统计方法。
对于其数值可以从小到大排列的数据才能计算其对于其数值可以从小到大排列的数据才能计算其
相关系数。相关系数。
简单相关(简单相关( Bivariate Bivariate ))
偏相关(偏相关( Partial Partial ))
11、对定距以上两个变量、对定距以上两个变量xx与与yy的相关系数采用的相关系数采用PearsonPearson
相关系数相关系数
22、、Spearman KendallSpearman Kendall相关系数是一种非参测度,相关系数是一种非参测度,
是根据数据的秩而不是根据实际值计算的。适合定序是根据数据的秩而不是根据实际值计算的。适合定序
数据或不满足正态分布假设的定距数据。数据或不满足正态分布假设的定距数据。
33、偏相关系数:描述的是当控制了一个或几个另外的变、偏相关系数:描述的是当控制了一个或几个另外的变
量的影响条件下两个变量间的相关性。如:可以控制量的影响条件下两个变量间的相关性。如:可以控制
年龄和工作经验,估计工资收入与受教育程度之间的年龄和工作经验,估计工资收入与受教育程度之间的
相关关系。相关关系。
44、关于相关系数统计意义的检验:由于抽样误差的存在。、关于相关系数统计意义的检验:由于抽样误差的存在。
检验的零假设检验的零假设————总体中两个变量间的关系为总体中两个变量间的关系为00。。
SPSSSPSS只给出给假设成立的概率只给出给假设成立的概率PP值。值。
((11))Analyze Analyze ————CorrelationsCorrelations————
BivariateBivariate
计算指定的两个变量之间的相关系数,可选择计算指定的两个变量之间的相关系数,可选择
PearsonPearson相关、相关、SpearmanSpearman和和
Kendall Tau-bKendall Tau-b相关;同时对相关系数进行检相关;同时对相关系数进行检
验。验。
Test of Significance Test of Significance 是用于变量间相关的是用于变量间相关的
显著性检验。系统默认的是双侧检验。显著性检验。系统默认的是双侧检验。
Two-tailed:Two-tailed:事先不知道相关方向事先不知道相关方向
One-tailed:One-tailed:事先知道相关方向事先知道相关方向
例例Data09-03Data09-03
使用系统默认值进行相关分析:
分析:起始工资、现工资与雇员受教育水
平、工作经验、职务等级之间是否存在
线性关系。
((22)) Analyze Analyze ————CorrelationsCorrelations————Partial Partial
用上例:用上例:
- Controlling for.. JOBCAT PREVEXP - Controlling for.. JOBCAT PREVEXP
JOBTIMEJOBTIME
SALARY EDUC SALARY EDUC
SALARY .4399SALARY .4399
( 0) ( 469) ( 0) ( 469)
P= . P= .000 P= . P= .000
EDUC .4399 .4399
( 469) ( 0) ( 469) ( 0)
P= .000 P= . P= .000 P= .
(Coefficient / (.) / 2-tailed Significance)(Coefficient / (.) / 2-tailed Significance)
" . " is printed if a coefficient cannot be " . " is printed if a coefficient cannot be
computedcomputed
第三节 回归分析
回归分析是处理两个及两个以上变量间线性依存回归分析是处理两个及两个以上变量间线性依存
关系的统计方法。关系的统计方法。
回归分析作为一个严肃的统计学模型,有着严格回归分析作为一个严肃的统计学模型,有着严格
的使用条件。因此在做回归分析之前,应该对数的使用条件。因此在做回归分析之前,应该对数
据进行基本的判断。如作出散点图、观察变量间据进行基本的判断。如作出散点图、观察变量间
的趋势等。的趋势等。
AnalyzeAnalyze——RegressionRegression——Linear Linear
Dependent:Dependent:因变量,只选一个因变量,只选一个
Independent:Independent:自变量,可选入多个自变量。自变量,可选入多个自变量。
Method:对自变量的选入方法。
Enter:强行进入法
Forward:向前选择法
Backward:向后剔除法
Stepwise:逐步进入法
(例,及解释)
先做散点图:09-03
Graphs--scatter
剩余变差:Y值对于回归直线的偏差。
回归变差:回归已知时误差减少的量。
总变差=剩余变差+回归变差
总平方和=未解释的平方和+已解释的平方和
扩展——几个自变量的线性回归示例:
如:现工资与受教育水平、初始工资、工作
经验、职位之间的回归模型。
第四节 均值比较与检验
均值不相等的两个样本不一定来自均值不同
的总体;两个变量均数接近的样本是否来
自均值相同的总体?——两个样本某变量
均值不同,其差异是否具有统计意义。
对调查样本中不同的子总体在某些变量上的
平均值之间的差异情况进行比较。
Means: 主要是对样本的描述统计,也直
接进行比较。
One-Samples T Test:样本均值和已知
Independent-Samples T Test:独立
样本均值差比较
Paired-Samples T Test:配对样本
问:检验男生和女生的学习成绩是否有显
著性差异?
检验丈夫和妻子的智商是否有显著性差异
?
方差齐次检验:F
一、Means过程
Analyze—Compare Means—
Means
例: 09-03男女工资均值
职位不同的男女雇员工资的均值
二、单样本T检验
Analyze—Compare Means—One-
Samples T Test
例:已知某地12岁男孩身高,
现测得某市120名12岁男孩身高资料。
11-02
在Test中输入
三、独立样本T检验
要求被比较的两个样本彼此独立,没有配
对关系。要求两个样本均来自正态总体。
例:检验男女雇员现工资是否有显著性差
异。09-03
Analyze—Compare Means—
Independent Samples T Test
四、配对样本T检验
要求被比较的两个样本有配对关系。两个
样本均来自正态总体。均值对于检验是
有意义的描述统计量。
例:10个高血压患者在施以体育疗法前后
测定舒张压。要求判断体育疗法对降低
血压是否有效。11-03
零假设:
练习
自己在电脑上进行操作,将频数分析、交互
分析、相关分析、回归分析、均数检验等
熟悉一遍。