管 理 统 计
任 静 博 士
renjingjo@
第一章 SPSS的简单应用
SPSS的发展
SPSS的使用基础
SPSS数据的预处理
SPSS基本统计分析
第一节 SPSS的发展
SPSS是社会科学统计软件包(Statistical package for the social science)是当今世界上最流行的统计分析软件;
SPSS公司是由美国斯坦福大学三位学生于1968年成立
SPSS经营:统计分析、数据挖掘、商业智能和客户管理等多种产品和咨询服务
Statistical product and service solutions(统计产品和服务解决方案)
SPSS软件包括:基本模块、分类模块、趋势模块、回归分析模块和高级模块等模块
第二节 SPSS的使用基础
SPSS的安装和启动
SPSS界面的简单介绍
数据的录入
数据的保存
数据的编辑
SPSS数据文件的合并
SPSS的安装和启动
安装注意:
要把注册程序拷入C盘安装目录,并双击注册。
启动注意:
建立桌面的快捷方式
SPSS界面的简单介绍
数据编辑窗口:变量窗口和数据窗口
变量窗口:数据编辑区 、窗口主菜单、工具 栏 、系统状态显示栏
窗口主菜单介绍:见后页
SPSS界面的简单介绍(一)
file-文件操作。对SPSS相关文件进行基本管理。
edit-文件编辑。对数据窗口中的数据进行基本编辑。
view-视图。对SPSS窗口外观进行设置。
Data-数据的操作与管理。对数据窗口中的数据进行加工处理
Transform----数据转换(数据的基本处理)。对数据窗口中的数据进行基本处理
Analyze---统计分析。对数据编辑窗口中的数据进行统计分析和建模。
SPSS界面的简单介绍(二)
Graphs-图形。对数据编辑窗口中的数据生成各种统计图形。
Utilities-实用程序(工具)。SPSS其他辅助管理。
Windows-窗口:对SPSS多个窗口进行管理。
Help-帮助:实现SPSS的联机帮助。
数据的录入
在变量窗口对变量进行定义
在数据窗口输入观测值
案例
在变量窗口对变量进行定义
Name变量名
Type、Width、Decimal:变量类型和默认长度
Label:变量标签
Value:变量值标签
Missing:缺失数据
Columns:显示宽度
Align:对齐方式
Measure :计量尺度
案 例 1
一、公司内部处理日常事务是否有序?(单选)
1、非常有序
2、一般
3、混乱
4、不知道
7个人的答案:2、3、5、1、没答、4、4
课堂练习
二、您的年龄是?(单选)
1、18-28岁
2、29-38岁
3、39-48岁
4、49-58岁
5、59岁以上
10个人的答案:5、6、1、看不清、3、2、2、4、4、6
案 例(2)
三、学校哪(些)方面让你感到满意?(可多选)
1.学校设施
2.学校管理
3.学校老师
4.学校组织的活动
5.其他
课堂练习
你经常使用的搜索引擎是哪几个? (可多选)
1 百度
2 Google
3 雅虎
4 其他
假设有5个被访者,分别选择了 A 1 B 1,2 C 1,2,3 D 2,3 E 1,4
数据的保存(略)
数据的编辑
修改
插入或删除行
粘贴、复制
SPSS数据文件的合并
纵向合并:data-merge file-add cases
课堂练习:职工数据+追加职工数据
横向合并: data-merge file-add variables
案例:职工奖金+职工基本情况
注意:
1、两个数据文件必须至少有一个名称相同的变量,这个变量就是横向拼接的依据,即关键变量
2、事先要对关键变量进行升序排序
第三节 SPSS数据的预处理
排序
排名次
计算
计数
分类汇总
数据分组
数据转置
加权处理
数据拆分
排序
作用:便于数据的浏览、找到最值和异常值等。
Data-sort cases
案例:书上99页、住房状况问卷
注意:多重排序的次序
练习:利用住房状况问卷调查表,找出大学毕业的男士家庭收入最高的是多少?
排名次
与排序的区别
Transform-rank cases
简单排名次,案例:书上100页
分组排名次,课堂练习:利用职工数据 ,求出本科生中收入最高的,专科生中第4高的,高中生中第3高的。
计算
Transform-compute
SPSS算术表达式 案例:减肥茶
SPSS简单条件表达式 课堂练习:职工工资
SPSS复杂条件表达式 案例:职工情况
SPSS函数 案例:年人均消费支出和教育
计数
对于把握个案方面的特征很有效
关键步骤:
1、指定哪些变量参与计算,计数的结果存入哪个新变量
2、指定计数区间
Transform-count
案例:住房状况
课堂练习:保险市场
分类汇总
分类汇总是对不同整体进行比较
data-aggregate
案例:利用住房状况数据,问本市户口和外地户口的人均住房面积是否存在差异?
数据分组
在数据分组的基础上进行频数分析,更能概括和体现数据的分布特征。
transform-recode
案例:住房状况。可对人均面积进行组距分组,分为四组:10平方米以下第一组,10-20平方米的第二组,20-30平方米的第四组。
数据转置
Data-transpose
选取取值唯一的变量,如职工号,作为标记变量到框中。
自动生成case_lbl的新变量
案例:职工基本情况
加权处理
Data-weight cases
本质是数据复制
案例:利用蔬菜销售数据,求1天内卖出蔬菜的平均价格?
数据拆分
与排序相似,不同在于:它为以后所进行的分组统计分析提供便利。
Data-split file
案例:利用职工数据,问不同职称职工的基本工资的最大值、最小值、均值?
第四节 SPSS基本统计分析
频数分析
计算基本描述统计量
交叉分组下的频数分析
多选项分析
频数分析
Analyze-descriptive-frequencies
对窗口进行介绍
课堂练习:
1、书上107页,解释output表
2、以住房状况数据为基础,具有本市户口的未婚女士年均收入是多少?具有本市户口现有住房面积大于50的未婚男士的家庭收入有多少?具有本市户口现有住房面积大于50的未婚男士有多少人?
累积频次与累积频率
频次分析模块不能绘制累积频次图和累积频率图。
Graphs-Bar
编制简单的条形图,书上112页
描述统计统计模块
Analyze-Descriptive Statistics-Descriptives
与频次分析模块的不同之处:能够计算标准化数据。
案例:书上115页
问题:为什么要标准化数据?
探索分析模块
检验数据是否存在异常值、是否成正太分布,检验不同组的数据是否成方差齐性,等等。
Analyze-Descriptive Statistics-Explore
茎叶图与箱型图复习
茎叶图与箱型图案例,书上116页
分类的茎叶图与箱型图案例,书上118页
交叉分组下的频数分析(一)
交叉分组下的频数分析即列联表分析,是两个或两个以上的变量交叉分组后形成的频数分析表。
两大任务:
一是编制交叉列联表
二是分析两两变量间是否存在一定的相关性进行分析
交叉分组下的频数分析(二)
Analyze-descriptive Statistics-Crosstabs
课堂案例:职工情况(职称与文化程度)
解释两维交叉列联表,行/列边缘分布、条件分布、行/列百分比、总百分比、卡方检验
三维交叉变量举例。
课堂练习:
1、住房状况(户口,未来三年是否打算购房)
2、住房状况(问住房面积大于50的未婚男士有多少人?)
多选项分析
多选项分析是针对问卷调查中的多选项问题的。两种方法:多选项二分法,多选项分类法。
多选项二分法(略)
多选项分类法思路:首先估计最多可能出现的答案个数,然后,为每个答案设置一个变量,变量取值为多选项问题中的可选答案。
所选答案具有一定顺序的多选项问题可采用分类法,而没有顺序则采用二分法。
例如:按照您的习惯选择三个晚饭后主要的活动,并按经常性排列顺序。
多选项分析的应用
首先要定义多选项变量集,利用Analyze-multiple response-define sets。举例,保险市场调查,购买商业养老保险的原因。
第二步,进行频数分析或者生成交叉列联表等。
频数分析:Analyze-multiple response-frequencies。
交叉列联表: Analyze-multiple response-crosstabs。
第二章 参数估计的基本概念与SPSS的应用
主要内容
事件
概率
总体分布与样本分布
统计量与统计量的分布
点估计
区间估计
SPSS在参数估计中的应用
第一节 事件
1、必然现象与随机现象
在自然界与生产实践和科学试验中,人们会观察到各种各样的现象,把它们归纳起来,大体上分为两大类:
必然现象:可预言其结果的,即在保持条件不变的情况下,重复进行试验,其结果总是确定的,必然发生的(或必然不发生)。这类现象称为必然现象(inevitable phenomena)或确定性现象(definite phenomena)。
随机现象:另一类是事前不可预言其结果的,即在保持条件不变的情况下,重复进行试验,其结果未必相同。这类在个别试验中其结果呈现偶然性、不确定性现象,称为随机现象(random phenomena )或不确定性现象(indefinite phenomena)。
随机现象的特点
在一定的条件实现时,有多种可能的结果发生,事前人们不能预言将出现哪种结果;对一次或少数几次观察或试验而言,其结果呈现偶然性、不确定性;
但在相同条件下进行大量重复试验时,其试验结果却呈现出某种固有的、特定的规律性——频率的稳定性,通常称之为随机现象的统计规律性。
2、随机试验与随机事件
随机试验 通常我们把根据某一研究目的 , 在一定条件下对自然现象所进行的观察或试验统称为试验(trial)。 当一个试验如果满足下述三个特性 , 则 称 其 为 一个 随机试验(random trial),简称试验。
随机试验的特点
(1)试验可以在相同条件下多次重复进行;
(2)每次试验的可能结果不止一个 ,并且事先知道会有哪些可能的结果;
(3)每次试验总是恰好出现这些可能结果中的一个 ,但在一次试验之前却不能肯定这次试验会出现哪一个结果。
随机事件
随机试验的每一种可能结果,在一定条件下可能发生,也可能不发生,称为随机事件,简称 事 件。
基本事件和复合事件
必然事件和不可能发生事件
第二节 概率
概率是能够刻划事件发生可能性大小的数量指标。事件A的概率记为P(A)。
概率统计定义: 在相同条件下进行n次重复试验,如果随机事件A发生的次数为m,那么m/n称为随机事件A的频率;当试验重复数n逐渐增大时,随机事件A的频率越来越稳定地接近某一数值 p , 那么就把 p称为随机事件A的概率。
案例:抛掷一枚硬币发生正面朝上的试验记录
概率的性质
(1)对于任何事件A,有0≤P(A)≤1;
(2)必然事件的概率为1,即P(Ω)=1;
(3)不可能事件的概率为0,即P(ф)=0。
第三节 总体分布与样本分布
若要全面了解试验,则必须知道试验的全部可能结果及各种可能结果发生的概率,即必须知道随机试验的概率分布。这里,我 们 先引入随机变量的概念。
随机变量:描述随机事件的变量,其取值在一次试验前不能确定,具有随机性。书上121页。
总体与总体分布
总体:反映总体特征的随机变量的取值的全体。
总体分布:反映总体特征的随机变量的概率分布。
有限总体的概率分布:就是有限总体中不同个体的比率分布?前提条件是无限次等机会抽样。
问题:如果是无限总体呢?
随机样本与样本观察值
随机样本:设总体为 X,X1, X2, ··· , Xn 为从总体 X 中抽取的 n 个个体,称 X1, X2, ··· , Xn 为总体 X 的一个样本,并称 n 为样本容量。
简单随机样本。
样本观察值:抽样中所得到的样本数据 x1, x2, ··· , xn 称为样本观察值。
样本分布函数
设样本观测值x1 x2 ,···, xn ,ki为小于xi+1的样本值出现的累积频次, n为样本容量, 则可得样本累积频率分布函数如下:
样本分布与总体分布图
样本分布与总体分布
格利文科 ( Glivenko )定理
格利文科 ( Glivenko )定理 研究的是样本分布与总体分布的关系。定理: 当样本容量 n 趋于无穷大时, Fn(x)以概率1(关于 x )均匀地收敛于F(x).
该定理是运用样本推断总体的理论依据.
定理的数学表达为:
基于格利文科定理的两个重要推论
推论一:当n趋近于无穷大,我们可以用样本均值来推断总体均值。
推论二:当n趋近于无穷大,我们可以用样本方差来推断样本方差。
随机样本的均值函数和方差函数
随机样本的均值函数和方差函数都是一个随机变量. 样本数据的样本均值 x 是随机变量 X 的观测值;样本数据的样本方差 s2 是随机变量 S2 的观测值.
随机样本的均值函数:
随机样本的方差函数:
第四节 统计量与统计量的分布
参数是描述总体的数字。
统计量是描述样本的数字。精确定义见书上126页。
记住:参数之于总体,相当于统计量之于样本。
正态分布
正态分布是一种很重要的连续型随机变量的概率分布。自然现象中有许多变量是服从或近似服从正态分布的。此外,还有不少随机变量的概率分布在一定条件下以正态分布为其极限分布。
正态分布的特征
(1)正态分布密度曲线是单峰、对称的悬钟形曲线,对称轴为x=μ;
(2)f(x) 在 x =μ 处达到极大 ;
(3)f(x)是非负函数,以x轴为渐近线,分布从-∞至+∞;
σ相同而μ不同的3个正态分布比较
μ相同而σ不同的3个正态分布比较
规则
在任何正太分布中,大约有:
1、68%的观测值,落在距平均数一个标准差的范围内。
2、95%的观测值,落在距平均数两个标准差范围内。
3、%的观测值,落在距平均数三个标准差范围内。
正太分布的其它性质
分布密度曲线与横轴所围成的区间面积为1,即:
标准化正太分布
对于任何一个服从正态分布N(μ,σ2)的随机变量x,都可以通过标准化变换,
u=(x-μ)/σ
将其变换为服从标准正态分布的随机变量u。u称为标准正态变量。
x~N(μ,σ2)
x~N(0,1)
u=(x-μ)/σ
正态分布的概率计算
设u服从标准正态分布,则:
Φ(-u) =
Φ(0)=
P(0≤u<u1)=
P(u≥u1) =
P(|u|≥u1)=
P(|u|<u2 ) =
P(u1≤u<u2)=
Φ(u) 、Φ(u1)与Φ(u2)是概率密度,可查正态分布表。
正态分布的概率计算
设u服从标准正态分布,则:
Φ(-u) = 1-Φ(u)
Φ(0)=1/2
P(0≤u<u1)= Φ(u1)-1/2
P(u≥u1) = Φ(-u1) = 1-Φ(u1)
P(|u|≥u1)= 2 Φ(-u1)=2[1-Φ(u1)]
P(|u|<u2 ) = 1-2 Φ(-u2)=2Φ(u2)-1
P(u1≤u<u2)= Φ(u2)-Φ(u1)
Φ(u) 、Φ(u1)与Φ(u2)是概率密度,可查正态分布表。
例一
(1) P(u<)=?
(2) P (u≥)=?
(3) P (|u|≥)=?
(4) P(≤u<) =?
答案
(1)P(u<)=
(2)P (u≥)=1-Φ()=
(3) P (|u|≥)
=2Φ()=2×()
=
(4) P (≤u<)
=Φ()-Φ()
==
例二
已知某种水果的单个重量服从正态分布,平均值为140克,标准差为克,今随机抽取一个,试问其重量不小于130克的概率是多少?
双侧概率
把随机变量x落在平均数μ加减不同倍数标准差σ区间之外的概率称为双侧概率(两尾概率),记作α。
对应于双侧概率,也可以求得随机变量x小于μ-kσ或大于μ+kσ的概率,称为单侧概率(一尾概率),记作α/2。
双侧概率图
答案
(1) P(u<- )+ P(u≥ )
==α
查表得: =
(2) P (- ≤u < ) = ,
α=1- P (- ≤u< )==
查表得: =
对于x~N(μ,σ2),只要将其转换为u~N(0,1),即可求得相应的双侧分位数。
例一
例如,已知u~N(0,1)试求:
(1) P(u<- )+P(u≥ )=的
(2) P(- ≤u< ﹚=的
例二
已知饮料灌装量x(ml)服从正态分布 N ( 250, ), 若 P (x < ) =, P(x≥ )=,求 , 。
答案
=, =。
由标准正太分布的随机样本所引出的几个重要统计量的分布
2、t 与 F分布
2(n)分布的构成:
设随机变量 X 服从N(0,1)分布, X1,X2,···, Xn为 X 样本,则
2 = Xi2= X12 + X22 + ··· Xn2
服从自由度为n的 2 分布,记为 2 ~ 2 (n)。
2 (n)分布的均值 E(2)= n,方差 D( 2 )= 2n。
卡方分布及统计量
如果 是来自正态总体 的一个随机样本,定义样本方差为:
那么,统计量 服从自由度为n-1的 分布,记为
卡方分布密度曲线
t分布和t统计量
由样本平均数抽样分布的性质知道: 若x~N(μ, σ2), 则 ~N(μ, σ2/n)。 将随机变量 标准化得: , 则u~N(0,1)。 但当总体标准差σ未知时, 以样本标准差S代替σ所得到的统计量 记为t。
~t(df)
t分布的密度函数
在计算 时,由于采用S来代替σ,使得t 变量不再服从标准正态分布,而是服从t分布。它的概率分布密度函数如下:
式中, df=n-1为自由度,t的取值范围是(-∞,+∞)
μt=0
(df>1)
(df>2)
t分布密度曲线
t分布的特点
(1)t分布受自由度的制约,每一个自由度都有一条t分布密度曲线。
(2)t分布密度曲线以纵轴为对称轴,左右对称,且在t=0时,分布密度函数取得最大值。
(3)与标准正态分布曲线相比,t分布曲线顶部略低,两尾部稍高而平。df越小这种趋势越明显。df越大,t分布越趋近于标准正态分布。当n >30时,t分布与标准正态分布的区别很小;n >100时,t分布基本与标准正态分布相同;n→∞时,t 分布与标准正态分布完全一致。
t分布的概率分布函数
例子
例如,当df=15时,查附表3得两尾概率等于的临界t值为 =,其意义是:
P(-∞<t<)= P(<t<+∞)
=;
P(-∞<t<)+ (<t<+∞)
=。
由附表3可知,当df一定时,概率P越大,临界t值越大;概率P越小,临界t值越小 。 当 概 率 P 一定时,随着df的增加,临界t值在减小,当df=∞时,临界t值与标准正态分布的临界u值相等。
F分布
设 为来自正态总体 的一个随机样本,样本方差为S12 , 为来自正态总体 的一个随机样本,样本方差为S22 ,且这两个样本相互独立,则统计量
服从第一自由度为df1=n1-1,第二自由度为df2=n2-1的F分布。记为
F分布密度曲线
F 分布密度曲线是随自由度df1、df2的变化而变化的一簇偏态曲线,其形态随着df1、df2的增大逐渐趋于对称,如图所示。
任意分布的随机样本均值函数的均值与方差
设:随机变量 X 服从任何均值为,标准差为 的分布,X是随机样本X1,X2,···, Xn的均值函数。记随机变量X的分布函数的均值为X,标准差为X ,则有如下结论成立:
X = ;
(2) X = / n 或 2X = 2 / n
大样本均值函数的分布:中心极限定理
设:随机变量 X 服从任何均值为,标准差为 的分布,X是随机样本X1,X2,···, Xn的均值函数。
中心极限定理:当 n 充分大时,X 近似地服从均值为,标准差为 / n的正态分布。
在 实际问题中n多大?但一般 n 30。
第五节 点估计
参数估计
在实际问题中,人们常常判断总体分布的参数,这就需要用样本来推断总体分布的这些参数,这就是参数估计。
参数估计分为:点估计和区间估计两种方法。
1、点估计概念
设 是总体分布中一个需要估计的参数,现从总体中抽取一个随机样本X1,X2,···, Xn ,记估计的统计量为
则称 为的估计量。
若得到一组样本观测值x1,x2,···,xn ,就可得出的估计值,记: 。
总体分布参数 的点估计,就是求出 的估计值。
在大多数的实际问题中,需要估计的总体未知参数主要有总体成数、总体均值和总体方差。
可以证明,样本成数、样本均值和样本方差分别是总体成数、总体均值和总体方差的优良估计。
即
几个重要的点估计
点估计的优良性问题
1、无偏性
如果 ,则称 为的无偏估计量。
无偏性是对估计量的最基本要求,无偏估计将不会出现系统性的估计偏差。
不难证明,对任意总体 X,样本均值 和样本方差 S2 分别是总体均值和总体方差的无偏估计。
样本成数也是总体成数的无偏估计。
点估计的优良性问题
2、有效性
如果一个估计量满足无偏性和最小方差性,该估计量为有效估计量。
有效性是衡量估计量最重要的标准。
对给定的样本容量,有效估计是所有无偏估计量中估计误差最小的。
可以证明,对任意总体,样本均值和样本成数都是总体均值和总体成数的有效估计。而对样本方差,如果总体服从正太分布,样本方差也是对总体方差的有效估计。
点估计的优良性问题
3、一致性
如果一个估计量,在样本容量很大的情况下,误差接近于0,我们说这个估计量具有一致性。
根据大数定律,在大样本情况下,样本均值去估计母体均值具有一致性。
由于点估计存在误差,因此仅对总体参数作出点估计是不够的,还需要了解估计的精度及其误差。
参数的区间估计就是在给定的可信度下,估计未知参数的可能取值范围。
设 为总体分布的未知参数,
若由样本确定的两
个统计量
和
对给定的概率 (0<<1),
满足
则称随机区间
为 的置信度为1- 的
置信区间。
第六节 区间估计
正太总体均值的区间估计
1、总体服从正太分布,总体方差已知
设:总体 X 服从已知N(, 2), 2已知,抽取n 个观测值x1, x2,···,xn,求总体均值的100(1- )% (如=95%)的置信区间。
首先构造:
因为X 服从N(, 2 / n)分布,所以 Z 服从N(0, 1)分布。
由:
得置信区间:
Z/2
Z1-/2
1-
/2
/2
例:设:总体 X 服从已知N( ,),抽取4 个观测值x1, x2, x3 , x4,求总体均值的95%的置信区间。
解: 由已知: 1- = , = , n=4
根据:
得到:
查表得 z =, 于是置信区间为 ( , X+ ),置信度为 95 %. 也就是说: 总体均值 以 95%的概率在该区间内.
例题
某车间生产滚珠,从长期实践中知道滚珠直径X可以认为是服从正太分布的,且滚珠直径的方差是,从某天生产的产品中随机抽取6个,量得直径如下:,,,,,,试对a=,找出滚珠平均直径的区间估计。
2、总体服从正太分布,总体方差未知
设:总体 X 服从已知N(, 2), 2未知,抽取n 个观测值x1, x2,···,xn,求总体均值的100(1- )% =95%的置信区间。
首先构造:
可得置信区间:
例题
某车间生产滚珠,从长期实践中知道滚珠直径X可以认为是服从正太分布的。从某天生产的产品中随机抽取6个,量得直径如下:,,,,,,试对a=,找出滚珠平均直径的区间估计。
总体方差的置信区间(未知总体均值)
设:总体 X 服从已知N(, 2), 未知,抽取n 个观测值x1, x2,···,xn,求总体方差2 的100(1- )% =95%的置信区间。
首先构造:
正太总体方差的区间估计
得到置信区间:
由:
将n 个观测值x1, x2,···,xn代入上式得到置信区间。
例题
投资的回收利润率通常用来衡量投资的风险。随机调查了26个年回收利润率,标准差S=15%。设回收利润率为正太分布,求它的方差的区间估计。置信系数为。
第七节 SPSS在参数估计中的应用
略
第六章 参数检验
假设检验
一个正态总体下的参数假设检验
两个正态总体下的参数假设检验
用SPSS作假设检验
第一节 假设检验
基本思路:先对代表总体特征的参数提出一个假设,再利用样本提供的信息检验这个假设是否正确。
背后理论:假设检验的理论是小概率原理,又称为实际推断原理,其具体内容是:小概率事件在一次试验中是几乎不可能发生的。
解决问题:判断样本统计量值与总体(参数)假设值之间是否存在可以观察到的差值,以及这种差值在统计上是否明显.
假设检验的基本步骤
第一,提出原假设(记为H0)
第二,选择检验统计量
第三,计算统计量观测值发生的概率
第四,给定显著性水平 ,作出统计决策
统计意义上的“对”与“不对”,就有可能犯错误。 当我们认为参数的某个假设 H0 正确时(接受假设H0时), 有可能假设 H0 本身是错误的,而我们把它当作正确的,称犯了第二类错误(“存伪”的错误),我们应当保证犯这种错误的概率很小,也就是概率=P{接受H0 | H0为假}很小。
反之,当我们拒绝假设H0 时,也可能犯“以真为假”的错误(“弃真”的错误),称为犯第一类错误。当然,我们也希望所犯的“以真为假”错误的概率很小,也就是 =P{拒绝H0 | H0为真}很小。
两类错误
与 之间的关系
与 之间具有反向关系
当进行假设检验时,必须预先确定与 哪个更重要
为了防止错误拒绝 H0
尽量减少拒绝H0 的机率
降低 ,提高
为了防止错误接受H0
尽量减少接受H0 的机率
提高,降低
举 例
测试一座桥梁是否可以安全地承受至少50吨的运输量
a)你是想犯第I 类错误还是第II类错误?
b)你是采用较低的显著水平还是较高的显著水平?
H0 : 50 而 HA : < 50
第I类错误 = Pr{拒绝H0 | H0 为真}
第II类错误 = Pr{接受 H0 | H0为假}
第II类错误会导致非常严重的后果(断定桥梁安全,而事实上它并不安全) ,应提高 ,降低
假设检验可分为:参数假设检验和非参数假设检验
1、参数假设检验:
已知总体分布,猜出总体的某个参数(假设H0),用一组样本来检验这个假设是否正确(是接受还是拒绝H0 )。
2、非参数假设检验:
猜出总体分布(假设H0),用一组样本来检验这个假设是否正确(是接受还是拒绝H0 )。
1、关于正态总体均值 的假设检验
关于均值的假设检验,可分如下三种情况:
(1)已知方差2,假设 H0 := 0,通过样本观测值x1,x2,···,xn ,检验H0 是否成立。
(2)未知方差2,假设 H0 := 0,通过样本观测值x1,x2,···,xn ,检验H0 是否成立。
(3)未知方差2,假设 H0 : 0 (或 0), 通过样本观测值x1,x2,···,xn ,检验H0 是否成立。
第二节 一个正态总体下的参数假设检验
(1)已知方差2,假设 H0 := 0
书上145页,例
课堂练习
某厂商声称其开发的合成钓鱼线的强度服从正态分布,且平均强度为8kgf,标准差为。现从中随机抽出50条钓鱼线,测试结果为。问显著性水平为的情况下,能否接受该厂商的声称。
(2)未知方差2,假设 H0 := 0
书上147页,例
课堂练习
某乡统计员报告,其所在乡平均每个农户的家庭收入为5000元,为核实其说法,市统计局从该乡随机抽取25户农户,得到平均年收入4930元,标准差为150元,假定农户的年收入服从正太分布,试分别在5%、1%的显著水平下检验乡统计员的说法是否正确。
(3)未知方差2,假设 H0 : 0 (或 0)
书上149页,例
课堂练习
一个汽车轮胎制造商声称,某一等级的轮胎的平均寿命在一定的汽车质量和正常行驶条件下大于40000km,对一个由120个轮胎组成的随机样本作了试验,测得平均值和标准差分别为41000和5000.已知轮胎寿命的公里数近似服从正太分布。我们能否根据这些数据作出该制造商的产品同他所说的标准相符的结论。
P值的解释
双尾检验,统计值的显著性概率定义为
统计值的p值=2*(1-p(相应统计量≤该统计值))
单尾检验的p值= 1-p(相应统计量≤该统计值)
检验方法:
若p< ,则表明t落在由所决定的分界点的外侧,应当拒绝H0,接受H1。
若p>a,则表明t落在由所决定的分界点的内侧,应当接受H0。
关于正态总体的方差2的检验
关于正态总体的假设检验,分为如下两种情况:
(1)未知均值 ,假设H0 : 2 = 02 ,通过样本观测值 x1,x2,···,xn , 检验H0 是否成立;
(2)未知均值 ,假设H0 : 2 02 (反之亦然),通过样本观测值 x1,x2,···,xn , 检验H0 是否成立。
第一种情况:未知均值 ,检验假设H0 : 2 = 02 是否成立
例:已知生产线上生产出来的零件直径服从正态分布,长期以来直径的均方差 = , 现材质改进, 抽出20个样本, (这里只给出20个样本的方差s2 = ).
请判断该生产线的方差是否改变?
书上152页
第二种情况:未值均值 ,检验假设 : 2 02 是否成立
例:已知生产线上生产出来的零件直径服从正态分布,长期以来直径的均方差 = , 现材质改进, 抽出9个样本, (这里只给出20个样本的方差 s2 = ).
请判断该生产线的方差是否会小于 ?
第三节 两个正态总体下的参数假设检验
这儿研究两个相互独立的正态总体的参数检验问题.
两个正态总体参数检验概述
设: 获得来自两个相互独立的总体的样本观测值: x1, x2,···,xn 与y1,y2,···,ym . 所要完成的参数检验问题, 主要有如下4种情况:
未知两个总体的均值1, 2 , 检验假设H0 : 总体方差12 = 22
未知两个总体的均值1, 2 ,检验备择假设H1 :总体方差 12 > 22
未知两个总体的方差12 , 22, 但知道12 = 22, 检验假设H0 : 1= 2
(4) 未知两个总体的方差12 , 22, 但知道12 22, 检验假设H0 : 1= 2
于是, 检验的顺序是: 当1, 2, 12 , 22均未知时, 先做 (1) ,即 检验12 = 22成立否?
若证实12 = 22, 再做(3), 检验假设H0 : 1 = 2成立否?
若不能证实12 22, 再做(4), 检验假设H0 : 1 = 2成立否?
对第(1)与第(2)个问题而言, 显然应当用 F 统计量来检验,对第(3)与第(4)个问题而言,则是用T统计量来检。
详细推理过程见:书上161-163页。
第四节 用SPSS作假设检验
单样本T检验
相互独立的两组样本的T检验
配对样本的T检验
单样本T检验
使用Analyze-Compare Means-One-Sample T Test。
案例:书上167页,例
课堂练习:利用住房状况数据库,推断家庭人均住房面积的平均值是否为20平方米。
相互独立的两组样本的T检验
使用Analyze-Compare Means-One-Independent-Sample T Test
记住要先检查方差齐性,即要进行Levene检验。
案例:书上171页,例;书上173页,例.
课堂练习:利用住房状况数据表,分析本市户口与外地户口家庭人均住房面积是否存在显著差异。
配对样本的T检验
使用Analyze-Compare Means-One-Paired-Sample T Test
案例:书上178页,例.
课堂练习:利用减肥茶数据库,检验喝茶前和喝茶后体重的均值是否发生显著变化。
第七章 非参数假设检验
非参数检验的概念
单样本的非参数检验
两个独立样本的非参数检验
两个配对样本的非参数检验
第一节 非参数检验的概念
是指在总体不服从正态分布且分布情况不明时,用来检验数据资料是否来自同一个总体假设的一类检验方法。由于这些方法一般不涉及总体参数故得名。
这类方法的假定前提比参数性假设检验方法少的多,也容易满足,适用于计量信息较弱的资料且计算方法也简单易行,所以在实际中有广泛的应用。
第二节 单样本的非参数检验
总体分布的卡方检验
二项分布检验
单样本K-S检验
总体分布的卡方检验
此处卡方检验的用途:可以根据样本数据,推断总体分布与期望分布是否存在显著差异。
基本思路:如果从一个随机变量X中随机抽取若干个观察样本,这些观察样本落在X的k个互不相交的子集中的观察频数服从一个多项分布,这个多项分布当k趋于无穷时近似服从卡方分布。
原假设:样本来自的总体分布与期望分布无显著差异。
详细推理过程:书上189-191页
SPSS应用
使用Analyze-> Nonparametric Tests->Chi Square Test Variable
案例:书上197页
课堂练习:心脏病猝死
二项分布检验
二项分布检验即通过样本数据检验样本来自的总体是否服从指定的概率为p的二项分布。
原假设:样本来自的总体与指定的二项分布无显著差异。
小样本中,采用精确检验的方法;大样本中,采用近似检验的方法。精确检验法即计算n次试验中某类出现的次数小于等于x次的概率。而近似研究,即在大样本下,采用z检验统计量,在原假设成立下z统计量近似服从正态分布。
SPSS应用
使用Analyze-> Nonparametric Tests-> Binomial Test Variable
案例:1、产品合格率 2、书上202页
单样本K-S检验
本检验能够利用样本数据推断样本来自的总体是否服从某一理论分布,适用于探索连续型随机变量的分布。
原假设:样本来自的总体与指定的理论分布无显著性差异。
基本思路:首先,在原假设成立的情况下,计算各样本观测值在理论分布中出现的累计概率值;其次,计算各样本观测值的实际累计概率值;计算实际累计概率值与理论概率值的差;最后,计算差值序列中的最大绝对差值,即D=max(|S(xi)-F(xi)|)。由于,实际累计概率为离散值,因此D修正为:D=max(max(|S(xi)-F(xi)|),max((|S(xi-1)-F(xi)|))
书上192页。
SPSS运用
使用Analyze-> Nonparametric Tests->1-Sample K-S Test Variable
案例:书上198页
课堂练习:儿童身高
第三节 两个独立样本的非参数检验
Mann-Whitney u检验
两独立样本的K-S检验
Mann-Whitney u检验
这种方法用于对两总体分布的比较。
原假设:两组独立样本来自的两总体分布无显著性差异。
基本思路:假定第一个样本有m个观测值,第二个有n个观测值。把两个样本混合之后把这m+n个观测值升幂排序,记下每个观测值在混合排序下面的秩。之后分别把两个样本所得到的秩相加。记第一个样本观测值的秩的和为WX而第二个样本秩的和为WY。这两个值可以互相推算,称为Wilcoxon统计量。接下来,再计算U统计量,U=W-1/2k(k+1)。在小样本下,u统计量服从Mann-Whitney分布;大样本下,u统计量近似服从正态分布,此时,构造Z统计量。
详细推理过程:书上187页。
SPSS应用
使用Analyze-Nonparametric Tests-2 Independent Samples
案例:书上193页
课堂练习:使用寿命
两独立样本的K-S检验
K-S检验不仅能检验单个总体是否服从某一理论分布,还能检验两总体分布是否存在显著性差异。
原假设:两组独立样本来自的两总体的分布无显著性差异。
两独立样本K-S检验的基本思想与前面讨论的单样本检验的基本思想是大体一致的,主要差别在于:这里是以变量值的秩作为分析对象,而非变量值本身。
基本思路:将两组样本混合并按升序排序;然后,分别计算两组样本秩的累计频数和累计频率;最后,计算两组累计频率的差,得到秩的差值序列并得到D统计量。
SPSS应用
使用Analyze-Nonparametric Tests-2 Independent Samples
案例:使用寿命
第四节 两个配对样本的非参数检验
主要讲两配对样本的Wicoxon检验。
基本思想:首先,分别用第二组样本的各个观察值减去第一组对应样本的观察值。差值为正记为正号,差值为负记为负号。然后,将差值变量按升序排序,并求出差值变量的秩;最后,计算出正号秩总和和负号秩总和。
小样本下,检验统计量W服从Wilconxon符号秩分布;大样本下,利用W构造Z统计量,近似服从正态分布。
SPSS应用
使用Analyze-Nonparametric Tests-2 Related Samples
案例:书上196页
课堂练习:训练成绩
第八章 方差分析
单因素方差分析
双因素方差分析(略)
单因素方差分析
单因素方差分析是对多套实验方案的效果的对比分析,可以用来检验多组相关样本之间均值有无显著性差异。
这里,可把多套实验方案视为一个控制变量下的不同水平。
基本思路
1、明确观测变量和控制变量
2、剖析观测变量的离差平方和
SST=SSA+SSW
其中
3、比较观测变量总离差平方和各部分的比例
单因素方差分析的假设检验
H0: 1 = 2 = 3 = ... = s =
所有总体的均值都相等
各组均值之间没有差异
H1: 1 , 2 , 3 , …, s 不全相等
至少有两个不相等
(其它可能相同!)
不意味着有:
1 2 ... s
单因素方差分析的基本步骤
1、提出原假设
控制变量不同水平下观测变量各总体的均值无显著差异
2、选择检验统计量
F统计量
数学定义:F=
=
3、计算检验统计量的观测值和概率p值
如果控制变量对观测变量造成了显著影响,F值显著大于1;反之,F值接近于1。
4、给定显著水平a,并作出决策
SPSS应用
使用Analyze-Compare Means-One-Way Anova
案例:书上210页
注意进一步分析中的四大检验:方差检验、多重比较检验、趋势检验和先验对比检验。
课堂练习:广告地区与销售额
第九章 相关分析
函数关系与相关关系
Pearson简单相关
Spearman等级相关
偏相关
第一节 函数关系与相关关系
函数关系:是一种严格确定的关系,它反映了事物之间存在的严格的依存关系和必然现象的规律性。函数关系的特征是现象与现象之间的数量关系是一一对应的,它通常可用一个数学表达式精确地描述。
相关关系:是两个变量之间的不确定关系,它反映的是变量之间不十分严格,但却存在的依存关系。相关关系反映了偶然现象的规律性,它是一种大概如此但非绝对如此的关系,它不能用精确的数学表达式来表达。
问题:相关关系是不是一种因果关系?
相关分析:就是对变量之间的相关关系的分析,其任务是对变量之间是否存在必然的联系、联系的形式、变动的方向作出符合实际的判断,并测定它们联系的密切程度,检验其有效性。
相关关系的主要形式:
相关的类型
积差相关:计算连续且服从正态的两变量间的相关。
等级相关:指以等级次序表示的变量之间的相关。适用于:①虽然是连续数据,但变量总体上不服从正态分布,②数据是顺序的。
质量相关:指一列变量为等比或等距的测量数据,另一列变量是按性质划分的类别。
品质相关:当两个变量均为分类数据时,采用品质相关分析。
研究相关的两种方法
1、绘制散点图
2、计算相关系数
绘制散点图
使用Graphs-Scatterplot。
案例:利用住房状况调查数据库,分析家庭收入与计划购买住房面积的关系
定义: X , Y 是随机变量, 已知二维( X, Y ) 分布, 总体相关系数
1. 两个随机变量的总体 (简单) 相关系数
第二节 Pearson简单相关
相关系数 XY[-1, 1], 若XY = 0, 则称 X 与 Y 不相关.
若 X 与Y 相互独立, 则必然不相关, 即 XY = 0 .
反之, 不相关, 不一定独立. 但对两个正态分布, 不相关 独立.
2. 样本相关
定义: ( X1, Y1 ) ,…, ( Xn, Yn )是 ( X, Y ) 的 一组样本( 样本 X, Y 是配对的, 不可独自交换顺序 ), 则样本相关系数:
注意: 小写的 xi 是大写 Xi 的中心化结果, 即 xi = Xi –X .
对yi 同理.
这种相关关系, 又称 Pearson积矩相关.
3 .样本相关系数的几何解释
x
y
||y|| = y12 +…+ yn2 , 表示向量 y =(y1,…, yn) T的模长.
4 . 直观散点图
设有配对样本观测值: x1,…, xn与 y1,…, yn , 则其直观散点图如图:
该散点图, 反映出x, y 之间的正相关关系.
5.利用SPSS进行Pearson相关分析
使用Analyze-Correlate-Bivariate,选择,Pearson.
案例:书上245页
1. 两组配对的顺序数据的 Spearman 等级相关系数(又称秩相关 或 名次相关)
对两组配对顺序样本而言, 无法求出上述样本相关系数, 而应当采用Spearman 等级相关系数.
设有配对样本观测值x1,…, xn与 y1,…, yn .
第三节 Spearman 等级相关
等级相关系数公式如下:
式中,
,而
表示 xi 的名次,
表示yi 的名次.
注: 两个相同的名次 , 要加起来除以 2.
一个等价的公式是:
2. 刻度级(Scale) 配对样本的等级相关系数
刻度级的配对样本, 也可以排名次(秩), 因此可以求Spearman 等级相关系数. 计算公式同上.
等级相关, 也称非参数相关.
3. 利用SPSS进行Spearman相关分析
使用Analyze-Correlate-Bivariate,选择Spearman。
案例:书上249页例,250页例.
第四节 偏相关
偏相关就是, 在诸多相关的变量中, 剔除了其中的一个或若干个变量的影响后, 两个变量之间的相关关系.
1. 剔除了一个变量 Z 的影响后, 两个变量 X , Y 之间的偏相关系数。
偏相关系数是:
式中, r..是普通样本相关系数.
2 . 剔除了两个变量 Z1, Z2 的影响后, 两个变量 X , Y 之间的偏相关系数
偏相关系数是:
式中, r..,.是偏相关系数.
3、利用SPSS进行偏相关分析
使用Analyze-Correlate-Parital
案例:书上251页,例.
课堂练习:利用住房状况调查表,以常住人口为控制变量,进行家庭收入和计划购买面积之间的相关分析。
第十章 回归分析
一元线性回归
多元线性回归
回归分析中的三大基本问题
以三口之家为单位,某种食品在某年各月的家庭平均月消费量 Y (kg)与其价格 X (元/kg) 间的调查数据如下,试分析该食品家庭平均月消费量与价格间的关系。
导入案例:商品价格与消费量的关系
由图可知,该食品家庭月平均消费量 Y 与价格 X 间基本呈线性关系。这些点与直线
Y = 0 + 1X
间的偏差是由其他一些无法控制的因素和观察误差引起的。
因此可以建立 Y 与 X 之间关系的如下线性回归模型
Y = 0 + 1X +
其中:
X —— 解释变量(自变量)
Y —— 被解释变量(因变量)
0, 1 —— 模型中的未知参数
—— 随机误差项
第一节 一元线性回归模型
随机误差项产生的原因
(1) 模型中忽略的其他因素对 Y 的影响;
(2) 模型不准确所产生的偏差;
(3) 模型中包含了对 Y 无显著影响的变量;
(4) 对变量的观察误差;
(5) 其他随机因素的影响。
1. 各 i ~ N( 0, 2 ),且相互独立;
2. 解释变量是可以精确观察的普通变量(非随机变量);
3. 解释变量与随机误差项是各自独立对被解释变量产生影响的。
称满足以上条件的回归模型为经典回归模型。
本章仅讨论经典回归模型。
但在经济领域中,经济变量间的关系通常是不会完全满足上述条件的。
例如家庭消费支出 Y 与家庭收入 X 间的回归模型就不会是同方差的。
回归模型的经典假设条件
一、一元线性回归模型
设被解释变量 Y 与 解释变量 X 间存在线形相关关系,则
Y = 0 + 1X + ; ~N(0, 2 )
其中 X 是普通变量。如果随机干扰项的均值为0, 对上式两边在X的条件下求均值,有
E( Y|X ) = 0 + 1X
一元线性回归
二. 回归方程
分别是参数 0 和 1 的点估计,
对每一 xi 值,由回归方程可以确定一个回归值
回归系数。
称式为回归方程。
记
为 Y 的条件期望 E( Y|X ) 的点估计,
有
并称
为回归方程的
并记
就可求出
三. 回归模型的参数估计
回归模型中的参数估计,
采用的是“最小二乘法”,
其原理如下:
Y 的各观察值 yi 与回归值
之差
反映了 yi
与回归直线之间的偏离程度,
从而全部观察值与回归值
的残差平方和
反映了全部观察值与回归直线间总的偏离程度。
显然,
Q 的值越小,
就说明回归直线对所有样本数据的
拟和程度越好。
所谓最小二乘法,
就是要使
为最小。
只要令
。
。
。
。
。
。
。
。
。
。
x
y
0
。
。
yi
要找一条直线,使
xi
最小二乘法原理示意图
可以证明,
分别是参数 0 和 1 的最小方差无偏估计。
以上两式说明,
的方差分别为:
2.
四. 最小二乘估计的性质
在满足经典假设的条件下
1.
回归系数
的估计精度不仅
与 σ 2 及样本容量 N 有关,
而且与各 xi 取值的分散程
度有关。
在给定样本容量下,
xi 的取值越分散,
则估
计的方差就越小,
即对参数 0 和 1 的估计就越精确;
反之估计的精确就差。
了解这一点,
对指导试验或抽样调查是非常重要的。
五、回归方程的拟合优度检验
回归方程的拟合优度检验是检验样本数据点聚集在回归线周围的密集程度,从而评价回归方程对样本数据的代表程度。
一元回归方程的拟合优度检验采用R2统计量。该统计量称为判定系数或决定系数,数学定义为:
R2=SR/ST=1-SE/ST
其中,ST为总平方和,SR为回归平方和,SE为剩余平方和。R2越接近于1,说明回归方程对样本数据点的拟合优度越高,R2越接近于0,说明回归方程对样本数据点的拟合优度越低。
通过参数估计得到回归方程后,还需要对回归方程进行检验,以确定变量间是否存在显著的线性关系。
对一元线性回归模型,如果变量 Y 与 X 之间并不存在线性相关关系,则模型中的一次项系数 1 应为 0;反之,则 1≠0。
故对一元线性回归模型,要检验的原假设为
H0:1 = 0
以上检验称为对回归方程的显著性检验,使用的仍然是方差分析方法。
Y 的观察值 y1, y2, …, yN 之间的差异是由两方面的原因引起的:
(1) 解释变量 X 的取值 xi 不同;
(2) 其他因素和试验误差的影响。
六. 回归方程的显著性检验
为检验以上两方面中哪一个对 Y 取值的影响是主要的,就需要将它们各自对 Y 取值的影响,从 yi 总的差异中分解出来。
与方差分析类似地,可以用总的偏差平方和
来表示全部观察值 yi 间总的差异量。
1. 偏差平方和的分解
将 ST 作如下分解:
称 SR 为回归平方和,
它主要是由于变量 X 的取值不同
引起的,
其大小反映了 X 的对 Y 影响的重要程度。
称 SE 为剩余平方和或残差平方和,
它主要是由随机误
差和其他因素的影响所引起的。
可以证明,
因此,在给定显著性水平 下,若
F > F (1, N-2)
~ F(1, N-2)
2. 检验 H0 的统计量
当 H0 为真时,
统计量
就拒绝 H0,
并称回归方程是显著的,
可以用回归方程对
被解释变量进行预测或控制分析;
反之,
则称回归方程
无显著意义。
若不能拒绝 H0,
则可能有以下原因:
(1) Y 和 X 之间不是线性关系;
(2) 模型中忽略了对 Y 有重要影响的其他因素;
(3) Y 和 X 基本无关;
(4) 数据误差过大。
利用SPSS进行一元线性回归
使用Analyze-regression-linear
案例:书上277页
在许多实际问题中,对某一变量 Y 有重要影响的解释变量不止一个,此时就需要研究一个随机变量 Y 与多个普通变量 X1, X2, ···, XP 之间的回归关系,这就是多元回归问题。
本节仅讨论多元线性回归,多元非线性回归通常也可化为多元线性回归来求解和分析。
多元线性回归分析的原理与一元线性回归是类似的。
第二节 多元线性回归
一. 多元线性回归的数学模型
设被解释变量 Y 与 P 个解释变量 X1, X2, ···, XP 之间
存在线性相关关系。
则 Y 与 X1, X2, ···, XP 之间的多元
线性回归模型为:
Y= 0 + 1 X1 + 2 X2 + ··· + P XP +
设第 i 次试验数据为 (xi1, xi2 ,···, xip, yi ),
则多元线性
回归有如下数据结构:
yi = 0 + 1 xi1 + 2 xi2 + ··· + p xip + i
i ~N(0, 2 ),且相互独立
i = 1, 2, ···, N
设
在多元线性回归中,同样使用最小二乘法进行参数估计。
则多元线性回归方程为
为参数 0, 1, ···, P 的最小二乘估计,
二. 参数 的最小二乘估计
同样称
为回归方程的回归系数。
三、回归方程的拟合优度检验
多元线性回归方程的拟合优度检验采用调整的判定系数或调整的决定系数,即
调整的R2=1-平均的SE/平均的ST
采用调整的R2的原因在于希望找到那些对Y有“贡献”的x,而不是片面追求高R2值
四.回归方程的显著性检验
如果变量 Y 与 X1, X2, ···, Xp 之间并无线性关系,
则
模型(-1)式中各一次项系数应全为零。
因此要检验
的原假设为
H0:1 = 2 = ··· = p = 0
为构造检验 H0 的统计量,
同样需要对总的偏差平
方和 ST 作如下分解:
= SE + SR
同样称 SR 为回归平方和,
SE 为剩余平方和。
检验 H0 的统计量
可以证明,当 H0 为真时,统计量
~F( P, N-P-1)
检验过程同样可以列成一张方差分析表。
多元回
归方差分析表的格式与一元回归完全相同。
五. 回归系数的显著性检验
在多元回归中,
回归方程显著的结论仅表明模型中
各 j 不全为零,
但并不说明它们全不为零。
也即并不
能保证每个解释变量都对 Y 有重要影响。
如果模型中含有对 Y 无显著影响的变量,
就会降低
回归方程的预测精度和稳定性。
因此,
需要从回归方程中剔除对 Y 无显著影响的变
量,
重新建立更为简单的回归方程。
如果某个变量 Xk 对 Y 的作用不显著,
则模型中 k
就可以为零。
故要检验的原假设为
H0k:k = 0,k = 1, 2, ···, P
记 tk 为检验 H0k 的统计量,则当 H0k为真时,统计量
tk ~t (N-P-1),k = 1, 2,···, P
因此,在给定水平 下,若
tk > t(N-P-1)
就拒绝 H0k,说明 Xk 的作用显著。
反之,则说明 Xk 的作用不显著。
利用SPSS进行多元线性回归
使用Analyze-regression-linear
案例:书上280页例,282页
课堂练习:利用高校科研研究数据库,分别用强制进入和后向筛选两种回归分析方法分析立项课题数(因变量)与其它影响因素间的关系。
第三节 回归分析中的三大基本问题
多重共线性
异方差
序列相关
一、多重共线性
指解释变量之间存在线性相关关系。
多重共线性带来的问题:
1、虽然OLS估计量是BLUE(最小方差线性无偏估计量)的,但是有大的方差和协方差,故难以做出精确的估计。
2、由于后果1,置信区间将要宽得多,以致接受零假设更为容易。
3、由于后果1,一个或多个系数的T值倾向于统计上不显著。
4、总的拟合优度仍可能非常高。
5、OLS估计量及其标准误对数据的微小变化也会是敏感的。
判断多重共线性的方法:
1、容许度方法
2、方差膨胀因子
3、用软件输出相关统计量方法
运用SPSS处理多重共线性
案例:书上298页
二、异方差
储蓄Y与收入X:异方差的图形表示
(A)
概率密度
储蓄Y
收入X
同方差
(B)
概率密度
储蓄Y
收入X
异方差
(A)与(B)的比较:
相同点:收入增加,储蓄平均来说也增加。
不同点:
(A)储蓄的方差在所有的收入水平上保持不变。
(B)储蓄的方差随收入的增加而增加。
解释:随收入增长,人们有更多的备用收入,从而如何支配他们的收入有更大的选择范围。
对于模型
如果出现
即对于不同的样本点,随机误差项的方差不再是常数,而互不相同,则认为出现了异方差性(Heteroskedasticity)。
异方差的概念
异方差的类型
同方差:i2 = 常数 f(Xi)
异方差: i2 = f(Xi)(注:方差与x有关)
异方差一般可归结为三种类型:
(1)单调递增型: i2随X的增大而增大
(2)单调递减型: i2随X的增大而减小
(3)复 杂 型: i2与X的变化呈复杂形式
产生异方差的原因
模型中缺少某些解释变量;从而干扰项产生系统模式。
样本数据观测误差;随着数据采集技术的改进,干扰项的方差可能减少。
模型设置不正确;
经济结构发生了变化,但模型参数没作相应调整。比如按照边错边改学习模型,人们在学习的过程中,其行为误差随时间而减少。
异常值的出现也会产生。
异方差出现时的后果
用OLS法估计的回归参数估计值仍无偏,但是不再有最小方差,所以不再有效。
判断是否存在异方差
1、用散点图判断
2、利用等级相关分析
得到残差序列后首先对其取绝对值,然后分别计算出残差和解释变量的秩,最后计算Spearman等级相关系数,并进行等级相关分析,如果等级相关分析中检验统计量的概率p值小于给定显著性水平a,应拒绝等级相关分析的原假设,认为解释变量与残差间存在显著的相关关系,出现了异方差现象。
利用SPSS处理异方差
案例:书上298页,例
三、序列相关
序列相关即按时间或空间排序的观测值序列的成员之间的相关。
实际经济问题中的序列相关性
1、经济变量固有的惯性
大多数经济时间数据都有一个明显的特点:惯性,表现在时间序列不同时间的前后关联上。
由于消费习惯的影响被包含在随机误差项中,则可能出现序列相关性(往往是正相关 )。
例如,绝对收入假设下居民总消费函数模型:
Ct=0+1Yt+t t=1,2,…,n
2、模型设定的偏误
所谓模型设定偏误(Specification error)是指所设定的模型“不正确”。主要表现在模型中丢掉了重要的解释变量或模型函数形式有偏误。
例如,本来应该估计的模型为
Yt=0+1X1t+ 2X2t + 3X3t + t
但在模型设定中做了下述回归:
Yt=0+1X1t+ 1X2t + vt
因此, vt=3X3t + t,如果X3确实影响Y,则出现序列相关。
但建模时设立了如下模型:
Yt= 0+1Xt+vt
因此,由于vt= 2Xt2+t, ,包含了产出的平方对随机项的系统性影响,随机项也呈现序列相关性。
又如:如果真实的边际成本回归模型应为:
Yt= 0+1Xt+2Xt2+t
其中:Y=边际成本,X=产出,
3、数据的“编造”
例如:季度数据来自月度数据的简单平均,这种平均的计算减弱了每月数据的波动性,从而使随机干扰项出现序列相关。
在实际经济问题中,有些数据是通过已知数据生成的。
因此,新生成的数据与原数据间就有了内在的联系,表现出序列相关性。
计量经济学模型一旦出现序列相关性,如果仍采用OLS法估计模型参数,会产生下列不良后果:
序列相关性的后果
1、参数估计量非有效
因为,在有效性证明中利用了
E(NN’)=2I
即同方差性和互相独立性条件。
而且,在大样本情况下,参数估计量虽然具有一致性,但仍然不具有渐近有效性。
2、变量的显著性检验失去意义
在变量的显著性检验中,统计量是建立在参数方差正确估计基础之上的,这只有当随机误差项具有同方差性和互相独立性时才能成立。
其他检验也是如此。
3、模型的预测失效
区间预测与参数估计量的方差有关,在方差有偏误的情况下,使得预测估计不准确,预测精度降低。
所以,当模型出现序列相关性时,它的预测功能失效。
序列相关的检验
介绍两种:
1、图示法
2、杜宾-瓦森(Durbin-Watson)检验法
1、图示法
2、杜宾-瓦森(Durbin-Watson)检验法
D-W检验是杜宾()和瓦森(. Watson)于1951年提出的一种检验序列自相关的方法。杜宾和瓦森针对原假设:H0: =0, 即不存在一阶自回归,构如下造统计量:
检验步骤:
(1)计算DW值
(2)给定,由n和k的大小查DW分布表,得临界值dL和dU
(3)比较、判断
若 0<.<dL 存在正自相关
dL<.<dU 不能确定
dU <.<4-dU 无自相关
4-dU <.<4- dL 不能确定
4-dL <.<4 存在负自相关
0 dL dU 2 4-dU 4-dL
正相关
不能确定
无自相关
不能确定
负相关
使用SPSS处理序列相关
案例:书上304页,例