第四章 定性变量的建模
背景
定类与定序变量统称为定性变量
在经济领域,许多重要因素都需要使用定性数据加以刻画:
经济体制(改革前-改革后)、所有制形式(国有-集体-外资等等)、区域(东-中-西)、性别(男-女)、信用等级
自变量采用定性数据,在量化与解释上要十分注意,因变量如果采用定性数据,会给模型的估计与解释带来更大的困难。
背景
本章的研究对象是定性变量
无论是定类还是定序,处理方法是一致的
但,当定序变量的水平很多时,可以当定量变量处理
例:大学排名
背景
定性变量的水平可以是自然的,也可以是人为规定的
自然的:性别
人为规定:
规定水平:相貌对工资的影响
合并水平(计量等级的退化):
地区差异对人均收入的影响
大学排名对最初工资的影响
背景
有时,自变量的影响有如下模式:在某个区间内的变动,不会显著影响因变量,但区间外与区间内的不同则会有显著影响。此时直接用原始变量效果不好,则可将变量转换为水平较少的定性变量进行建模
定量变量的系数不显著,有时将其退化为定性变量就会显著。
背景
定性变量有些来自于不得已
有些来自于主动
主要内容
一、定性变量作为自变量的建模方法
虚拟变量法
二、定性变量作为因变量的建模方法
一、定性变量作为自变量的建模
(一)二值变量的建模
1、二值变量的量化方法
2、回归系数的含义
3、多个虚拟变量的建模与解释
4、含虚拟变量模型的其他变化
5、Chow检验
(二)多值变量的建模
(一)二值变量的建模
所谓二值变量,是指变量只有两种可能取值,是某种属性或者不是
二值变量可以是自然的,也可以是人为规定的
人为规定:所有制:国有企业-非国有企业
1、二值变量的量化方法
可以有三种量化方法
1)
1、二值变量的量化方法
2)
1、二值变量的量化方法
3)
1、二值变量的量化方法
使用虚拟变量(dummy variable)的基本原则
0,1只是代号
用0,1代入,会有较好的经济含义
二值变量,只需设置一个虚拟变量,否则会出现完全共线性问题(有截距项)
2、回归系数的含义
较正式的表述:
2、回归系数的含义
虚拟变量回归系数的基本含义:
不同属性模型之间的截距移动
2、回归系数的含义
虚拟变量回归系数可以解释为:在其他因素水平相同的情况下,不同属性的平均差异
以前数据为例,虚拟变量回归系数为67,
意味着在资本水平相同的情况下,三资企业的平均利润要高于国有及国有控股企业67亿元。
在解释时,一定要注意谁是基组(取0)
2、回归系数的含义
类似模型都蕴含有一个假定:
斜率是一致的,即无论对于哪一组(按虚拟变量属性划分),其它变量对因变量的影响都是一样的
3、多个虚拟变量的建模与解释
如果在自变量有两个以上虚拟变量,则可以有三类建模方法
3、多个虚拟变量的建模与解释
3、多个虚拟变量的建模与解释
第一种模型可以变化为四组方程:
3、多个虚拟变量的建模与解释
所以,虚拟变量回归系数的含义:
3、多个虚拟变量的建模与解释
第二种模型也可以变化为四组方程:
3、多个虚拟变量的建模与解释
所以,虚拟变量回归系数的含义(平均意义上):
4、含虚拟变量模型的其他变化
考虑交互影响的模型
显然,资本水平不同,利润会有不同,三资企业和国有企业的差异也不会都是67亿元
4、含虚拟变量模型的其他变化
在交互模型中,虚拟变量前的回归系数只表示在资本为0情况下,三资企业与国有企业的利润差距
4、含虚拟变量模型的其他变化
交互模型中虚拟变量前回归系数的经济含义不好,可以采用如下方法解决:
4、含虚拟变量模型的其他变化
4、含虚拟变量模型的其他变化
交互项的引入实际意味着非虚拟变量的斜率是不一致的。
4、含虚拟变量模型的其他变化
判断是否需要交互项,可通过相应系数的t检验来进行;
要注意到:是否需要交互项等价于检验斜率是否相等;
5、Chow检验
简言之,所以需要虚拟变量,是因为在虚拟变量不同水平下,自变量对因变量的影响程度有差别,这种差别表现在截距和斜率上。
判断系数是否相同的方法是使用Chow statistics进行检验。
5、Chow检验
邹至庄统计量( Chow statistics )
检验对象:
两个变量相同、样本不同的模型的回归系数是否相同。
5、Chow检验
检验统计量:
5、Chow检验
判断规则
如果样本F值大于临界值,则可拒绝原假设,认为各回归系数(包括截距项)中至少有一个系数不同。如果不能,则两组样本可以合并,统一建模。
如果允许截距不同,仅需要判断斜率是否相同,办法是:
在模型中设置交互项,检验所有交互项的联合显著性,如果不能拒绝原假设,应认为斜率无显著差异。
(二)多值变量的建模
多值变量意味着虚拟变量有3个以上取值,
如考虑季节的影响,则季节有四个水平。
(二)多值变量的建模
正确量化方法
(二)多值变量的建模
基本原则:
只用0,1来量化,0,1只表示真或不真
只需设置比水平数少一个的虚拟变量
(二)多值变量的建模
基本解释
每个虚拟变量前的系数都表示和基组(不专设虚拟变量的组)相比,在因变量上的平均差异。
(二)多值变量的建模
对于定序变量而言,由于水平之间的差值依然没有意义,所以,上述方法仍然适用。
(二)多值变量的建模
有时,某定性因素的多个虚拟变量在统计上都不显著,但这并不意味着该因素就一定是不显著的,此时联合检验将发挥关键作用。
要点
自变量中定性变量的回归系数,在解释上与定量变量有很大不同,此时判定系数含义,主要不使用导数,而是依靠将定性变量代入,计算不同方程之间的差别。
一般化
一般化
一般化(分层线性模型)
Hierarchical Linear Models
解释变量处在不同层级(个体、群体等)
例:青少年科技素养的影响因素分析
个体、家庭层面变量;
学校层面变量
地区层面变量
一般化(分层线性模型)
二、因变量为定性变量
线性概率模型(LPM)
Logit模型
Probit模型
Tobit模型
(一)线性概率模型
Linear Probability Model
(一)线性概率模型
线性概率模型的解释
(一)线性概率模型
线性概率模型的问题
1、异方差
2、常规检验失效
3、函数设定不当
4、易出现无法解释的结果
异方差
函数设定不当
线性概率模型是线性的,而实际是非线性关系
函数设定不当
易出现无法解释的结果
由于函数形式设定不当,预测时很难避免出现得到的Y值大于1或小于0的情况,为结果的解释带来困难。
解决思路
(二)Logit模型
又称Logistic模型,该模型克服了线性概率模型的取值范围的弱点。
(二)Logit模型
(二)Logit模型
(二)Logit模型
(二)Logit模型
(二)Logit模型
1、模型的解释
2、模型的数据与估计
3、模型的检验
4、累积模型与多项模型
1、模型的解释
1、模型的解释
发生比和发生比率(Odds and Odd Ratio)
发生比率是为了比较发生比而提出的指标
1、模型的解释
计算发生比与发生比率
1、模型的解释
自变量为定量变量的解释
1、模型的解释
发生比的相对变化率
1、模型的解释
自变量为定量变量的解释
回归系数的指数表示在其他因素不变情况下,相应自变量增加1个单位,发生比变化的幅度与方向,即发生比率。
价格上升1单位,发生比率为,即需求超过100的发生比下降,变化率为%
1、模型的解释
自变量为定量变量的解释
需要了解自变量发生一个离散的变化,如价格下降100元时,发生比的变化。
1、模型的解释
自变量为虚拟变量的解释
1、模型的解释
自变量为虚拟变量的解释
1、模型的解释
自变量为虚拟变量的解释
回归系数的指数表示在其他因素不变情况下,两种属性在发生比上的差异。
高等级与低等级,发生比率为,即高等级产品需求大于100的发生比为低等级的倍
data firm1;
set firm;
if y>=100 then y=1;
else y=0;
if x4>3 then x4=1;
else x4=0;
run;
proc logistic data=firm1 descending;
model y=x1 x4 x5/lackfit rsq;
output out=result p=p1;
proc print data=result;
run;
2、模型的数据与估计
进入模型的数据分为两类:
微观数据
分组数据
2、模型的数据与估计
微观数据
2、模型的数据与估计
分组数据
2、模型的数据与估计
对于微观数据,最小二乘法是无用武之地的。
2、模型的数据与估计
对于分组数据,为避免异方差,可以使用加权最小二乘
关键在于同一分组有几个数据,可以计算概率
2、模型的数据与估计
对于微观数据,一般采用极大似然估计
(Maximum Likelihood Estimation,MLE)
基本思想
假定一枚硬币,其抛掷后为正面的真实概率有两种可能取值:和,如果做一次试验,结果为正面,则应估计概率为。
2、模型的数据与估计
MLE的基本思想
2、模型的数据与估计
2、模型的数据与估计
2、模型的数据与估计
在Y为二分变量的情况下,服从贝努里分布,得到一个观测值的概率为:
2、模型的数据与估计
为便于计算,取对数:
2、模型的数据与估计
2、模型的数据与估计
极大似然估计主要适用于大样本(100以上基本可以)
当大样本情况下,MLE将具有一致性、渐近有效性和渐近正态性等优良性质。
2、模型的数据与估计
分组数据:加权最小二乘法
用根据样本获得的频率来代替概率,获得对数发生比,进行计算。
2、模型的数据与估计
2、模型的数据与估计
2、模型的数据与估计
由此可知,方差的估计为:
3、模型的检验
模型整体的评价
拟合优度
拟合准确性
模型卡方统计
参数的检验
3、模型的检验
模型整体的评价
(1)拟合优度
Hosmer-Lemeshow指标
AIC
SC
(1)拟合优度
Hosmer-Lemeshow指标
将预测概率值按升序排列,根据预测概率值的大小将数据分成大致相同规模的10个组,由于有相同预测概率的数据必须放在同一组中,所以各组规模一般不会相同,由于同样的原因,也有可能无法分成10组。
(1)拟合优度
Hosmer-Lemeshow指标
(1)拟合优度
Hosmer-Lemeshow指标
决策规则:如果HL小于临界值,不显著,则表示模型拟合数据
注意:如果分组少于5,则不能使用这一指标。
(1)拟合优度
AIC(Akaike’s information criterion)
(1)拟合优度
SAS当中AIC的定义
只能用以比较同一数据的不同模型
(1)拟合优度
SC(Schwarts criterion)
AIC和SC都是越小越好的
(2)拟合准确性
类R2指标(Analogous R2)
(2)拟合准确性
等级相关评价
用类似肯达尔系数的方法观察所有因变量不同值的观测数据对。
Concordant:如果值为1的预测概率大于为0的,为concordant ;
Discordant:如果值为1的预测概率小于为0的,为discordant ;
Tie:如果值为1的预测概率等于为0的,为tie ;
(2)拟合准确性
例:
(2)拟合准确性
因变量不同值的总对数:6
(取0值样本数乘以取1值样本数)
concordant:5对
discordant:1对
tie:0对
(2)拟合准确性
一致对比例越大越好
基于极大似然估计的检验
似然比检验(likelihood ratio)
Wald检验
Lagrange乘数检验( Lagrange multiplier)
基于极大似然估计的检验
似然函数
原假设或者理解为对参数估计的约束条件
基于极大似然估计的检验
似然比
Wald
Lagrange乘数
基于极大似然估计的检验
似然比检验的统计量(大样本)
基于极大似然估计的检验
Wald检验的统计量
基于极大似然估计的检验
基于极大似然估计的检验
基于极大似然估计的检验
Lagrange乘数检验
(3)模型卡方统计
所谓模型卡方是指零假设模型与所设模型在-2倍对数似然值上的差距
回归系数的检验
Wald检验
4、累积模型与多项模型
当因变量分类数须在3个以上时,可以使用累积Logit模型(Cumulative Logit Model)或多项模型(Multinomial Logit Model)
前者适用于定序变量,后者适用于分类变量
4、累积模型与多项模型
多分类定序变量
成绩:(优、良、中、差)
态度:(强烈反对、反对、中立、支持、强烈支持)
需求:(大于200、大于100、不到100)
信用、股票表现等等
4、累积模型与多项模型
有学者认为,当分类超过5个,可以当定量变量处理
但由于定序变量差距的含义始终是无意义的,所以即使超过5个,也会产生误导
4、累积模型与多项模型
累积模型的定义
4、累积模型与多项模型
核心思想:
构造一个隐变量,它是一个连续变量,而将实际变量理解为这个隐变量的一个外在的表现。
4、累积模型与多项模型
给定X的累积概率可以按如下形式表示:
4、累积模型与多项模型
采用Logistic函数(为一种分布函数),则模型可以表示为:
4、累积模型与多项模型
假如J=4:
4、累积模型与多项模型
不同Logit函数之间
斜率相同
截距不同
所以,使用累积模型需要检验不同累积对数发生比的回归线是否平行,非截距项是否相同
4、累积模型与多项模型
例:
注意:
对SAS而言,系数不要乘以负号;
截距不表示门槛,是门槛与截距项之和。
4、累积模型与多项模型
获得对数发生比,可以推出累积概率,进一步可以推出特定类别的概率。
4、累积模型与多项模型
4、累积模型与多项模型
如果为分类变量,或者拒绝了斜率相同假设,还可以使用多项模型
在多项模型中,logit的it是指两种属性水平的发生比
多项模型中,每一模型不仅截距不同而且斜率也不一样。
(三)其他广义线性模型
Probit模型
用标准正态分布的累积分布函数代替Logistic函数
(三)其他广义线性模型
probit模型的系数和logit模型不具有可比性,一般认为,probit模型的系数乘以,就可以得到logit模型系数的近似值,也有人认为,应乘以。
(三)其他广义线性模型
Tobit模型
适用于截取样本(Censored sample),例如 在正值区间为连续变量,但总体中有相当部分取值为0的情况