MBA智库文档经济经济理论第四章定性变量的建模.ppt

第四章定性变量的建模.ppt

下载

高级计量课件

李纯

134页 | 559KB | 2次下载 |

0.0

(0人评价)

我要评价：

投诉举报

用手机看文档

扫一扫,手机看文档

下载

开通VIP

第四章定性变量的建模背景定类与定序变量统称为定性变量在经济领域，许多重要因素都需要使用定性数据加以刻画：经济体制（改革前-改革后）、所有制形式（国有-集体-外资等等）、区域（东-中-西）、性别（男-女）、信用等级自变量采用定性数据，在量化与解释上要十分注意，因变量如果采用定性数据，会给模型的估计与解释带来更大的困难。背景本章的研究对象是定性变量无论是定类还是定序，处理方法是一致的但，当定序变量的水平很多时，可以当定量变量处理例：大学排名背景定性变量的水平可以是自然的，也可以是人为规定的自然的：性别人为规定：规定水平：相貌对工资的影响合并水平（计量等级的退化）：地区差异对人均收入的影响大学排名对最初工资的影响背景有时，自变量的影响有如下模式：在某个区间内的变动，不会显著影响因变量，但区间外与区间内的不同则会有显著影响。此时直接用原始变量效果不好，则可将变量转换为水平较少的定性变量进行建模定量变量的系数不显著，有时将其退化为定性变量就会显著。背景定性变量有些来自于不得已有些来自于主动主要内容一、定性变量作为自变量的建模方法虚拟变量法二、定性变量作为因变量的建模方法一、定性变量作为自变量的建模（一）二值变量的建模 1、二值变量的量化方法 2、回归系数的含义 3、多个虚拟变量的建模与解释 4、含虚拟变量模型的其他变化 5、Chow检验（二）多值变量的建模（一）二值变量的建模所谓二值变量，是指变量只有两种可能取值，是某种属性或者不是二值变量可以是自然的，也可以是人为规定的人为规定：所有制：国有企业-非国有企业 1、二值变量的量化方法可以有三种量化方法 1） 1、二值变量的量化方法 2） 1、二值变量的量化方法 3） 1、二值变量的量化方法使用虚拟变量（dummy variable）的基本原则 0，1只是代号用0，1代入，会有较好的经济含义二值变量，只需设置一个虚拟变量，否则会出现完全共线性问题（有截距项） 2、回归系数的含义较正式的表述： 2、回归系数的含义虚拟变量回归系数的基本含义：不同属性模型之间的截距移动 2、回归系数的含义虚拟变量回归系数可以解释为：在其他因素水平相同的情况下，不同属性的平均差异以前数据为例，虚拟变量回归系数为67，意味着在资本水平相同的情况下，三资企业的平均利润要高于国有及国有控股企业67亿元。在解释时，一定要注意谁是基组（取0） 2、回归系数的含义类似模型都蕴含有一个假定：斜率是一致的，即无论对于哪一组（按虚拟变量属性划分），其它变量对因变量的影响都是一样的 3、多个虚拟变量的建模与解释如果在自变量有两个以上虚拟变量，则可以有三类建模方法 3、多个虚拟变量的建模与解释 3、多个虚拟变量的建模与解释第一种模型可以变化为四组方程： 3、多个虚拟变量的建模与解释所以，虚拟变量回归系数的含义： 3、多个虚拟变量的建模与解释第二种模型也可以变化为四组方程： 3、多个虚拟变量的建模与解释所以，虚拟变量回归系数的含义（平均意义上）： 4、含虚拟变量模型的其他变化考虑交互影响的模型显然，资本水平不同，利润会有不同，三资企业和国有企业的差异也不会都是67亿元 4、含虚拟变量模型的其他变化在交互模型中，虚拟变量前的回归系数只表示在资本为0情况下，三资企业与国有企业的利润差距 4、含虚拟变量模型的其他变化交互模型中虚拟变量前回归系数的经济含义不好，可以采用如下方法解决： 4、含虚拟变量模型的其他变化 4、含虚拟变量模型的其他变化交互项的引入实际意味着非虚拟变量的斜率是不一致的。 4、含虚拟变量模型的其他变化判断是否需要交互项，可通过相应系数的t检验来进行；要注意到：是否需要交互项等价于检验斜率是否相等； 5、Chow检验简言之，所以需要虚拟变量，是因为在虚拟变量不同水平下，自变量对因变量的影响程度有差别，这种差别表现在截距和斜率上。判断系数是否相同的方法是使用Chow statistics进行检验。 5、Chow检验邹至庄统计量（ Chow statistics ）检验对象：两个变量相同、样本不同的模型的回归系数是否相同。 5、Chow检验检验统计量： 5、Chow检验判断规则如果样本F值大于临界值，则可拒绝原假设，认为各回归系数（包括截距项）中至少有一个系数不同。如果不能，则两组样本可以合并，统一建模。如果允许截距不同，仅需要判断斜率是否相同，办法是：在模型中设置交互项，检验所有交互项的联合显著性，如果不能拒绝原假设，应认为斜率无显著差异。（二）多值变量的建模多值变量意味着虚拟变量有3个以上取值，如考虑季节的影响，则季节有四个水平。（二）多值变量的建模正确量化方法（二）多值变量的建模基本原则：只用0，1来量化，0，1只表示真或不真只需设置比水平数少一个的虚拟变量（二）多值变量的建模基本解释每个虚拟变量前的系数都表示和基组（不专设虚拟变量的组）相比，在因变量上的平均差异。（二）多值变量的建模对于定序变量而言，由于水平之间的差值依然没有意义，所以，上述方法仍然适用。（二）多值变量的建模有时，某定性因素的多个虚拟变量在统计上都不显著，但这并不意味着该因素就一定是不显著的，此时联合检验将发挥关键作用。要点自变量中定性变量的回归系数，在解释上与定量变量有很大不同，此时判定系数含义，主要不使用导数，而是依靠将定性变量代入，计算不同方程之间的差别。一般化一般化一般化（分层线性模型） Hierarchical Linear Models 解释变量处在不同层级（个体、群体等）例：青少年科技素养的影响因素分析个体、家庭层面变量；学校层面变量地区层面变量一般化（分层线性模型）二、因变量为定性变量线性概率模型（LPM） Logit模型 Probit模型 Tobit模型（一）线性概率模型 Linear Probability Model （一）线性概率模型线性概率模型的解释（一）线性概率模型线性概率模型的问题 1、异方差 2、常规检验失效 3、函数设定不当 4、易出现无法解释的结果异方差函数设定不当线性概率模型是线性的，而实际是非线性关系函数设定不当易出现无法解释的结果由于函数形式设定不当，预测时很难避免出现得到的Y值大于1或小于0的情况，为结果的解释带来困难。解决思路（二）Logit模型又称Logistic模型，该模型克服了线性概率模型的取值范围的弱点。（二）Logit模型（二）Logit模型（二）Logit模型（二）Logit模型（二）Logit模型 1、模型的解释 2、模型的数据与估计 3、模型的检验 4、累积模型与多项模型 1、模型的解释 1、模型的解释发生比和发生比率（Odds and Odd Ratio）发生比率是为了比较发生比而提出的指标 1、模型的解释计算发生比与发生比率 1、模型的解释自变量为定量变量的解释 1、模型的解释发生比的相对变化率 1、模型的解释自变量为定量变量的解释回归系数的指数表示在其他因素不变情况下，相应自变量增加1个单位，发生比变化的幅度与方向，即发生比率。价格上升1单位，发生比率为，即需求超过100的发生比下降，变化率为% 1、模型的解释自变量为定量变量的解释需要了解自变量发生一个离散的变化，如价格下降100元时，发生比的变化。 1、模型的解释自变量为虚拟变量的解释 1、模型的解释自变量为虚拟变量的解释 1、模型的解释自变量为虚拟变量的解释回归系数的指数表示在其他因素不变情况下，两种属性在发生比上的差异。高等级与低等级，发生比率为，即高等级产品需求大于100的发生比为低等级的倍 data firm1; set firm; if y>=100 then y=1; else y=0; if x4>3 then x4=1; else x4=0; run; proc logistic data=firm1 descending; model y=x1 x4 x5/lackfit rsq; output out=result p=p1; proc print data=result; run; 2、模型的数据与估计进入模型的数据分为两类：微观数据分组数据 2、模型的数据与估计微观数据 2、模型的数据与估计分组数据 2、模型的数据与估计对于微观数据，最小二乘法是无用武之地的。 2、模型的数据与估计对于分组数据，为避免异方差，可以使用加权最小二乘关键在于同一分组有几个数据，可以计算概率 2、模型的数据与估计对于微观数据，一般采用极大似然估计（Maximum Likelihood Estimation，MLE）基本思想假定一枚硬币，其抛掷后为正面的真实概率有两种可能取值：和，如果做一次试验，结果为正面，则应估计概率为。 2、模型的数据与估计 MLE的基本思想 2、模型的数据与估计 2、模型的数据与估计 2、模型的数据与估计在Y为二分变量的情况下，服从贝努里分布，得到一个观测值的概率为： 2、模型的数据与估计为便于计算，取对数： 2、模型的数据与估计 2、模型的数据与估计极大似然估计主要适用于大样本（100以上基本可以）当大样本情况下，MLE将具有一致性、渐近有效性和渐近正态性等优良性质。 2、模型的数据与估计分组数据：加权最小二乘法用根据样本获得的频率来代替概率，获得对数发生比，进行计算。 2、模型的数据与估计 2、模型的数据与估计 2、模型的数据与估计由此可知，方差的估计为： 3、模型的检验模型整体的评价拟合优度拟合准确性模型卡方统计参数的检验 3、模型的检验模型整体的评价（1）拟合优度 Hosmer-Lemeshow指标 AIC SC （1）拟合优度 Hosmer-Lemeshow指标将预测概率值按升序排列，根据预测概率值的大小将数据分成大致相同规模的10个组，由于有相同预测概率的数据必须放在同一组中，所以各组规模一般不会相同，由于同样的原因，也有可能无法分成10组。（1）拟合优度 Hosmer-Lemeshow指标（1）拟合优度 Hosmer-Lemeshow指标决策规则：如果HL小于临界值，不显著，则表示模型拟合数据注意：如果分组少于5，则不能使用这一指标。（1）拟合优度 AIC（Akaike’s information criterion）（1）拟合优度 SAS当中AIC的定义只能用以比较同一数据的不同模型（1）拟合优度 SC（Schwarts criterion） AIC和SC都是越小越好的（2）拟合准确性类R2指标（Analogous R2）（2）拟合准确性等级相关评价用类似肯达尔系数的方法观察所有因变量不同值的观测数据对。 Concordant：如果值为1的预测概率大于为0的，为concordant ； Discordant：如果值为1的预测概率小于为0的，为discordant ； Tie：如果值为1的预测概率等于为0的，为tie ；（2）拟合准确性例：（2）拟合准确性因变量不同值的总对数：6 （取0值样本数乘以取1值样本数） concordant：5对 discordant：1对 tie：0对（2）拟合准确性一致对比例越大越好基于极大似然估计的检验似然比检验（likelihood ratio） Wald检验 Lagrange乘数检验（ Lagrange multiplier）基于极大似然估计的检验似然函数原假设或者理解为对参数估计的约束条件基于极大似然估计的检验似然比 Wald Lagrange乘数基于极大似然估计的检验似然比检验的统计量（大样本）基于极大似然估计的检验 Wald检验的统计量基于极大似然估计的检验基于极大似然估计的检验基于极大似然估计的检验 Lagrange乘数检验（3）模型卡方统计所谓模型卡方是指零假设模型与所设模型在-2倍对数似然值上的差距回归系数的检验 Wald检验 4、累积模型与多项模型当因变量分类数须在3个以上时，可以使用累积Logit模型（Cumulative Logit Model）或多项模型（Multinomial Logit Model）前者适用于定序变量，后者适用于分类变量 4、累积模型与多项模型多分类定序变量成绩：（优、良、中、差）态度：（强烈反对、反对、中立、支持、强烈支持）需求：（大于200、大于100、不到100）信用、股票表现等等 4、累积模型与多项模型有学者认为，当分类超过5个，可以当定量变量处理但由于定序变量差距的含义始终是无意义的，所以即使超过5个，也会产生误导 4、累积模型与多项模型累积模型的定义 4、累积模型与多项模型核心思想：构造一个隐变量，它是一个连续变量，而将实际变量理解为这个隐变量的一个外在的表现。 4、累积模型与多项模型给定X的累积概率可以按如下形式表示： 4、累积模型与多项模型采用Logistic函数（为一种分布函数），则模型可以表示为： 4、累积模型与多项模型假如J=4： 4、累积模型与多项模型不同Logit函数之间斜率相同截距不同所以，使用累积模型需要检验不同累积对数发生比的回归线是否平行，非截距项是否相同 4、累积模型与多项模型例：注意：对SAS而言，系数不要乘以负号；截距不表示门槛，是门槛与截距项之和。 4、累积模型与多项模型获得对数发生比，可以推出累积概率，进一步可以推出特定类别的概率。 4、累积模型与多项模型 4、累积模型与多项模型如果为分类变量，或者拒绝了斜率相同假设，还可以使用多项模型在多项模型中，logit的it是指两种属性水平的发生比多项模型中，每一模型不仅截距不同而且斜率也不一样。（三）其他广义线性模型 Probit模型用标准正态分布的累积分布函数代替Logistic函数（三）其他广义线性模型 probit模型的系数和logit模型不具有可比性，一般认为，probit模型的系数乘以，就可以得到logit模型系数的近似值，也有人认为，应乘以。（三）其他广义线性模型 Tobit模型适用于截取样本（Censored sample），例如在正值区间为连续变量，但总体中有相当部分取值为0的情况

联系我们

智库文档公众号

客服微信

第四章定性变量的建模.ppt

下载

相关专题更多

联系我们

意见反馈

相关专题 更多

联系我们

意见反馈

相关专题更多