离散选择模型 郑安 南京审计学院 经济学院
在经典计量经济学模型中,被解释变量通常被假定为连续变量。但是,我们在数据分析与建模时,有时会遇到被解释变量Y不再是连续变量,而是离散变量。例如:公共交通工具和私人交通工具的选择问题,对某种商品的购买决策问题,求职者对某种职业的选择问题,劳动力迁移决策等,这时我们把因变量离散取值的计量模型称为离散选择模型(DCM,discrete choice model),如果因变量只能取两个值,则称之为二元选择模型(binary choice model),如果因变量可取多个数值,则称之为多元选择模型。 离散选择模型起源于Fechner于1860年进行的动物条件二元反射研究。1962年,Warner首次应用于经济领域。20世纪70和80年代,离散选择模型普遍应用于经济布局、交通问题、就业问题、购买决策问题等经济决策领域的研究。模型的估计方法主要发展于20世纪80年代初期,远远滞后于模型的应用,并且至今还在不断改进,它属于微观计量经济学——即研究大量个人、家庭或企业的经济信息,McFadden因为在微观计量经济学领域的贡献而获得2000年诺贝尔经济学奖。 一、离散选择模型内容提要: 定义:因变量取值是离散的,这类回归模型称为离散选择模型。根据因变量的个数以及因变量取值的不同,离散选择模型有如下若干情形: (1)若因变量取值仅有两个,称为二元选择模型,包括重复观测值可以得到情况下的二元选择模型和重复观测值不可以得到情况下的二元选择模型。 (2)若因变量取值两个以上,称为多元选择模型,包括一般多元选择模型和排序多元选择模型。 研究内容 (1)模型的设定 (2)最大似然法估计参数; (3)模型检验 (4)自变量的边际效应分析 应用举例 (1)买房决策:买与不买,解释变量假定为收入;对于一个确定收入的市民而言,买房与不买房都有可能,这是随机事件,自然而然的,我们所关心的就是买房的概率如何确定。 ⎧0未买房假设y=,收入记为income。 ⎨1买房⎩样本数据:特定地区家庭信息(y,income) ⎧0未录取(2)研究生录用中二元选择模型:y=,解释变量虚拟变量⎨1录取⎩
⎧0非应届生D1=和分数score。如何确定一个考生的录取概率? ⎨1应届生⎩样本采集:所有考生信息(y,score,D1)。 (3)医学中二元选择模型:心肌梗塞和人体内的两项指标密切相关,即高密度蛋白质含量(HDL)和纤维蛋白质含量(Fib)。 ⎧0未患心肌梗塞假定 y= ⎨1患心肌梗塞⎩样本数据:所关心的某个群体的信息(y,HDL,Fib) (4)政府支持率的民意测验 ⎧0支持⎪对政府的态度y=1中立,解释变量为市民收入income。 ⎨⎪2反对⎩样本数据:某城市市民信息(y,income) 二、问题的提出 例1:分析选举中投票者的收入对选举的影响。以投票者的态度(y)为被解释变量,令同意者y=1,反对者y=0,以投票者的月收入(x)为解释变量,如下表: Y X Y X Y X 0 100 0 1100 1 2100 0 200 0 1200 1 2200 0 300 1 1300 1 2300 0 400 0 1400 1 2400 0 500 1 1500 1 2500 0 600 0 1600 1 2600 0 700 1 1700 1 2700 0 800 0 1800 1 2800 0 900 1 1900 1 2900 0 1000 1 2000 1 3000 能否用经典正态线性回归模型处理呢? y=β+βx+u i12ii
∧∧2min(y−β−βx)∑i12i−−∧(xx)(yy)ii⇒β= 2−2(x−x)∑i∧−∧−β=y−βx12经典正态线性回归模型的问题:一般假设u服从正态分布,无异方差,无自相关,无多重共线性下,最小二乘法得到的参数估计值是BLUE的 (1)E(y)=β+βx=1×P(y=1)+0×P(y=0)=P(y=1),而β+βx可能超出i12i12i[0,1]范围 (2)u非正态分布 i u 概率 iy=1 1−β−βxP(y=1)=β+βx 112i12iy=0 −β−βx 1−P(y=1)=1−(β+βx) 112i12i (3)u的异方差 i22u=Eu−(Eu)=(β+βx)(1−β−βx) iii12i12i 所以用线性回归模型不能得到最优线性无偏估计量 三、二元选择模型概述 二元选择模型要表达什么? 如果我们把个体的选择看作是一次由量变所导致的质变,则二元选择模型要表达的就是“量变与质变的关系”。 具体来讲,假设个体的决策用用因变量为y表示,则y取值0或1,分别表ii示是与否,选择与不选择等,影响决策的指标变量记为(x,",x)。二元选择模1k型要研究的是指标变量如何影响个体的决策概率?比如,特定收入条件下购房决策概率;若干指标下患病概率等等。因此,二元选择模型实际上就是建立个体决策的概率模型。 个体按什么进行决策呢? 个体决策基于如下思想:个体决策受指标变量的影响,有些指标变量给决策带来正倾向,而有些带来负倾向,如果综合倾向超过某个临界值,则个体做
出“是”的决策,否则做出“否”的决策。概括地讲,就是量变导致质变的思想。具体而言,涉及到三个方面的问题: (1)综合倾向如何表达? (2)量变的临界值如何选取? (3)个体决策的概率如何计算? 潜回归 我们假设存在一个不可观察的潜在变量称为决策倾向,是指标变量的连续*性函数,记为y,它与指标变量x之间具有如下线性关系 ii*′y=β+"+βx=βx+u i1kii1β⎛⎞⎛⎞1⎜⎟⎜⎟该方程称为潜回归方程,其中u是随机扰动项,x=#,β=# ii⎜⎟⎜⎟⎜⎟⎜⎟xβ⎝ki⎠⎝k⎠ 量变临界值选取 *量变到多少时,个体才进行选择呢?不妨设为0。这样,y与y有如下关系: ii*⎧1y>0做出“是”决策⎪i y= ⎨i*0y≤0做出“否”决策⎪⎩ 随机误差项的分布 如果给定随机误差项的分布,即给定u~F(⋅),则个体决策概率可完全确定。i推导如下: **′P(y=1)=P(y>0)=P(u>−xβ)=1−F(−βx) iiiii**′P(y=0)=P(y≤0)=P(u≤−xβ)=F(−βx) iiiii 四、常见的二元选择模型 Probit模型 若u~N(0,1),则称二元选择模型为Probit模型,可得决策概率: i′′P(y=1)=1−F(−βx)=F(βx) iiiβ′x21i−z/2′′ P(y=1)=F(βx)=Φ(βx)=edz iii∫−∞2πLogit模型 xe若u~,则称二元选择模型为Logit模型,可得决策概率: ix1+e
′′P(y=1)=1−F(−βx)=F(βx) iiiβ′xie′P(y=1)=F(βx)= iiβ′xi1+eExtreme模型 x若u~1−exp(−e),则称二元选择模型为Extreme模型,可得决策概率: i−β′xi′P(y=1)=1−F(−βx)=exp(−e) ii 在经济计量应用中,主要使用Probit模型和Logit模型,尽管二者形式和参数有很大的差异,但在分析解释变量对因变量的边际影响时,对于多数的应用问题,二者的实际差异并不是很大。因此,具体选择哪一个模型,并没有严格的标准。 五、二元选择模型的参数估计 二元选择模型一般采用极大似然估计。 假设y的分布列为: i y 0 1 i 1−F(x'β) F(x'β) P ii 若给定样本(y,x,",x)(=1,2,",n),则样本似然函数为: i1ikiny1−yiiL(β)[F(x'β)][1−F(x'β)] ∏iii=1则对数似然函数为: n lnL(β)(ylnF(x'β)+(1−y)(1−F(x'β))) ∑iiiii=1对数似然函数取最大值的一阶条件为: n∂lnLf(x'β)−f(x'β)ii(y+(1−y)(x=0 ∑iiβF(x')1F(x')i=1上述一阶条件,相当于得到k个方程组,通常是非线性的。用迭代法进一步计算出β估计量,具体计算借助于计量软件处理。 六、二元选择模型的参数检验 单个系数的显著性检验 一个解释变量(对二元决策的概率)是否有显著性影响的检验,如同正态
线性回归分析的单个系数的检验类似,根据模型中的待估系数与其方差计算z统计量,并检验假设H:β=0。 总体显著性检验 由于Logit模型、Probit模型是非线性的,在同时检验多个系数是否为0时,F检验不能使用。可以采用下述几种检验方法。 (1)Wald检验(适用于线性和非线性约束) H:β=β="=β=0 023k−1ˆˆ检验统计量: W′′=(Rβ−q)(RVR)(Rβ−q) 00⎛⎞其中, R=,Rβ=q是零假设H的矩阵表示,V是估计系数的协方差⎜⎟00I⎝k−1⎠2ˆ矩阵,β是无约束模型得到的估计值。可以证明,W渐进服从χ(k−1)分布。所以W检验只需要估计无约束模型 (2)对数似然比检验(只适用于线性约束) H:β=β="=β=0 023kˆˆ检验统计量: LR=−2[lnL(β)−lnL(β)] Rˆˆ其中,lnL(β)是约束模型的最大对数似然函数值,lnL(β)是非约束模型的最大R2对数似然函数值。可以证明,在零假设下,LR渐进服从χ(k−1)分布。所以LR检验既需要估计有约束模型,又需要估计无约束模型 (3)拉格朗日乘子检验(适用于线性和非线性约束) H:β=β="=β=0 023k检验统计量:′LM=gVg ˆ其中,g是将有约束模型得到的参数估计值β代入无约束对数似然函数的一阶Rˆ导数向量中,V是有约束模型得到的参数估计值β的渐进协方差估计。可以证R2明,LM渐进服从χ(k−1)分布。所以LM检验只需要估计有约束模型 拟合优度检验 lnL2(1)McFadden R=1− lnL0L是估计模型的最大似然函数值,L是β=β="=β=0时最大似然函数值。023k
该指标随着模型拟合的改善而提高。 (2)期望-预期表 (3)H-L Statistic 异方差问题 编程计算。见后 解决方法:稳健估计 七、自变量的边际效应分析 边际效应定义:反映自变量单位变化所引起的因变量的变化量。 线性回归模型的边际效应: y=βx+"+βx+u 11kki∂yx的边际效应:=β,因此回归系数直接解释为该变量的边际效应。 ii∂ 二元选择模型的边际效应: 二元选择模型:′Ey=P(y=1)=F(βx) (假设u的分布是对称的) iii′∂Ey∂F(βx)i则x的边际效应:′ ==f(βx)β ii∂x∂xii其中f(⋅)是密度函数,可见系数不能解释为边际效应,x的边际效应除受系数影i响外,还受其它变量取值的影响。 八、EVIEWS应用举例(例1): 模型输出结果 Dependent Variable: Y Method: ML - Binary Probit (Quadratic hill climbing) Date: 07/10/09 Time: 22:20 Sample: 1 30 Included observations: 30 Convergence achieved after 5 iterations Covariance matrix computed using second derivatives Variable CoefficientStd. Errorz-StatisticProb. X R-squared Mean dependent var . dependent var . of regression
Akaike info criterion Sum squared resid criterion Log likelihood -Quinn criter. Restr. log likelihood statistic Avg. log likelihood (LR statistic) Obs with Dep=0 15 Total obs 30Obs with Dep=1 15 ∧*所以,估计的潜回归模型为:y=+ 模型预测 Y X Yp Y* Y X Yp Y* 0 -06 100 0 1600 0 -05 200 1 1700 0 -05 0 1800 0 400 1900 0 1 2000 0 600 2100 0 700 2200 0 800 2300 0 900 1 0 1 2500 0 1100 2600 0 1 1200 2700 1 1 2800 0 1400 1 2900 1 1 3000 期望-预期表: Expectation-Prediction Evaluation for Binary Specification Equation: UNTITLED Date: 07/10/09 Time: 23:02 Success cutoff: C = Estimated Equation Constant Probability Dep=0 Dep=1 TotalDep=0Dep=1Total P(Dep=1)<=C 13 2 15151530 P(Dep=1)>C 2 13 15000 Total 15 15 30151530 Correct 13 13 2615015
% Correct % Incorrect Total Gain* Percent Gain** NA Estimated Equation Constant Probability Dep=0 Dep=1 TotalDep=0Dep=1Total E(# of Dep=0) E(# of Dep=1) Total Correct % Correct % Incorrect Total Gain* Percent Gain** *Change in "% Correct" from default (constant probability) specification **Percent of incorrect (default) prediction corrected by equation H-L Statistic,Andrews Statistic 当自变量数量增加,尤其是连续自变量纳入模型后,协变类型的数量很大,所2以很多协变类型只有很少的观测案例,皮尔逊χ不再适用于拟合优度检验。所以采用H-L Statistic,Andrews Statistic,零假设为拟合完全充分 Goodness-of-Fit Evaluation for Binary Specification Andrews and Hosmer-Lemeshow Tests Equation: UNTITLED Date: 07/11/09 Time: 00:30 Grouping based upon predicted risk (randomize ties) Quantile of Risk Dep=0 Dep=1 Total H-L Low High ActualExpectActualExpectObs Value 1 -06 -05 -053 -05 2 3 4 5 6 7 8 9 10 -05
Total H-L Statistic Prob. Chi-Sq(8) Andrews Statistic Prob. Chi-Sq(10) 异方差检验编程 (1)原理: H:同方差 0H:有如下形式的的异方差:Var(u)=exp(2z'γ) 1iiz是影响随机误差项方差的自变量,γ为参数。 ∧∧∧∧y−pf(−y*)f(−y*)(−y*)ii构造LM统计量是辅助回归式=x'b+z'bi1i2∧∧∧∧∧∧p(1−p)p(1−p)p(1−p)iiiiii∧2的拟合值的平方和,该LM统计量近似服从自由度为z中变量个数的χ分布。pi∧为二元选择模型得到的拟合概率值,y*为二元选择模型得到的潜回归的拟合值。z是影响随机误差项方差的自变量,b,b为待估参数,x是其他的自变量。 12(2)步骤: ∧y−pii(1) 生成,命名为se ∧∧p(1−p)ii∧∧(2) 生成p,命名为yp,生成y*,命名为yf i∧f(−y*)(3) 构造序列,命名为fac,series fac=@dnorm(-yf)/@sqrt(yp*(1-yp)) ∧∧p(1−p)ii(4) 生成截距项的序列 series x0=1 (5) 用最小二乘法拟合辅助回归式 ls se (x0*fac) (x*fac*(-yf)) (6) 生成辅助回归的拟合值sef (7) 构造LM统计量 scalar lm_test=@sumsq(sef) (8) 计算p值 scalar p_val=1-@cchisq(lm_test,1) 结果为P=,所以不存在异方差
九、重复观测值可以得到情况下二元离散选择模型的参数估计(stata) 举例:研究年龄和接受某辐射对人群致死的影响 age exposed deathspop 005 1200181061 0 1685 1122 98 GLS估计:gprobit deaths pop exposed age ML估计:bprobit deaths pop exposed age 十、多重选择模型 背景问题 (1)城市旅行交通工具选择:火车、汽车、飞机; (2)多职业选择; (3)等级评定的多重选择。等等。 定义 称因变量取值超过两个的离散选择模型为多重选择模型;若多重选择有序,则称之为有序反应模型;若多重选择无序,则称之为无序反应模型。 如 排序选择模型(有序):银行信誉等级、学生奖学金等级等,数字反映好坏程度,数字之间的差有意义。 一般选择模型(无序):交通工具选择、超市购物选择等,数字之间的差值没有任何意义。 十一、排序选择模型 潜回归假设 *yi假设存在一个尚未观察到的连续性随机变量, ***yβx"′=++βx=βx+u,即为潜回归。y与y关系是,如果连续性随机变i1i1kikiiii*量y超过某个临界值,则对应y的一个确定性选择。如买房多重选择为:租房、ii*小户型、大户型、别墅,回归变量为收入,则个体选择依赖于y与临界值c,c,ci123的关系: ⎛租房小户型大户型别墅⎞ ⎜⎟y*≤cc<y*≤cc<y*≤cy*>c⎝i11i22i3i3⎠*假设多重选择有m+1个,则y与y关系具体如下: ii
*⎧0y≤ci1⎪*1c<y≤c⎪1i2⎪*y=2c<y≤c ⎨i23⎪#⎪*⎪my>cim⎩其中临界值关系满足:c<c<"<c。 排序选择模型 相应地,若假设干扰项u服从标准正态分布或logit分布,则可得排序选择i模型的概率形式: *′′P(y=0)=P(y≤c)=P(βx+u≤c)=F(c−βx) ii1ii11i*′′′P(y=1)=P(c<y≤c)=P(c<βx+u≤c)=F(c−βx)−F(c−βx) i1i21i22i1i" *′′P(y=m)=P(y>c)=P(βx+u>c)=1−F(c−βx) iimiimmi 模型的参数估计 假设随机抽样样本为: (y,x) i=1,2,",n,利用样本确定模型参数: ii(1)回归系数β,β,",β; 01k(2)临界值c,c,",c 12m参数估计的方法:极大似然估计。 EVIEWS应用举例(政府支持率的民意测验) 态度y是离散因变量,y=0,1,2,分别表示第i个市民的支持、中立、不支ii持。序体现在y数值越大,支持度越低。回归变量x为市民收入,样本数据如ii下表: 收入x 态度y 收入x 态度y收入x 态度y iiiiii550 0 850 1 1250 2 600 0 950 1 1350 2 650 0 1050 1 1450 2 700 0 1100 1 1500 2 750 0 1150 1 1550 2 800 0 1200 1 1600 2 900 0 1300 1 1650 2
1000 0 1400 1 1700 2 若假设干扰项u服从标准正态分布,请计算排序选择的Probit的模型,并解释。 i待计算的多元选择模型: *⎧0y≤ci1⎪*y=1c<y≤c ⎨i12⎪*2c<y2i⎩*待计算的潜回归模型: y=βx+u 其中u~N(0,1) iiii待估参数: c,c,β 12 利用Eviews软件,计算结果如下: Dependent Variable: Y Method: ML - Ordered Probit (Quadratic hill climbing) Date: 07/11/09 Time: 22:33 Sample: 1 24 Included observations: 24 Number of ordered indicator values: 3 Convergence achieved after 6 iterations Covariance matrix computed using second derivatives Variable CoefficientStd. Errorz-StatisticProb. X Points LIMIT_1:C(2) _2:C(3) R-squared Akaike info criterion criterion Log likelihood -Quinn criter. Restr. log likelihood statistic Avg. log likelihood (LR statistic) 可得潜回归模型为: * y=+u ii注:因为对政府支持等级与序数反方向变化,即序数越大,支持度越低,反之*亦然,故y可理解为对政府的不满倾向。 i
ˆ 临界值为:c=,ˆc= 12可得支持态度y的分布如下: i*⎧0y≤,表示支持i⎪*y=<y≤表示中立 ⎨ii⎪*2y>c表示反对i2⎩给定收入x,可得确定的态度y的分布列: iiy的取值 y的取值的概率 iiΦ(−) 0 i Φ(−)−Φ(−) 1 i 1−Φ(−) 2 i 模型预测: Procs/make model: i_y = * x y_0 = @cnorm( - i_y) y_1 = @cnorm( - i_y) - @cnorm( - i_y) y_2 = 1 - @cnorm(-i_y) 态度∧态度∧态度∧收入x 收入x收入xiy*ii y* y* iiiy y y 0 850 1 1250 2 0 950 1 1350 2 0 1050 1 1450 2 0 1100 1 1500 2 0 1150 1 1550 2 0 1200 1 1600 2 0 1300 1 1650 2 0 1400 1 1700 2 期望-预期表 Prediction Evaluation for Ordered Specification Equation: UNTITLED Date: 07/11/09 Time: 22:58
Estimated Equation Dep. Value Obs. Correct Incorrect% Correct% Incorrect0 8 7 8 7 24 20 Constant Probability Spec. Dep. Value Obs. Correct Incorrect% Correct% Incorrect0 8 8 8 0 24 8 Gain over Constant Prob. Spec. Equation Constant Dep. Value Obs. % Incorrect % IncorrectTotal Gain*Pct. Gain**0 8 8 8 24 *Change in "% Correct" from default (constant probability) specification **Percent of incorrect (default) prediction corrected by equation 十一、其他问题 一般选择模型(stata) 无序的logit模型:mlogit 无序的probit模型设计复杂计算,目前尚无对应的命令。 工具变量 如果在probit模型中有内生变量,就要采用工具变量方法予以克服,ivprob命令给出了结果。 面板数据的离散选择模型:xtlogit,xtprobit