2001年11月
光华管理学院 王明进 陈奇志
*
...纽约时装的秋季展示会暗示了股票的回落吗?按照股市的“下摆指示器”的说法,当街上妇女裙子的下摆变短,则股票会涨起来,当那些裙子长及地面时,股市就会跌落下去。
根据《华盛顿时报》1998年5月9日
光华管理学院 王明进 陈奇志
2001年11月
光华管理学院 王明进 陈奇志
*
第七讲内容复习
你认为什么类型的问题可以使用简单线性回归模型来刻画?
请你说出一个简单线性回归模型的形式是怎样的?它包含哪些假定?
你如何对这一模型里面的参数进行估计和假设检验?
你如何理解估计的回归方程?如何利用它进行预测?
光华管理学院 王明进 陈奇志
2001年11月
光华管理学院 王明进 陈奇志
*
第七讲内容复习(续)
判决系数的含义是什么?它和相关系数的关系是怎样的?
你如何理解对模型的假定和实际数据之间的关系?
你会使用EXCEL进行简单回归模型的建立和检验吗?
光华管理学院 王明进 陈奇志
2001年11月
光华管理学院 王明进 陈奇志
*
第八讲
多元回归模型
2001年11月
光华管理学院 王明进 陈奇志
2001年11月
光华管理学院 王明进 陈奇志
*
更多的自变量
光华管理学院 王明进 陈奇志
2001年11月
光华管理学院 王明进 陈奇志
*
认识R2
总变差的分解:SST=SSR+SSE;
判定系数: R2=SSR/SST;
多重相关系数R;
调整(修正)的判定系数:
光华管理学院 王明进 陈奇志
2001年11月
光华管理学院 王明进 陈奇志
*
对回归方程的检验
问题:因变量和所有自变量之间是否存在显著的关系?
检验假设
拒绝域
光华管理学院 王明进 陈奇志
2001年11月
光华管理学院 王明进 陈奇志
*
对回归系数的检验
检验假设
检验统计量
拒绝域
光华管理学院 王明进 陈奇志
2001年11月
光华管理学院 王明进 陈奇志
*
例子:巴特勒运输公司
光华管理学院 王明进 陈奇志
2001年11月
光华管理学院 王明进 陈奇志
*
利用你的模型进行预测
使用计算机软件产生回归模型;
通过检验判断你的模型;
你可以预测什么?
光华管理学院 王明进 陈奇志
2001年11月
光华管理学院 王明进 陈奇志
*
定性的自变量
方差分析的解决方案:因子,处理。
回归分析的解决方案:引入虚拟变量(Dummy Variable)
如何定义虚拟变量?
例:x=0 (女性),x=1(男性)
如何解释回归模型?
光华管理学院 王明进 陈奇志
2001年11月
光华管理学院 王明进 陈奇志
*
Johnson过滤水股份公司
Johnson公司对遍步南弗罗里达州的水过滤系统提供维修服务。为了估计服务时间和成本,公司希望能够对顾客的每一次维修请求预测必要的维修时间。他们收集的数据中包含就近一次维修至今的时间(月数)、故障的类型(电子和机械)以及相应的维修时间(小时)。
你能够建立起一个预测方程吗?
光华管理学院 王明进 陈奇志
2001年11月
光华管理学院 王明进 陈奇志
*
建立维修时间的回归方程
第一个回归方程
第二个回归方程
解释你得到的回归方程!
光华管理学院 王明进 陈奇志
2001年11月
光华管理学院 王明进 陈奇志
*
SPSS软件的使用
部分参考书目:
阮桂海主编,SPSS实用教程,电子工业出版社,2000年8月;
卢纹岱等编著,SPSS For Windows从入门到精通,电子工业出版社,1997年6月;
北京大学人口所编译, SPSS BASE系统用户指南, 1995年。
光华管理学院 王明进 陈奇志
2001年11月
光华管理学院 王明进 陈奇志
*
诊断你的模型:残差分析
残差分析不仅被用于判断你对模型中误差项所设的假定是否符合,而且还可以检测出异常值和有影响的点。
残差分析的工具是残差图。
残差图是由横轴为自变量或者因变量的预测值、纵轴为残差或者学生化残差组成的散点图。
光华管理学院 王明进 陈奇志
2001年11月
光华管理学院 王明进 陈奇志
*
Reynolds公司的销售人员
Reynolds公司是一家生产工业天平和实验室设备的企业。公司管理人员想要对公司销售人员的工作年限和天平的销售数量之间的关系进行研究。他们随机抽取了15名销售人员,利用相应的数据资料得到了他们近期的销售数量对工作年限的简单线性回归方程,SALES=111
+ MONTHS。观察该回归方程的残差图(见下页),你觉得哪些地方存在问题,如何进行更改?
光华管理学院 王明进 陈奇志
2001年11月
光华管理学院 王明进 陈奇志
*
Reynolds公司案例残差图
光华管理学院 王明进 陈奇志
2001年11月
光华管理学院 王明进 陈奇志
*
衡量广告的效果
Superbrands’98(1997年10月20日)给出了10种主要品牌的啤酒的广告费用(百万美元)和销售数量(百万桶)的统计资料,根据该数据可以得到销售量对广告投入的回归方程,SALES=
+AD,对应的残差图见下页。你根据该残差图能够得出什么结论?
光华管理学院 王明进 陈奇志
2001年11月
光华管理学院 王明进 陈奇志
*
Superbrands’98案例残差图
光华管理学院 王明进 陈奇志
2001年11月
光华管理学院 王明进 陈奇志
*
识别异常值
异常值(Outlier)是指残差异常大的观测。
识别方法:残差项(或者学生化标准残差)落在其两个标准差之外的观测。
识别之后:
检查是否输入数据错误,如果是,则改正数据;否则,也应当保留该观测,而不是简单地删除。
光华管理学院 王明进 陈奇志
2001年11月
光华管理学院 王明进 陈奇志
*
一个具有异常值的散点图
光华管理学院 王明进 陈奇志
2001年11月
光华管理学院 王明进 陈奇志
*
识别影响点
影响点(Influential Observation)是指对回归结果具有很大影响的观测。
异常值不一定是影响点,反之,影响点的残差也可以很小,不一定是异常值。
识别影响点的方法:杠杆率比较大(大于 3(p+1)/n),或者Cook距离D比较大(>1).
识别之后:建议应该同时报告包含影响点和除去影响点的两种回归结果。
光华管理学院 王明进 陈奇志
2001年11月
光华管理学院 王明进 陈奇志
*
一个具有影响点的散点图
光华管理学院 王明进 陈奇志
2001年11月
光华管理学院 王明进 陈奇志
*
其它的内容
使用残差检验误差项的正态性;
使用残差来分析误差项的独立性:Durbin-Watson统计量d。
光华管理学院 王明进 陈奇志
2001年11月
光华管理学院 王明进 陈奇志
*
HOT DOG!
Dubuque是一家热狗生产厂家,他们最近收到信息说,Ball Park,一家与他们竞争的品牌,将会降低他们热狗的价格。公司内部围绕这是否会给他们现在的市场份额带来负面影响展开了争论,有人认为应该采取相应的措施来保护已有的市场份额,也有人说Oscar Mayer才是他们的主要竞争对手,可以不必采取任何措施。你觉得应该如何处理这一问题?
光华管理学院 王明进 陈奇志
2001年11月
光华管理学院 王明进 陈奇志
*
你需要了解的问题
Dubuque的价格怎样影响到它的市场份额?
Oscar Mayer的价格会影响到Dubuque的市场份额吗?
Ball Park的价格影响到Dubuque的市场份额吗?
Oscar Mayer和Ball Park谁是Dubuque主要的竞争对手?
光华管理学院 王明进 陈奇志
2001年11月
光华管理学院 王明进 陈奇志
*
数据说明
Mktdub Dubuque热狗的市场份额;
Pdub Dubuque热狗的市场价格;
Poscar Oscar热狗的市场价格;
Pbpreg Ball Park常规热狗的市场价格;
Pbpbeef Ball Park全牛肉热狗的市场价格。
光华管理学院 王明进 陈奇志
2001年11月
光华管理学院 王明进 陈奇志
*
你对这样的模型满意吗?
Mktdub=
() ()
++
() ()
+
()
R2=%, Adj-R2=%
光华管理学院 王明进 陈奇志
2001年11月
光华管理学院 王明进 陈奇志
*
多重共线性问题
在多元线性回归模型中,多重共线性性(Multicollinearity)是指自变量之间存在线性相关的关系。
多重共线性存在时会使得系数估计的标准误差增大,从而使得相应的t统计量减小和p值增加。
光华管理学院 王明进 陈奇志
2001年11月
光华管理学院 王明进 陈奇志
*
识别多重共线性性
自变量的相关矩阵;
方差膨胀因子(Variance Inflation Factors, 简记作VIF): 刻画了相比多重共线性不存在时回归系数估计的方差增大了多少。VIF越大说明多重共线性问题越严重。
经验法则:VIF >10
光华管理学院 王明进 陈奇志
2001年11月
光华管理学院 王明进 陈奇志
*
需要删除哪些变量?
H0: 3=4=0;
H1: 3和4中至少有一个不是零。
检验的思路:对比简化模型和完全模型;
光华管理学院 王明进 陈奇志
2001年11月
光华管理学院 王明进 陈奇志
*
谁是Dubuque最大的竞争对手?
Mktdub= 0+1Pdub+2Poscar+3Pbpreg +
理解2 和3 的含义;
如何检验假设
你的结论是什么?
光华管理学院 王明进 陈奇志
2001年11月
光华管理学院 王明进 陈奇志
*
模型的选择
逐步回归 (Stepwise)过程;
向前选择 (Forward)过程;
向后选择(Backward)过程;
最佳子集的选择。
光华管理学院 王明进 陈奇志
2001年11月
光华管理学院 王明进 陈奇志
*
总结:如何建立一个回归模型?
1、正确选择自变量和因变量(需要考虑交互作用吗?是否需要进行必要的变换?需要虚拟变量吗?);
2、正确使用计算机软件建立回归模型;
3、查看残差图(线性假设成立吗?存在异方差吗?有异常值或影响点存在吗?);
4、判断是否存在多重共线性问题;
光华管理学院 王明进 陈奇志
2001年11月
光华管理学院 王明进 陈奇志
*
总结:如何建立一个回归模型?
5、小心地处理系数的p值比较大的变量,区别那些VIF比较大和VIF比较小的情况。切记:你不应该马上把那些p值较大的自变量都消除!
6、你可以尝试使用软件提供的变量选择过程建立模型。(但是你要明白选择出什么样的模型仍然是由你来控制的。)
7、无论如何再回到第3步都是有益的!
光华管理学院 王明进 陈奇志
2001年11月
光华管理学院 王明进 陈奇志
*
总结:分析你得到的模型
1、你必须回到你具体问题的情景中去!
1、如何对你的模型和系数进行解释?
2、使用你的模型进行预测。此时,你要注意很多问题!
3、把具体的问题化成模型中的假设?尝试着去找到检验的方法。
4、体会使用模型辅助你进行决策!
光华管理学院 王明进 陈奇志
2001年11月
光华管理学院 王明进 陈奇志
*
课后寄语
希望你从此会善待数据!希望当你在未来的某个决策中被不确定的因素困扰时,会想到统计分析方法可能是一条帮助你的途径!
光华管理学院 王明进 陈奇志
2001年11月
光华管理学院 王明进 陈奇志
*
回顾与总结(1)
统计学的目的是整理、探索、挖掘数据中的信息。认识数据是统计学的最基本任务。
你面临的问题是什么?在你决策过程中哪些不确定性因素困扰了你?你要验证一个什么结论?
你需要收集哪些数据?如何收集?
光华管理学院 王明进 陈奇志
2001年11月
光华管理学院 王明进 陈奇志
*
回顾与总结(2)
处理你得到的数据之前,你要明确:
你要描述一个总体?
你要比较两个总体?
你想比较多个总体?
你想了解两个变量之间的关系?
你想了解多个变量之间的关系?
光华管理学院 王明进 陈奇志
2001年11月
光华管理学院 王明进 陈奇志
*
回顾与总结(3)
你的数据的类型是什么?
如果是一个品质数据你可以描述它的什么特征?如何去做?
如果是一个数量数据你如何描述它的集中位置(代表值)?如何描述它的变异性?
光华管理学院 王明进 陈奇志
2001年11月
光华管理学院 王明进 陈奇志
*
回顾与总结(4)
对于两个品质的总体,如何进行两个总体的比较?
对于两个数量的总体,如何比较它们的均值?比较方差?
如何比较多个正态总体的均值?
光华管理学院 王明进 陈奇志
2001年11月
光华管理学院 王明进 陈奇志
*
回顾与总结(5)
你要研究两个变量的关系时,这两个变量的类型分别是什么?
如果是 两个品质变量你如何去做?
如果是一个品质变量和一个数量变量之间的关系你怎么去做?
光华管理学院 王明进 陈奇志
2001年11月
光华管理学院 王明进 陈奇志
*
回顾与总结(6)
对于两个数量数据之间的关系,你怎么去做?
要研究多个变量之间的关系,你掌握了哪些方法?
光华管理学院 王明进 陈奇志