第五章:正态概率分布
Chapter Ⅰ Common Probability Distributions
本章简介(Introduction)P226
本章的内容,是四种概率分布及它们的应用,即:Ⅰ the uniform;Ⅰ the binomial;
Ⅰ the normal;Ⅰ the lognormal。
本章的其他数量工具:Ⅰ Hypothesis testing;Ⅰ regression analysis;Ⅰtime-series
analysis。
不连续的随机变量(Discrete Random Variables)P227
§Ⅰ 定义和解释概率分布(Probability Distributions)
概率分布(Probability Distributions),即将随机变量可能结果的概率予以特定。
每个随机变量都有描述它的概率分布,概率分布的方式有两种:
Ⅰ 概率函数(probability functions)。
Ⅰ 累积分布函数(cumulative distribution functions/distribution functions/cdf
§Ⅰ 区别:连续的随机变量和不连续(discrete)的随机变量
随机变量,是一个未来结果不确定的数。随即变量有两种类型:不连续的随
机变量(discrete random variable)、连续的随机变量(continuous random variable)。
变量的结果能予以历数(个数有限)的随机变量,为不连续的随机变量。
§Ⅰ 描述某特定变量可能结果的集合
§Ⅰ 定义一个概率函数(Probability function)并说明它的关键特征
概率函数的表示方法是:P(X = x),它表示随机变量的值为 x 的概率。
不连续随机变量的概率函数,可以缩写为 p(x);连续随机变量的概率函数
用 f(x)表示,称之为概率密度函数(Probability density functions/density/pdf)。
概率函数有两个关键特征:Ⅰ 0≤p(x)≤1;Ⅰ 随机变量 X 所有值的概率的总
和等于 1。
§Ⅰ 定义概率密度函数(Probability density function)
§Ⅰ 定义累积分布函数(cumulative distribution function)并根据累积
分布函数计算随机变量的概率
累积分布函数(cumulative distribution functions/distribution functions/cdf),
表示随机变量的结果位于某一范围的概率。cdf 函数的功能相当于累积相对频率。
连续的或不连续的随机变量的结果的累积概率分布,可以记作 F(X)= P
(X≤x),或 F(X)= P(x1≤X≤x 2),或 F(X)=P(X≥x)。
累积概率函数(cdf 函数)的特征:Ⅰ 0≤F(x)≤1;Ⅰ 随着 x 的增加,cdf 函
数或增加或保持不变。
不连续的单项分布(The Discrete Uniform Distribution)P228
§Ⅰ 给定不连续的单项分布(a discrete uniform distribution),定义不连
续的单一随机变量并计算概率
单项分布(Uniform Distribution),即随机变量所有可能结果的概率都相等。
单项分布的应用:Ⅰ 它是为其它概率分布产生随机数以作为随机观察对象
(random observation)的基础;Ⅰ 它可以用来描述结果概率相等的随机变量。
贝诺里分布(The binomial Distribution)P230
§Ⅰ 给定贝诺里概率分布(binomial Probability Distributions),定义贝
氏随机变量(Bernoulli Random variable)并计算概率
Ⅰ 贝诺里(Binomial)分布的功能
贝诺里(Binomial)分布的功能:描述有两项可能结果的随机变量的每一项结
果的概率分布。其模型是:两项选择的价格模型( the binomial Option Pricing
Model,BOPM),即价格的上升或价格的下降。
Ⅰ 贝氏随机变量(Bernoulli Random variable)
贝诺里分布的建构元素是贝氏随机变量(Bernoulli Random variable)。假定某
个能重复进行的试验有两个可能的结果,每次试验产生的结果必为其一,这样的试
验称为贝诺里试验(Bernoulli trial)。
在结果为成功时,则 Y=1;在结果为失败时,则 Y=0,则贝氏随机变量 Y
的概率函数为:
p(1)= p(Y=1)= p
p(0)= p(Y=0)= 1- p
Ⅰ 贝诺里随机变量(binomial Random variable)
对 n 个贝诺里试验,有 0—n 个“成功”。如果单个贝诺里试验的结果是随机的,
则 n 个贝诺里试验的结果为“成功”的总数也是随机的。
定义贝诺里随机变量 X 为 n 个贝诺里试验中结果为成功的总数。用“Yi”表示
第 i 个贝诺里试验的结果为“1”或“0”(i =1,2,…,n),则:
X =Y 1+Y 2 + … + Y n 。
贝诺里随机变量由参数 p 和 n 定义。p 即每次试验结果为“成功”的概率;n 贝
诺里试验的次数。
对贝诺里分布,可作有如下假设:Ⅰ 对所有贝诺里试验,结果为“成功”的概
率是一个常数;Ⅰ 贝诺里试验相互独立。
因此,贝诺里随机变量 X 可以完全用两个参数描述,即 X ~ B(n,p)。贝
氏随机变量 Y 是 n =1 的贝诺里随机变量的值,即:Y ~ B(1,p)。
Ⅰ 贝诺里随机变量 X ~ B(n,p)的概率函数 P(X = x)的表示公式:
Ⅰ X 是贝诺里随机变量,表示 n 个贝诺里试验中的“成功”的总数;X=x,是
这 n 个贝诺里试验中成功的总数等于 x。
Ⅰ p(x)和 P(X =x),表示 n 个贝诺里试验中,成功的总数等于 x 的概率。
Ⅰ 〔nC x〕是在 n 个贝诺里试验中有 x 个成功的排列方式的数目。
Ⅰ p,是单个贝诺里试验的结果为成功的概率;(1-p),是单个贝诺里试验
的结果为不成功的概率。
Ⅰ p x(1 - p)n - x,是每一个排列都具有的概率。
Ⅰ 贝诺里随机变量概率函数的形状
当单个贝诺里试验的结果为成功的概率 p=50%时,贝诺里分布式对称的。
若 p≠50%,则贝诺里随机变量概率函数的图像就具有偏向性。Ⅰ 当 p < 50%
时,概率函数的会向右偏(right-skewed),即图像的右部有较长的尾巴;Ⅰ 当 p >
50% 时,概率函数的会向左偏(left-skewed)。
对同一贝诺里随机变量有 p1、p2,如果 p1+p2 =1,则它们的图像呈镜像对称。
§Ⅰ 贝诺里随机变量(bernoulli Random variable)的预期值和方差
p(x)= P(X=x)=〔nC x〕×p x(1 - p)n - x
〔nC x〕= n!/[x!(n-x)!]
贝诺里随机变量(bernoulli Random variable)的预期值和方差
连续的随机变量分布(Continuous Random Variables)P240
§Ⅰ 给定连续的单项分布(a continuous uniform distribution),定义连
续的单项随机变量并计算概率
连续的单一分布(Continuous Uniform Distribution)
Ⅰ 连续的单项随机变量的概率密度函数(pdf):
Ⅰ 连续的单项随机变量的累积概率函数(cdf):
计算概率密度函数 f(x)在定义域(a≤x≤b)上的面积(即累积概率值)的数
学方法是,对函数 f(x)从 a 到 b 积分(integral),即:
可以用上述等式对(-∞,+∞)范围内的任意两个实数求积分。
因为连续随机变量的值是无限的,所以,连续随机变量的值等于任一定点的
概率为 0。这对计算连续随机变量的累积概率函数(cdf)有重要意义:对任何连续
的随机变量 X,有 P(a≤x≤b)= P(a < x≤b)= P(a≤x < b)= P(a < x<b)。
当 a≤x≤b 时,f(x)=1/(b-a)表示的是连续随机变量在区间 a≤x≤b 的平均
概率。
Mean(weighted average) Variance
Binomial,B(1,p) p p(1-p)
Binomial,B(n,p) np np(1-p)
Binomial,B(5,) (即 5×p) 即 5×p(1-p)
Binomial,B(5,) (即 5×p) 即 5×p(1-p)
1/(b-a) (a≤x≤b)
f(x)=
0 其他值
0 (x≤a)
F(x)= (x-a)/(b-a) (a <x <b)
1 (x≥b)
P(a≤x≤b)=∫ab f(x)dx
正态分布(The Normal Distribution)P243
§Ⅰ 解释正态分布的关键特征
Ⅰ 描述正态分布的两个参数:平均值 μ(Mean)和方差(σ 2)或标准差 σ。
正态分布可以表示为:X ~ N(μ ,σ 2)。
Ⅰ 正态分布的下述参数值:偏向性(skewness)=0;峰度(kurtosis)=3,
剩余峰度(excess kurtosis)= 0。
正态随机变量的平均值(mean)、中值(median)、众数(mode)都相等。
Ⅰ 两个正态随机变量的线性叠加(linear combination),还是正态分布。
§Ⅰ 区别:单变量(univariance)分布和多变量分布(multivariance)
单变量分布(univariate distribution),描述单个的随机变量;多变量分布
(multivariate distribution),描述的是一组随机变量的概率。
当我们有一组资产时,我们可以将每一项资产的收益分布分别模型化,也可
以将这些资产作为一组(as a group)来将它们的收益分布模型化。作为一组,即
考虑收益系列之间的统计关系,其中经常使用的模型就是多变量的正态分布
(multivariate normal distribution)。
n 种证券的收益的多变量正态分布,可以用三个参数予以定义:Ⅰ 单个证券
收益的平均值(mean)的清单;Ⅰ 证券收益方差的清单;Ⅰ 收益的所有互不相同
的相关系数(correlations)的清单,共 n(n-1)/2 个。
与单变量正态分布相比较,相关系数(correlations)是多变量的正态分布的区
别特征之一。
§Ⅰ 解释相关系数在多变量正态分布中的作用
§Ⅰ 定义标准正态分布(standards normal distribution)并解释如何使
随机变量标准化
Ⅰ 正态分布的概率密度函数(pdf)的表达式(-∞ < x <+∞):
当 μ = 0,σ=1 时,该正态分布称之为标准(standard)正态分布或单位
(unit)正态分布。
f(x)= exp [-(x -μ)2/2σ 2 ]/(σ√ 2 π)
对于正态分布,标准差(σ)越大,其相对于平均值的分布就越分散。利用标
准差,我们能够对任何正态分布的结果的分散性作出概率报告:
Ⅰ 大约有 50%的观察对象,在区间 μ ±(2/3)σ 的范围内;
Ⅰ 大约有 68%的观察对象,在区间 μ ±σ 的范围内;
Ⅰ 大约有 95%的观察对象,在区间 μ ±2σ 的范围内;
Ⅰ 大约有 99%的观察对象,在区间 μ ±3σ 的范围内。
Ⅰ 随机变量的标准化
标准正态随机变量用 Z ~ N(0 ,1)表示。将随机变量 X ~ N(μ ,σ 2)
标准化的公式:
随机变量 X=x 0 对应的标准正态随机变量 Z = z0 =(x 0- μ)/ σ。
其意义是:对 X ~ N(μ ,σ 2),随机变量的值小于或等于 x 0 的概率,正好
等于标准正态分布 Z ~ N(0 ,1)中随机变量的值小于或等于 z0 的概率〔z0=
(x 0 - μ)/σ〕。
即:对 X ~ N(μ ,σ 2)有 P(X≤x 0);对 Z ~ N(0 ,1)有 N(Z≤z0)。
当 z0=(x 0 - μ)/σ 时,则 P(X≤x 0)=N(Z≤z0)。
§Ⅰ 呈正态分布的随机变量的信置区间(confidence intervals)
Ⅰ 正态随机变量 X 的确切信置区间(confidence intervals):
Ⅰ P( xˉ- ≤X≤ xˉ+)= 90%;
xˉ(也记作 μˆ)为样本平均值;s(也记作 ỡ)为样本的标准差。 xˉ和 s 是店
测算(point estimates)。
Ⅰ P( xˉ- ≤X≤ xˉ+)= 95%;
Ⅰ P( xˉ- s ≤X≤ xˉ+)= 99%;
§Ⅰ 使用标准正态分布(standards normal distribution)计算概率
Ⅰ 标准正态随机变量累积分布函数表 N(x)的使用。比如查找 P(Z≤)
的值(即变量 Z 的值小于或等于 的概率),其步骤:在表的第一纵栏找到
,在表的第一横栏找到 ,两者对应的值即为要找的概率。
【例】 Ⅰ P(Z ≤ )= 90% ,它表示有 10%的值在图像的右边尾部,
并且,P( xˉ- ≤X≤ xˉ+1. 282s)= 80%。
Ⅰ P(Z≤)= 95%,它表示有 5 %的值在图像的右尾部,或有 10 %的值
在 90%的信心区间之外(即左右两边尾部各有 5 %的值在 90%的信心区间之外)。
Z =(X- μ)/σ
Ⅰ 了解下列关系,有助于我们使用累积分布函数 N(x)表:
Ⅰ 当 x≥0 时,x 右边的分布概率 P(Z≥x)= - N(x);
Ⅰ 对负数-x,有:N(-x)= - N(x)。
因为:x 右边的分布概率和面积,等于-x 左边的分布概率和面积,即:P(Z
≥x)= N(-x)或 P(Z≤-x)。
正态分布的应用(Application of the Normal Distribution)
§Ⅰ 平均值—方差分析法
Ⅰ 平均值—方差分析法(mean-variance analysis)
平均值—方差分析法,将整体的收益分布概括为平均值和方均差,进而对投
资决策进行评价。
Ⅰ 将新资产加入到投资组合中,为了实现获利须满足:
即:新资产的“夏普比”,要大于投资组合 p 的“夏普比”与新资产和投资组合 P
的相关系数的乘积。
Ⅰ 马克维茨决策规则(Markowitz decision rule)。
对于资产 A 和 B,投资者选择 A 而不选择 B,其决策依据是:Ⅰ A 的平均收
益等于或大于 B 的平均收益,而 A 的收益的标准差更小;Ⅰ A 的平均收益大于 B
的平均收益,而 A 与 B 收益的标准差相等。
§Ⅰ 定义亏空风险(shortfall risk)
亏空风险(shortfall risk),即在某段时间投资组合的价值会下降到能够接受的
最低水平以下。如:某个已经界定收益计划的资产的价值下降到计划的债务之下,
即为亏空风险(shortfall risk)。
§Ⅰ 计算安全首位比率(safety-first ratio)并利用罗伊的安全首位标准
选择最佳投资组合
安全首位规则(Safety-first Rules),作为评估价值下滑风险(downside risk)
的方法,关注的是亏空风险(shortfall risk)。
[ E(R new)-R f ]/σ new > Corr(R new,R p)×[ E(R p)-R f ]/σ p
假定 R L 是投资者能接受的最低收益水平。按照 Roy 的安全首位标准:最优
化的投资组合,就是能够使该组合的收益 R p 下降到临界水平 R L 以下的概率最小
化的投资组合,即:P﹝R p < R L﹞为最小值。
当投资组合收益是正态分布的,我们使用标准方差能计算出 P﹝R p < R L﹞。
投资组合的期望收益为 E(R p),则单位标准差的〔E(R p)-R L〕最大时,投资
组合的 P﹝R p < R L﹞最小。
〔E(R p)-R L〕是平均收益(mean return)到亏空标准的距离。用 SFRatio
表示安全首位比率(safety-first ratio),则:
SFRatio = [E(R p)-R L]/ σ p
应用 Roy 标准,对投资组合进行选择的步骤:Ⅰ 计算投资组合的 SFRatio。Ⅰ
根据计算所得的 SFRatio 值评估标准正态累积分布函数(cdf)。收益值小于 R L 的
概率就是 N(-SFRatio),即:P(R p < R L)=N(-SFRatio)=1-N(SFRatio)。Ⅰ
选择上一步中概率最小的投资组合。
SFRatio 与“夏普比率”的差别在于 R L 和 R f(无风险收益)。安全首位规则为“夏
普比率”提供了一个新的角度:在使用夏普比例评价投资组合时,假定投资组合收
益是正态分布的,则夏普比率高的投资组合,是使投资组合收益小于无风险收益的
概率最小的投资组合。
§Ⅰ 对数正态分布(lognormal distribution)和正态分布的关系
Ⅰ 对数正态分布的概述
对随机变量 Y,如果它的自然对数㏑Y 为正态分布,则 Y 为对数正态分布;
反之亦然。对对数正态分布,有两点值得注意:
Ⅰ 它的下界由 0 界定;
Ⅰ 它偏向右边(即它的右边由一个长的尾巴)。
假定 Y 是对数正态分布的,则对数正态分布的两个参数是:㏑Y 的平均值和
方差(或标准差)。这样就有两套平均值和标准差(或方差):正态分布的平均值
和标准差(或方差);对数正态分布自身的平均值和标准差(或方差)。
Ⅰ 求对数正态分布自身的平均值和标准差(或方差)
假定正态随机变量 X 有预期值 μ 和方均差 σ 2。定义:Y=exp(X)=e x,Y
是取对数的逆运算,即㏑Y=X。X 是正态随机变量,而 Y 是对数正态变量。则:
Ⅰ Y 的预期值是 exp(μ +σ 2),即 E(Y)= exp(μ+σ 2)。
其原因:对数正态分布扩展了,它能向上扩展但是不能向下扩展超过零,因
此,分布的中心向右边移动,即增加了平均值。
Ⅰ 对数正态分布自身的平均值(μL)和方均差(σL2)的计算公式:
μL= exp(μ +σ 2)
σL2= exp(2μ +σ 2)×[exp(σ 2)-1 ]
§21.区别:收益的连续复利和不连续复利
Ⅰ 股票收益分布和股票价格的关系
如果股票的连续复利收益率(continuously compounded return)是正态分布的,
则将来的股票价格必定是对数正态分布的。同样重要地,即使股票的连续复利收益
不是正态分布的,因为中心限制理论(central limit theorem)的作用,股票的价格
也可用对数正态分布来描述。
Ⅰ 连续复利收益率与持有期回报率(holding period return)的关系
假定股票价格的一系列观察对象 S0,S1,S2,…,ST ,是等间距的。现在的
股票价格 S0 是一个确定的数(不是随机变量),而股票的未来价格却是一个随机变
量。价格比(St+1 /S t),等于 1 加上持有期回报率,即:S t+1/S t = 1+R t+1,t 。
连续复利收益率,是与持有期回报率(R t+1,t)相伴随的一个重要概念。连续
复利收益用 r t+1,t 表示,则根据 EAR = e rs -1 可得(EAR /effective annual rate
即 R t+1,t),在期间 t 到 t+1 内,两者的关系是:
在期间 0 到 T 内(T-horizon),连续复利收益率与持有期回报率 HPR 的关系
是:
因此,S T = S 0 exp(r 0, T)。
Ⅰ 独立的同一分布(IID,independently and identically)
独立的同一分布含义。Ⅰ 独立,指投资者不能根据过去的收益预测未来的收
益;Ⅰ 同一就是假定静止。
假定单个期间的连续复利收益率 rT,T –1,是平均值为 μ、方差为 σ 2 的 IID 随
机变量,则在 0 到 T 期间内连续复利收益率 r0, T 的期望值为:
r0, T =㏑(S T /S 0)= rT,T-1 + rT-1, T-2 +…+ r0,1
E(r0, T)= E(rT,T –1)+ E(rT –1, T-2)+…+E(r0,1)= μT
r t+1,t = ㏑(St+1 /S t)=㏑(1+R t+1,t)
比较 S T =S 0 exp(r0, T)和 Y = exp(X),我们可以将未来股票价格 S T 的
模型作为对数正态随机变量。因为,r0, T 至少应该是近似的正态随机变量。
§22.给定持有期回报率 HPR,计算收益的连续复利
§23.解释蒙特卡洛模拟和历史模拟,并说明它们的应用和局限性
Ⅰ 蒙特卡洛模拟的简介
蒙特卡洛模拟的要旨,在爬梯之前要做的最后一件事,就是摇动梯子。就像
摇动梯子让我们接近爬梯的风险一样,蒙特卡洛模拟让我们在实施一项政策前,对
其进行试验。其目的,就是发现对复杂的金融问题的近似解决方法。
作为蒙特卡洛模拟整体的一部分,就是通过各种各样的假定,从概率分布中
产生大量的随机样本,以模拟各种可能的风险。
蒙特卡洛模拟的应用:Ⅰ 在实施一项政策或投资决策前,对其进行试验;Ⅰ
评估处于风险中的价值(Value at Risk);Ⅰ 对复杂的证券估价;Ⅰ 研究院用以测
试他们的模型和投资工具。
Ⅰ 蒙特卡洛模拟的步骤。Ⅰ 根据基础变量,明确规定感兴趣的问题的数量
(Specify the quantities of interest in terms of underlying variable)。Ⅰ 明确规定时间
坐标(Specify a time grid)。Ⅰ 对产生前在变量的风险因素,明确规定其分布假说
( Specify distributional assumptions for the risk factors that drive the underlying
variables)。Ⅰ 使用计算机程序或空白表格(spreadsheet)函数,产生每一个风险因
素的随机值。Ⅰ 使用上一步产生的随机观察对象,计算基础变量。Ⅰ 计算感兴趣
的问题的数量。Ⅰ 返回到第 4 步重新操作,直到试验的详尽数据完成。
Ⅰ 蒙特卡洛模拟,是分析方法的补充。它只提供统计数据,而不能提供精确
的结果,而分析方法提供了更深刻的因果关系。
Ⅰ 历史模拟(historic simulation,or back simulation),从历史纪录中取样来模
拟一个过程。
σ 2(r0, T)= σ 2T
第六章:取样和评估
Chapter Ⅰ Sampling and Estimation
本章简介(Introduction)
本章的主题:是如何取样?以及如何利用样本信息估算群体参数?取样的核
心是中心限制理论和估算(central limit theorem and estimation)。
取样(Sampling)
§Ⅰ 定义样本随机取样(simple random sampling)
样本(simple)随机取样,即群体中的所有元素入选的概率都相等。
两种随机取样的方法:简单的随机取样(simple random sampling)和分层次的
随机取样(stratified random sampling)。
两类数据:横截数据(cross-sectional date)和时间系列数据( time-series
date)。
§Ⅰ 定义并解释取样误差(sampling error)
取样误差,即统计观察到的值和统计要估算的量之间的差。
§Ⅰ 定义取样分布(sampling distribution)
一个统计的取样分布(sampling distribution),是我们从同一群体中随机抽取
规模相同的样本、并对样本进行统计计算,而得出的所有相互区别的可能值的分布。
§Ⅰ 区别:简单的随机取样和分层的随机取样( stratified random
sampling)
简单的随机取样(simple random sampling),即样本的获得是任意的,群体中
的每一个元素,都有同等的机会被选中。
分层次的随机取样(stratified random sampling),即根据一个或多个分类标准,
将群体进一步分为亚群体(sub population/strata)。然后按每一层(亚群体)的相
对规模,按比例地抽取简单的随机样本,并将这些样本集中起来。
§Ⅰ 时间系列(time-series)数据和横向(cross-sectional)数据
时间系列数据,是时间间隔相等地、不连续地收集到的一系列数据。横截数据,
是在某一时间点上的个体、团体、地区或公司的特征的数据。
样本平均值的分布(Distribution of the sample mean)
§Ⅰ 说明中心极限定律(central limit theorem)并说明它的重要性
假定任一概率分布描述的群体有平均值 µ 和限定的方差σ2,当我们从群体中
抽取规模为 n 的样本以计算样本平均值 xˉ时,如果 n 足够大(n ≥ 30),则可得:
Ⅰ 样本平均值 xˉ的取样分布是近似的正态分布;
Ⅰ 该取样分布的样本平均值 xˉ= µ ,方差σ2xˉ= σ2/n 。
中心极限理论:Ⅰ 能估计群体的平均值;Ⅰ 样本统计的标准差,就是统计的
标准误差(Standard Error of Statistic);Ⅰ 能够建构信心区间和测试假定。
§Ⅰ 计算和解释样本平均值的标准差(standards error)
样本平均值的标准差 s xˉ(Standard Error of Statistic)的定义。样本统计的标准
差(Standard deviation),就是统计的标准差(Standard Error)。因此,样本平均值
xˉ的标准差(Standard Error)的计算公式有二:
σxˉ =σ/√n ;或 s xˉ =s /√n 。
群体平均值的点估算和区间估算
Point and Interval Estimates of the Population Mean
§Ⅰ 鉴别和描述估算公式的必要特性(the desirable properties)
估算公式(Estimators/estimation formulas)和估算值(estimate)。估算值是
我们使用估算公式对样本观察对象进行计算所得出的特定值。
估算值和估算公式的区别:从群体中抽取不同的样本进行重复的抽样统计时,
估算公式会产生不同的结果(即估算值)。
Ⅰ 公正性(unbiasedness)。一个公正的估算公式,就是它的预期值(即取样
分布的平均值)正好等于它要评估的参数。
n
s2 =[ ∑(x i - xˉ)2 ]/(n-1)
i=1
Ⅰ 有效性(efficiency)。如果某个公正的估算公式是有效的,则除了该公式外,
再没有另外一个公正的估算公式,就同样的参数得出具有更小方差的取样分布。
Ⅰ 一致性(consistency)。如果估算公式具有一致性,则随着取样规模的增大,
准确的估算值(接近群体参数值的估算值)的概率也会增加。即随着取样规模无限
扩大,估算值的取样分布越来越集中于我们要估算的参数的值。
这三个特征,也是选择估算公式的三个标准。
§Ⅰ 区别群体参数的点估算(a point estimate)和信置区间估算(a
confidence interval estimate)
对平均值或其他参数的关注,集中于两个问题:Ⅰ 假定测试。它针对的问题
是“参数值是等于某个特定值吗?”Ⅰ 估算(estimation)。它针对的问题是“参数的
值是什么?”估算包括:点估算(a Point Estimates)和信置区间估算。
Ⅰ 点估算(a Point Estimates)
按照样本平均值计算而得的群体参数的单个估算值,称之为平均值的点估算。
Ⅰ 群体平均值的信心区间(Confidence Intervals for the Population Mean)
Ⅰ 信置区间的定义
信置区间,即我们能够以给定的概率 1-α(信置度)肯定该区间包括了它要
测算的参数。这个区间称为该参数的(1-α)﹪ 信置区间。
信置区间对参数给出概率解释或实践解释。Ⅰ 按照概率解释,例如群体平均
值 95%的信置区间表示,在重复取样中,在长远上,有 95%的这样信置区间将包
括群体平均值。Ⅰ 按实践解释,我们有 95%的信心肯定单个该区间(95%的信置
区间)即能够包括群体平均值。
Ⅰ 信置区间的建构(Construction of Confidence Intervals)
参数的(1-α)% 信置区间的结构:点估算值 ± 信赖因素 × 标准误差(Point
estimate ± Reliability factor × Standard error)。
点估算值(Point estimate),即一个样本统计的值;信赖因素(Reliability
factor),是以点估算值的假定分布和信置度(1-α)为根据的一个数据;标准误差
(Standard error),是提供点估算值的样本统计的标准误差。
§Ⅰ 描述 t- 分布的特征(Student’s t- distribution)
Ⅰ t 分布(t -Distribution),是由单一参数即自由度 df(degrees of freedom)定
义的一个对称的概率分布。
Ⅰ t 分布与正态分布的比较。
假定我们从一个正态分布中取样,则比率 z=(xˉ- µ)/σ/√n,是一个标
准的正态分布(平均值为 0,标准差为 1);比率 t =(xˉ-µ)/s/√n,则是 t 分
布(平均值为 0,自由度为 n-1)。
这个用 t 表示的比率,不是正态分布,因为它是两个随机变量(样本的平均值
和标准差)的比,而标准正态分布的定义只有一个随机变量 xˉ。然而,随着自由
度的增加,t-分布接近于标准正态分布(分布越尖锐、尾巴越瘦)。
§Ⅰ 计算和解释自由度(degrees of freedom)
自由度的概念。对 P40 计算样本标准差 s 的公式,分母上的项(n-1)就是使
用该等式估算群体标准差的自由度数字。
使用“自由度”术语其原因为:在随机样本中,我们假定观察对象的选取是互不
依赖的。假定计算有 n 个互不依赖的观察对象的样本的平均值,则只有(n-1)个
观察对象是可以独立地选择的。
(n-1)也常常被作为根据 t 分布(t-Distribution)确定信赖因素的自由度。
§Ⅰ 对群体方差已知或未知的正态分布,计算和解释群体平均值的信置
区间
Ⅰ 方差已知的呈正态分布的群体的平均值的信置区间
从方差为σ2 的正态群体分布中取样,则群体平均值μ的(1-α)% 信置区间为:
标准正态分布 Z(0,1)信置区间的信赖因素(Reliability Factors)
α 信置区间 z α/ 2
α= 90%的信置区间 Z 0. 05 =
α= 95%的信置区间 Z 0. 025=
α= 99%的信置区间 Z 0. 005 =
随着信置度的增加,信置区间越来越宽,对我们要估算的数据能给出的信息就
越不精确。
xˉ± z α/ 2 ×σ/√n
Ⅰ 方差未知的群体的平均值的信置区间的求解
Ⅰ 方法一:z 替换法(the z-Alternative)
从方差未知的任何分布的群体中取样,当取样规模较大时,则群体平均值μ的
(1-α)% 信心区间为:
Ⅰ 方法二:t 分布法(t-Distribution)
如果从一个方差未知的群体中取样,并且满足下列两个条件中的任一条件的,
即:Ⅰ 样本较大;Ⅰ 样本较小但是群体呈正态分布或近似的正态分布。则群体平
均值的信心区间可以表示为:
计算信赖因素(Reliability Factors)的根据
取样的群体 样本规模较小的统计 样本规模较大的统计
方差已知的正态分布 z z
方差未知的正态分布 t t(或 z)
方差已知的非正态分布 Not available z
方差未知的非正态分布 Not available t(或 z)
§Ⅰ 从任何类型的分布中抽取大量的样本,在群体方差未知时,计算和
解释群体平均值的信置区间
§Ⅰ 对选择适当样本规模的问题进行讨论
§Ⅰ 讨论数据挖掘偏见(date-mining bias)
数据窥探偏见(Date-snooping),即以刺探他人经验性结果来引导自己的分析
而得出推论所产生的偏见。
防止办法:检验新数据,以防止过分依靠过去的研究,来解释发现和得出结论。
数据挖掘偏见(Date-mining bias),指重复的钻研同一数据,直至有所发现。
数据挖掘偏见的四点迹象:对数据挖掘太多而又缺乏信心(Too much digging/Too
little confidence);没有过去也没有将来(No story/ No future)。
xˉ ± z α/ 2 ×S /√n
xˉ ± tα/ 2 ×S /√n
防止的办法是在样本数据之外测试交易规则。
§Ⅰ 讨论样本选取偏见、现存关系偏见、超前偏见、时间期间偏见。
Ⅰ 样本选择偏见(Sample selection bias),即因为数据可获得性的原因,而将
某项资产排除在分析之外,由此产生的问题为样本选择偏见。
Ⅰ 现存关系偏见(survivorship bias)。如果测试设计没有考虑到已经关闭、被
兼并或因其他原因离开了数据库的公司的账户,则属于现存关系偏见。
Ⅰ 超前偏见(look-ahead bias)。如果一项测试设计在测试数据上使用了不能
获得的信息,则会产生超前偏见。
Ⅰ 时间期间偏见(time-period bias)。如果作为测试设计根据的时间期间,使
结果在时间—期间上特定化,属于时间期间偏见。要注意对取样期间长度的选择。
第七章:假定测试
Chapter Ⅰ Hypothesis Testing
假定测试(Hypothesis Testing)
§Ⅰ 定义假定并描述假定测试的步骤
假定,即对群体的说明。假定测试的步骤(Steps in the Hypothesis Testing):
Ⅰ 提出假定(stating the hypothesis);
Ⅰ 确定测试统计和它的概率分布(Identifying the test statistic and its probability
distribution);
Ⅰ 有效度的特定化(Specifying the significance level);
Ⅰ 声明决定规则(Stating the decision rule);
Ⅰ 收集数据和进行计算(Collecting the date and calculating the test statistic);
Ⅰ 做出统计结论(make statistical decision);
Ⅰ 做出经济或投资结论(make the economic investment decision)。
上述第Ⅰ、Ⅰ步是假定测试的传统方法,可以用 p-值(p-value)方法来替代
这些步骤。
§Ⅰ 定义和解释零假定(null hypothesis)和替代假定(alternative
hypothesis)
假定的类型有两种:Ⅰ 零假定(the null hypotheses),用 H 0 表示;Ⅰ 替代假
定(the alternative hypotheses),用 H a 表示。
零假定:除非用以进行假定测试的样本有证据表明零假定是错误的,否则该
假定就被认为是正确。如果有证据表明零假定是错误的,则将导致替代假定。
替代假定,即零假定不成立时的假定。
§Ⅰ 单边(one-tailed)假定测试和双边(two-tailed)假定测试
Ⅰ 假定公式。假定某一群体有参数为θ,θ0 为该参数的一个值,对于两者的
关系可以通过下列三种方式形成零假定和替代假定:
Ⅰ H 0 :θ=θ0 对 H a :θ≠θ0 (不等于替代假定)
Ⅰ H 0 :θ≤θ0 对 H a :θ>θ0 (大于替代假定)
Ⅰ H 0 :θ≥θ0 对 H a :θ<θ0 (小于替代假定)
Ⅰ 公式Ⅰ是双边(two-side/two-tailed)假定测试;公式Ⅰ与Ⅰ,是单边(one-side
/one-tailed)假定测试。
§Ⅰ 讨论零假定和替代假定的选择
最常用的是“不等于(not equal to)”替代假定,即公式Ⅰ。如果有证据表明参数
可能大于 0 或小于 0,则我们可以否定零假定。
然而,我们有时要为我们“怀疑的(suspected)”或“希望的(hoped for)”情形寻
找支持证据。在此情形,我们可以将替代假定定义为“该情形是真的”,而将零假定
定义为“情形的非真”。如果证据支持对零假定的否定并接受替代假定,则我们在统
计上可以肯定地认为我们的想法是正确的。
注意:“大于”和“小于”替代测试,比“不等于”替代测试更强烈地反映了研究者
的确信。为了强调态度的中立性,在有些时候即使单边的替代测试试合理的,研究
者也会选择“不等于”替代测试。
§Ⅰ 定义和解释测试统计(a test statistic)
测试统计(Test Statistic)的定义,是根据样本计算得出的数据,它的值是决
定支持或反对零假定的根据。一般地,测试假定有如下公式:
θ为样本统计;θ0 为 H 0 下群体参数的值(θ0);s xˉ为样本统计的标准误差
(standard error)。对公式的说明:其他条件不变时,s xˉ 越小,则测试统计越大,
否定零假定的概率就越大。而且,取样规模 n 越大,则 s xˉ 越小。
测试统计 =(θ—θ0)/s xˉ
测试零假定的测试统计,遵循的概率分布有四种类型:
Ⅰ t—分布(对 t—测试);
Ⅰ z—分布,即标准正态分布(对 z—测试);
Ⅰ 卡方分布,即 the chi-square(x2)distribution(对卡方的测试);
Ⅰ F—分布(对 F—测试)。
§Ⅰ 定义和解释误差类别Ⅰ及误差类别Ⅰ(type Ⅰ error)
§Ⅰ 解释有效度(a significance level)并说明有效度在假定测试中的应
用
测试统计计算出来后,有两种可能的行为,即:否定或不否定零假定。我们
行为的根据是将计算出来的测试统计和特定的可能值进行比较。我们选择的比较值,
是以选取的有效度(the level of significance)为根据的。有效度相当于证明标准,
它反映了为反对零假定所必要的样本证据。
测试零假定时,存在四种可能的结果:Ⅰ 否定错误的零假定,这是正确行为;Ⅰ
否定正确的零假定,这属于类型Ⅰ错误;Ⅰ 不否定错误的零假定,这属于类型Ⅰ错
误;Ⅰ 不否定正确的零假定,这是正确行为。
否定 H 0,只能犯类型Ⅰ的错误;不否定 H 0,只能犯类型Ⅰ的错误。
我们用α表示犯类型 I 的错误的概率,这个概率就是有效度( the level of
significance);用β犯类型 II 的错误的概率。
控制两种类型错误的概率涉及到此消彼长(trade-off)。假定其他量不变,α减
小则β会增加;β减小则α会增加。同时减小两种类型错误的概率的唯一方法,就是
增加样本的规模。
在实践中,通常不能对两种类型的错误的此消彼长进行定量的分析,因为,
类型 II 错误的概率β很难定量化。通常,我们只能将α特定化。
§Ⅰ 定义测试能力(the power of a test)
如果测试的有效度是不正确地否定零假定的概率,那么测试能力(the power of
a test),就是正确地否定零假定的概率,即正确地否定错误的零假定的概率。
某些情况,不止一个测试统计能够适用于假定测试。如果我们知道这些测试
统计的相对测试能力,则在决定使用的测试统计时应选择测试能力最强的统计。
为了保证测试的公正性,我们应该在计算测试统计之前确定有效度。在进行
假定测试时,通常有三个有效度,即:α= 、α= 、α= 。α越小,证
明零假定是错误的证据就越强。
§Ⅰ 定义和解释结论规则(a decision rule)
通常的原则可以简述为:在测试零假定时,对于由特定的有效度α所决定的给
定值,我们将计算所得的测试统计的值与之进行比较,如果我们发现两者同样极端,
或者后者比前者更极端,则我们应该否定零假定。
如果结果是否定零假定,则可以说该结果在统计上有效;否则,我们只能说
该结果在统计上无效。
否定点或临界值(rejection points/critical values)的定义。测试统计的否定点,
就是为了决定否定或不否定零假定,而与计算所得的测试统计值相比照的值。
对于单边测试,反对点的表示方法是,测试统计的符号(如 z、t、F 等)和说
明错误类型 I 的特定概率α的下标(如反对点 Zα);对于双边测试,反对点的表示
方法是 Zα/2。
【例】 否定点的应用(以 z—测试为例,选取 为有效度)
Ⅰ 对于测试 H 0 :θ=θ0 versus H a :θ≠θ0
该测试为有效度是 的双边测试,每一个尾巴的零假定测试统计分布,应
为 的概率。
该测试存在正负两个反对点,即:z 0。0 2 5 = 和-z 0。0 2 5 = -。若 z
表示计算所得的测试统计值,则当 z< 或 z> 时,则应该否定零假定。
Ⅰ 对于测试 H 0 :θ≤θ0 versus H a :θ>θ0,反对点是 z 0。0 5 = 。如果 z
>,则应该否定零假定。
Ⅰ 对于测试 H 0 :θ≥θ0 versus H a :θ<θ0,反对点是 z 0。0 5 = -。如果 z
<-,则应该反对零假定。
§Ⅰ 解释信心区间和假定测试的关系
两者的关系:对于测试 H 0 :θ=θ0 versus H a :θ≠θ0,零假定条件下,当群体
参数的假定值在相应的信心区间之外时,则零假定就应该被否定。如:
对α= 的 z-测试(两边测试),当θ0<θ- xˉ或θ0>θ+ xˉ时(Zα/
2 =±),则零假定就应该被否定。
平均值为μ的群体的 95%的信心区间是 xˉ±×s xˉ 。
§ Ⅰ 辨别:统计结论( statistical decision )和经济结论( economic
decision)
我们应该注意假定值的统计上有效与经济上有效区别:在统计上有效,不一
定在经济上有效。因为要考虑到交易成本、税收和风险。经济结论不仅要考虑统计
结论,还要考虑到所有有关的经济问题。
P—值(p-value)的定义,就是指否定零假定的最低有效度。
如果 P—值小于特定的有效度,零假定就应该受到否定;否则,零假定就不应
该受到否定。P—值越小,否定零假定和有利于替代假定的证据就越强烈。
与反对点方法相比,P—值提供了更精确的有关证据强度的信息。
有关平均值的测试(Hypothesis Tests Concerning the Mean)
内容:第一部分,是有关单个群体的平均值是否与假定值相等的测试;第二、
三部分针对的问题是:两个样本平均值之间的差(分别针对相互独立的样本和不相
互独立的样本)。
§Ⅰ 对于方差已知或未知的正态分布群体,进行群体平均值的假定测试
时,能确定适当的测试统计并能解释其结果(单个平均值的测试)
Ⅰ t—测试
有关潜在(underlying)或群体平均值的假定测试,一般使用 t—测试。
t—测试,即假定测试使用的统计分布遵守 t—分布。t—分布是由一个参数(即
自由度 df)定义的分布。
t—分布与标准正态分布的关系。Ⅰ 相同点:对称分布;平均值为 0。Ⅰ 不同
点:标准差大于 1;远离平均值的结果的概率更大。
Ⅰ 方差未知的群体平均值假定测试的测试统计
方差未知的取样群体,如果满足两个条件之一的,则测试单个群体平均值μ的
假定测试的测试统计为:
这两个条件是:Ⅰ 样本的规模较大;Ⅰ 样本的规模较小,但是取样群体是正
态分布或近似正态分布的。
t n-1 为有 n-1 个自由度的 t—统计(n 为取样规模);xˉ为样本平均值;μ0 为
群体平均值的假定值;s 为样本的标准差。
Ⅰ 方差未知的正态分布群体平均值假定测试的测试统计
方差未知的正态分布群体,若样本规模为 n,则群体平均值 100(1-α)%的
t n-1 =(xˉ-μ0)/ s /√n
信心区间为:[xˉ-tα/2×sxˉ, xˉ+tα/2×sxˉ]。tα/2 是自由度为 n-1 时α/2 的概率保持在
右边尾部之内的 t 的值;-tα/2 是自由度为 n-1 时α/2 的概率保持在左边尾部之
内的 t 的值。
如果样本规模较大,我们也可以使用 z—测试。
Ⅰ z—测试(the z-Test Alternative)
Ⅰ 果取样群体的方差为σ2,并且是正态分布,则对单个群体平均值μ的假定测
试的测试统计为:
Ⅰ 果取样群体的方差未知,并且取样的规模较大,则根据中心限制定律,有
一个替代的测试统计:
Ⅰ z—测试的否定点(Rejection Point of a z-Test)
Ⅰ 有关群体平均值的测试(群体方差未知)
LEVEL
(α)
HYPOTHESIS
REJECTION
POINT
REJECTION
INTERVAL
H 0 :θ=θ0 vs. H a :θ≠θ0 ± z< 或 z>
H 0 :θ≤θ0 vs. H a :θ>θ0 z>
α=
H 0 :θ≥θ0 vs. H a :θ<θ0 z<
H 0 :θ=θ0 vs. H a :θ≠θ0 ± z< 或 z>
H 0 :θ≤θ0 vs. H a :θ>θ0 z>
α=
H 0 :θ≥θ0 vs. H a :θ<θ0 z<
H 0 :θ=θ0 vs. H a :θ≠θ0 ± z< 或 z>
H 0 :θ≤θ0 vs. H a :θ>θ0 z>
α=
H 0 :θ≥θ0 vs. H a :θ<θ0 z<
取样的群体 样本规模较小 样本规模较大
正态分布的群体 t—测试 t—测试(或 z—测试)
非正态分布的群体 Not available t—测试(或 z—测试)
z =(xˉ-μ0)/σ/√n
z =(xˉ-μ0)/s /√n
有关平均值的差的测试(Test Concerning Differences between Means)
§Ⅰ 据相互独立的随机样本,对两个正态分布的群体的平均值是否相等
进行假定测试时,在两个样本的方差相等或不相等的情况下,能确定适
当的测试统计并能解释其结果
内容简介。前提:取样群体起码是近似的正态分布,并且样本相互独立。内
容:讨论测试两个群体平均值的差的两个 t—测试。两种情形:群体的方差未知但
是相等;方均差不相等但可以近似地看作 t—测试。
Ⅰ 假定的形成。用μ1,μ2 表示两个群体的平均值。则假定可写成如下方式:
Ⅰ H 0 :μ1-μ2 = 0 对 H a :μ1-μ2≠ 0 ;
Ⅰ H 0 :μ1-μ2 ≤ 0 对 H a :μ1-μ2>0;
Ⅰ H 0 :μ1-μ2 ≥ 0 对 H a :μ1-μ2<0 。
也可写成其他形式的假定,如:H 0 :μ1-μ2=2 对 H a :μ1-μ2≠ 2,等。
Ⅰ 测试两个群体的平均值之差的测试统计
正态分布的两个群体,其方差未知但相等,测试样本为相互独立的随机样本,
则 t—测试为:
计算共同方差 s p2(common variance)的联合估算公式(Pooled estimator)是:
s p2 = [(n 1 -1)s1 2 +(n 2 -1)s2 2 ] /(n 1+n 2-2)。自由度的数字
为 n 1+n 2-2。
Ⅰ 测试两个群体的平均值之差的测试统计
正态分布的两个群体,其方差不等且未知,测试样本为相互独立的随机样本,
则近似的 t—测试为:
在使用 t-分布表时,“修正(modified)的自由度”用下述公式计算:
t=[(x1ˉ- x 2ˉ)-(μ1-μ2)]/[(s p2 /n1)+(s p2 /n 2)]1/2
t= [(x1ˉ- x 2ˉ)-(μ1-μ2)]/[(s12 / n1)+(s22/n 2)]1/2
df =
[(s12/n1)+(s22/n 2)] 2/[(s12 /n1)2 / n1+(s22/n 2)2/n 2 ]
关于差的平均值的测试(Test Concerning Mean Differences)
§Ⅰ 两个正态分布的群体的差的平均值进行假定测试时(即成对比较测
试/paired comparisons),能确定适当的测试统计并能解释其结果
本部分的 t—测试的基础是,成对的观察对象(paired observations)组成的数
据。测试本身也可以称为成对比较的测试(paired comparisons test)。
假定有观察对象 A、B,且样本相互关联。观察对象是成对的,用 d i=x Ai -
xBi 表示两个成对的观察对象的差,x Ai 和 xBi 是第 i 个成对观察对象。用μd 表示
群体差的平均值。μd0 是群体差的平均值的假定值。则三种方式的假定为:
Ⅰ H 0 :μd =μd0 对 H a :μd ≠μd0 ;(实践中,常令μd0 = 0)
Ⅰ H 0 :μd ≤μd0 对 H a :μd >μd0 ;
Ⅰ H 0 :μd ≥μd0 对 H a :μd <μd0 ;
样本差的平均值(dˉ)、样本差的方差(s d 2)、差的平均值的标准误差(s dˉ)
dˉ=(∑d i)/n ;(i =1,2,…,n)
s d 2 =(∑d i -dˉ)/(n-1);(i =1,2,…,n)
s dˉ = s d /√n ;
测试差的平均值的测试统计(群体是正态分布的,方均差未知)
有关方差的假定测试(Hypothesis Tests Concerning Variance)
§Ⅰ 正态分布的方差进行假定测试时,能确定适当的测试统计并能解释
其结果
Ⅰ 测试单个方差的假定的形成。假定单个群体的方差为σ2,用σ02 表示方差的
假定值,则三种形式的假定为:
Ⅰ H 0 :σ2 =σ02 对 H a :σ2≠σ02;
Ⅰ H 0 :σ2 ≤σ02 对 H a :σ2 >σ02;
Ⅰ H 0 :σ2 ≥σ02 对 H a :σ2<σ02;
t =(dˉ-μd0)/s dˉ
Ⅰ 卡方分布(chi-square distribution)
卡方测试统计,用 X2 表示。其特点:Ⅰ 非对称分布;Ⅰ 与 t—分布一样,它
是一个分布的族系。自由度的可能值 n-1 不同(n 为样本规模),分布也不同。自
由度是表示它的参数。Ⅰ 最低边界为 0,即 X 2 不能有负值。
Ⅰ 有关测试群体方差的测试统计(群体为正态分布)
从正态分布的群体中取出 n 个相互独立的样品,则测试统计为:
s 2 = [∑(x i -xˉ)2 ]/(n-1),(i = 1,2,…,n)。卡方测试对违背前提条
件的行为很敏感,如:取样的不随机和群体的非正态分布。
与其他假定测试一样,卡方测试能够给出信置区间的解释。不同点在于基于卡
方测试给出的信置区间是不对称的。如果样本的规模为 n,则群体方差的双边信置
区间有上限 L 和下限 U:
L=(n -1)s 2 X 2α/2
U=(n -1)s 2 X 21-α/2
Ⅰ 否定点(自由度为 n-1 的卡方分布)
Ⅰ 对于 H 0 :σ2=σ02 vs. H a :σ2≠σ02
反对点:X 2α/2(上端的α/2 点)和 X 21-α/2(下端的α/2 点);反对区间:X 2
≥ X 2α/2 或 X 2 ≤ X 21-α/2 。
Ⅰ 对于 H 0 :σ2≤σ02 vs. H a :σ2 >σ02
反对点:X2α(上端的α点);反对区间:X 2 ≥ X2α。
Ⅰ 对于 H 0 :σ2≥σ02 vs. H a :σ2<σ02
反对点:X 21-α(下端的α点);反对区间:X 2 ≤ X2 1-α。
有关方差的差的测试(T est Concerning Differences between Variances)
§Ⅰ 据相互独立的随机样本,对两个正态分布的群体的方差是否相等进
行假定测试时,能确定适当的测试统计并能解释其结果
Ⅰ 假定的形成。假定两个正态分布群体的方差分别为σ12 和σ22,平均值分别为μ
1 和μ2 。则三种形式的假定为:
Ⅰ H 0 :σ12 =σ22 对 H a :σ12≠σ22
X 2 =(n -1)s 2 /σ02
Ⅰ H 0 :σ12 ≤σ22 对 H a :σ12 >σ22
Ⅰ H 0 :σ12 ≥σ22 对 H a :σ12 <σ22
Ⅰ F-分布(F-distribution)
F-分布的特征:Ⅰ 非对称分布;Ⅰ F-分布由两个自由度的值定义,即分子
自由度(df1 = n1-1)和分母自由度(df2 = n 2-1);Ⅰ 最低边界为 0。
假定σ12 =σ22 就表示σ12/σ22 = 1。考虑到取样是随机的并且相互独立,有关
的这类测试的根据是 F—测试,F—测试表示的是样本方差的比例。
Ⅰ 测试两个群体方差的差的测试统计(群体是正态分布的)
假定有两个样本:样本 1 有 n 1 个观察对象,方差为 s12;样本 2 有 n 2 个观察
对象,方均差为 s22。样本是随机的、并且互不相关,产生样本的群体是正态分布。
则测试两个群体方差的差的测试统计:
反对点(自由度为 df1 = n1-1 和 df2 = n 2-1 的 F-分布)
因为群体 1、2 可以任意安排,所以传统上使用 s12/s22 和 s22/s12 两者中较大
的比例,则测试统计 F 的值只有大于或等于 1 两种情况:
Ⅰ “不等于”替代测试,反对点:Fα/2(上端α/2);反对区间:F>Fα/2 。
Ⅰ “大于”或“小于”测试,反对点:Fα(上端α);反对区间:F>Fα。
没有使用常规方法,得到的测试统计 F 小于 1,用公式 Fn 1,n 2 =1/F n 2,n 1
可将其转换为大于 1 的数。
§Ⅰ 区别:参数测试和非参数测试,并且能够说明适合使用非参数测试
(nonparametric test)的情形
参数测试(parametric test)有两个特征:关注的是参数(平均值或方差);测
试的有效性依赖于一系列的假设。
非参数测试(nonparametric test)的特征:不关注参数;是对样本来自的群体
所作的最起码猜想而进行的测试。
F= s12/s22
第八章:相关性和回归
Chapter Ⅰ Correlation and Regression
相关性分析(Correlation Analysis)
检验两个系列的数据是如何相互联系的,方法有二:Ⅰ 零星布局(scatter
plots);Ⅰ 相关性分析(Correlation Analysis)。
零星布局(scatter plots),就是在二维坐标中,表明两个数据系列中观察对象
相互关系的图表。横轴和纵轴分别代表一个数据系列。两个数据系列中的每一个观
察对象是相互成对的,图表中的一个点代表一组对应的观察对象。
共同关联分析(Correlation Analysis)
§Ⅰ 计算和解释样本协方差(covariance)
当样本规模为 n 时,随机变量的样本协方差为:
样本的协方差,即两个随机变量中观察对象与它们的样本平均值相偏离的值
的乘积的平均值。群体协方差的定义,即两个随机变量与它们各自的平均值相偏离
的值的乘积的期望值。
§Ⅰ 计算和解释样本的相关系数(correlation coefficient)
相关系数(correlation coefficient),是两个数据系列关联紧密程度的标度。它
能够表明两个变量之间的线性关联(liner association)程度和方向。
相关系数的取值范围是-1 到 1。Ⅰ 相关系数大于 0,则两个变量是正线性关
联关系,即一个变量增加另一个变量也随之增加;Ⅰ 相关系数小于 0,则两个变量
是负的线性关联,即一个变量增加另一个变量将减少;Ⅰ 相关系数等于 0,则两个
变量之间无线性关系。Ⅰ 只有两个变量上的所有点都位于同一直线时,向关系数
才为 1 或-1。
样本的相关系数 r(sample correlation coefficient)的计算公式:
n
Cov(X,Y)= ∑(X i -Xˉ)(Y i -Yˉ)/(n-1)
i = 1
X 的样本方差 s2 x =∑(X i -Xˉ)2 /(n-1);样本标准差 s x=√s2 x 。
计算相关系数的前提条件是:随机变量 Xi 与 Yi 的平均值和方差、及 X i 与 Yi
的协方差均为常数,并且是有限的。
如果不具备这些前提条件,则两个变量间的相关性主要取决于所使用的样本。
共同关联分析的应用和局限性。在下列情形下相关性分析并非总是可靠的:Ⅰ
两个变量具有很强的非线性关系,而相关性却非常弱,如变量 B=(变量 A-4)
2;Ⅰ 在一个或两个数据系列中出现外层观察对象(outliers),即数量较少的观察
对象位于样本的极端。
外层观察对象是否应该排除的判断:Ⅰ 一般规则是判断在排除一些外层观察
对象后样本的相关性是否发生较大的变化;Ⅰ 这些外层观察对象是否包含有关两
个变量的关系的信息。
相关性并不等同于因果关系。刺激关联(spurious correlation),能使两个变量
紧密关联而两者之间却没有任何因果关联。刺激关联,即因两个变量都与第三个变
量有关而产生的关系。
§Ⅰ 设计一个假定测试以检验群体的相关系数是否为 0,并能根据给定的
有效度判断该假定是否不成立(rejection)
测试相关系数的有效性 Testing the Significance of the Correlation Coefficient
有效性测试,可以让我们评估随机变量表面上的关系是真实的还是随机的。
假定随机变量都是正态分布的,则可以提出两个假定(ρ为群体的相关性):
H0:ρ=0;Vs.H a:ρ≠0 。
只有当两个变量都是正态分布的,我们才能通过样本的相关性 r(sample
correlation),来决定零假定是否应该被否定。计算 t—测试的公式是:
如果零假定是正确的,则测试统计是自由度为 n-2 的 t—分布。
样本的规模 n 在相关系数有效性测试中充当重要角色:Ⅰ 当 r>0 时,n 越大,
t 的值就越大,t 就更有可能大于 t c(t c 为测试统计的临界值或否定点);Ⅰ n 越大,
自由度就越大,因而 t c 就可能更小。其他值不变,n 越大,零假定越容易被否定。
线性回归(liner regression)
r = Cov(X i,Y i)/s x s y
T = r×[(n-2)/(1-r2)]1/2
§Ⅰ 线性回归(liner regression)中自变量和因变量的区别
独立变量线性回归:根据两个变量之间的线性关系,通过一个变量的信息得
出有关另一个变量的结论。线性回归,可以使我们预测另一个变量、测试有关两个
变量关系的假定、量化两个变量间关系的强度。
Ⅰ 这两个变量分别用 X、Y 表示。X 为自变量(independent variable),Y 为
因变量(dependent variable)。
Ⅰ 线性回归的定义。假定在自变量(X)和因变量(Y)之间存在线性关系,
则这种关系可以用下面的回归等式解释(i = 1, 2,…,n):
b0 为截距(intercept);b1 为斜率(slope coefficient);Ⅰ为误差项(error term),
即因变量中不能用自变量解释的部分。
在衰退分析中,两类基本的数据经常用到:跨部门数据(cross-sectional data)
和时间系列数据(time-series data)。
§Ⅰ 识别回归等式中的斜率(slope)和截距(intercept)
Ⅰ 线性回归中,对 b0 和 b1 的估算。
线性回归,也称为线性最小平方数(linear least squares),就是要计算一条最
适合观察对象的直线。
因此,对 b0 和 b1 的选取,必须符合该要求,即:使所有观察对象与回归直
线之间竖直距离(vertical distance)的平方和最小。满足这个要求的 b0 和 b1,称
之为估值参数或适宜参数 bˆ0 和 bˆ1(estimated or fitted parameters)。
计算所有观察对象与衰退直线之间竖直距离的平方之和的公式是:
Yi-bˆ0-bˆ1Xi =(dependent variable-predicted value of dependent variable)2 ,
即:Yi-bˆ0-bˆ1Xi =(因变量-因变量的预测值)2 。这个差即回归残余(regression
residual)。
注意:在回归模型中,我们不能观察到 b0 和 b1 的真实参数值,而只能观察
到估值 bˆ0 和 bˆ1 。所有的预测和测试都是以参数的估计值为依据的。
Yi = b 0 + b1X i + Ⅰi
n
∑(Yi -bˆ0- bˆ1Xi)2
i = 1
Ⅰ 单自变量的线性回归。
斜率因素(slope coefficient)的计算:b1 = Cov(Yi ,X i)/Var(X i)
截距(intercept)的计算:b0 = Yˉ-b1 Xˉ。
自变量(Xi)和因变量(Yi)的平均值 Xˉ和 Yˉ必定在回归直线上,将它们代
入回归公式就可以得到截距 b 0 。
§Ⅰ 解释线性回归的前提假定(The Assumptions of the Linear Regression)
假设自变量(Xi)和因变量(Yi)均有 n 个观察对象,我们希望能够估算等式:
Yi = b 0 + b1X i +Ⅰi ,(i = 1, 2,…,n)。
为了从单自变量的线性回归模型中得出有效的结论,需要做出下述假定,即
典型常态线性回归模型假定(classical normal linear regression model assumption):
Ⅰ 自变量(Xi)和因变量(Yi)是线性关系,该线性关系可用 b0 和 b1 表示。
如果变量 Xi 和 Yi 之间是非线性关系,则用线性回归模型估算两者的关系就无
效。然而,有时非线性关系可以通过运算(如两边取对数)转化为线性关系。只要
变量能够转化为线性等式〔如 Yi = b0 + b1(Xi)2+ Ⅰi〕,线性回归也可以适用。
Ⅰ 独立变量(Xi)不是随机的。
Ⅰ 误差项的预期值为 0,即 E(Ⅰi)=0。假定Ⅰ和Ⅰ能够保证线性回归能得出
正确的 b0 和 b1 估计值。
Ⅰ 对所有观察对象,误差项的方差均相同:E(Ⅰi 2 )=σⅠ2,(i = 1,…,n)。
这个假定也称为 homoskedasticity assumption。
Ⅰ 观察对象间的误差项Ⅰi 是不相关的(uncorrelated),即对所有的 i≠j,有 E
(Ⅰi Ⅰj )= 0。这个假定对正确估算估值参数 bˆ0 和 bˆ1 的方差是必要的。
Ⅰ 误差项Ⅰi 是正态分布的。可以使我们容易对有关回归模型的特定假定进行
假定测试。
假定Ⅰ、Ⅰ和Ⅰ让我们可以使用线性回归模型来决定估值参数 bˆ0 和 bˆ1 的分
布,从而检验这些因素是否有一个特定的值。
§Ⅰ 计算估计值标准误差 SEE(The Standard Error of Estimate)
§Ⅰ和§Ⅰ讨论衡量回归分析对模型因变量的解释程度的统计。
估值标准误差(也称为回归标准误差,即 The Standard Error of Regression)是
衡量解释的不确定性程度的参数。它就是计算Ⅰˆi(回归残余项即因变量的实际值
和预测值之间的差)的标准差(standard deviation)。
计算单自变量的线性回归模型的估算标准误差(SEE)的公式是:
n n
[∑(Yi-b0-b1Xi)2/(n-2)] 1/2 =[∑(Ⅰˆi)2/(n-2)] 1/2
i=1 i=1
与计算标准差的公式相比,这个公式的分母是 n-2 而不是 n-1,其原因是回
归模型估算的是两个参数(bˆ0 和 bˆ1),观察对象的数量与参数的数量的差即为自
由度。
§Ⅰ 计算和解释确定性因素(the coefficient of determination)
估算标准误差能在一定程度上说明使用回归等式对变量 Y 进行预测的确定性
程度,但是它不能说明自变量对因变量方差(variance)的解释如何。确定性因素
(The Coefficient of Determination)可以衡量因变量总方差中能够由自变量予以解
释的方差部分。确定性因素可以记作为“R2”。
Ⅰ 计算确定性因素的方法(方法一)
如果是单自变量的线性回归,则可以将自变量和因变量之间的相关系数平方
而得到确定性因素,即:
确定性因素 = r 2= [Cov(X i,Y i)/s x s y ]2 。
Ⅰ 计算确定性因素的方法(方法二)。该方法适用于多个自变量的情形,下面
是对其背后的逻辑关系的说明:
因变量的总方差(Total variation),等于自变量不能解释的方差(Unexplained
variation)与能够解释的方差(Explained variation)的和。确定性因素,等于自变
量能够解释的差异与因变量的总方差之比,即:
R2 = 1-(Unexplained variation / Total variation)。
在不知道回归关系时,对因变量的任何观察对象的特定值的最佳猜测 Yˉ(Yi
的样本平均值),而能够衡量这种预测正确性的参数是 Yi 的样本方差。因此,因变
量的总方差的计算公式是:
用 Yˉ预测特定观察对象 Yi 的一个替代方法,就是利用回归关系进行预测。如
果 Yi 的预测值为 Yˆi,实际值 Yi,则:Yˆi = bˆ0 +bˆ1Xi 。如果回归关系是正确
的,使用 Yˆi 预测 Y i 的误差,要远远小于使用 Yˉ预测 Y i 的误差。
因此,自变量不能以回归关系解释的因变量的方差的计算公式是:
n
Total variation =∑(Y i - Yˉ)2/(n-1)
i = 1
n
Unexplained variation = ∑ (Y i -Yˆi)2
i=1
信置区间和假定测试(Confidence Intervals and Testing Hypotheses)
§Ⅰ 计算回归因素(regression coefficient)的信置区间
Ⅰ 假定测试的提出。
如果知道下述三个事件,我们可以使用信心区间方法执行一个假定测试(这
种测试通常是有关截距 bˆ0 和斜率因素 bˆ1 的值的 t—测试):
Ⅰ 估计参数的值(estimated parameters)bˆ0 和 bˆ1;
Ⅰ 参数 b 0 和 b1 的假定值;
Ⅰ 估值参数的信置区间(给定信心度,我们确信包括真实参数值的区间)。
Ⅰ 信心区间的计算
Ⅰ 有效度(significance level)为α时,bˆ1 的信心区间是:bˆ1±t c S bˆ1 。
“t c”是 t 的临界值,它的大小取决于零假定下 t—分布的自由度的数量(即观
察对象的数量与估测参数的数量之差,在一个自变量的线性回归情形,自由度为
(n-2)。“S bˆ1”是 bˆ1 的标准误差(standard error)。
Ⅰ 同理,有效度为α时,bˆ0 的信心区间是:bˆ0±t c S bˆ0 。
如果参数 b1 的假定值为 b,则零假定为 H 0 :b1 = b,并且 bˆ1 是 b1 的估计值。
如果 b 在区间 bˆ1±t c S bˆ1 之外,则应该否定零假定,即 b1 ≠ b(或 bˆ1≠ b)。
Ⅰ t—测试(适用于回归模型的假定的测试)
有关回归因素的假定测试的测试统计,是自由度为 n-2 的 t—分布。其测试
统计的计算公式为:
对斜率因素 bˆ1 假定的测试统计:t =(bˆ1-b1)/ S bˆ1
对截距 bˆ0 假定的测试统计: t = (bˆ0 -b0)/ S bˆ0
如果 t 的绝对值大于 t c(即ⅠtⅠ>t c),则应该否定零假定,即α的信置区间不
包括假定的值。
§Ⅰ 识别对回归因素的群体值(population value)进行假定测试的的适
当测试统计,并解释其结果
§Ⅰ 解释回归因素(regression coefficient)
§Ⅰ 给定估计的回归模型和自变量的值,计算因变量的预测值
在使用回归模型(Yi = b0 +b1Xi +Ⅰi)和估计参数 bˆ0 和 bˆ1 进行预测
时,存在两个不确定性原因:Ⅰ 误差项Ⅰi 本身包括了不确定性。误差项Ⅰi 的标准
差可以通过回归公式的估值标准误差(the standard error of estimate)来估算。Ⅰ
对 Y 进行预测的第二个不确定性,来源于估值参数 bˆ0 和 bˆ1 存在不确定性。
如果回归参数 bˆ0 和 bˆ1 的真实值已知,那么,在给定 X ˆ的任一特定预测值
时,对 Y 的预测的方差就可以简化为 s2 (s 即 the standard error of estimate)即预
测的不确定性只来源于误差项。可以简化的原因在于:预测值 Yˆ=b0 +b1X 并且 Y
-Yˆ=Ⅰ。
但是,我们必须估计回归参数(regression parameters)bˆ0 和 bˆ1,所以,在给
定 X ˆ的任一特定预测值时,Y 的预测值 Yˆ实际上是 Yˆ= bˆ0 +bˆ1X。
因此,给定 X,Y 的预测误差的方差估值(the estimated variance of the prediction
error of Y)的计算公式为(s 2 f 表示 Y 的预测误差的方差估值):
这个方差估值(s f 2)取决于下列条件:Ⅰ s2 ,即估值标准误差(the standard
error of estimate)的平方;Ⅰ 观察对象的数量 n ;Ⅰ X 即自变量;Ⅰ s x2 即自变
量的方差。
§Ⅰ 计算和解释某个因变量预测值的信置区间(Prediction Intervals)
得到预测误差的方差估值 s2 f 后,建立以预测值(Prediction)为中心的预测区
间(Prediction Intervals)就类似于以估值参数为中心估算信心区间。其步骤:
Ⅰ 给出预测值 Yˆ;
Ⅰ 计算 s 2 f ;
Ⅰ 对某一预测,选择一个有效度α(在回归的自由度给定时,α决定预测区间
的临界值 tc);
Ⅰ 计算预测的(1-α)百分比预测区间,用 Yˆ±tc×s f 的形式表示。
§Ⅰ 线性回归中方差分析(ANOVA/analysis of variance)的使用
单自变量的线性回归(a Regression with One Independent Variable)的方差分析
Ⅰ F—测试(方差分析的一个重要测试)
F—统计测试的是,线性回归的斜率因素(slope coefficients)是否等于 0。在
单自变量的线性回归中,这个测试可以写作:
s2 f = s2 ×{1+(1/n )+(X-Xˉ)2/[(n-1)s 2 x ]}
H0 :b1 = 0 对 H a :b1 ≠ 0 。
为了正确地确定测试统计,需要具备四个已知条件:Ⅰ 观察对象的总数 n;Ⅰ
估值参数的总数量(2 个即截距和斜率因素);Ⅰ 误差项的平方和(或残项的和)
即 SEE(the sum of squared errors),公式为:∑(Y i -Yˆi)2;Ⅰ 回归的平方和
即 RSS(the regression sum of squares),公式为:∑(Yˆ i-Yˉ)2。RSS 为因变量 Y
中能够由回归等式解释的总方差。
Ⅰ F—统计的计算公式
F—统计的计算公式:F=RSS 的平均/SEE 的平均。
RSS 的平均(the average RSS)=RSS/斜率估值参数的数量;
SEE 的平均(the average SEE)=SEE/(n—估值参数总个数)。
F—测试的自由度有两个:Ⅰ 斜率估值参数的个数( the number of slope
parameters estimated);Ⅰ 观察对象数量与估值参数总个数的差(the total number of
parameters estimated)。观察对象为 n,零假定 H0(b1=0)的 F—测试可表示为:
F # slope parameters,n - # parameters = F 1,n-2 。
对于单自变量回归的 F—统计,斜率估值参数的个数为 1,观察对象数量与估
值参数总个数的差为 n-2,则 F—统计的计算公式为:
如果回归模型很好地解释了因变量的方差,F 的值就会较大,即:对每一个自
由度,每个估值参数作出了解释的 RSS 相对于没有解释的方差更高。
如果自变量不能解释因变量,F—统计的值会很小以至等于 0。
§Ⅰ 定义和解释 F-统计
§Ⅰ 讨论回归分析的局限性
回归分析局限性表现:Ⅰ 与相关性一样,回归关系会随时间而改变。较好适
合某一期间的回归关系,不一定在另一期间也适合。Ⅰ 回归关系作用的局限还与
回归关系的传播有关,即多人利用同一回归关系,会导致它的逐渐消失。这就是自
我弥补现象(the self-fulfilling phenomenon),它会导致回归关系在将来消失。Ⅰ 如
果回归关系的前提假定被违背,则基于线性关系的假定测试和预测就会无效。
F = RSS /[ SEE /(n-2)] = Mean RSS/Mean squared errors