回归分析预测法
从本章起将讨论定量预测技术
第三章的基本思路来源于数学分析
中数理统计的回归分析方法,将因素之
间的规律(利用已知统计资料)设为按
一定数学模型变化的运动轨迹,并假定:
未来的变化仍然是在已知的条件下
进行,运动轨迹将不会发生畸变。
第一节 回归分析的基本概念
一.基本概念
1.回归分析的来由:
20世纪初,英统计学家 研究父子身高的
遗传统计,高个子父母下一代比父亲更高的概率小于
比他矮的概率,而矮个子父亲下一代比父亲高的概率
大于比他矮的概率;且这两种高度父辈的后代,高度
有向两种父辈平均身高靠拢的趋势,这种现象称为“
回归”——是一种自然界现象规律的提取。
2.回归分析
研究变量之间的互相关系,把其中一些因素作为
控制的变量,而把另一些随机变量作为因变量,利用
适当的数学模型尽可能趋向于趋势变化的均值描述它
们的关系的分析,称为回归分析。
即假定 y 与 x 相关,应有 y = f ( x )
若 x1,x2, ‥‥‥ xn个变量影响y,应有
y = f (x1,x2, ‥‥‥xn)
显然,有一些问题必须解决
①因素分析
现代社会中,任何一件事物与多个因素相关,如
何选取主要因素,忽略次要因素,使建立的数学模型
不因变量太多而复杂,又能较好的抓住主要矛盾。
解决方法是求相关系数R
②运动轨迹的模型
主要利用已知统计数据在图上打点进行观察分析,
寻求一条最佳线路。采用最小二乘法,即在满足该条
线路的模拟值与真值总平方误差∑ei2为最小的条件下,
来求出模拟数学模型各参数。(为Gauss--Markov最佳
线性与无偏估计量 )
③相关性检验
目的是鉴别所求出的模型是否可靠,
方法:利用相关性检验准则进行检验
④精确度:即讨论在一定置信度条件下的
置信区间
⑤预测 :前面的问题已解决,数学模型已
经建立且可靠, 精度问题也已解决,利用延续
性原则代入需预测的数据,并求出结果。
二.方法分类
线性 线性
一元 多元
非线性 非线性
第二节 一元线性回归预测
一.回归方程的建立
假定需预测的目标为 y,与之对应的因素 x,随
机抽样,子样数为 n ,通过图上打点作粗略估计已知
的一组对应数据,初步定为线性关系,同时再考虑到
随机因素,应有:
yi = a + b xi + ei i = 1,2,……n (1)
不考虑随机因素,应有:
yi = a + b xi i = 1,2,n (2)
代(2)入(1),求得随机项
ei = yi – yi = yi – ( a + bxi ) (3) ei 称为
残差
∧
∧
这表示,真值与模拟直线y = a + bx之间存
在实际误差 ei,累积平方误差为 Q = ∑ei 2,称
残差平方和,又称剩余平方和。
反之,我们已知的是实际数据(xi,yi),
从可能的无穷条模拟直线中选取某一条直线,
使之模拟得最好,标准为Q = ∑e2i最小。
由(3) Q(a,b)= ∑ei2 = ∑(yi –a--bxi)2
求极值点,应有:[Q(a,b)]’a = 0
及 [Q(a,b)]’b = 0
得出 ∑(yi—a—bxi)= 0
∑(yi—a—bxi)xi = 0
求出a,b
a =(1/n) ∑yi -
b = (∑xiyi—nxy)/(∑xi2—nx2)
记 ∑(xi—x)2= lxx……x的离差平方和
∑(xi—x)(yi--y) = lxy……x,y离差乘积和
则b可简记为
b = lxy/lxx , a = y– (lxy/lxx) x
a,b称回归系数
y = a + bx 称线性回归方程。
这种方法称为最小二乘法,又叫最小
平方法OLS(Ordinary Least Square)
二. 一元线性回归方程的代表特性
1、
∑ei = 0 , 即残差和为0
2 、 回归直线过点(x,y) ∵ y = a + bx
即过数据重心。
3 、 回归平均值等于离散平均值,即 = y
i=1
. n
三. 相关检验
相关检验解决两大问题:
x与y是否线性相关及相关强弱如何?
它们之间相关显著性如何?
1、y的离差平方和
lyy = ∑(yi—y) 2
对于任意给定的xi,都有yi的波动,波动的大小可
用yi—y来评价,n次结果的总波动大小为lyy,……数据
分散程度。
2、回归平方和
U = ∑( —y) 2
对于任意给定的xi,yi与xi是人为给定的线性变化
而得到,它与实际的均值 必产生偏差,这种偏差是
由回归而产生的,是回归偏差平方和U……回归分散程
度制定。
3.残差平方和
Q = ∑(yi—y) 2
实际值与模拟值产生的误差,由于yi 随xi变化的随机
特性引起,模拟的好则残差平方和应尽可能小
lyy = Q+U
∧
∧
这个公式中:离差平方和lyy是不可变更的客观存
在,且残差平方和Q尽可能小,故有U→ lyy效果好,即
yi与xi之间存在强的线性关系。
于是有定义:R2 =U/lyy (0≦︱R︱ ≦1)
即 U = R2· lyy
由lyy = U+Q推出Q = (1—R2) lyy
其中R称为相关系数。
当R=0为不相关,R →+1为强正相关, R→-1为
强负相关
这样,通过研究相关系数R,可作出两个因素之
间是否具有线性相关关系,且能判其相关程度。
相关程度的显著与不显著(即使相关性强,但某
因素对另一因素的影响不大,即不显著,那么这种因
素也是不重要的)有一个具体界限,这是R检验。
由于抽样误差的影响,R达到的显著值与样本个数
n有关,且取决于不同的显著性水平(或置信度),配
成相关系数检验表,它们给出了在不同的n,a时,相关
系数达到的最小值。
四、精度:即是在确定的置信度条件下,求出
相应的置信区间:(n>>0)
当 a = % 时(yi –2s,yi+2s)
a = % 时(yi –3s,yi+3s)
其中 S = Q/(n—2),称为剩余标准差。
2004/10/11
五. 预测
利用公式 = a + bx
对于任意确定的时间(此时取y = a + bt)或
数值(自变量x),可以决定所给定时间或自
变量条件的预测值y及预测范围.
第三节 多元线性回归预测
这是指所预测的变量与多个自变量线性相关的情
形,这里谈一种较简单的分析方法。
非线性回归均可转化为线性回归,所以我们研究
多元线性回归就有突出重要性。
设y 与 xj 线性相关,j = 1,2,3,……m,即m元。那么有
y 与 xj 构成的线性关系:
y = bo + b1x1+ ‥‥‥ + bmxm +e
其中bo,b1,‥‥bm为常数,e为随机项, 则对应之回归方
程应为(不考虑随机因素)
y = bo + b1x1+ ‥‥‥ + bmxm
针对y与xj 的第k次观察数据,就有:
yk = bo + b1xk1+ ‥‥‥ + bmxkm+ek
yk = bo + b1xk1+ ‥‥‥ + bmxkm
k = 1,2,……,n, 即有n组数据取用。
由上两式,得,
ek = yk - yk = yk-bo-b1xk1-‥‥‥-bmxkm
按照一元线性回归方法,利用最小二乘法,求各系
数:
Q(bo,b1‥‥bm) = ∑(yk-bo-b1xk1-‥-bmxkm)2
为最小,求各系数的偏导数.
则 Q’b0 = -2 ∑(yk-bo-b1xk1-‥-bmxkm) = 0
:
Q’bj = -2 ∑(yk-bo-b1xk1-‥-bmxkm)xj=0
j = 1,2, ‥‥ ,=1,2,…n; 由此,共得m + 1个方
程,
求bo: ∑yk-nbo-b1 ∑xk1- ‥ ‥ - bm ∑xkm=0
∴ bo = (1/n) ∑yk-(b1 1/n ∑xk1+ ‥ ‥ +bm 1/n
∑xkm)
令:y = (1/n) ∑yk, xj = (1/n) ∑ykj
有bo = y-(b1 +b2 +……+bm )
其余m个方程,可表示为矩阵解:
l11 l12 …… l1j l1m b1 l1y
l21 l22 …… l2j l2m b2 l2y
li1 li2 …… lij lim bi liy
lm1 lm2 ……lmj lmm bm lmy
=
其中: lij = ∑(xki - )(xkj - )
liy = ∑(xki - )(yk - )
i,j = 1,2, ‥ ‥ ,m; k=1,2…n;
判断y与某一自变量xj的相关显著程度采用t检验.
构造统计量 tj = bj/[S Cjj]
其中 S = Q/(n-m-1)
l11 l12 … l1m C11’ C12’ … C1m’
C’ = : : : = : : :
lm1 lm2 … lmm Cm1’ Cm2’ … Cmm’
Cii’就是C’中对角线元素.
如果 tj > ta/2, (n-m-1)
则对应的 xj对y 的影响程度大,否则影响小,应予排除.
-1
m维 线性相关显著性检验,采用F检验.
构造统计量
F = (U/m)/[Q/(n-m-1)]
当F >Fa (m, n-m-1) 为显著,
其中: U = ∑(yi-y)2
Q = ∑(yi-yi)2
回归思维在期,股市中的运用----------
-乖离率指标
由于任何性质的变动趋势,都有回归的性质,即
向均值回归,在股市市场,股票的股价均有向均值靠
近的性质。
一般地,描述这样性质的技术指标称乖离率BIAS,
定义为:{[C’-M(n)]/M(n)} ·100%
C’为当日股价或当日指数,M(n)为n日股价或n日指数
的移动平均值,
1.若当日股价剧烈上升或下跌,将使BIAS的绝对值加
大,回归愿望强烈。----------------应出货或补仓。
(1) (1)
(1)
2.若当日股价沿移动平均值前进,则BIAS在0值附近,
股价运行轨道不变,---------考虑继续持仓或减仓操
作,
的数值表明了股价与市场平均成本的盈利或亏
损的百分比,即大多数投资者所据有的盈利或亏损空
间。
投资策略: -3 ~ -5 为买入时机
+3 ~ +5 为卖出时机
-15~ -20 为最好时机
-10 ~ -15 为较好时机
-5 ~ -10 可买入
+15 ~ +40 选点卖出
短线BIAS(5)
BIAS(10)
支撑线
压力线
买入
卖出
卖出
买入
买入
,因政策和升幅过大下调至月开始上升,至日深成指
从2792至6103,升幅过3311点,因技术要求及97发行额度影响,
暴发性下跌,至日收盘5505,跌598点,BIAS(5) = ,
BIAS(10) =,日以5416开盘,探底5279引发反弹,收至
5622点, (周五)以2163点开盘,收至5125点,比前日降497点,
BIAS(5) = ,BIAS(10) = ,,略有反弹,日
因利空谣传再次下跌,日国务院证券委,中行等出台禁止国
企和上市公司买卖股票的几点规定出台,导致股市暴跌,
沪:BIAS(5) = ↓,BIAS(10) = ↓
深:BIAS(5) = ↓,BIAS(10) = ↓
第四节 非线性回归预测
两个变量之间的关系并非全是线性关
系,非线性关系也比较多。我们在作图
上估计趋势时,可利用标准曲线与之比
较,哪种曲线最合实际情况,若不是线
性关系,通常有几种典型的常用模型。
一. 指数曲线 y = a bx ( b>0)
取自然对数 ㏑y = ㏑a + x ㏑b
令 Y = ㏑y,A = ㏑a,B = ㏑b
则 Y = A + Bx
就构成一元线性方程。
利用原始数据 xi 及yi ㏑yi ,根据一元线性
回归公式,可以得到回归系数A,B。
同时考虑到A = ㏑a,a = eA
及B = ㏑b, b = eB
求出
故 a,b可定,预测方程 y = a bx 可定。
相关性:利用一元线性回归方程
Y = A + Bx
采用线性相关性判定,若x,y 线性相关,则y与x非线
性相关,且有规则y = f(x) = a bx
二. 双曲线:单调减,水平渐进线 y = a.
y = a + b(1/x) (a > 0, b > 0)
仿照指数曲线作法,令X = 1/x
有:y = a + bX
这仍然构成了一元线性回归方程。
三.倒数曲线:单调增,水平渐进线 y = 1/a
y = x/(ax + b) (a > 0,b > 0)
作以下处理:取倒数1/y = (ax + b)/x = a + b(1/x)
令X = 1/x Y = 1/y
得到 Y = a + bX
就转化为线性回归问题。
因此非线性回归问题均可以通过变量代换而转化
成线性回归,按照线性回归的方法解决预测问题。