MBA智库文档金融投资融资 CFA考试：投资分析的数量方法(投资工具).doc

CFA考试：投资分析的数量方法(投资工具).doc

下载

Miles414

33页 | 73.76KB | 0次下载 |

0.0

(0人评价)

我要评价：

投诉举报

用手机看文档

扫一扫,手机看文档

下载

开通VIP

第五章：正态概率分布 Chapter Ⅰ Common Probability Distributions 本章简介（Introduction）P226 本章的内容，是四种概率分布及它们的应用，即：Ⅰ the uniform；Ⅰ the binomial； Ⅰ the normal；Ⅰ the lognormal。本章的其他数量工具：Ⅰ Hypothesis testing；Ⅰ regression analysis；Ⅰtime-series analysis。不连续的随机变量（Discrete Random Variables）P227 §Ⅰ 定义和解释概率分布（Probability Distributions）概率分布（Probability Distributions），即将随机变量可能结果的概率予以特定。每个随机变量都有描述它的概率分布，概率分布的方式有两种： Ⅰ 概率函数（probability functions）。 Ⅰ 累积分布函数（cumulative distribution functions／distribution functions／cdf §Ⅰ 区别：连续的随机变量和不连续（discrete）的随机变量随机变量，是一个未来结果不确定的数。随即变量有两种类型：不连续的随机变量（discrete random variable）、连续的随机变量（continuous random variable）。变量的结果能予以历数（个数有限）的随机变量，为不连续的随机变量。 §Ⅰ 描述某特定变量可能结果的集合 §Ⅰ 定义一个概率函数（Probability function）并说明它的关键特征概率函数的表示方法是：P（X ＝ x），它表示随机变量的值为 x 的概率。不连续随机变量的概率函数，可以缩写为 p（x）；连续随机变量的概率函数用 f（x）表示，称之为概率密度函数（Probability density functions／density／pdf）。概率函数有两个关键特征：Ⅰ 0≤p（x）≤1；Ⅰ 随机变量 X 所有值的概率的总和等于 1。 §Ⅰ 定义概率密度函数（Probability density function） §Ⅰ 定义累积分布函数（cumulative distribution function）并根据累积分布函数计算随机变量的概率累积分布函数（cumulative distribution functions／distribution functions／cdf），表示随机变量的结果位于某一范围的概率。cdf 函数的功能相当于累积相对频率。连续的或不连续的随机变量的结果的累积概率分布，可以记作 F（X）＝ P （X≤x），或 F（X）＝ P（x1≤X≤x 2），或 F（X）＝P（X≥x）。累积概率函数（cdf 函数）的特征：Ⅰ 0≤F（x）≤1；Ⅰ 随着 x 的增加，cdf 函数或增加或保持不变。不连续的单项分布（The Discrete Uniform Distribution）P228 §Ⅰ 给定不连续的单项分布（a discrete uniform distribution），定义不连续的单一随机变量并计算概率单项分布（Uniform Distribution），即随机变量所有可能结果的概率都相等。单项分布的应用：Ⅰ 它是为其它概率分布产生随机数以作为随机观察对象（random observation）的基础；Ⅰ 它可以用来描述结果概率相等的随机变量。贝诺里分布（The binomial Distribution）P230 §Ⅰ 给定贝诺里概率分布（binomial Probability Distributions），定义贝氏随机变量（Bernoulli Random variable）并计算概率 Ⅰ 贝诺里（Binomial）分布的功能贝诺里（Binomial）分布的功能：描述有两项可能结果的随机变量的每一项结果的概率分布。其模型是：两项选择的价格模型（ the binomial Option Pricing Model，BOPM），即价格的上升或价格的下降。 Ⅰ 贝氏随机变量（Bernoulli Random variable）贝诺里分布的建构元素是贝氏随机变量（Bernoulli Random variable）。假定某个能重复进行的试验有两个可能的结果，每次试验产生的结果必为其一，这样的试验称为贝诺里试验（Bernoulli trial）。在结果为成功时，则 Y＝1；在结果为失败时，则 Y＝0，则贝氏随机变量 Y 的概率函数为： p（1）＝ p（Y＝1）＝ p p（0）＝ p（Y＝0）＝ 1－ p Ⅰ 贝诺里随机变量（binomial Random variable）对 n 个贝诺里试验，有 0—n 个“成功”。如果单个贝诺里试验的结果是随机的，则 n 个贝诺里试验的结果为“成功”的总数也是随机的。定义贝诺里随机变量 X 为 n 个贝诺里试验中结果为成功的总数。用“Yi”表示第 i 个贝诺里试验的结果为“1”或“0”（i ＝1，2，…，n），则： X ＝Y 1＋Y 2 ＋ … ＋ Y n 。贝诺里随机变量由参数 p 和 n 定义。p 即每次试验结果为“成功”的概率；n 贝诺里试验的次数。对贝诺里分布，可作有如下假设：Ⅰ 对所有贝诺里试验，结果为“成功”的概率是一个常数；Ⅰ 贝诺里试验相互独立。因此，贝诺里随机变量 X 可以完全用两个参数描述，即 X ～ B（n，p）。贝氏随机变量 Y 是 n ＝1 的贝诺里随机变量的值，即：Y ～ B（1，p）。 Ⅰ 贝诺里随机变量 X ～ B（n，p）的概率函数 P（X = x）的表示公式： Ⅰ X 是贝诺里随机变量，表示 n 个贝诺里试验中的“成功”的总数；X＝x，是这 n 个贝诺里试验中成功的总数等于 x。 Ⅰ p（x）和 P（X ＝x），表示 n 个贝诺里试验中，成功的总数等于 x 的概率。 Ⅰ 〔nC x〕是在 n 个贝诺里试验中有 x 个成功的排列方式的数目。 Ⅰ p，是单个贝诺里试验的结果为成功的概率；（1－p），是单个贝诺里试验的结果为不成功的概率。 Ⅰ p x（1 － p）n － x，是每一个排列都具有的概率。 Ⅰ 贝诺里随机变量概率函数的形状当单个贝诺里试验的结果为成功的概率 p＝50%时，贝诺里分布式对称的。若 p≠50%，则贝诺里随机变量概率函数的图像就具有偏向性。Ⅰ 当 p ＜ 50% 时，概率函数的会向右偏（right-skewed），即图像的右部有较长的尾巴；Ⅰ 当 p ＞ 50% 时，概率函数的会向左偏（left-skewed）。对同一贝诺里随机变量有 p1、p2，如果 p1＋p2 ＝1，则它们的图像呈镜像对称。 §Ⅰ 贝诺里随机变量（bernoulli Random variable）的预期值和方差 p（x）＝ P（X＝x）＝〔nC x〕×p x（1 － p）n － x 〔nC x〕＝ n！／[x！（n－x）！] 贝诺里随机变量（bernoulli Random variable）的预期值和方差连续的随机变量分布（Continuous Random Variables）P240 §Ⅰ 给定连续的单项分布（a continuous uniform distribution），定义连续的单项随机变量并计算概率连续的单一分布（Continuous Uniform Distribution） Ⅰ 连续的单项随机变量的概率密度函数（pdf）： Ⅰ 连续的单项随机变量的累积概率函数（cdf）：计算概率密度函数 f（x）在定义域（a≤x≤b）上的面积（即累积概率值）的数学方法是，对函数 f（x）从 a 到 b 积分（integral），即：可以用上述等式对（－∞，＋∞）范围内的任意两个实数求积分。因为连续随机变量的值是无限的，所以，连续随机变量的值等于任一定点的概率为 0。这对计算连续随机变量的累积概率函数（cdf）有重要意义：对任何连续的随机变量 X，有 P（a≤x≤b）＝ P（a < x≤b）＝ P（a≤x < b）＝ P（a < x<b）。当 a≤x≤b 时，f（x）＝1/（b－a）表示的是连续随机变量在区间 a≤x≤b 的平均概率。 Mean（weighted average） Variance Binomial，B（1，p） p p（1－p） Binomial，B（n，p） np np（1－p） Binomial，B（5，）（即 5×p）即 5×p（1－p） Binomial，B（5，）（即 5×p）即 5×p（1－p） 1／（b－a）（a≤x≤b） f（x）＝ 0 其他值 0 （x≤a） F（x）= （x－a）／（b－a）（a ＜x ＜b） 1 （x≥b） P（a≤x≤b）＝∫ab f（x）dx 正态分布（The Normal Distribution）P243 §Ⅰ 解释正态分布的关键特征 Ⅰ 描述正态分布的两个参数：平均值 μ（Mean）和方差（σ 2）或标准差 σ。正态分布可以表示为：X ～ N（μ ，σ 2）。 Ⅰ 正态分布的下述参数值：偏向性（skewness）＝0；峰度（kurtosis）＝3，剩余峰度（excess kurtosis）＝ 0。正态随机变量的平均值（mean）、中值（median）、众数（mode）都相等。 Ⅰ 两个正态随机变量的线性叠加（linear combination），还是正态分布。 §Ⅰ 区别：单变量（univariance）分布和多变量分布（multivariance）单变量分布（univariate distribution），描述单个的随机变量；多变量分布（multivariate distribution），描述的是一组随机变量的概率。当我们有一组资产时，我们可以将每一项资产的收益分布分别模型化，也可以将这些资产作为一组（as a group）来将它们的收益分布模型化。作为一组，即考虑收益系列之间的统计关系，其中经常使用的模型就是多变量的正态分布（multivariate normal distribution）。 n 种证券的收益的多变量正态分布，可以用三个参数予以定义：Ⅰ 单个证券收益的平均值（mean）的清单；Ⅰ 证券收益方差的清单；Ⅰ 收益的所有互不相同的相关系数（correlations）的清单，共 n（n-1）/2 个。与单变量正态分布相比较，相关系数（correlations）是多变量的正态分布的区别特征之一。 §Ⅰ 解释相关系数在多变量正态分布中的作用 §Ⅰ 定义标准正态分布（standards normal distribution）并解释如何使随机变量标准化 Ⅰ 正态分布的概率密度函数（pdf）的表达式（－∞ ＜ x ＜＋∞）：当 μ ＝ 0，σ＝1 时，该正态分布称之为标准（standard）正态分布或单位（unit）正态分布。 f（x）＝ exp [－（x －μ）2／2σ 2 ]／（σ√ 2 π）对于正态分布，标准差（σ）越大，其相对于平均值的分布就越分散。利用标准差，我们能够对任何正态分布的结果的分散性作出概率报告： Ⅰ 大约有 50%的观察对象，在区间 μ ±（2／3）σ 的范围内； Ⅰ 大约有 68%的观察对象，在区间 μ ±σ 的范围内； Ⅰ 大约有 95%的观察对象，在区间 μ ±2σ 的范围内； Ⅰ 大约有 99%的观察对象，在区间 μ ±3σ 的范围内。 Ⅰ 随机变量的标准化标准正态随机变量用 Z ～ N（0 ，1）表示。将随机变量 X ～ N（μ ，σ 2）标准化的公式：随机变量 X＝x 0 对应的标准正态随机变量 Z ＝ z0 ＝（x 0－ μ）/ σ。其意义是：对 X ～ N（μ ，σ 2），随机变量的值小于或等于 x 0 的概率，正好等于标准正态分布 Z ～ N（0 ，1）中随机变量的值小于或等于 z0 的概率〔z0＝（x 0 － μ）／σ〕。即：对 X ～ N（μ ，σ 2）有 P（X≤x 0）；对 Z ～ N（0 ，1）有 N（Z≤z0）。当 z0＝（x 0 － μ）／σ 时，则 P（X≤x 0）＝N（Z≤z0）。 §Ⅰ 呈正态分布的随机变量的信置区间（confidence intervals） Ⅰ 正态随机变量 X 的确切信置区间（confidence intervals）： Ⅰ P（ xˉ－ ≤X≤ xˉ＋）＝ 90%； xˉ（也记作 μˆ）为样本平均值；s（也记作 ỡ）为样本的标准差。 xˉ和 s 是店测算（point estimates）。 Ⅰ P（ xˉ－ ≤X≤ xˉ＋）＝ 95%； Ⅰ P（ xˉ－ s ≤X≤ xˉ＋）＝ 99%； §Ⅰ 使用标准正态分布（standards normal distribution）计算概率 Ⅰ 标准正态随机变量累积分布函数表 N（x）的使用。比如查找 P（Z≤）的值（即变量 Z 的值小于或等于的概率），其步骤：在表的第一纵栏找到，在表的第一横栏找到，两者对应的值即为要找的概率。【例】 Ⅰ P（Z ≤ ）＝ 90% ，它表示有 10%的值在图像的右边尾部，并且，P（ xˉ－ ≤X≤ xˉ＋1. 282s）＝ 80%。 Ⅰ P（Z≤）＝ 95%，它表示有 5 %的值在图像的右尾部，或有 10 %的值在 90%的信心区间之外（即左右两边尾部各有 5 %的值在 90%的信心区间之外）。 Z ＝（X－ μ）／σ Ⅰ 了解下列关系，有助于我们使用累积分布函数 N（x）表： Ⅰ 当 x≥0 时，x 右边的分布概率 P（Z≥x）＝－ N（x）； Ⅰ 对负数－x，有：N（－x）= － N（x）。因为：x 右边的分布概率和面积，等于－x 左边的分布概率和面积，即：P（Z ≥x）＝ N（－x）或 P（Z≤－x）。正态分布的应用（Application of the Normal Distribution） §Ⅰ 平均值—方差分析法 Ⅰ 平均值—方差分析法（mean-variance analysis）平均值—方差分析法，将整体的收益分布概括为平均值和方均差，进而对投资决策进行评价。 Ⅰ 将新资产加入到投资组合中，为了实现获利须满足：即：新资产的“夏普比”，要大于投资组合 p 的“夏普比”与新资产和投资组合 P 的相关系数的乘积。 Ⅰ 马克维茨决策规则（Markowitz decision rule）。对于资产 A 和 B，投资者选择 A 而不选择 B，其决策依据是：Ⅰ A 的平均收益等于或大于 B 的平均收益，而 A 的收益的标准差更小；Ⅰ A 的平均收益大于 B 的平均收益，而 A 与 B 收益的标准差相等。 §Ⅰ 定义亏空风险（shortfall risk）亏空风险（shortfall risk），即在某段时间投资组合的价值会下降到能够接受的最低水平以下。如：某个已经界定收益计划的资产的价值下降到计划的债务之下，即为亏空风险（shortfall risk）。 §Ⅰ 计算安全首位比率（safety-first ratio）并利用罗伊的安全首位标准选择最佳投资组合安全首位规则（Safety-first Rules），作为评估价值下滑风险（downside risk）的方法，关注的是亏空风险（shortfall risk）。 [ E（R new）－R f ]／σ new ＞ Corr（R new，R p）×[ E（R p）－R f ]／σ p 假定 R L 是投资者能接受的最低收益水平。按照 Roy 的安全首位标准：最优化的投资组合，就是能够使该组合的收益 R p 下降到临界水平 R L 以下的概率最小化的投资组合，即：P﹝R p < R L﹞为最小值。当投资组合收益是正态分布的，我们使用标准方差能计算出 P﹝R p < R L﹞。投资组合的期望收益为 E（R p），则单位标准差的〔E（R p）－R L〕最大时，投资组合的 P﹝R p < R L﹞最小。〔E（R p）－R L〕是平均收益（mean return）到亏空标准的距离。用 SFRatio 表示安全首位比率（safety-first ratio），则： SFRatio = [E（R p）-R L]/ σ p 应用 Roy 标准，对投资组合进行选择的步骤：Ⅰ 计算投资组合的 SFRatio。Ⅰ 根据计算所得的 SFRatio 值评估标准正态累积分布函数（cdf）。收益值小于 R L 的概率就是 N（－SFRatio），即：P（R p < R L）＝N（－SFRatio）=1－N（SFRatio）。Ⅰ 选择上一步中概率最小的投资组合。 SFRatio 与“夏普比率”的差别在于 R L 和 R f（无风险收益）。安全首位规则为“夏普比率”提供了一个新的角度：在使用夏普比例评价投资组合时，假定投资组合收益是正态分布的，则夏普比率高的投资组合，是使投资组合收益小于无风险收益的概率最小的投资组合。 §Ⅰ 对数正态分布（lognormal distribution）和正态分布的关系 Ⅰ 对数正态分布的概述对随机变量 Y，如果它的自然对数㏑Y 为正态分布，则 Y 为对数正态分布；反之亦然。对对数正态分布，有两点值得注意： Ⅰ 它的下界由 0 界定； Ⅰ 它偏向右边（即它的右边由一个长的尾巴）。假定 Y 是对数正态分布的，则对数正态分布的两个参数是：㏑Y 的平均值和方差（或标准差）。这样就有两套平均值和标准差（或方差）：正态分布的平均值和标准差（或方差）；对数正态分布自身的平均值和标准差（或方差）。 Ⅰ 求对数正态分布自身的平均值和标准差（或方差）假定正态随机变量 X 有预期值 μ 和方均差 σ 2。定义：Y＝exp（X）＝e x，Y 是取对数的逆运算，即㏑Y＝X。X 是正态随机变量，而 Y 是对数正态变量。则： Ⅰ Y 的预期值是 exp（μ ＋σ 2），即 E（Y）＝ exp（μ＋σ 2）。其原因：对数正态分布扩展了，它能向上扩展但是不能向下扩展超过零，因此，分布的中心向右边移动，即增加了平均值。 Ⅰ 对数正态分布自身的平均值（μL）和方均差（σL2）的计算公式： μL＝ exp（μ ＋σ 2） σL2＝ exp（2μ ＋σ 2）×[exp（σ 2）－1 ] §21．区别：收益的连续复利和不连续复利 Ⅰ 股票收益分布和股票价格的关系如果股票的连续复利收益率（continuously compounded return）是正态分布的，则将来的股票价格必定是对数正态分布的。同样重要地，即使股票的连续复利收益不是正态分布的，因为中心限制理论（central limit theorem）的作用，股票的价格也可用对数正态分布来描述。 Ⅰ 连续复利收益率与持有期回报率（holding period return）的关系假定股票价格的一系列观察对象 S0，S1，S2，…，ST ，是等间距的。现在的股票价格 S0 是一个确定的数（不是随机变量），而股票的未来价格却是一个随机变量。价格比（St+1 ／S t），等于 1 加上持有期回报率，即：S t+1／S t ＝ 1＋R t+1，t 。连续复利收益率，是与持有期回报率（R t+1，t）相伴随的一个重要概念。连续复利收益用 r t+1，t 表示，则根据 EAR ＝ e rs －1 可得（EAR ／effective annual rate 即 R t+1，t），在期间 t 到 t+1 内，两者的关系是：在期间 0 到 T 内（T-horizon），连续复利收益率与持有期回报率 HPR 的关系是：因此，S T ＝ S 0 exp（r 0, T）。 Ⅰ 独立的同一分布（IID，independently and identically）独立的同一分布含义。Ⅰ 独立，指投资者不能根据过去的收益预测未来的收益；Ⅰ 同一就是假定静止。假定单个期间的连续复利收益率 rT，T –1，是平均值为 μ、方差为 σ 2 的 IID 随机变量，则在 0 到 T 期间内连续复利收益率 r0, T 的期望值为： r0, T ＝㏑（S T ／S 0）＝ rT，T－1 ＋ rT－1， T－2 ＋…＋ r0,1 E（r0, T）＝ E（rT，T –1）＋ E（rT –1， T-2）＋…＋E（r0,1）＝ μT r t+1，t ＝㏑（St+1 ／S t）＝㏑（1＋R t+1，t）比较 S T ＝S 0 exp（r0, T）和 Y ＝ exp（X），我们可以将未来股票价格 S T 的模型作为对数正态随机变量。因为，r0, T 至少应该是近似的正态随机变量。 §22．给定持有期回报率 HPR，计算收益的连续复利 §23．解释蒙特卡洛模拟和历史模拟，并说明它们的应用和局限性 Ⅰ 蒙特卡洛模拟的简介蒙特卡洛模拟的要旨，在爬梯之前要做的最后一件事，就是摇动梯子。就像摇动梯子让我们接近爬梯的风险一样，蒙特卡洛模拟让我们在实施一项政策前，对其进行试验。其目的，就是发现对复杂的金融问题的近似解决方法。作为蒙特卡洛模拟整体的一部分，就是通过各种各样的假定，从概率分布中产生大量的随机样本，以模拟各种可能的风险。蒙特卡洛模拟的应用：Ⅰ 在实施一项政策或投资决策前，对其进行试验；Ⅰ 评估处于风险中的价值（Value at Risk）；Ⅰ 对复杂的证券估价；Ⅰ 研究院用以测试他们的模型和投资工具。 Ⅰ 蒙特卡洛模拟的步骤。Ⅰ 根据基础变量，明确规定感兴趣的问题的数量（Specify the quantities of interest in terms of underlying variable）。Ⅰ 明确规定时间坐标（Specify a time grid）。Ⅰ 对产生前在变量的风险因素，明确规定其分布假说（ Specify distributional assumptions for the risk factors that drive the underlying variables）。Ⅰ 使用计算机程序或空白表格（spreadsheet）函数，产生每一个风险因素的随机值。Ⅰ 使用上一步产生的随机观察对象，计算基础变量。Ⅰ 计算感兴趣的问题的数量。Ⅰ 返回到第 4 步重新操作，直到试验的详尽数据完成。 Ⅰ 蒙特卡洛模拟，是分析方法的补充。它只提供统计数据，而不能提供精确的结果，而分析方法提供了更深刻的因果关系。 Ⅰ 历史模拟（historic simulation，or back simulation），从历史纪录中取样来模拟一个过程。 σ 2（r0, T）＝ σ 2T 第六章：取样和评估 Chapter Ⅰ Sampling and Estimation 本章简介（Introduction）本章的主题：是如何取样？以及如何利用样本信息估算群体参数？取样的核心是中心限制理论和估算（central limit theorem and estimation）。取样（Sampling） §Ⅰ 定义样本随机取样（simple random sampling）样本（simple）随机取样，即群体中的所有元素入选的概率都相等。两种随机取样的方法：简单的随机取样（simple random sampling）和分层次的随机取样（stratified random sampling）。两类数据：横截数据（cross-sectional date）和时间系列数据（ time-series date）。 §Ⅰ 定义并解释取样误差（sampling error）取样误差，即统计观察到的值和统计要估算的量之间的差。 §Ⅰ 定义取样分布（sampling distribution）一个统计的取样分布（sampling distribution），是我们从同一群体中随机抽取规模相同的样本、并对样本进行统计计算，而得出的所有相互区别的可能值的分布。 §Ⅰ 区别：简单的随机取样和分层的随机取样（ stratified random sampling）简单的随机取样（simple random sampling），即样本的获得是任意的，群体中的每一个元素，都有同等的机会被选中。分层次的随机取样（stratified random sampling），即根据一个或多个分类标准，将群体进一步分为亚群体（sub population／strata）。然后按每一层（亚群体）的相对规模，按比例地抽取简单的随机样本，并将这些样本集中起来。 §Ⅰ 时间系列（time-series）数据和横向（cross-sectional）数据时间系列数据，是时间间隔相等地、不连续地收集到的一系列数据。横截数据，是在某一时间点上的个体、团体、地区或公司的特征的数据。样本平均值的分布（Distribution of the sample mean） §Ⅰ 说明中心极限定律（central limit theorem）并说明它的重要性假定任一概率分布描述的群体有平均值 µ 和限定的方差σ2，当我们从群体中抽取规模为 n 的样本以计算样本平均值 xˉ时，如果 n 足够大（n ≥ 30），则可得： Ⅰ 样本平均值 xˉ的取样分布是近似的正态分布； Ⅰ 该取样分布的样本平均值 xˉ＝ µ ，方差σ2xˉ＝ σ2／n 。中心极限理论：Ⅰ 能估计群体的平均值；Ⅰ 样本统计的标准差，就是统计的标准误差（Standard Error of Statistic）；Ⅰ 能够建构信心区间和测试假定。 §Ⅰ 计算和解释样本平均值的标准差（standards error）样本平均值的标准差 s xˉ（Standard Error of Statistic）的定义。样本统计的标准差（Standard deviation），就是统计的标准差（Standard Error）。因此，样本平均值 xˉ的标准差（Standard Error）的计算公式有二： σxˉ ＝σ／√n ；或 s xˉ ＝s ／√n 。群体平均值的点估算和区间估算 Point and Interval Estimates of the Population Mean §Ⅰ 鉴别和描述估算公式的必要特性（the desirable properties）估算公式（Estimators／estimation formulas）和估算值（estimate）。估算值是我们使用估算公式对样本观察对象进行计算所得出的特定值。估算值和估算公式的区别：从群体中抽取不同的样本进行重复的抽样统计时，估算公式会产生不同的结果（即估算值）。 Ⅰ 公正性（unbiasedness）。一个公正的估算公式，就是它的预期值（即取样分布的平均值）正好等于它要评估的参数。 n s2 ＝[ ∑（x i － xˉ）2 ]／（n－1） i＝1 Ⅰ 有效性（efficiency）。如果某个公正的估算公式是有效的，则除了该公式外，再没有另外一个公正的估算公式，就同样的参数得出具有更小方差的取样分布。 Ⅰ 一致性（consistency）。如果估算公式具有一致性，则随着取样规模的增大，准确的估算值（接近群体参数值的估算值）的概率也会增加。即随着取样规模无限扩大，估算值的取样分布越来越集中于我们要估算的参数的值。这三个特征，也是选择估算公式的三个标准。 §Ⅰ 区别群体参数的点估算（a point estimate）和信置区间估算（a confidence interval estimate）对平均值或其他参数的关注，集中于两个问题：Ⅰ 假定测试。它针对的问题是“参数值是等于某个特定值吗？”Ⅰ 估算（estimation）。它针对的问题是“参数的值是什么？”估算包括：点估算（a Point Estimates）和信置区间估算。 Ⅰ 点估算（a Point Estimates）按照样本平均值计算而得的群体参数的单个估算值，称之为平均值的点估算。 Ⅰ 群体平均值的信心区间（Confidence Intervals for the Population Mean） Ⅰ 信置区间的定义信置区间，即我们能够以给定的概率 1－α（信置度）肯定该区间包括了它要测算的参数。这个区间称为该参数的（1－α）﹪ 信置区间。信置区间对参数给出概率解释或实践解释。Ⅰ 按照概率解释，例如群体平均值 95%的信置区间表示，在重复取样中，在长远上，有 95%的这样信置区间将包括群体平均值。Ⅰ 按实践解释，我们有 95%的信心肯定单个该区间（95%的信置区间）即能够包括群体平均值。 Ⅰ 信置区间的建构（Construction of Confidence Intervals）参数的（1－α）% 信置区间的结构：点估算值 ± 信赖因素 × 标准误差（Point estimate ± Reliability factor × Standard error）。点估算值（Point estimate），即一个样本统计的值；信赖因素（Reliability factor），是以点估算值的假定分布和信置度（1－α）为根据的一个数据；标准误差（Standard error），是提供点估算值的样本统计的标准误差。 §Ⅰ 描述 t- 分布的特征（Student’s t- distribution） Ⅰ t 分布（t -Distribution），是由单一参数即自由度 df（degrees of freedom）定义的一个对称的概率分布。 Ⅰ t 分布与正态分布的比较。假定我们从一个正态分布中取样，则比率 z＝（xˉ－ µ）／σ／√n，是一个标准的正态分布（平均值为 0，标准差为 1）；比率 t ＝（xˉ－µ）／s／√n，则是 t 分布（平均值为 0，自由度为 n－1）。这个用 t 表示的比率，不是正态分布，因为它是两个随机变量（样本的平均值和标准差）的比，而标准正态分布的定义只有一个随机变量 xˉ。然而，随着自由度的增加，t－分布接近于标准正态分布（分布越尖锐、尾巴越瘦）。 §Ⅰ 计算和解释自由度（degrees of freedom）自由度的概念。对 P40 计算样本标准差 s 的公式，分母上的项（n－1）就是使用该等式估算群体标准差的自由度数字。使用“自由度”术语其原因为：在随机样本中，我们假定观察对象的选取是互不依赖的。假定计算有 n 个互不依赖的观察对象的样本的平均值，则只有（n－1）个观察对象是可以独立地选择的。（n－1）也常常被作为根据 t 分布（t－Distribution）确定信赖因素的自由度。 §Ⅰ 对群体方差已知或未知的正态分布，计算和解释群体平均值的信置区间 Ⅰ 方差已知的呈正态分布的群体的平均值的信置区间从方差为σ2 的正态群体分布中取样，则群体平均值μ的（1－α）% 信置区间为：标准正态分布 Z（0，1）信置区间的信赖因素（Reliability Factors） α 信置区间 z α/ 2 α= 90%的信置区间 Z 0. 05 = α= 95%的信置区间 Z 0. 025= α= 99%的信置区间 Z 0. 005 = 随着信置度的增加，信置区间越来越宽，对我们要估算的数据能给出的信息就越不精确。 xˉ± z α/ 2 ×σ／√n Ⅰ 方差未知的群体的平均值的信置区间的求解 Ⅰ 方法一：z 替换法（the z－Alternative）从方差未知的任何分布的群体中取样，当取样规模较大时，则群体平均值μ的（1－α）% 信心区间为： Ⅰ 方法二：t 分布法（t－Distribution）如果从一个方差未知的群体中取样，并且满足下列两个条件中的任一条件的，即：Ⅰ 样本较大；Ⅰ 样本较小但是群体呈正态分布或近似的正态分布。则群体平均值的信心区间可以表示为：计算信赖因素（Reliability Factors）的根据取样的群体样本规模较小的统计样本规模较大的统计方差已知的正态分布 z z 方差未知的正态分布 t t（或 z）方差已知的非正态分布 Not available z 方差未知的非正态分布 Not available t（或 z） §Ⅰ 从任何类型的分布中抽取大量的样本，在群体方差未知时，计算和解释群体平均值的信置区间 §Ⅰ 对选择适当样本规模的问题进行讨论 §Ⅰ 讨论数据挖掘偏见（date-mining bias）数据窥探偏见（Date-snooping），即以刺探他人经验性结果来引导自己的分析而得出推论所产生的偏见。防止办法：检验新数据，以防止过分依靠过去的研究，来解释发现和得出结论。数据挖掘偏见（Date-mining bias），指重复的钻研同一数据，直至有所发现。数据挖掘偏见的四点迹象：对数据挖掘太多而又缺乏信心（Too much digging／Too little confidence）；没有过去也没有将来（No story／ No future）。 xˉ ± z α/ 2 ×S ／√n xˉ ± tα/ 2 ×S ／√n 防止的办法是在样本数据之外测试交易规则。 §Ⅰ 讨论样本选取偏见、现存关系偏见、超前偏见、时间期间偏见。 Ⅰ 样本选择偏见（Sample selection bias），即因为数据可获得性的原因，而将某项资产排除在分析之外，由此产生的问题为样本选择偏见。 Ⅰ 现存关系偏见（survivorship bias）。如果测试设计没有考虑到已经关闭、被兼并或因其他原因离开了数据库的公司的账户，则属于现存关系偏见。 Ⅰ 超前偏见（look-ahead bias）。如果一项测试设计在测试数据上使用了不能获得的信息，则会产生超前偏见。 Ⅰ 时间期间偏见（time-period bias）。如果作为测试设计根据的时间期间，使结果在时间—期间上特定化，属于时间期间偏见。要注意对取样期间长度的选择。第七章：假定测试 Chapter Ⅰ Hypothesis Testing 假定测试（Hypothesis Testing） §Ⅰ 定义假定并描述假定测试的步骤假定，即对群体的说明。假定测试的步骤（Steps in the Hypothesis Testing）： Ⅰ 提出假定（stating the hypothesis）； Ⅰ 确定测试统计和它的概率分布（Identifying the test statistic and its probability distribution）； Ⅰ 有效度的特定化（Specifying the significance level）； Ⅰ 声明决定规则（Stating the decision rule）； Ⅰ 收集数据和进行计算（Collecting the date and calculating the test statistic）； Ⅰ 做出统计结论（make statistical decision）； Ⅰ 做出经济或投资结论（make the economic investment decision）。上述第Ⅰ、Ⅰ步是假定测试的传统方法，可以用 p－值（p－value）方法来替代这些步骤。 §Ⅰ 定义和解释零假定（null hypothesis）和替代假定（alternative hypothesis）假定的类型有两种：Ⅰ 零假定（the null hypotheses），用 H 0 表示；Ⅰ 替代假定（the alternative hypotheses），用 H a 表示。零假定：除非用以进行假定测试的样本有证据表明零假定是错误的，否则该假定就被认为是正确。如果有证据表明零假定是错误的，则将导致替代假定。替代假定，即零假定不成立时的假定。 §Ⅰ 单边（one-tailed）假定测试和双边（two-tailed）假定测试 Ⅰ 假定公式。假定某一群体有参数为θ，θ0 为该参数的一个值，对于两者的关系可以通过下列三种方式形成零假定和替代假定： Ⅰ H 0 ：θ＝θ0 对 H a ：θ≠θ0 （不等于替代假定） Ⅰ H 0 ：θ≤θ0 对 H a ：θ＞θ0 （大于替代假定） Ⅰ H 0 ：θ≥θ0 对 H a ：θ＜θ0 （小于替代假定） Ⅰ 公式Ⅰ是双边（two-side／two-tailed）假定测试；公式Ⅰ与Ⅰ，是单边（one-side ／one-tailed）假定测试。 §Ⅰ 讨论零假定和替代假定的选择最常用的是“不等于（not equal to）”替代假定，即公式Ⅰ。如果有证据表明参数可能大于 0 或小于 0，则我们可以否定零假定。然而，我们有时要为我们“怀疑的（suspected）”或“希望的（hoped for）”情形寻找支持证据。在此情形，我们可以将替代假定定义为“该情形是真的”，而将零假定定义为“情形的非真”。如果证据支持对零假定的否定并接受替代假定，则我们在统计上可以肯定地认为我们的想法是正确的。注意：“大于”和“小于”替代测试，比“不等于”替代测试更强烈地反映了研究者的确信。为了强调态度的中立性，在有些时候即使单边的替代测试试合理的，研究者也会选择“不等于”替代测试。 §Ⅰ 定义和解释测试统计（a test statistic）测试统计（Test Statistic）的定义，是根据样本计算得出的数据，它的值是决定支持或反对零假定的根据。一般地，测试假定有如下公式： θ为样本统计；θ0 为 H 0 下群体参数的值（θ0）；s xˉ为样本统计的标准误差（standard error）。对公式的说明：其他条件不变时，s xˉ 越小，则测试统计越大，否定零假定的概率就越大。而且，取样规模 n 越大，则 s xˉ 越小。测试统计＝（θ—θ0）／s xˉ 测试零假定的测试统计，遵循的概率分布有四种类型： Ⅰ t—分布（对 t—测试）； Ⅰ z—分布，即标准正态分布（对 z—测试）； Ⅰ 卡方分布，即 the chi-square（x2）distribution（对卡方的测试）； Ⅰ F—分布（对 F—测试）。 §Ⅰ 定义和解释误差类别Ⅰ及误差类别Ⅰ（type Ⅰ error） §Ⅰ 解释有效度（a significance level）并说明有效度在假定测试中的应用测试统计计算出来后，有两种可能的行为，即：否定或不否定零假定。我们行为的根据是将计算出来的测试统计和特定的可能值进行比较。我们选择的比较值，是以选取的有效度（the level of significance）为根据的。有效度相当于证明标准，它反映了为反对零假定所必要的样本证据。测试零假定时，存在四种可能的结果：Ⅰ 否定错误的零假定，这是正确行为；Ⅰ 否定正确的零假定，这属于类型Ⅰ错误；Ⅰ 不否定错误的零假定，这属于类型Ⅰ错误；Ⅰ 不否定正确的零假定，这是正确行为。否定 H 0，只能犯类型Ⅰ的错误；不否定 H 0，只能犯类型Ⅰ的错误。我们用α表示犯类型 I 的错误的概率，这个概率就是有效度（ the level of significance）；用β犯类型 II 的错误的概率。控制两种类型错误的概率涉及到此消彼长（trade-off）。假定其他量不变，α减小则β会增加；β减小则α会增加。同时减小两种类型错误的概率的唯一方法，就是增加样本的规模。在实践中，通常不能对两种类型的错误的此消彼长进行定量的分析，因为，类型 II 错误的概率β很难定量化。通常，我们只能将α特定化。 §Ⅰ 定义测试能力（the power of a test）如果测试的有效度是不正确地否定零假定的概率，那么测试能力（the power of a test），就是正确地否定零假定的概率，即正确地否定错误的零假定的概率。某些情况，不止一个测试统计能够适用于假定测试。如果我们知道这些测试统计的相对测试能力，则在决定使用的测试统计时应选择测试能力最强的统计。为了保证测试的公正性，我们应该在计算测试统计之前确定有效度。在进行假定测试时，通常有三个有效度，即：α＝、α＝、α＝。α越小，证明零假定是错误的证据就越强。 §Ⅰ 定义和解释结论规则（a decision rule）通常的原则可以简述为：在测试零假定时，对于由特定的有效度α所决定的给定值，我们将计算所得的测试统计的值与之进行比较，如果我们发现两者同样极端，或者后者比前者更极端，则我们应该否定零假定。如果结果是否定零假定，则可以说该结果在统计上有效；否则，我们只能说该结果在统计上无效。否定点或临界值（rejection points／critical values）的定义。测试统计的否定点，就是为了决定否定或不否定零假定，而与计算所得的测试统计值相比照的值。对于单边测试，反对点的表示方法是，测试统计的符号（如 z、t、F 等）和说明错误类型 I 的特定概率α的下标（如反对点 Zα）；对于双边测试，反对点的表示方法是 Zα/2。【例】否定点的应用（以 z—测试为例，选取为有效度） Ⅰ 对于测试 H 0 ：θ＝θ0 versus H a ：θ≠θ0 该测试为有效度是的双边测试，每一个尾巴的零假定测试统计分布，应为的概率。该测试存在正负两个反对点，即：z 0。0 2 5 ＝和-z 0。0 2 5 ＝－。若 z 表示计算所得的测试统计值，则当 z＜或 z＞时，则应该否定零假定。 Ⅰ 对于测试 H 0 ：θ≤θ0 versus H a ：θ＞θ0，反对点是 z 0。0 5 ＝。如果 z ＞，则应该否定零假定。 Ⅰ 对于测试 H 0 ：θ≥θ0 versus H a ：θ＜θ0，反对点是 z 0。0 5 = －。如果 z ＜－，则应该反对零假定。 §Ⅰ 解释信心区间和假定测试的关系两者的关系：对于测试 H 0 ：θ＝θ0 versus H a ：θ≠θ0，零假定条件下，当群体参数的假定值在相应的信心区间之外时，则零假定就应该被否定。如：对α＝的 z－测试（两边测试），当θ0＜θ－ xˉ或θ0＞θ＋ xˉ时（Zα／ 2 ＝±），则零假定就应该被否定。平均值为μ的群体的 95%的信心区间是 xˉ±×s xˉ 。 § Ⅰ 辨别：统计结论（ statistical decision ）和经济结论（ economic decision）我们应该注意假定值的统计上有效与经济上有效区别：在统计上有效，不一定在经济上有效。因为要考虑到交易成本、税收和风险。经济结论不仅要考虑统计结论，还要考虑到所有有关的经济问题。 P—值（p-value）的定义，就是指否定零假定的最低有效度。如果 P—值小于特定的有效度，零假定就应该受到否定；否则，零假定就不应该受到否定。P—值越小，否定零假定和有利于替代假定的证据就越强烈。与反对点方法相比，P—值提供了更精确的有关证据强度的信息。有关平均值的测试（Hypothesis Tests Concerning the Mean）内容：第一部分，是有关单个群体的平均值是否与假定值相等的测试；第二、三部分针对的问题是：两个样本平均值之间的差（分别针对相互独立的样本和不相互独立的样本）。 §Ⅰ 对于方差已知或未知的正态分布群体，进行群体平均值的假定测试时，能确定适当的测试统计并能解释其结果（单个平均值的测试） Ⅰ t—测试有关潜在（underlying）或群体平均值的假定测试，一般使用 t—测试。 t—测试，即假定测试使用的统计分布遵守 t—分布。t—分布是由一个参数（即自由度 df）定义的分布。 t—分布与标准正态分布的关系。Ⅰ 相同点：对称分布；平均值为 0。Ⅰ 不同点：标准差大于 1；远离平均值的结果的概率更大。 Ⅰ 方差未知的群体平均值假定测试的测试统计方差未知的取样群体，如果满足两个条件之一的，则测试单个群体平均值μ的假定测试的测试统计为：这两个条件是：Ⅰ 样本的规模较大；Ⅰ 样本的规模较小，但是取样群体是正态分布或近似正态分布的。 t n－1 为有 n－1 个自由度的 t—统计（n 为取样规模）；xˉ为样本平均值；μ0 为群体平均值的假定值；s 为样本的标准差。 Ⅰ 方差未知的正态分布群体平均值假定测试的测试统计方差未知的正态分布群体，若样本规模为 n，则群体平均值 100（1－α）%的 t n－1 ＝（xˉ－μ0）／ s ／√n 信心区间为：[xˉ－tα/2×sxˉ, xˉ＋tα/2×sxˉ]。tα/2 是自由度为 n－1 时α／2 的概率保持在右边尾部之内的 t 的值；－tα/2 是自由度为 n－1 时α／2 的概率保持在左边尾部之内的 t 的值。如果样本规模较大，我们也可以使用 z—测试。 Ⅰ z—测试（the z-Test Alternative） Ⅰ 果取样群体的方差为σ2，并且是正态分布，则对单个群体平均值μ的假定测试的测试统计为： Ⅰ 果取样群体的方差未知，并且取样的规模较大，则根据中心限制定律，有一个替代的测试统计： Ⅰ z—测试的否定点（Rejection Point of a z-Test） Ⅰ 有关群体平均值的测试（群体方差未知） LEVEL (α) HYPOTHESIS REJECTION POINT REJECTION INTERVAL H 0 ：θ=θ0 vs. H a ：θ≠θ0 ± z＜或 z＞ H 0 ：θ≤θ0 vs. H a ：θ＞θ0 z＞ α= H 0 ：θ≥θ0 vs. H a ：θ＜θ0 z＜ H 0 ：θ=θ0 vs. H a ：θ≠θ0 ± z＜或 z＞ H 0 ：θ≤θ0 vs. H a ：θ＞θ0 z＞ α= H 0 ：θ≥θ0 vs. H a ：θ＜θ0 z＜ H 0 ：θ=θ0 vs. H a ：θ≠θ0 ± z＜或 z＞ H 0 ：θ≤θ0 vs. H a ：θ＞θ0 z＞ α= H 0 ：θ≥θ0 vs. H a ：θ＜θ0 z＜取样的群体样本规模较小样本规模较大正态分布的群体 t—测试 t—测试（或 z—测试）非正态分布的群体 Not available t—测试（或 z—测试） z ＝（xˉ－μ0）／σ／√n z ＝（xˉ－μ0）／s ／√n 有关平均值的差的测试（Test Concerning Differences between Means） §Ⅰ 据相互独立的随机样本，对两个正态分布的群体的平均值是否相等进行假定测试时，在两个样本的方差相等或不相等的情况下，能确定适当的测试统计并能解释其结果内容简介。前提：取样群体起码是近似的正态分布，并且样本相互独立。内容：讨论测试两个群体平均值的差的两个 t—测试。两种情形：群体的方差未知但是相等；方均差不相等但可以近似地看作 t—测试。 Ⅰ 假定的形成。用μ1，μ2 表示两个群体的平均值。则假定可写成如下方式： Ⅰ H 0 ：μ1－μ2 ＝ 0 对 H a ：μ1－μ2≠ 0 ； Ⅰ H 0 ：μ1－μ2 ≤ 0 对 H a ：μ1－μ2＞0； Ⅰ H 0 ：μ1－μ2 ≥ 0 对 H a ：μ1－μ2＜0 。也可写成其他形式的假定，如：H 0 ：μ1－μ2＝2 对 H a ：μ1－μ2≠ 2，等。 Ⅰ 测试两个群体的平均值之差的测试统计正态分布的两个群体，其方差未知但相等，测试样本为相互独立的随机样本，则 t—测试为：计算共同方差 s p2（common variance）的联合估算公式（Pooled estimator）是： s p2 ＝ [（n 1 －1）s1 2 +（n 2 －1）s2 2 ] ／（n 1＋n 2－2）。自由度的数字为 n 1＋n 2－2。 Ⅰ 测试两个群体的平均值之差的测试统计正态分布的两个群体，其方差不等且未知，测试样本为相互独立的随机样本，则近似的 t—测试为：在使用 t－分布表时，“修正（modified）的自由度”用下述公式计算： t＝[（x1ˉ－ x 2ˉ）－（μ1－μ2）]／[（s p2 ／n1）＋（s p2 ／n 2）]1／2 t＝ [（x1ˉ－ x 2ˉ）－（μ1－μ2）]／[（s12 ／ n1）＋（s22／n 2）]1／2 df ＝ [（s12／n1）＋（s22／n 2）] 2／[（s12 ／n1）2 ／ n1＋（s22／n 2）2／n 2 ] 关于差的平均值的测试（Test Concerning Mean Differences） §Ⅰ 两个正态分布的群体的差的平均值进行假定测试时（即成对比较测试／paired comparisons），能确定适当的测试统计并能解释其结果本部分的 t—测试的基础是，成对的观察对象（paired observations）组成的数据。测试本身也可以称为成对比较的测试（paired comparisons test）。假定有观察对象 A、B，且样本相互关联。观察对象是成对的，用 d i＝x Ai － xBi 表示两个成对的观察对象的差，x Ai 和 xBi 是第 i 个成对观察对象。用μd 表示群体差的平均值。μd0 是群体差的平均值的假定值。则三种方式的假定为： Ⅰ H 0 ：μd ＝μd0 对 H a ：μd ≠μd0 ；（实践中，常令μd0 ＝ 0） Ⅰ H 0 ：μd ≤μd0 对 H a ：μd ＞μd0 ； Ⅰ H 0 ：μd ≥μd0 对 H a ：μd ＜μd0 ；样本差的平均值（dˉ）、样本差的方差（s d 2）、差的平均值的标准误差（s dˉ） dˉ＝（∑d i）／n ；（i ＝1，2，…，n） s d 2 ＝（∑d i －dˉ）／（n－1）；（i ＝1，2，…，n） s dˉ ＝ s d ／√n ；测试差的平均值的测试统计（群体是正态分布的，方均差未知）有关方差的假定测试（Hypothesis Tests Concerning Variance） §Ⅰ 正态分布的方差进行假定测试时，能确定适当的测试统计并能解释其结果 Ⅰ 测试单个方差的假定的形成。假定单个群体的方差为σ2，用σ02 表示方差的假定值，则三种形式的假定为： Ⅰ H 0 ：σ2 ＝σ02 对 H a ：σ2≠σ02； Ⅰ H 0 ：σ2 ≤σ02 对 H a ：σ2 ＞σ02； Ⅰ H 0 ：σ2 ≥σ02 对 H a ：σ2＜σ02； t ＝（dˉ－μd0）／s dˉ Ⅰ 卡方分布（chi－square distribution）卡方测试统计，用 X2 表示。其特点：Ⅰ 非对称分布；Ⅰ 与 t—分布一样，它是一个分布的族系。自由度的可能值 n－1 不同（n 为样本规模），分布也不同。自由度是表示它的参数。Ⅰ 最低边界为 0，即 X 2 不能有负值。 Ⅰ 有关测试群体方差的测试统计（群体为正态分布）从正态分布的群体中取出 n 个相互独立的样品，则测试统计为： s 2 ＝ [∑（x i －xˉ）2 ]／（n－1），（i = 1，2，…，n）。卡方测试对违背前提条件的行为很敏感，如：取样的不随机和群体的非正态分布。与其他假定测试一样，卡方测试能够给出信置区间的解释。不同点在于基于卡方测试给出的信置区间是不对称的。如果样本的规模为 n，则群体方差的双边信置区间有上限 L 和下限 U： L＝（n －1）s 2 X 2α／2 U＝（n －1）s 2 X 21－α／2 Ⅰ 否定点（自由度为 n－1 的卡方分布） Ⅰ 对于 H 0 ：σ2＝σ02 vs. H a ：σ2≠σ02 反对点：X 2α／2（上端的α/2 点）和 X 21－α／2（下端的α/2 点）；反对区间：X 2 ≥ X 2α／2 或 X 2 ≤ X 21－α／2 。 Ⅰ 对于 H 0 ：σ2≤σ02 vs. H a ：σ2 ＞σ02 反对点：X2α（上端的α点）；反对区间：X 2 ≥ X2α。 Ⅰ 对于 H 0 ：σ2≥σ02 vs. H a ：σ2＜σ02 反对点：X 21－α（下端的α点）；反对区间：X 2 ≤ X2 1－α。有关方差的差的测试（T est Concerning Differences between Variances） §Ⅰ 据相互独立的随机样本，对两个正态分布的群体的方差是否相等进行假定测试时，能确定适当的测试统计并能解释其结果 Ⅰ 假定的形成。假定两个正态分布群体的方差分别为σ12 和σ22，平均值分别为μ 1 和μ2 。则三种形式的假定为： Ⅰ H 0 ：σ12 ＝σ22 对 H a ：σ12≠σ22 X 2 ＝（n －1）s 2 ／σ02 Ⅰ H 0 ：σ12 ≤σ22 对 H a ：σ12 ＞σ22 Ⅰ H 0 ：σ12 ≥σ22 对 H a ：σ12 ＜σ22 Ⅰ F－分布（F－distribution） F－分布的特征：Ⅰ 非对称分布；Ⅰ F－分布由两个自由度的值定义，即分子自由度（df1 ＝ n1－1）和分母自由度(df2 ＝ n 2－1)；Ⅰ 最低边界为 0。假定σ12 ＝σ22 就表示σ12／σ22 ＝ 1。考虑到取样是随机的并且相互独立，有关的这类测试的根据是 F—测试，F—测试表示的是样本方差的比例。 Ⅰ 测试两个群体方差的差的测试统计（群体是正态分布的）假定有两个样本：样本 1 有 n 1 个观察对象，方差为 s12；样本 2 有 n 2 个观察对象，方均差为 s22。样本是随机的、并且互不相关，产生样本的群体是正态分布。则测试两个群体方差的差的测试统计：反对点（自由度为 df1 ＝ n1－1 和 df2 ＝ n 2－1 的 F－分布）因为群体 1、2 可以任意安排，所以传统上使用 s12／s22 和 s22／s12 两者中较大的比例，则测试统计 F 的值只有大于或等于 1 两种情况： Ⅰ “不等于”替代测试，反对点：Fα／2（上端α/2）；反对区间：F＞Fα／2 。 Ⅰ “大于”或“小于”测试，反对点：Fα（上端α）；反对区间：F＞Fα。没有使用常规方法，得到的测试统计 F 小于 1，用公式 Fn 1，n 2 ＝1／F n 2，n 1 可将其转换为大于 1 的数。 §Ⅰ 区别：参数测试和非参数测试，并且能够说明适合使用非参数测试（nonparametric test）的情形参数测试（parametric test）有两个特征：关注的是参数（平均值或方差）；测试的有效性依赖于一系列的假设。非参数测试（nonparametric test）的特征：不关注参数；是对样本来自的群体所作的最起码猜想而进行的测试。 F＝ s12／s22 第八章：相关性和回归 Chapter Ⅰ Correlation and Regression 相关性分析（Correlation Analysis）检验两个系列的数据是如何相互联系的，方法有二：Ⅰ 零星布局（scatter plots）；Ⅰ 相关性分析（Correlation Analysis）。零星布局（scatter plots），就是在二维坐标中，表明两个数据系列中观察对象相互关系的图表。横轴和纵轴分别代表一个数据系列。两个数据系列中的每一个观察对象是相互成对的，图表中的一个点代表一组对应的观察对象。共同关联分析（Correlation Analysis） §Ⅰ 计算和解释样本协方差（covariance）当样本规模为 n 时，随机变量的样本协方差为：样本的协方差，即两个随机变量中观察对象与它们的样本平均值相偏离的值的乘积的平均值。群体协方差的定义，即两个随机变量与它们各自的平均值相偏离的值的乘积的期望值。 §Ⅰ 计算和解释样本的相关系数（correlation coefficient）相关系数（correlation coefficient），是两个数据系列关联紧密程度的标度。它能够表明两个变量之间的线性关联（liner association）程度和方向。相关系数的取值范围是－1 到 1。Ⅰ 相关系数大于 0，则两个变量是正线性关联关系，即一个变量增加另一个变量也随之增加；Ⅰ 相关系数小于 0，则两个变量是负的线性关联，即一个变量增加另一个变量将减少；Ⅰ 相关系数等于 0，则两个变量之间无线性关系。Ⅰ 只有两个变量上的所有点都位于同一直线时，向关系数才为 1 或－1。样本的相关系数 r（sample correlation coefficient）的计算公式： n Cov（X，Y）＝ ∑（X i －Xˉ）（Y i －Yˉ）／（n－1） i = 1 X 的样本方差 s2 x ＝∑（X i －Xˉ）2 ／（n－1）；样本标准差 s x＝√s2 x 。计算相关系数的前提条件是：随机变量 Xi 与 Yi 的平均值和方差、及 X i 与 Yi 的协方差均为常数，并且是有限的。如果不具备这些前提条件，则两个变量间的相关性主要取决于所使用的样本。共同关联分析的应用和局限性。在下列情形下相关性分析并非总是可靠的：Ⅰ 两个变量具有很强的非线性关系，而相关性却非常弱，如变量 B＝（变量 A－4） 2；Ⅰ 在一个或两个数据系列中出现外层观察对象（outliers），即数量较少的观察对象位于样本的极端。外层观察对象是否应该排除的判断：Ⅰ 一般规则是判断在排除一些外层观察对象后样本的相关性是否发生较大的变化；Ⅰ 这些外层观察对象是否包含有关两个变量的关系的信息。相关性并不等同于因果关系。刺激关联（spurious correlation），能使两个变量紧密关联而两者之间却没有任何因果关联。刺激关联，即因两个变量都与第三个变量有关而产生的关系。 §Ⅰ 设计一个假定测试以检验群体的相关系数是否为 0，并能根据给定的有效度判断该假定是否不成立（rejection）测试相关系数的有效性 Testing the Significance of the Correlation Coefficient 有效性测试，可以让我们评估随机变量表面上的关系是真实的还是随机的。假定随机变量都是正态分布的，则可以提出两个假定（ρ为群体的相关性）： H0：ρ＝0；Vs．H a：ρ≠0 。只有当两个变量都是正态分布的，我们才能通过样本的相关性 r（sample correlation），来决定零假定是否应该被否定。计算 t—测试的公式是：如果零假定是正确的，则测试统计是自由度为 n－2 的 t—分布。样本的规模 n 在相关系数有效性测试中充当重要角色：Ⅰ 当 r＞0 时，n 越大， t 的值就越大，t 就更有可能大于 t c（t c 为测试统计的临界值或否定点）；Ⅰ n 越大，自由度就越大，因而 t c 就可能更小。其他值不变，n 越大，零假定越容易被否定。线性回归（liner regression） r ＝ Cov（X i，Y i）／s x s y T ＝ r×[（n－2）／（1－r2）]1／2 §Ⅰ 线性回归（liner regression）中自变量和因变量的区别独立变量线性回归：根据两个变量之间的线性关系，通过一个变量的信息得出有关另一个变量的结论。线性回归，可以使我们预测另一个变量、测试有关两个变量关系的假定、量化两个变量间关系的强度。 Ⅰ 这两个变量分别用 X、Y 表示。X 为自变量（independent variable），Y 为因变量（dependent variable）。 Ⅰ 线性回归的定义。假定在自变量（X）和因变量（Y）之间存在线性关系，则这种关系可以用下面的回归等式解释（i ＝ 1, 2,…，n）： b0 为截距（intercept）；b1 为斜率（slope coefficient）；Ⅰ为误差项(error term)，即因变量中不能用自变量解释的部分。在衰退分析中，两类基本的数据经常用到：跨部门数据（cross-sectional data）和时间系列数据（time-series data）。 §Ⅰ 识别回归等式中的斜率（slope）和截距（intercept） Ⅰ 线性回归中，对 b0 和 b1 的估算。线性回归，也称为线性最小平方数（linear least squares），就是要计算一条最适合观察对象的直线。因此，对 b0 和 b1 的选取，必须符合该要求，即：使所有观察对象与回归直线之间竖直距离（vertical distance）的平方和最小。满足这个要求的 b0 和 b1，称之为估值参数或适宜参数 bˆ0 和 bˆ1（estimated or fitted parameters）。计算所有观察对象与衰退直线之间竖直距离的平方之和的公式是： Yi－bˆ0－bˆ1Xi ＝（dependent variable－predicted value of dependent variable）2 ，即：Yi－bˆ0－bˆ1Xi ＝（因变量－因变量的预测值）2 。这个差即回归残余（regression residual）。注意：在回归模型中，我们不能观察到 b0 和 b1 的真实参数值，而只能观察到估值 bˆ0 和 bˆ1 。所有的预测和测试都是以参数的估计值为依据的。 Yi ＝ b 0 ＋ b1X i ＋ Ⅰi n ∑（Yi －bˆ0－ bˆ1Xi）2 i = 1 Ⅰ 单自变量的线性回归。斜率因素（slope coefficient）的计算：b1 ＝ Cov（Yi ，X i）／Var（X i）截距（intercept）的计算：b0 ＝ Yˉ－b1 Xˉ。自变量（Xi）和因变量（Yi）的平均值 Xˉ和 Yˉ必定在回归直线上，将它们代入回归公式就可以得到截距 b 0 。 §Ⅰ 解释线性回归的前提假定（The Assumptions of the Linear Regression）假设自变量（Xi）和因变量（Yi）均有 n 个观察对象，我们希望能够估算等式： Yi ＝ b 0 ＋ b1X i ＋Ⅰi ，（i ＝ 1, 2,…，n）。为了从单自变量的线性回归模型中得出有效的结论，需要做出下述假定，即典型常态线性回归模型假定（classical normal linear regression model assumption）: Ⅰ 自变量（Xi）和因变量（Yi）是线性关系，该线性关系可用 b0 和 b1 表示。如果变量 Xi 和 Yi 之间是非线性关系，则用线性回归模型估算两者的关系就无效。然而，有时非线性关系可以通过运算（如两边取对数）转化为线性关系。只要变量能够转化为线性等式〔如 Yi = b0 + b1（Xi）2+ Ⅰi〕，线性回归也可以适用。 Ⅰ 独立变量（Xi）不是随机的。 Ⅰ 误差项的预期值为 0，即 E（Ⅰi）＝0。假定Ⅰ和Ⅰ能够保证线性回归能得出正确的 b0 和 b1 估计值。 Ⅰ 对所有观察对象，误差项的方差均相同：E（Ⅰi 2 ）＝σⅠ2，（i = 1,…,n）。这个假定也称为 homoskedasticity assumption。 Ⅰ 观察对象间的误差项Ⅰi 是不相关的（uncorrelated），即对所有的 i≠j，有 E （Ⅰi Ⅰj ）＝ 0。这个假定对正确估算估值参数 bˆ0 和 bˆ1 的方差是必要的。 Ⅰ 误差项Ⅰi 是正态分布的。可以使我们容易对有关回归模型的特定假定进行假定测试。假定Ⅰ、Ⅰ和Ⅰ让我们可以使用线性回归模型来决定估值参数 bˆ0 和 bˆ1 的分布，从而检验这些因素是否有一个特定的值。 §Ⅰ 计算估计值标准误差 SEE（The Standard Error of Estimate） §Ⅰ和§Ⅰ讨论衡量回归分析对模型因变量的解释程度的统计。估值标准误差（也称为回归标准误差，即 The Standard Error of Regression）是衡量解释的不确定性程度的参数。它就是计算Ⅰˆi（回归残余项即因变量的实际值和预测值之间的差）的标准差（standard deviation）。计算单自变量的线性回归模型的估算标准误差（SEE）的公式是： n n [∑（Yi－b0－b1Xi）2／（n－2）] 1／2 ＝[∑（Ⅰˆi）2／（n－2）] 1／2 i＝1 i＝1 与计算标准差的公式相比，这个公式的分母是 n－2 而不是 n－1，其原因是回归模型估算的是两个参数（bˆ0 和 bˆ1），观察对象的数量与参数的数量的差即为自由度。 §Ⅰ 计算和解释确定性因素（the coefficient of determination）估算标准误差能在一定程度上说明使用回归等式对变量 Y 进行预测的确定性程度，但是它不能说明自变量对因变量方差（variance）的解释如何。确定性因素（The Coefficient of Determination）可以衡量因变量总方差中能够由自变量予以解释的方差部分。确定性因素可以记作为“R2”。 Ⅰ 计算确定性因素的方法（方法一）如果是单自变量的线性回归，则可以将自变量和因变量之间的相关系数平方而得到确定性因素，即：确定性因素＝ r 2＝ [Cov（X i，Y i）／s x s y ]2 。 Ⅰ 计算确定性因素的方法（方法二）。该方法适用于多个自变量的情形，下面是对其背后的逻辑关系的说明：因变量的总方差（Total variation），等于自变量不能解释的方差（Unexplained variation）与能够解释的方差（Explained variation）的和。确定性因素，等于自变量能够解释的差异与因变量的总方差之比，即： R2 ＝ 1－（Unexplained variation / Total variation）。在不知道回归关系时，对因变量的任何观察对象的特定值的最佳猜测 Yˉ（Yi 的样本平均值），而能够衡量这种预测正确性的参数是 Yi 的样本方差。因此，因变量的总方差的计算公式是：用 Yˉ预测特定观察对象 Yi 的一个替代方法，就是利用回归关系进行预测。如果 Yi 的预测值为 Yˆi，实际值 Yi，则：Yˆi ＝ bˆ0 ＋bˆ1Xi 。如果回归关系是正确的，使用 Yˆi 预测 Y i 的误差，要远远小于使用 Yˉ预测 Y i 的误差。因此，自变量不能以回归关系解释的因变量的方差的计算公式是： n Total variation ＝∑（Y i － Yˉ）2／（n－1） i = 1 n Unexplained variation ＝ ∑ （Y i －Yˆi）2 i＝1 信置区间和假定测试（Confidence Intervals and Testing Hypotheses） §Ⅰ 计算回归因素（regression coefficient）的信置区间 Ⅰ 假定测试的提出。如果知道下述三个事件，我们可以使用信心区间方法执行一个假定测试（这种测试通常是有关截距 bˆ0 和斜率因素 bˆ1 的值的 t—测试）： Ⅰ 估计参数的值（estimated parameters）bˆ0 和 bˆ1； Ⅰ 参数 b 0 和 b1 的假定值； Ⅰ 估值参数的信置区间（给定信心度，我们确信包括真实参数值的区间）。 Ⅰ 信心区间的计算 Ⅰ 有效度（significance level）为α时，bˆ1 的信心区间是：bˆ1±t c S bˆ1 。 “t c”是 t 的临界值，它的大小取决于零假定下 t—分布的自由度的数量（即观察对象的数量与估测参数的数量之差，在一个自变量的线性回归情形，自由度为（n－2）。“S bˆ1”是 bˆ1 的标准误差（standard error）。 Ⅰ 同理，有效度为α时，bˆ0 的信心区间是：bˆ0±t c S bˆ0 。如果参数 b1 的假定值为 b，则零假定为 H 0 ：b1 ＝ b，并且 bˆ1 是 b1 的估计值。如果 b 在区间 bˆ1±t c S bˆ1 之外，则应该否定零假定，即 b1 ≠ b（或 bˆ1≠ b）。 Ⅰ t—测试（适用于回归模型的假定的测试）有关回归因素的假定测试的测试统计，是自由度为 n－2 的 t—分布。其测试统计的计算公式为：对斜率因素 bˆ1 假定的测试统计：t ＝（bˆ1－b1）／ S bˆ1 对截距 bˆ0 假定的测试统计： t ＝（bˆ0 －b0）／ S bˆ0 如果 t 的绝对值大于 t c（即ⅠtⅠ＞t c），则应该否定零假定，即α的信置区间不包括假定的值。 §Ⅰ 识别对回归因素的群体值（population value）进行假定测试的的适当测试统计，并解释其结果 §Ⅰ 解释回归因素（regression coefficient） §Ⅰ 给定估计的回归模型和自变量的值，计算因变量的预测值在使用回归模型（Yi ＝ b0 ＋b1Xi ＋Ⅰi）和估计参数 bˆ0 和 bˆ1 进行预测时，存在两个不确定性原因：Ⅰ 误差项Ⅰi 本身包括了不确定性。误差项Ⅰi 的标准差可以通过回归公式的估值标准误差（the standard error of estimate）来估算。Ⅰ 对 Y 进行预测的第二个不确定性，来源于估值参数 bˆ0 和 bˆ1 存在不确定性。如果回归参数 bˆ0 和 bˆ1 的真实值已知，那么，在给定 X ˆ的任一特定预测值时，对 Y 的预测的方差就可以简化为 s2 （s 即 the standard error of estimate）即预测的不确定性只来源于误差项。可以简化的原因在于：预测值 Yˆ＝b0 ＋b1X 并且 Y －Yˆ＝Ⅰ。但是，我们必须估计回归参数（regression parameters）bˆ0 和 bˆ1，所以，在给定 X ˆ的任一特定预测值时，Y 的预测值 Yˆ实际上是 Yˆ＝ bˆ0 ＋bˆ1X。因此，给定 X，Y 的预测误差的方差估值（the estimated variance of the prediction error of Y）的计算公式为（s 2 f 表示 Y 的预测误差的方差估值）：这个方差估值（s f 2）取决于下列条件：Ⅰ s2 ，即估值标准误差（the standard error of estimate）的平方；Ⅰ 观察对象的数量 n ；Ⅰ X 即自变量；Ⅰ s x2 即自变量的方差。 §Ⅰ 计算和解释某个因变量预测值的信置区间（Prediction Intervals）得到预测误差的方差估值 s2 f 后，建立以预测值（Prediction）为中心的预测区间（Prediction Intervals）就类似于以估值参数为中心估算信心区间。其步骤： Ⅰ 给出预测值 Yˆ； Ⅰ 计算 s 2 f ； Ⅰ 对某一预测，选择一个有效度α（在回归的自由度给定时，α决定预测区间的临界值 tc）； Ⅰ 计算预测的（1－α）百分比预测区间，用 Yˆ±tc×s f 的形式表示。 §Ⅰ 线性回归中方差分析（ANOVA／analysis of variance）的使用单自变量的线性回归（a Regression with One Independent Variable）的方差分析 Ⅰ F—测试（方差分析的一个重要测试） F—统计测试的是，线性回归的斜率因素（slope coefficients）是否等于 0。在单自变量的线性回归中，这个测试可以写作： s2 f ＝ s2 ×｛1＋(1／n )＋（X－Xˉ）2／[（n－1）s 2 x ]｝ H0 ：b1 ＝ 0 对 H a ：b1 ≠ 0 。为了正确地确定测试统计，需要具备四个已知条件：Ⅰ 观察对象的总数 n；Ⅰ 估值参数的总数量（2 个即截距和斜率因素）；Ⅰ 误差项的平方和（或残项的和）即 SEE（the sum of squared errors），公式为：∑（Y i －Yˆi）2；Ⅰ 回归的平方和即 RSS（the regression sum of squares），公式为：∑（Yˆ i－Yˉ）2。RSS 为因变量 Y 中能够由回归等式解释的总方差。 Ⅰ F—统计的计算公式 F—统计的计算公式：F＝RSS 的平均／SEE 的平均。 RSS 的平均（the average RSS）＝RSS／斜率估值参数的数量； SEE 的平均（the average SEE）＝SEE／（n—估值参数总个数）。 F—测试的自由度有两个：Ⅰ 斜率估值参数的个数（ the number of slope parameters estimated）；Ⅰ 观察对象数量与估值参数总个数的差（the total number of parameters estimated）。观察对象为 n，零假定 H0（b1＝0）的 F—测试可表示为： F # slope parameters，n - # parameters ＝ F 1，n－2 。对于单自变量回归的 F—统计，斜率估值参数的个数为 1，观察对象数量与估值参数总个数的差为 n－2，则 F—统计的计算公式为：如果回归模型很好地解释了因变量的方差，F 的值就会较大，即：对每一个自由度，每个估值参数作出了解释的 RSS 相对于没有解释的方差更高。如果自变量不能解释因变量，F—统计的值会很小以至等于 0。 §Ⅰ 定义和解释 F-统计 §Ⅰ 讨论回归分析的局限性回归分析局限性表现：Ⅰ 与相关性一样，回归关系会随时间而改变。较好适合某一期间的回归关系，不一定在另一期间也适合。Ⅰ 回归关系作用的局限还与回归关系的传播有关，即多人利用同一回归关系，会导致它的逐渐消失。这就是自我弥补现象（the self-fulfilling phenomenon），它会导致回归关系在将来消失。Ⅰ 如果回归关系的前提假定被违背，则基于线性关系的假定测试和预测就会无效。 F ＝ RSS ／[ SEE ／（n－2）] ＝ Mean RSS／Mean squared errors

联系我们

智库文档公众号

客服微信

CFA考试：投资分析的数量方法(投资工具).doc

下载

标签

相关专题更多

联系我们

意见反馈

标签

相关专题 更多

联系我们

意见反馈

相关专题更多