推断的概要推断的概要
1
(分析阶段)
()
统计推断的概要
推断的概要推断的概要
2
1. 统计推断
2. 误差的来源
3. 置信区间
主要内容
推断的概要推断的概要
3
1. 统计推断
统计推断是通过抽取样本,然后对样本进行分析,以样本的分析结果
推测出“总体可能是这样”结论,对总体下一个正确判断的行为,即总
体
是否发生了变动。而且,一般以推测总体平均值,总体的比率,总体标
准偏差等显示总体分布特征值的统计程序称为统计推断。
总体
样本
样本
样本
对数据的
统计处理
统计推断
信息分析
对事件的
结论
措施及行动
因此我们要注意的是:观察样本并非为得到样本的信息,其目的在于通过样本分析,
得到总体的信息,并对总体下恰当结论,采取相应措施。
推断的概要推断的概要
4
点推断与区间推断
当我们不知道的总体的特征值,我们可以利用样本推断总体的方法有两种.
■ 点推断: 推断为一个值
例) 平均,标准偏差,方差, 中位数,,,,,
但是点推断值中没有误差的概念。
即,无法知道样本中求出的推断值是否接近总体的真值。
■ 区间推断: 推断总体可能包括的期望区间
例)置信区间,置信水平
区间推断是完善点推断的短处,在点推断值上包括误差概念。
是否还记得基础统计学中讲到总体和样本的
知识?
推断的概要推断的概要
5
Stat > Basic Statistics >
Display Descriptive Statistics
利用图表分析方法中学习的上述菜单,在MINITAB中求点推断值与区间
推断值。
对总体的点推断值
-平均,标准偏差
-分散
-斜型,尖度
-最小,最大, Median
-四分位数
对总体区间推断值
-95%置信度总体平均值
的置信区间
-95%置信度下总体标准
偏差的置信区间
-95%置信度总体中位
数的置信区间
推断的概要推断的概要
6
不管大家观察的数据是一个测定值或统计推断的结果,都有可能是错误的.
这是因为我们在总体中抽取样本的时候,希望观测值(平均,标准偏差…)是
与总体的特性值相同,但大部分都会发生一定的差异.有时这种差异会引起
错误的统计推断.
2. 误差产生的来源
总体
样本 1
样本误差
误差的根源 : 样本误差 / 样本偏移(层别)/测定误差/测定妥当性
从总体任意取出样本的差异
引起的误差
样本 2
样本 3
总体
样本 1
样本
样本2
样本3
样本的层别错误造成偏向一侧,因
样本选定引起的误差
包括样本层别错误
统计只能涉及样本误差,其它误差的根源应用其它解决方法
推断的概要推断的概要
7
对某一个问题,为了分析现象,假设抽取了几个样本
- 从总体抽取的样本的观测值(平均,标准偏差…)是否相同?
- 样本的大小变化时发生什么?
为加深大家的理解,做一下实习.
样本误差
由1000个组成的样本保存在“数据”变
量.
Calc > Random data > Normal
推断的概要推断的概要
8
Calc > Random data > Sample from columns…
从总体中随机抽取的5个观察
值和30个观察值.然后反复进行
4次样本收集程序
推断的概要推断的概要
9
现在求上述标本的点推断值
利用MINITAB的 Basic Statistics求标本的统计量.
注意计算的
各个统计量
具有相当的
差异,确认因
样本的大小
的平均,标准
偏差的差异,
并说明理由
推断的概要推断的概要
10
从前面的例子可以看出样本大小为2时和30时均值推断的分布如上图。我们为
了解总体的特性,抽取的是样本,所以我们只能得到均值的推断.总体真实的均
值在上面提示的理论分布中的某一位置,样本容量越大,推断的均值越精确.
样本容量大小对推断值的影响
观察一下样本容量大小对推断(对均值的推断)有什么样的影响?
样本容量越大,平均
值的推断分散越小,
推断的精确度越高。n=30时平均的理论分布
n=2时平均的理论分布
样本均值的分布
推断的概要推断的概要
11
平均值的标准偏差称平均的标准误差(SE Mean),如下定义.
一般标准误差越小推断值越好.
随样本容量变化的平均标准误差(平均值的标准偏差)
样本大小=n
样本的标准偏差
平均的标准误差
=
=
x
x
S
S
弯曲点
标
准
误
差
100 20 30
标准误差在样本大小为5,6时趋于稳定,样本大小为30时趋于平行.一般样本大
小应为5以上,为了得到更精确的平均推断值,样本大小应为30以上.
推断的概要推断的概要
12
n=2时的理论分布
95% 置信区间
95% 置信区间
总体的分布
n=30时的理论分布
区间推断与点推断相比是引用误差概念的统计推断法,推断出总体特征值
(平均、方差、比率)在什么范围之内,可以用置信区间来表示.
置信度或样本容量变化,推断的值的范围也会发生变化.
我们通过置信区间的计算就可以断定研究的变量“X”是否发生了变动?
从
而确定它是否是我们真正要关注的“关键的少数”?
3. 区间推断
推断的概要推断的概要
13
举例(连续型数据)
洗衣机传动装置的总高度将影响制动性能。项目Y是总高度,目标值
=,加工这种部件时所使用的固定架共有8个。
您想了解什么?
使用第三个固定架生产出的部件的平均
高度与目标值是否一致?
分析步骤:
1. 将数据绘制成图
2. 使用置信区间来确定所观测到的差异是
3. 否真实。
3. 得出结论。 New
推断的概要推断的概要
14
设备3 的10 个
部件的高度设备设备33中中1010个个
部件的高度部件的高度
设备 3
高
度
(
英
寸
)
目标值 = 英寸
n =10n =10
x = =
= = ˆ
总体平均值的最可能的范围是多少?x()与目标值
()之间的差异是由于偶然因素造成的吗?
用图形来表示数据
New
推断的概要推断的概要
15
置信区间
设备3所制造的所有部件的平均值最可能的取值范围是什么?
让我们来计算一下置信区间,以便找出该值!
单个平均值的置信区间
置信区间下限值
1-
22
x
置信区间上限值
(1-)100%置信度,真正的总体均值包含在置信区间内。
New
New
推断的概要推断的概要
16
什么是t分布?
类似于正态分布(z)
正态分布(z):已知总体标准差,
用于提供有关平均值的结论(置信区间)
z
t
我们将需要使用tt分布
z = (x - )
n
t分布(t):估计的标准差, s
t = (x - )/(s / n) -
New
推断的概要推断的概要
17
5
10
20
30
100
1000
样本容量 T-值
置信区间的公式(单样本)
不知道标准偏差时总体均值μ的置信区间一般遵守t分布
平均置信区
间的两侧公式
其中:
x = 样本平均值
t = t表格中的t统计结果
= 风险
df = 自由度 = n -1
s = 样本标准差
n = 样本中的数据容量
用所给出的有关部件的数据代入以上公式… New
推断的概要推断的概要
18
置信区间
计算利用设备3所生产的传输设备平均高度的置信区间
使用=(95%的置信区间)
x =
s =
n = 10
df = n - 1 = 9
t(a/2,df)取自t表格。
t (,9) =
区间下限 = x - t (/2, df) n
s
= - ( ) =
区间上限 = x + t (/2, df) n
s
= + ( ) =
-
New
推断的概要推断的概要
19
范例--续
设备3所制造部件的平均值是否在目标范围之内?
设备3生产出的部件总体的平均值最有可能是
,但实际值可能比该值大一点或小一点。
设备3
高
度
(
英
寸
)
目标值 = 英寸
平均值的平均值的95%95%置信置信
区间区间
置信区间上限值 = 英寸
置信区间下限值 = 英寸
设备设备33所生产的部件的总体平均值最可能的取值范围为所生产的部件的总体平均值最可能的取值范围为到到。。
New
推断的概要推断的概要
20
举例--续
置信区间说明
以这种方式构成的区间的95%是正确的(包含真正的总体平均值) 。
•目标值包含在此区间内。
统计评价:没有证据证明设备3所制造部件的平均高度不在目标范围之内。
实际评价:目标值刚好在置信区间内。计算时只用到10 个数据,并且
=。
•您可以使用置信区间来进一步调查设备3……
……获得更多样本(如果是实际的)并计算置信区间
……使用不同的值来计算置信区间
置信区间量化了数据的不定性。置信区间量化了数据的不定性。
New
推断的概要推断的概要
21
样本大小对置信区间的影响
让我们取20个以上的样本(总数 n = 30),看一看对
95%的置信区间有何影响。
假设平均值和标准差保持不变:x = 和 s =
。
置信区间上限值 = x + t (/2, df) n
s
置信区间下限值 = x - t (/2, df) n
s
= - ( ) =
= + ( ) = New
推断的概要推断的概要
22
样本大小对置信区间的影响--续
通过增加样本,可以证明设备3所制
造部件的平均高度不在目标范围内。
目标值 = 英寸
n=10的95%置信区间为。
n=30的95%置信区间为。唯一改变的是n。
设备3
高
度
(
英
寸
)
平均值的平均值的95% 95% 置置
信区间信区间置信上限 = 英寸
置信下限 = 英寸
n = 10 的95%置信区间为 - .
n = 30的95%置信区间为 - .
唯一改变的是 n。 置信区间随样本容量的
置信区间随样本容量的
增加而减小增加而减小。。
New
推断的概要推断的概要
23
对置信区间的影响
计算设备3所制造传送装置的平均高度的90%置信
区间。取 n = 10 ( x = ,s = )
计算设备3所制造传送装置的平均高度的99%置信
区间。取 n = 10 ( x = ,s = )
对置信区间有何影响? New
推断的概要推断的概要
24
对置信区间的影响
高
度
(
英
寸
)
设备3
平均值平均值90%90%的置信区的置信区
间间
平均值平均值99%99%的置信的置信
区间区间
唯一改变的是 。
我们能够以90% 置信度来说明设备3所制造的部件不在
目标范围内
我们不能以99%的置信度说来说明设备3所制造的部件不在
目标范围内。
置信区间置信区间随着随着值的值的
增大而增大。增大而增大。
New