统计基础知识
学习目标
• 通过基本概念的理解来了解数据的特性.
• 理解概率分布的基本概念
• 利用MINITAB求概率的方法
Proprietary to Samsung Electronics Company Measure – 基础统计 - 2 Rev
基础统计的必要性
Measure阶段收集的资料对其进行分析的方法.
反映流程特性化的X和Y关系式 [ Y=f(X) ].
利用数据与流程状况来推测未来发展趋势
作为高级统计问题解决时的基础依据.
基本统计具有不直观性, 需要找出符合事实的逻辑语言
所谓统计
通过对某组资料数据的分析整理,算出其内容中的特征数值诸如次数,频度,比
率等的过程方法即为统计.
统计的必要性
Proprietary to Samsung Electronics Company Measure – 基础统计 - 3 Rev
统计术语
样本(Sample) : 从母集团中取出的用于实际测量的子集合.
母集团(Population): 所关心的集合中所有个体值的集合.
(投标结果,每日生产量,特征产品不良率)
例题) 本年度总统选举的参选选民为2500万,某舆论调查机构按各地区各年龄
段选民抽选500人对选举结果进行民意测验,此例中母集团与样本各为什么
?
母集团 : 所有参选选民约2500万人.
样本: 被选500人.
母集团和样本
Proprietary to Samsung Electronics Company Measure – 基础统计 - 4 Rev
对母集团的
特性推论母集团平均 : μ
母集团分散 :σ2
母集团标准偏差: σ
样本平均 :
样本分散 : s2
样本标准偏差 : s
母集团参数 (Parameter) : 反映母集团的特征值 (平均, 标准偏差, 比率等
)
统计参数 (Statistic) : 利用样本计算出的特征值,对母集团进行推论的量
(样本平均, 样本偏差, 样本比率等)
抽样(Sampling)
A
A
A
A
A
A
A
B
B
B
B
B
B
C
C
C C
C
C
DD
D
D
D D
D
A
A
B
DD
D
C
C
C
C
B
母集团 样本
母集团参数 统计参数
统计术语
Proprietary to Samsung Electronics Company Measure – 基础统计 - 5 Rev
例) 成品完成需要A~G共7个流程.各流程所需时间测定如下.试求出各流程所需
平均时间
极端值30分对平均造
成的影响较大
平均 (Mean)
n 个观测值的平均值为观测值总和与观测值数的之比.
对极端值(outlier)较为敏感
平均 :
2 2 1 3 2 9 30
A B C D E F G
(单位 : 分)
测值总和
测值数
=解 )
中心倾向的指标
统计术语
Proprietary to Samsung Electronics Company Measure – 基础统计 - 6 Rev
组中值(Median)
数据按大小(n)排列时的中间位置数值
来自于极端值(Outlier)的影响较小.
最频数(Mode)
数据出现的频率 (Frequency)最高的.
来自于极端值(Outlier)的影响较小.
例) 上例中的最频数为多少?
2, 2, 1, 3, 2, 9, 30 中的2出现的频率为3,为出现最频的,
因此最频数为2.
极端值对组中值、
最频数的影响较
小.
n 为奇数的时候 :
n 为偶数的时候 :
1 2 2 2 3 9 30
1 2 2 2 3 9 10 30
2和3的平均
统计术语
Proprietary to Samsung Electronics Company Measure – 基础统计 - 7 Rev
虽然B汽车的平均行程
要高于A汽车, 但分布的分散度却很大,
所以你无法说B汽车一定是最好的!!
A 汽车
B 汽车
以下为对A ,B汽车的每公升汽油的所能行使里程进行测试后的数据分布
情况。大家会看好A/B哪一种车呢?
AB
例 )
在统计分析中,仅考虑平均值来判断会得出错误
的结果。应对数据的分散情况也综合考虑进去!
分散性倾向的指标
统计术语
Proprietary to Samsung Electronics Company Measure – 基础统计 - 8 Rev
分散和标准偏差显示以平均值为基准的样本的差值情况以及离散的程度.
●
30 40 50 60 70
● ● ● ● ● ● ● ● ● ● ● ● ●
●●
●
●
● ●
如果, 从点 开始 为止的平方值为 的话, 分散以平均平方值(统计性
理由上,分集并非n,而用(n-1)来定义).
标准偏差取分散的平方根.
分散(Variance)和标准偏差(Standard deviation)
例 ) 样本 : 4 8 7 5 2 6 3 平均 5
偏差之和 : (-1) + 3 + 2 + 0 + (-3) + 1+ (-2) = 0
样本分散 :
样本标准偏差 :
●●
平方的理由
统计术语
Proprietary to Samsung Electronics Company Measure – 基础统计 - 9 Rev
四分位数(Quartile) : 对数据集合按四等份进行排列
• 四分位范围 (IQR: Inter quartile Range) : Q3-Q1
Q1: 第一 四分位数 (First Quartile) = 25%对应值
Q2: 第二 四分位数(Second Quartile: 组中值) = 50%对应值
Q3: 第三 四分位数(Third Quartile) = 75%对应值
例) 求出下列数据中的四分位数和 IQR
2, 8, 20, 4, 9, 5, 4, 3,
解 ) 根据顺序排列 :
Q1 =
Q2 (组中值) =
Q3 =
2 3 4 4 5 8 9 20
范围(Range) : 数据集合中的最大值和最小值之差.
Range = 最大值 – 最小值
统计术语
Proprietary to Samsung Electronics Company Measure – 基础统计 - 10 Rev
利用MINITAB进行基础数据分析
例题
● 数据的图表分析
- 数据如何展现?
• Graph > Histogram
• Graph > Boxplot
• Graph > Probability plot
● 统计参数计算
- 中心位置在哪里?
- 分散的大小为多少?
• Stat > Basic Statistics > Descriptive Statistics
• Option: Graph > Graphical Summary
● 用流程用语解释结果
文件名:
Proprietary to Samsung Electronics Company Measure – 基础统计 - 11 Rev
利用MINITAB进行基础数据分析
阶段 1: 数据的图表分析
• Graphs > Histogram
Proprietary to Samsung Electronics Company Measure – 基础统计 - 12 Rev
利用MINITAB进行基础数据分析
阶段 1: 数据的图表分析
• Graphs > Boxplot
Q1
Q2
Q3
IQR
以外的点(Outlier)
Q3+ IQR
以外的点(Outlier)
Proprietary to Samsung Electronics Company Measure – 基础统计 - 13 Rev
利用MINITAB进行基础数据分析
阶段 1: 数据的图表分析
• Graphs > Probability plot
Proprietary to Samsung Electronics Company Measure – 基础统计 - 14 Rev
利用MINITAB进行基础数据分析
阶段 2 : 统计参数计算
• Stat > Basic Statistics > Display Descriptive Statistics …
* Option: Graphs> Graphical Summary
Proprietary to Samsung Electronics Company Measure – 基础统计 - 15 Rev
利用MINITAB进行基础数据分析
阶段 3 : 用流程用语进行解释
Descriptive Statistics: Normal
Variable N Mean Median TrMean StDev SE Mean
Normal 500
Variable Minimum Maximum Q1 Q3
Normal
确认MINITAB的session窗中出现的数据.
Proprietary to Samsung Electronics Company Measure – 基础统计 - 16 Rev
基础统计练习题
如下事例研究分析.
问题
- 某公司对客户 2005年 10月~ 12月的10周应收帐款遵守情况非常不满,
特别对于客户(LEEBING PLAZA、HIGH MART、百货店)强烈要求树立对策.
文件名:
- 经营会的市场部主管部长提供了此3个客户的一系列帐款数据.数据的种类包含10周
期间各客户产品的每日数量.
反馈
分析
- 客户产品数量用HISTOGRAM/BOX PLOT 方式表示.
- 实施统计, 解释各产品的平均值和标准偏差.
Proprietary to Samsung Electronics Company Measure – 基础统计 - 17 Rev
概率的理解
掷骰子游戏
让我们想一下掷2个骰子的实验.
假设2个骰子之和为3,4,5,…11时的结果为客户满意.
因此, 2个骰子之和为 2 或者12时看作为缺陷.
假定骰子很公正时, 是否能够预测掷完骰子后出现缺陷的概率
Proprietary to Samsung Electronics Company Measure – 基础统计 - 18 Rev
掷2个骰子出现的所有组合
和为2的组合有几个?为12的组合呢?
总组合数有几个?
继续
概率的理解
Proprietary to Samsung Electronics Company Measure – 基础统计 - 19 Rev
即, 缺陷出现可能性(概率)为%.
继续
各组合出现可能性
概率的理解
Proprietary to Samsung Electronics Company Measure – 基础统计 - 20 Rev
0
1
2
3
4
5
6
0 2 4 6 8 10 12
规格
下限
规格
上限
通过柱状图所看到的结果
概率的理解
Proprietary to Samsung Electronics Company Measure – 基础统计 - 21 Rev
概率的理解
所有可发生的情况中特定事件 A发生的可能性.
即, 无数次的相同实验中最终趋近的比率
例) 想一想掷两个骰子时的情况.
P(A) =
事件
样本区间
样本区间 S = {(1, 1), (1, 2), … , (6, 6)} : 36种所有可能结果的集合
事件 (事件) : 样本区间的部分集合
E1 = 第一个骰子为1的组合 = {(1, 1), (1, 2), (1, 3), (1, 4), (1, 5), (1, 6)}
两个骰子掷出时有一个骰子为1时的概率P(E1)
P(E1) = P{(1, 1), (1, 2), (1, 3), (1, 4), (1, 5), (1, 6)}= 6/36 = 1/ 6
概率 (Probability)
Proprietary to Samsung Electronics Company Measure – 基础统计 - 22 Rev
对样本区间的各个值赋予实数的函数
随机变量(Random Variable)
概率的理解
即,将投出骰子出现的值用变量X表示的话,X即为随机变量,此随机变量取
1,2,3,4,5,6情况时的值.
可取到的随机变量及取到其值的可能性概率, 用表、图表、函数等方式
表示出来.
概率分布(Probability Distribution)
学习概率分布的理由是:为掌握随机变量在某一区间内出现的可能性
Proprietary to Samsung Electronics Company Measure – 基础统计 - 23 Rev
概率分布的种类
离散(计数)型概率分布
为了将采集到的离散型(计数形)数值模型化而使用.
离散型概率分布函数用概率质量函数(pmf)进行表示.
(例如: 良品/不良、0/1性质,或者不良数1, 2, 3,…的个数模型化.)
二项分布 … 代表不良型数据的分布.
泊松分布 … 代表缺陷型数据的分布.
连续(计量)形概率分布
为了将采集到的连续型(计量形)数值模型化而使用.
连续型概率分布函数以概率密度函数(pdf)进行表示.
正态分布 … 一般计量形数据所具有的分布.
信赖性数据随指数分布或Y分布情况较多,规定一侧规格或流程异常时, 一般而
言数据也不随正态分布.
Proprietary to Samsung Electronics Company Measure – 基础统计 - 24 Rev
二项分布 (Binomial Distribution)
例题
扔硬币10次,正面一次也不出现的概率?
已知A事业部制造流程平均不良率为%, 200个产品中有
3个不良出现的概率?
如何进行计算呢?
Proprietary to Samsung Electronics Company Measure – 基础统计 - 25 Rev
二项分布
扔硬币一次,正面一次出不出现的概率?
扔硬币两次,正面一次也不出现的概率?
扔硬币三次,正面一次也不出现的概率?
扔硬币四次,正面一次也不出现的概率?
扔硬币10次,正面一次也不出现的概率?
扔硬币n次, 正面一次也不出现的概率?
扔硬币n次, 正面三次以下出现的概率?
硬币例题
Proprietary to Samsung Electronics Company Measure – 基础统计 - 26 Rev
二项分布
结果区分为良品/不良品、成功/失败、通过/未通过等两种。反复进行实验N次
时, 成功次数X有如下的分布关系时,即为二项分布
n: 总进行次数
p: 进行过程中成功的概率,为0和1之间的值
x: n 次进行中成功的次数
何谓二项分布?
Proprietary to Samsung Electronics Company Measure – 基础统计 - 27 Rev
二项分布
二项分布的形态由n和p值所决定,下图为n=15条件下的二项分布随p值变化
的概率情况.
Proprietary to Samsung Electronics Company Measure – 基础统计 - 28 Rev
例题 ) 某一生产流程的不良率为1%时,此流程生产的产品中取样n=10样本中
不良品为1个或以下的概率为多少? 平均值和分散各为多少?
解答 ) 利用计算式的计算方法
P( X 1 ) = P( X = 0 ) + P( X = 1 )
= 1 +10
= + =
平均 = np =10 =
分散 = np(1-p) =10 =
平均值 : np, 分散 : np( 1- p ), 标准偏差 :
二项分布的概率
平均值与分散
Proprietary to Samsung Electronics Company Measure – 基础统计 - 29 Rev
二项分布的概率
利用MINITAB的计算方法 (1)
阶段 1. Worksheet 输入
阶段 2. Calc>Probability Distributions>Binomial 如下输入.
Proprietary to Samsung Electronics Company Measure – 基础统计 - 30 Rev
阶段 3. 结果确认
P(X=0) = , P(X=1) =
P( X 1 ) = P( X = 0 ) + P( X = 1 )
= + =
二项分布的概率
Proprietary to Samsung Electronics Company Measure – 基础统计 - 31 Rev
二项分布的概率
阶段 >Probability Distributions >Binomial上如下输入
可知P(X 1)=
利用MINITAB的计算方法(2)
Proprietary to Samsung Electronics Company Measure – 基础统计 - 32 Rev
1. 某流程生产产品中约40%不良率的时候,任意选出此流程产品6个,试求
出
2. 如下概率?
(a) 不良品为4个的概率.
(b) 至少有一个为不良时的概率
(c) 4个或以下不良品时的概率
提示. 利用MINITAB进行计算.
calc > probability distributions > Binomial
* number of trial : 6
* probability of success :
正确答案 – (a) (b) (c)
二项分布的概率计算练习题
Proprietary to Samsung Electronics Company Measure – 基础统计 - 33 Rev
2. 不良率为(10%)的某一流程, 随机抽取了25个样本.
(a) 求出现7个及以上不良品的概率.
(b) 求出现7个不良品的概率.
提示 . 利用MINITAB计算.
calc > probability distributions > Binomial
* number of trial : 25
* probability of success :
正确答案 – (a) (b)
二项分布的概率计算练习题
Proprietary to Samsung Electronics Company Measure – 基础统计 - 34 Rev
泊松分布 (Poisson Distribution)
适用于按时间或空间发生频率低的稀奇事件的每单位发生数等的分布
铁板的单位面积斑痕数
一定期间的电话接听数
一定时间银行窗口的顾客数
Dpu (defects per unit) : 单位产品缺陷数
平均 = 分散 = λ (λ = np)
e: 自然常数 (~)
何谓泊松分布?
Proprietary to Samsung Electronics Company Measure – 基础统计 - 35 Rev
泊松分布
泊松分布的内容:
适用于利用每单位缺陷数, 求出产出率(Yield),RTY,FTY等的问题.
0
1
0 5 10 15 20
不良数
dpu=
dpu=
dpu=
dpu=
dpu=
例) 单位产品缺陷数(dpu)值相对应的概率图表.
一般来说 n 较大
p 较小时适用.
Proprietary to Samsung Electronics Company Measure – 基础统计 - 36 Rev
泊松分布的概率计算
例题 ) 为了对信用卡公司的申请书部门错误处理件数进行管理, 若申请书错
误发生件数为平均值 泊松分布, 随机选取错误为一个以下的概率为
多少?
解 ) 利用计算式的计算方法
Proprietary to Samsung Electronics Company Measure – 基础统计 - 37 Rev
泊松分布的概率计算
利用MINITAB计算
阶段 1. Worksheet上数据输入
阶段 2. Calc > Probability Distributions > Poisson 如下输入
Proprietary to Samsung Electronics Company Measure – 基础统计 - 38 Rev
阶段 3. 结果确认
P(X=0) = , P(X=1) =
P( X 1 ) = P( X = 0 ) + P( X = 1 )
= + =
泊松分布的概率计算
Proprietary to Samsung Electronics Company Measure – 基础统计 - 39 Rev
1.某电信服务台每分钟电话申请次数约为平均次左右
某特定的一分钟内:
(a) 求2个电话申请进入的概率
(b) 求5个及以上电话申请进入的概率
(c) 求没有电话申请进入的概率
提示. 利用MINITAB计算.
calc > probability distributions > Poisson
* mean :
正确答案 – (a) (b) (c)
练习例题(2)
泊松分布的概率计算
Proprietary to Samsung Electronics Company Measure – 基础统计 - 40 Rev
正态分布 (Normal Distribution)
例题
测100个POINT时,平均值为,标准偏差为, POINT的长度相比
cm略长的概率为多少?
对20个样品求得平均值为,标准偏差为时,特性满足大于7,并
且小于12的概率为多少?
怎样计算呢?
Proprietary to Samsung Electronics Company Measure – 基础统计 - 41 Rev
正态分布
“标准的” “自然的” “正常的” 等理想状态。 正态分布为非常正常的数据
分布形态. 数据脱离正态分布的话, 此流程可判断为需要改善的对象.
正态分布为
1) 左右对称.
2) 呈钟型模样.
3) 也称高斯曲线.
何谓正态分布?
Proprietary to Samsung Electronics Company Measure – 基础统计 - 42 Rev
m
%
%
m-1sm-2sm-3s m+1s m+2s m+3s
正态分布为计量形概率分布的最重要一种. 正态分布可由两个母集团参数
表示:平均值和分散(或标准偏差).
若X为具有平均和分散2 的正态随机变量的话,概率密度函数如下.
正态分布的概率密度曲线
%
正态分布
Proprietary to Samsung Electronics Company Measure – 基础统计 - 43 Rev
以下4个正态分布分散相同,平均值不一样.
以下4个正态分布平均值相同,分散不一样
正态分布
Proprietary to Samsung Electronics Company Measure – 基础统计 - 44 Rev
X1平均
标准偏差
Z0
1
? Z
正态分布(平均 μ, 分散σ2)随机变量 X可表示为 X ~ N(μ, σ2)
标准正态分布(平均0, 分散1)随机变量 Z则为 Z ~ N(0,1)
Z
X 平均
标准偏差
= - Z
x=
- μ
σ
标准化 Z-transformation
标准正态分布
Proprietary to Samsung Electronics Company Measure – 基础统计 - 45 Rev
标准正态分布
平均值为0,标准偏差为1的正态分布称为标准正态分布.
标准正态分布?
%%
43210-1-2-3-4
%%
%%
标准正态分布的概率密度曲线
Proprietary to Samsung Electronics Company Measure – 基础统计 - 46 Rev
正态分布的概率计算
例题) 平均为20, 标准偏差为5的正态分布下, 求下列情况时的各概率.
(利用 Minitab)
( a ) X ≤15 时的概率
( b ) X ≥ 30时的概率
( c ) X为10和30之间的概率
利用MINITAB进行概率计算
Proprietary to Samsung Electronics Company Measure – 基础统计 - 47 Rev
正态分布的概率计算
P [ X ≤ 15 ] = P[ Z ≤ ]
15-20
5
X
15
Z
5
20
1
0
= -1?
概率 =
Proprietary to Samsung Electronics Company Measure – 基础统计 - 48 Rev
阶段 > probability distributions > normal 输入
阶段 2. 结果确认
概率为 %
正态分布的概率计算
Proprietary to Samsung Electronics Company Measure – 基础统计 - 49 Rev
x20 30
P [ X 30 ] = 1 - P[ X ≤ 30] 概率 =
正态分布的概率计算
Proprietary to Samsung Electronics Company Measure – 基础统计 - 50 Rev
阶段 > Probability Distributions > Normal 输入
阶段 2. 结果确认
相应的 = ,
即可知%的结果.
正态分布的概率计算
Proprietary to Samsung Electronics Company Measure – 基础统计 - 51 Rev
正态分布的概率计算
P [ 10 ≤ X ≤ 30 ] = P[ X ≤ 30] – P[ X ≤ 10] 概率 =
x20 3010
答案是 ???
Proprietary to Samsung Electronics Company Measure – 基础统计 - 52 Rev
1. 若某流程的不良率为5%,此流程生产的15个样品产品中不良为3个以下的
概率为多少?
2. 假设验收检查的产品中,不合格产品比率为10%,用100个产品进行调查
那么
(a) 不合格产品数为15个以下的概率?
(b) 不合格产品数为25个以上的概率?
3. 为了对信用卡公司的申请书部门出现的错误进行管理.假设申请书错误发
生在 泊松分布水平,随机选取错误件数为3以下的概率为多少?
练习问题
4. 流程所生产的产品的重量平均为5 kg,标准偏差为.
其中取一产品时重量为5 kg以上,及 kg 以下时的概率为多少?