了解六西格玛中的统计分布

老虎说测试

1543
文章

263
评论

2011 年 08 月 26 日 16:48:18大话测试字数 3410阅读11分22秒阅读模式2011 年 08 月 26 日

摘要分布适用于表述过程的变化，测绘一个变量显示为一个特定值或范围发生的次数，而不是测绘数值本身。人们常说，一张照片胜过一千句话。对于读者来说，通过图形观察数据会留下更深刻的印象。合适的...

本文翻译：kkskkk，wulh 校稿者：cfgenglish

了解六西格玛中的统计分布文章源自陈学虎-https://chenxuehu.com/article/2011/08/536.html

为演绎数据，顾问需要了解分布。本文讨论了如何了解统计分布的不同类型、不同分布的应用以及给出一个已知分布的假设。文章源自陈学虎-https://chenxuehu.com/article/2011/08/536.html

-许多顾问会做假设的测试模板来决定进行何种类型的测试。无论如何要考虑所取得的数据的类型。如果仅有总结性的数据，如何应用它来得到结论？原始数据最能反映事情的状况，但是它可能不直观，那就仍然需要进行测试。文章源自陈学虎-https://chenxuehu.com/article/2011/08/536.html

为了不仅是看到数据，还要演绎它，顾问需要了解分布。本文讨论了以下几点:文章源自陈学虎-https://chenxuehu.com/article/2011/08/536.html

l  了解统计分布的不同类型。
l  了解不同分布的应用。
l  给出一个已知分布的假设。
l文章源自陈学虎-https://chenxuehu.com/article/2011/08/536.html

六西格玛绿带的培训集中在图形、中心和宽度。图形的概念受限于连续数据的正态分布。本文会通过分布所表现出来的（包括总体和样本）而在图形概念上进行延展。文章源自陈学虎-https://chenxuehu.com/article/2011/08/536.html

回到基本原理
建立在一个假设模型基础上，用概率,陈述估计必然事件发生的机会。对于数据统计学说,观察数据习惯上确定一个描述这个数据的模型。该模型与数据的分布有关。统计是从样本推断到总体，而概率是从总体到样本。文章源自陈学虎-https://chenxuehu.com/article/2011/08/536.html

推断性统计是基于样本数据描述总体参数的一门科学。推断性统计可以应用于：文章源自陈学虎-https://chenxuehu.com/article/2011/08/536.html

l 确定过程能力（确定百万分缺陷数）。
l 利用分布来估计给出已知参数的变量事件的发生概率。文章源自陈学虎-https://chenxuehu.com/article/2011/08/536.html

推断性统计基于正态分布。文章源自陈学虎-https://chenxuehu.com/article/2011/08/536.html

Figure 1: Normal Curve and Probability Areas

图1：正态曲线和概率面积

正态曲线分布可以扩展获得其它分布。结合收集到的数据类型在对过程策划和分布离差或图形理解的基础上指定恰当的分布。它可以帮助我们得到最好的分析结果。

分布的类型
分布的分类与数据分类相同-连续和离散：
l 连续概率分布是随机变量相关的概率，在一个区间内可以取无限多个数值即为随机变量。
l 离散概率分布列出一个实验所有可能的结果和它们各自发生的概率。

分布描述
概率质量函数（pmf）-对于离散变量来说，pmf是随机变量取值x的概率。

概率密度函数（pdf）-对连续变量来说，pdf是取值为x的随机变量在两点之间总体分布概率。

在通常意义上来说，人们在一个连续整体中无法给出一个特定x的概率，而是一些特定（很小）的范围。补充一下，可以想象成x+Dx, Dx很小。

Pdf的符号是f(x)。对于离散分布：
f(x) = P(X = x)

自从用于评估离散质量的概率开始，有些人把离散分布归类到概率质量函数。对于连续分布来说，无法建立一个点的概率质量函数。

累积密度函数（cdf)-变量取值小于等于x的概率。

Figure 2: Normal Distribution Cdf

图2：正态分布Cdf

总平均

Cdf最大值是1，因为没有大于1的概率。再次，cdf是F(x) = P(X < x)。适应于连续和离散分布。

参数
参数是总体分布。顾问依靠参数来描述分布的特征。下面有三个参数：

l  位置参数-变量范围（考虑到平均）的下限或中心（分布规定的）
l  比例参数-决定x(x轴比例的大小)的测量比例尺（考虑到标准偏差）
l  图形参数-画出一组图形中的pdf的图形。
不是所有的分布都有所有的参数。例如，正态分布参数只有平均值和标准偏差。描述一个正态总体仅需要这两个参数。

分布概述
本文剩下的部分将会主要概述各种图形，基本假设和分布的应用。记住每个分布都有不同的pdf 和不同的分布参数。

正态分布（高斯分布）

Figure 3: Normal Distribution Shape

基本假设

l  关于平均值的对称分布（钟形曲线）。
l  通常用于推断性统计。
l  用m和s来表征的一组分布。

用途包括：
l  独立事件随时间变化以一个固定比率发生的概率评估分布。
l  平均值与泊松分布相反。
l  图形可以表征不合格率（在函数习惯用法上是常数）。
l

指数分布

Figure 4:Exponential Distribution Shape

图4：指数分布图形

基本假设

n  用m表征的一组分布。
n  独立事件随时间变化以固定比率发生的分布。
n  平均值与泊松分布相反。
n  图形可以表征不合格率（在函数习惯用法上是常数）。

包含概率评估的用法：

l  平均故障间隔时间（MTBF)。
l  到达次数。
l  受关注事件发生的时间、距离和空间的间隔。
l  队列或等待线原理。

对数分布

Figure 5: Lognormal Distribution Shape

图5：对数分布图形

基本假设

l  起于0的不对称和绝对偏斜分布。
l  可以显示许多pdf图形的分布。
l  描述数据取值范围巨大。
l  可以用m和s来表征。
l

包含模拟的用途：

l  设备停工时间。
l  持续时间。
l  绝对偏斜（背向右侧）的现象

威布尔分布

Figure 6: Weibull Distribution Pdf

图6：威布尔分布Pdf

基本假设

l  一组分布。
l  可用于描述多种类型的数据。
l  符合许多常见分布（正态、指数和对数）。
l  不同因子是尺度和形状参数。

用途：
l  生命周期分布。
l  可靠性应用。
l  随时变化的失效概率。
l  可以描述生命周期中老化、随机的和疲劳阶段（澡盆曲线）

二项分布

Figure 7: Binomial Distribution Shape

图7：二项分布图形

基本假设

l  离散分布。
l  测试数量固定。
l  独立测试。
l  所有测试出现概率相同。
l

用途

l  评估任何一套在成功或失败测试结果发生的概率。
l  抽样特性（接受抽样）。
l  一组尺寸n的缺陷项目数量。
l  清单里面要求的项目数量。

几何

Figure 8: Geometric Distribution Pdf

图8:几何分布Pdf

基本假设

l  离散分布。
l  每次测试恰好有两个结果。
l  所有测试是独立的。
l  所有测试有相同的发生概率。
l  直到首次发生的等待时间。
l

用途

l 挨次试验在得到首次成功前失败的次数用每次测试成功概率p表示。
l 发现首次缺陷项目前检查的项目数量-例如，发现首个可接受的求职者之前进行面试数量。

负二项式

Figure 9: Negative Binomial Distribution Pdf

图9：负二项分布Pdf

基本假设

l  离散分布。
l  设定发生的数量-s.
l  每次测试恰好有两个结果。
l  所有测试是独立的。
l  所有的测试有相同的发生概率。
l

用途

l 挨次试验在得到第s次成功前失败的次数用每次测试成功概率p表示。
l 在发现第s次缺陷项目前检查的好的项目的次数。

Poisson Distribution
泊松分布

Figure 10: Poisson Distribution Pdf

图10：泊松分布Pdf

Basic assumptions:
基本假设

l  离散分布。
l  预先固定观察周期（或区域）的长度。
l  事件以一个固定平均比率发生。
l  事件独立。
l  小概率事件。
l
Uses include:
用途

l  当事件以固定比率发生时，在时间（或面积）区间内发生的事件数量。
l  一批随机尺寸的项目数量。
l  设计可靠性测试，此测试是考虑到失效比率固定的一种常用函数。

Hypergeometric
超几何分布

图形与二项/泊松分布相似
Basic assumptions:
基本假设
•

l  离散分布。
l  预先固定测试数量。
l  每次测试恰好有两个结果。
l  所有测试是独立的。
l  抽样不放回。
l  这是一个精确分布-二项和泊松分布是它的近似值。
l

其它分布
其它分布-例如，抽样分布和X2, t 和F分布。

总结
分布适用于表述过程的变化，测绘一个变量显示为一个特定值或范围发生的次数，而不是测绘数值本身。人们常说，一张照片胜过一千句话。对于读者来说，通过图形观察数据会留下更深刻的印象。合适的各种分布可以帮助顾问更好地演绎数据。

作家简介：J. DeLayne Stroud是六西格玛黑带大师，DeLeeuw公司的项目经理，他于2005年从美国银行退休,有超过20多年的银行业项目和变更管理领导的经验。他领导设计了多项六西格玛和精益新方案。在他的事业生涯中，Stroud先生是一个资深项目经理，在金融服务行业实现了一些大的合并和变更项目，包括以前的银行如通用 Bancshares银行、Boatmen's银行、巴尼特银行和美洲银行。

通过jstroud@deleeuwinc.com[/url]联络他。