泊松分布的参数怎么求怎么求?

定义:【1】独立事件在给定区间内随机发生,给定区间为时间或空间【2】已知该区间内的事件平均发生次数(发生率),用希腊字母 λ(lambda)表示。举例:某电影院的爆米花机总是坏,顾客们很不高兴。下星期电影院有一个大型促销活动,经理希望爆米花机不要出状况,已知爆米花机每一周的平均故障次数为3.4,或者说爆米花机的故障率为3.4。那么爆米花机下一周不发生故障的概率有多大?泊松分布就是用来解决这类问题的。用X表示给定区间内的事件发生次数,如果X符合泊松分布,且每个区间内平均发生λ次,或者说发生率为λ,则写作:省去推导过程,直接给出概率公式:泊松分布的期望和方差如果X~Po(λ) ,则E(X)为给定区间内能够期望的事件发生次数,对于爆米花机来说,为在一周内能够期望的机器损坏次数,也就是说,E(X)是给定区间内的事件平均发生次数。因此泊松分布的期望和方差非常的简洁,因为它的期望和方差都等于λ。泊松分布的形状泊松分布的形状随着λ的数值发生变化。λ小,则分布向右偏斜,随着λ变大,分布逐渐变的对称。如果λ是一个整数,则有2个众数,λ和λ-1,如果λ不是整数,则众数为λ。例题:某电影院的爆米花机总是坏,顾客们很不高兴。下星期电影院有一个大型促销活动,经理希望爆米花机不要出状况,已知爆米花机每一周的平均故障次数为3.4,或者说爆米花机的故障率为3.4。(1)下一周爆米花机不发生故障的概率是多少?P(X=0) = e^-λ / r!
= e^-3.4 x 3.4^0
=e^-3.4 = 0.033(2)下一周爆米花机发生3次故障的概率是多少P(X = 3) =e^-3.4 x 3.4^3 / 3!
=e^-3.4 x 39.304 / 6
=0.033 x 6.55
= 0.216(3)爆米花机发生故障的期望和方差是多少?E(X) = λ =3.4Var(X) = λ =3.4组合泊松变量假如我们不止有爆米花机,还有饮料机,饮料机每周发生故障的平均次数2.3,求下个星期两个机器总故障次数为0的概率。我们把爆米花机故障事件设为X,饮料机故障事件设为Y,即求P(X+Y=0)因为X和Y是独立变量,因此:P(X+Y) =P(X)+P(Y)E(X+Y) =E(X)+E(Y)所以总故障事件可以写作:X+Y~Po(λx+λy),此事件的λ=3.4+2.3=5.7P(X+Y=0) = e^-5.7 x5.7^0 / 0!
=e^-5.7 x 1/1 =0.003泊松分布与二项式分布的关系举例:小红在曲奇饼厂工作,她的工作是确保每一盒饼干都符合工厂严格的质量要求,她知道每块饼干发生破碎的概率为0.1,她的老板要求她求出一盒容量为100块的饼干的盒子里出现15块碎饼干的概率,她认为很简单,说用二项式分布公式计算就好了,X~B(n=100,p=0.1)。可是她拿出计算器计算100!时,计算器显示出错,因为数字太大!要解决上面提到的问题,就会用到泊松分布,因为有时候,使用泊松分布比使用二项式分布更简单,但需要满足一个前提。假如我们要计算一个二项式分布概率,n为3000,用二项式分布的公式需要计算3000!,这个数字太大,很难计算出来。此时我们要用泊松分布来求解近似答案。我们来看一下泊松分布和二项式分布的期望方差对比泊松分布 E(X) =λ,Var(X) = λ二项式分布: E(X) = np,Var(X) =npq我们要找出泊松分布与二项式分布的期望和方差近似相等的情况,因为泊松分布的期望和方差相等,所以np 要近似 npq当q近似等于1且n很大时,np和npq近似相等。因此:当n很大p很小时,可以用泊松分布X~Po(np)近似代替二项式分布X~B(n,p)标准:当n>50且p<0.1时,为典型近似情况。例题:一个学生要参加一场考试,但他没有做任何复习。他需要猜测每一题的答案,每一题的答答对概率是0.05。考卷上共有50个问题,他答对5题的概率是多少?用二项式分布的泊松分布近似法求解。λ =np =50 x 0.05 =2.5P(X =5) = e^-2.5 x 2.5^5 / 5!
= e^-2.5 x 97.65625 / 120 =0.067总结泊松分布的概率、期望、方差计算泊松分布随机变量的组合泊松分布与二项式分布的关系如果X~B(n,p),当n较大而p较小时,X可以近似表示为:本文归纳总结参考《深入浅出统计学》
本文来自公众号一位朋友的提问:“1.请问应该依据什么判断二项分布应该使用泊松作为极限分布还是使用正态分布呢?2.如果已经判断应该用泊松作为该二项分布的极限分布,是否还应判断此泊松分布是否应该极限于正态分布呢? 如果不需再判断,那么应该在什么时候判断泊松分布是否极限于正态分布呢?”这个问题让我一下愣住了,文章中不是已经说了吗?为什么还有这样的问题?当我回头再看看前面的文章,又翻了几本教科书后,感觉这个问题确实没有说清楚。绝大部分教科书在谈到问题1时,基本上都是这句话:当p很小,n很大,且np趋于常数时,可以用泊松分布来近似二项分布。但问题是p多小算很小,n多大算很大呢?这个问题很多教科书和教材没有给出说法。好在现在有计算机,有软件,计算概率是个很轻松的事情,我们不妨来选几个参数来对比一下。一般来说,p小于0.1叫很小,n大于100叫很大,我们可以选择np(=λ)为10、5、1三种常数时,n为100、200、400、800四种样本量来模拟对比,此时p应跟着样本量的增大而减小以保持np不变。下表为np=10是二项分布与泊松分布的对比。概率非常小的时候,两种分布的偏差比较大,我们可以暂时不考虑,重点观察概率较大的部分是否存在较大的偏差。
表1:np=10二项分布与泊松分布对比我们可以看到,随着样本量的增加,两种分布的偏差在减小。如果说样本量为100的时候偏差还不太能够接受,那么样本量达到200时,主要部分的偏差已经可以控制在5%以内了。如果你计算的x值比较靠近中间位置,用泊松分布就可以比较好地对二项分布近似了。n达到800(此时p=0.0125)时,偏差就非常小了。下面两张表分别是np=5,np=1的对比,请自行判断。综合这三张表可以看出,当n越大,两种分布的偏差越小,p越小,两种分布的偏差也越小。即使是p=0.1,n=100时,在概率较大的区域(6≤x≤15),两种分布的偏差也是可以接受的。当然如果你想保险一些,可以把n的界限选大一些,p的界限选小一些。下面再谈第二个问题。几乎所有的教材上都是这么说的:二项分布当np和n(1-p)均大于或等于5时,泊松分布当λ≥20时,用正态分布可以很好地近似计算。我们先看看二项分布的正态近似。用正态分布来近似,其均值为np,方差为np(1-p),下表列出了二项分布选择几种参数(n均为100)时与正态分布的对比。由于正态分布是连续分布,因此采用累积概率分布来计算,默认计算左侧的概率。别被表中1千多万倍的偏差吓住了,这些概率都小到可以忽略不计了,偏差大一些对于近似计算来说无关紧要。我们要重点关注均值以及3σ以内的概率偏差。看看表中标红的部分,偏差不小,而且正态分布总是小于二项分布。下图更直观一些。图1:二项分布与正态分布累积概率对比这种情况是由于二项分布是离散数据分布,其分布曲线不是连续的,而正态分布曲线则是连续的。在下图中我们可以看到,一般取离散概率台阶的中点连线画出拟合的连续曲线,这样计算出来的左侧概率就小不少。图2:概率分布拟合为了解决这个问题,需要进行连续性校正(correction for continuity),计算左侧概率时x要加0.5。相反的,计算右侧概率时,x要减0.5。下表就是连续性校正后计算出的概率对比。图3:连续性校正后二项分布与正态分布累积概率对比经过连续性校正后,两种分布的概率值偏差变得很小了。当然如果np刚好等于5时,且p很小时,二项分布的对称性不是很好,见下图。此时用正态近似要小心一些。图4:n=100,p=0.05二项分布与正态分布概率密度对比如果np仍为5,但p值大一些,n小一些,如n取20,p取0.25,此时分布的对称性就要好一些。图5:n=20,p=0.25二项分布与正态分布概率密度对比下面我们在看看泊松分布的正态近似问题。此时正态分布的均值和方差都等于λ。取λ=20、25、30,我们看看近似的效果。(为了控制文章的篇幅,直接进行连续性校正)用下图可以直观地看出,两种分布之间的差异已经很小了。图6:λ=20,25,30时,泊松分布与正态分布对比本文的分析帮助我厘清我们最熟悉的几个分布之间的关系,经典的说法其实是给出了最低的要求,但如果对精度要求较高,特别是在需要运用分布两端的概率时,建议不要运用近似方法。好在现在用软件计算概率非常方便,这也是技术进步给我们带来的好处。当然有的时候计算精确概率的运算量巨大,比如列联表中Fisher精确检验,当样本量很大时,其计算量成指数级增长。此时用正态近似则可以大大节省计算量,而且精度也能得到保证。有一点建议给大家,如果在假设检验时用正态近似计算出的p值与α值很接近,不妨再计算一下精确概率,以求获得更准确的结果。古人云:“尽信书不如无书”,在看书时多问几个为什么,自己亲自动手验证一下,可以加深对内容的理解,将其变成自己的东西,这样也不容易遗忘。有思考的读书会使你获取更多。让我们以此共勉吧!请关注我的微信公众号:张老师漫谈六西格玛

我要回帖

更多关于 泊松分布的参数怎么求 的文章

 

随机推荐