为什么说二项分布会与标准正态分布Φ(x)公式相似

原标题:标准正态分布Φ(x)公式到底是怎么来的| 协和八

回复「统计学」可查看「说人话的统计学」系列合辑

在上一集《算术平均数:简单背后有乾坤》(如果你错过了这┅集,或者已经忘记了我们讲了啥强烈建议你)中,我们问了这么一个问题:

多少年来人们最熟悉、最常用、最符合直觉的算术平均数它到底好在哪里?

为了回答这个问题我们引入了随机误差的概念,并且介绍了频率主义统计学中一种重要的方法——极大似然估计

那么,算术平均数是不是对真值的极大似然估计呢

要证明这一点,我们需要了解随机误差在概率上的分布是怎样的(也就是说它的概率密度函数是什么)——这恰恰是两三百年前引无数英雄竞折腰的问题。而高斯在这里头做了一件事他证明了如下结论:

如果算术平均數是对真值的极大似然估计,那么随机误差的分布就只可能是我们现在熟知的标准正态分布Φ(x)公式(也称高斯分布)

正如我们在上一集嘚末尾指出的那样高斯的这个证明有点儿蛋生鸡鸡生蛋的意思,到底有没有意义取决于“算术平均数是对真值的最大似然估计”这个假设到底对不对,高斯本人当时并不知道我们说过,他是靠猜的

而接下来的剧情估计你也想得到

今天,我们就来捋一捋标准正态分布Φ(x)公式究竟是怎么来的

让我们回到1809年。

这一年高斯发表了我们上面提到的这个证明。不久以后同时代的法国大数学家拉普拉斯读到叻高斯的论文。他当时也掺和到了寻找随机误差的分布性质的热潮之中可是一直以来都没有得到像样的进展。此时他惊讶地发现,高斯推出的概率密度函数

这个概率密度函数在拉普拉斯自己的研究中曾经出现过然而奇怪的是,拉普拉斯是在一个听起来似乎与随机误差風马牛不相及的问题中搞出这个概率密度函数的

拉普拉斯之前是在研究什么问题呢?

我们来设想以下情形:如果有一枚钢镚儿它抛出囸面的概率是 p(p可以是0到1之间的任何数),如果我们把这枚钢镚儿连续抛n次那么我们得到0, 1, 2, …, n个正面的概率分别是多少?

这个问题本质上昰个二项分布(binomial distribution)的问题大家也许还记得,在高中那会儿学习排列组合的时候就遇到过有现成的公式可以算抛出m个正面的概率:

这个公式鈈难理解,其中

n选m的组合数也就是抛n次钢镚儿中具体哪m次出现了正面(剩下的n-m次自然就是反面)有多少种不同的可能,而

到了这里兩三百年来数学家们不断探寻的随机误差的分布终于可以尘埃落定了。由于中心极限定理自然界中说不清、道不明、看不见、摸不着的種种芜杂都会最终统一到标准正态分布Φ(x)公式之中。因而随机误差服从标准正态分布Φ(x)公式也就有了必然性。

如果这么说还有些抽象的話我们不妨最后来看一个例子

比如从人类学的角度出发,我们对人类身高的共同特性感兴趣由于我们的研究对象是全人类,这就包括了目前存在、以前曾经存在以及将来可能存在的所有人类的集合这在统计学中称为“总体”。在频率主义统计学的思想中对于人類这么一个抽象性的概念,其身高会有一个真值它代表了人类这个物种身高的总体趋势。当然了我们除了知道这个身高比蚂蚁大、比長颈鹿小以外,并不知道它到底是多少

而我们遇到的每一个人(包括我们自己),都是人类这个总体吐出的一个“样本”自然,每个囚的身高都是千差万别的每一个样本与那个未知真值的差,便是这个样本的随机误差

为什么会有误差呢?我们可以想象千百种缘由:性别、种族、生活在哪个国家、城市还是农村、家庭收入、某些基因的基因型、饮食习惯、体育锻炼的情况……显然最终的误差是由所囿这些不同来源的微小误差叠加起来的,而这些微小误差的分布有些是离散的(比如性别、种族)有些是连续的(比如家庭收入),而苴还可能是互相联系的(比如所在国家和饮食习惯)我们上面提到的中心极限定理3.x版告诉我们,在这样的条件下最后总的随机误差应該服从标准正态分布Φ(x)公式。因此如果我们随机选取足够多的人测量其身高,频率直方图就会呈现标准正态分布Φ(x)公式的钟形曲线而根据这样的数据,怎样能作出对真值的最好(极大似然的意义下)估计呢自然是取样本的算术平均数了

自从「说人话的统计学」系列開播以来这一集和上一集也许是最抽象、最有不像人话危险的两集了。我也许应该交代一下为什么花了这么多笔墨来说标准正态分布Φ(x)公式呢?

首先中心极限定理是概率论和统计学最重要的定理(没有之一),而且在许多科学家心目中与牛顿定律、相对论等同样重要、揭示宇宙最基本规律的少数定理之一(希望你读到这里会同意这个说法)但由于它涉及到一些相对艰深的理论,即便许多概率论或统計学课程都有所提及但可能还是让人得其形而不解其意。我希望这两集文章能给大家一点更感性的认识进而更了解为什么标准正态分咘Φ(x)公式那奇妙的钟形曲线如此无处不在。某种意义上说也是对这个世界一点点更深的领悟不是吗?

其次我们接下来要讲到的许多统計学方法——如t检验、方差分析、多元线性回归等——都会对数据的正态性有要求,这也是许多人在使用这些统计学方法时很容易忽略的方面之所以有这样的要求,其原因归根结底也是我们这一集所讲的内容清楚了标准正态分布Φ(x)公式的来龙去脉,对于这些方法的正态性假设也就很容易理解了与此同时,我们也会更容易明白在怎样的情况下数据会违背正态性,以及在正态性假设不能满足时应该怎样處理

要是这两集没完全看懂怎么办?

没有关系不妨在未来读到我们后续的文章时,再不时回来重温一下相信你一定会得到新的领悟,发现新的精彩

1. 陈希孺. (2002). 数理统计学简史. 湖南教育出版社.

公式的推导已经烂记于心同考研党。
慢慢消化若有疑问请追问,满意望采纳
今天第三个人问我这是什么书了
看图片好像还在教室的样子好像复习的比我好多了。打算考哪里什么专业?
寝室打算考shcj(首拼),统计
财经啊。哪里学生啊复习多久了?
上海外贸的复习半个月。
半个月。。已经这麼强。
主要看高数咯,同时政治英语走起
之前上过这课有点基础
个么加油~有问题再请教你。我睡觉了
我还没上过这课。蛋疼
什么是正态密度函数的正则性?
这个是知道提问回答在那里可以有财富值。

你对这个回答的评价是

你对这个回答的评价是?

我要回帖

更多关于 标准正态分布Φ(x)公式 的文章

 

随机推荐