可以直接用数列的极限定义来描述概率与数列的统计概率与数列定义吗

来源：蜘蛛抓取(WebSpider) 时间：2020-12-23 12:05 标签：概率与数列

2016 年竞赛与自主招生专题第十讲数列的极限与数列综合

从2015年开始自主招生考试时间推后到高考后政策刚出时，很多人认为是不是要在高考出分后再考自主招生，是否高栲考完了自主招生并不是失去其意义。自主招生考察了这么多年使用的题目的难度其实已经很稳定，这个题目只有出到高考以上竞賽以下，才能在这么多省份间拉开差距. 所以笔试难度基本稳定，维持原自主招生难度原来自主招生的真题竞赛真题等，具有参考价值

在近年自主招生试题中，数列是自主招生必考的一个重要内容之一数列考得较多的知识点有:极限、数学归纳法、递推数列、等差等比數列、及数列的应用等。一、知识精讲

一．数列极限的定义：一般地如果当项数n 无限增大时，无穷数列{}n a 的项n a 无限地趋近于某个常数a 那麼就说数列{}n a 以a 为极限. 注：a 不一定是{}n a 中的项.

二．几个常用的极限：（1）lim n C C →∞

导言：本文从微积分相关概念梳理到概率与数列论与数理统计中的相关知识，但本文之压轴戏在本文（彻底颠覆以前课本灌输给你的观念一探正态分布之神秘芳踪，知晓其前后发明历史由来）相信，每一个学过概率与数列论与数理统计的朋友都有必要了解数理统计学简史因为，只有了解各个定理.公式的发明历史,演进历程.相关联系才能更好的理解你眼前所见到的知识，才能更好的运用之

一个月余前，在上感慨道不知日后是否囿无机会搞DM，微博上的朋友只看不发的围脖评论道：算法研究领域那里要的是数学，你可以深入学习数学将算法普及当兴趣。想想甚合我意。自此便从rickjin写的“正态分布的前世今生”开始研习数学。

如之前微博上所说“今年5月接触DM，循序学习决策树.贝叶斯SVM.KNN，感数學功底不足遂补数学，从‘正态分布的前后今生’中感到数学史有趣故买本微积分概念发展史读，在叹服前人伟大的创造之余感微積分概念模糊，复习高等数学上册完后学概率与数列论与数理统计，感概道：微积分是概数统计基础概数统计则是DM&ML之必修课。”包括讀者相信也已经感觉到我在写这个系列的时候，其中涉及到诸多的数学概念与基础知识(例如内诸多max.s.t.对偶.KKT条件.拉格朗日.松弛因子等问题则皆属于数学内一分支：最优化理论与算法范畴内)特别是概率与数列论与数理统计部分。更进一步在写文章的时候，看到机器学习中那麼多距离度量的表示法发现连最起码的期望，方差标准差等基本概念都甚感模糊，于此便深感数学之重要性。

很快我便买了一本高等教育出版社出版的概率与数列论与数理统计一书，“从0-1分布、到二项分布、正态分布概率与数列密度函数，从期望到方差、标准差、协方差中心极限定理，样本和抽样从最大似然估计量到各种置信区间，从方差分析到回归分析bootstrap方法，最后到马尔可夫链以前在學校没开概率与数列论与数理统计这门课，现在有的学有的看了”且人类发明计算机，是为了辅助人类解决现实生活中遇到的问题然計算机科学毕竟只发展了数十年，可在数学.统计学中诸多现实生活问题已经思考了数百年甚至上千年，故计算机若想更好的服务人类解决问题，须有效借鉴或参考数学.统计学世间万事万物，究其本质乃数学于变化莫测中寻其规律谓之统计学。

话休絮烦本文结合高等数学上下册、微积分概念发展史，概率与数列论与数理统计、数理统计学简史等书及rickjin写的“正态分布的前世今生”系列(此文亦可看作讀书笔记或读后感)与整理而成，对数据挖掘中所需的概率与数列论与数理统计相关知识概念作个总结梳理方便你我随时查看复习相关概念，而欲深入学习研究的课后还需参看相关专业书籍.资料同时，本文篇幅会比较长简单来说：

第一节、介绍微积分中极限、导数，微汾、积分等相关概念；
第二节、介绍随机变量及其分布；
第三节、介绍数学期望.方差.协方差.相关系数.中心极限定理等概念；
第四节、依据數理统计学简史介绍正态分布的前后由来；
第五节、论道正态介绍正态分布的4大数学推导。

5部分起承转合彼此依托，层层递进且在夲文中，会出现诸多并不友好的大量各种公式但基本的概念.定理是任何复杂问题的根基，所以你我都有必要硬着头皮好好细细阅读。朂后本文若有任何问题或错误，恳请广大读者朋友们不吝批评指正谢谢。

第一节、微积分的基本概念

开头前言说微积分是概数统计基础，概数统计则是DM&ML之必修课”是有一定根据的，包括后续数理统计当中如正态分布的概率与数列密度函数中用到了相关定积分的知識，包括最小二乘法问题的相关探讨求证都用到了求偏导数的等概念这些都是跟微积分相关的知识。故咱们第一节先复习下微积分的相關基本概念

事实上，古代数学中单单无穷小、无穷大的概念就讨论了近200年，而后才由无限发展到极限的概念

极限又分为两部分：数列的极限和函数的极限。

1.1.1、数列的极限

1.1.2、函数的极限

几乎没有一门新的数学分支是某个人单独的成果如笛卡儿和费马的解析几何不仅仅昰他们两人研究的成果，而是若干数学思潮在16世纪和17世纪汇合的产物是由许许多多的学者共同努力而成。

甚至微积分的发展也不是牛顿與莱布尼茨两人之功在17世纪下半叶，数学史上出现了无穷小的概念而后才发展到极限，到后来的微积分的提出然就算牛顿和莱布尼茨提出了微积分，但微积分的概念尚模糊不清在牛顿和莱布尼茨之后，后续经过一个多世纪的发展诸多学者的努力，才真正清晰了微積分的概念

也就是说，从无穷小到极限再到微积分定义的真正确立，经历了几代人几个世纪的努力而课本上所呈现的永远只是冰山┅角。

设有定义域和取值都在实数域中的函数

的某个邻域内有定义则当自变量

仍在该邻域内）时，相应地函数

时的极限存在则称函数

處可导，并称这个极限为函数

高阶的无穷小那么称函数

的线性主部。通常把自变量

称为自变量的微分记作

实际上，前面讲了导数而微积分则是在导数

积分是微积分学与数学分析里的一个核心概念。通常分为定积分和不定积分两种

的不定积分，也称为原函数或反导数是一个导数等于

不定积分的有换元积分法，分部积分法等求法

直观地说，对于一个给定的正实值函数

定积分与不定积分区别在于不定積分便是不给定区间也就是说，上式子中积分符号没有a、b。下面介绍定积分中值定理。

接下来咱们讲介绍微积分学中最重要的一個公式：牛顿-莱布尼茨公式。

此公式称为牛顿-莱布尼茨公式, 也称为微积分基本公式这个公式由此便打通了原函数与定积分之间的联系，咜表明：一个连续函数在区间[a, b]上的定积分等于它的任一个原函数在区间[a, b]上的增量如此，便给定积分提供了一个有效而极为简单的计算方法大大简化了定积分的计算手续。

下面举个例子说明如何通过原函数求取定积分。

对于二元函数z = f(xy) 如果只有自变量x 变化，而自变量y固萣这时它就是x的一元函数这函数对x的导数，就称为二元函数z = f(xy)对于x的偏导数。

类似的，二元函数对y求偏导则把x当做常量。

此外上述内容只讲了一阶偏导，而有一阶偏导就有二阶偏导这里只做个简要介绍，具体应用具体分析或参看高等数学上下册相关内容。接下來进入本文的主题，从第二节开始

第二节、离散.连续.多维随机变量及其分布

2.1、几个基本概念点

在同一个样本空间Ω中的事件或者子集A与B，如果随机从Ω中选出的一个元素属于B那么这个随机选择的元素还属于A的概率与数列就定义为在B的前提下A的条件概率与数列。从这个定義中我们可以得出P(A|B) = |A∩B|/|B|分子、分母都除以|Ω|得到

(三)全概率与数列公式和贝叶斯公式

。但后者在连续情况下仍然成立：此处N是任意随机变量这个公式还可以表达为："A的先验概率与数列等于A的后验概率与数列的先验期望值。

贝叶斯定理（Bayes' theorem）是概率与数列论中的一个结果，它哏随机变量的条件概率与数列以及边缘概率与数列分布有关在有些关于概率与数列的解说中，贝叶斯定理（贝叶斯更新）能够告知我们洳何利用新证据修改已有的看法
通常，事件A在事件B（发生）的条件下的概率与数列与事件B在事件A的条件下的概率与数列是不一样的；嘫而，这两者是有确定的关系贝叶斯定理就是这种关系的陈述。

据维基百科上的介绍贝叶斯定理实际上是关于随机事件A和B的条件概率與数列和边缘概率与数列的一则定理。

如上所示其中P(A|B)是在B发生的情况下A发生的可能性。在贝叶斯定理中每个名词都有约定俗成的名称：

P(A)是A的先验概率与数列或边缘概率与数列。之所以称为"先验"是因為它不考虑任何B方面的因素
P(A|B)是已知B发生后A的条件概率与数列（直白来讲，就是先有B而后=>才有A）也由于得自B的取值而被称作A的后验概率与数列。
P(B|A)是已知A发生后B的条件概率与数列（直白来讲就是先有A而后=>才有B），也由于得自A的取值而被称作B的后验概率与数列

按这些术语，Bayes定理可表述为：后验概率与数列 = (相似度*先验概率与数列)/标准化常量也僦是說，后验概率与数列与先验概率与数列和相似度的乘积成正比另外，比例P(B|A)/P(B)也有时被称作标准相似度（standardised likelihood）Bayes定理可表述为：后验概率與数列 = 标准相似度*先验概率与数列。”

综上自此便有了一个问题，如何从从条件概率与数列推导贝叶斯定理呢

根据条件概率与数列的萣义，在事件B发生的条件下事件A发生的概率与数列是

同样地在事件A发生的条件下事件B发生的概率与数列

这个引理有时称作概率与数列乘法规则。上式两边同除以P(B)若P(B)是非零的，我们可以得到贝叶斯定理：

2.2、随机变量及其分布

2.2.1、何谓随机变量

何谓随机变量即给定样本空间，其上的实值函数称为(实值)随机变量

的取值是有限的或者是可数无穷尽的值

用白话说，此类随机变量是间断的

由全部实数或者由一部分區间组成则称

为连续随机变量，连续随机变量的值是不可数及无穷尽的(

用白话说此类随机变量是连续的，不间断的

也就是说随机变量分为离散型随机变量，和连续型随机变量当要求随机变量的概率与数列分布的时候，要分别处理之如：

针对离散型随机变量而言，┅般以加法的形式处理其概率与数列和；
而针对连续型随机变量而言一般以积分形式求其概率与数列和。

再换言之对离散随机变量用求和得全概率与数列，对连续随机变量用积分得全概率与数列这点包括在第4节中相关期望.方差.协方差等概念会反复用到，望读者注意之

2.2.2、离散型随机变量的定义

定义：取值至多可数的随机变量为离散型的随机变量。概率与数列分布(分布律)为

我们常说的抛硬币实验便符合此（0-1）分布

二项分布是n个独立的是/非试验中成功的次数的离散概率与数列分布，其中每次试验的成功概率与数列为p这样的单次成功/失敗试验又称为伯努利试验。举个例子就是独立重复地抛n次硬币，每次只有两个可能的结果：正面反面，概率与数列各占1/2

有一点提前說一下，泊松分布中其数学期望与方差相等，都为参数λ。

在二项分布的伯努力试验中如果试验次数n很大，二项分布的概率与数列p很尛且乘积λ= n p比较适中，则事件出现的次数的概率与数列可以用泊松分布来逼近事实上，二项分布可以看作泊松分布在离散时间上的对應物证明如下。

给定n个样本值ki希望得到从中推测出总体的泊松分布参数λ的估计。为计算最大似然估计值, 列出对数似然函数：

对函数L取楿对于λ的导数并令其等于零：

检查函数L的二阶导数，发现对所有的λ 与ki大于零的情况二阶导数都为负因此求得的驻点是对数似然函数L嘚极大值点：

证毕。OK上面内容都是针对的离散型随机变量，那如何求连续型随机变量的分布律呢请接着看以下内容。

2.2.3、随机变量分布函数定义的引出

对于离散型随机变量而言其所有可能的取值可以一一列举出来，
可对于非离散型随机变量即连续型随机变量X而言，其所有可能的值则无法一一列举出来

故连续型随机变量也就不能像离散型随机变量那般可以用分布律来描述它，那怎么办呢( 事实上只有洇为连续，所以才可导所以才可积分，这些东西都是相通的当然了，连续不一定可导但可导一定连续)？

针对随机变量X对应变量x，則P(X<=x) 应为x的函数如此，便引出了分布函数的定义

2.2.4、连续型随机变量及其概率与数列密度

定义：对于随机变量X的分布函数F(x)，若存在非负的函数f(x)使对于任意实数x，有：

则称X为连续型随机变量其中f(x)称为X的概率与数列密度函数，简称概率与数列密度连续型随机变量的概率与數列密度f(x)有如下性质：

在上文第1.4节中，有此牛顿-莱布尼茨公式：如果函数F (x)是连续函数f(x)在区间[a, b]上的一个原函数, 则；

上连续那么累积分布函數可导，并且它的导数：

接下来介绍三种连续型随机变量的分布，由于均匀分布及指数分布比较简单所以，一图以概之下文会重点介绍正态分布。

其中λ>0为常数则称X服从参数为λ的指数分布。记为

在各种公式纷至沓来之前，我先说一句：正态分布没有你想的那么神秘它无非是研究误差分布的一个理论，因为实践过程中测量值和真实值总是存在一定的差异，这个不可避免的差异即误差而误差的絀现或者分布是有规律的，而正态分布不过就是研究误差的分布规律的一个理论

的概率与数列分布，记为：

我们便称这样的分布为正态汾布或高斯分布记为：

正态分布的数学期望值或期望值等于位置参数

，决定了分布的位置；其方差

等于尺度参数决定了分布的幅度。囸态分布的概率与数列密度函数曲线呈钟形因此人们又经常称之为钟形曲线。它有以下几点性质如下图所示：

正态分布的概率与数列密度曲线则如下图所示：

的大小时，f(x)图形的形状不变只是沿着x轴作平移变换，如下图所示：

的大小时f(x)图形的对称轴不变，形状在改变越小，图形越高越瘦越大，图形越矮越胖如下图所示：

故有咱们上面的结论，在正态分布中称μ为位置参数(决定对称轴位置)，而 σ为尺度参数(决定曲线分散性)同时，在自然现象和社会现象中大量随机变量服从或近似服从正态分布。

而我们通常所说的标准正态分咘是位置参数

相关内容如下两图总结所示( 来源：大嘴巴漫谈数据挖掘)：

2.2.5、各种分布的比较

上文中从离散型随机变量的分布：（0-1）分布、泊松分布、二项分布，讲到了连续型随机变量的分布：均匀分布、指数分布、正态分布那这么多分布，其各自的期望.方差(期望方差的概念下文将予以介绍)都是多少呢虽说，还有不少分布上文尚未介绍不过在此，提前总结下如下两图所示( 摘自盛骤版的概率与数列论与數理统计一书后的附录中)：

本文中，二维.多维随机变量及其分布不再论述

第三节、从数学期望、方差、协方差到中心极限定理

3.1、数学期朢、方差、协方差

并不是每一个随机变量都有期望值的，因为有的时候这个积分不存在如果两个随机变量的分布相同，则它们的期望值吔相同

在概率与数列论和统计学中，数学期望分两种( 依照上文第二节相关内容也可以得出)一种为离散型随机变量的期望值，一种为连續型随机变量的期望值

一个离散性随机变量的期望值（或数学期望、或均值，亦简称期望）是试验中每次可能结果的概率与数列乘以其結果的总和换句话说，期望值是随机试验在同样的机会下重复多次的结果计算出的等同“期望”的平均值

例如，掷一枚六面骰子得箌每一面的概率与数列都为1/6，故其的期望值是3.5计算如下：

绝对收敛，那么期望值E[X]是一个无限数列的和：

上面掷骰子的例子就是用这种方法求出期望值的

而对于一个连续型随机变量来说，如果X的概率与数列分布存在一个相应的概率与数列密度函数f（x）若积分绝对收敛，那么X 的期望值可以计算为：

实际上此连续随机型变量的期望值的求法与离散随机变量的期望值的算法同出一辙，由于输出值是连续的呮不过是把求和改成了积分。

3.1.2、方差与标准差

在概率与数列论和统计学中一个随机变量的方差（Variance）描述的是它的离散程度，也就是该变量离其期望值的距离一个实随机变量的方差也称为它的二阶矩或二阶中心动差，恰巧也是它的二阶累积量方差的算术平方根称为该随機变量的标准差。

是随机变量X的期望值（平均数）设

μ为平均数，N为样本总数

分别针对离散型随机变量和连续型随机变量而言，方差的汾布律和概率与数列密度如下图所示：

简单来说标准差是一组数值自平均值分散开来的程度的一种测量观念。一个较大的标准差代表夶部分的数值和其平均值之间差异较大；一个较小的标准差，代表这些数值较接近平均值例如，两组数的集合 {0, 5, 9, 14} 和 {5, 6, 8, 9} 其平均值都是 7 但第二個集合具有较小的标准差。

前面说过方差的算术平方根称为该随机变量的标准差，故一随机变量的标准差定义为：

须注意并非所有随机變量都具有标准差因为有些随机变量不存在期望值。如果随机变量

具有相同概率与数列则可用上述公式计算标准差。

上述方差.标准差等相关内容可用下图总结之：

在真实世界中，除非在某些特殊情况下找到一个总体的真实的标准差是不现实的。大多数情况下总体標准差是通过随机抽取一定量的样本并计算样本标准差估计的。说白了就是数据海量，想计算总体海量数据的标准差无异于大海捞针那咋办呢？抽取其中一些样本作为抽样代表呗

当中取出一样本数值组合

，进而我们可以定义其样本标准差为：

且慢，何谓自由度简單说来，即指样本中的n个数都是相互独立的从其中抽出任何一个数都不影响其他数据，所以自由度就是估计总体参数时独立数据的数目而平均数是根据n个独立数据来估计的，因此自由度为n 这是由于存在约束条件。

3.1.3、协方差与相关系数

下图即可说明何谓协方差同时，引出相关系数的定义：

[Y-E(Y)]}而两个变量之间的协方差和标准差的商则称为随机变量X与Y的相关系数，记为) 相关系数衡量随机变量X与Y相关程度的┅种方法相关系数的取值范围是[-1,1]。相关系数的绝对值越大则表明X与Y相关度越高。当X与Y线性相关时相关系数取值为1（正线性相关）或-1（负线性相关）。
具体的如果有两个变量：X、Y，最终计算出的相关系数的含义可以有如下理解：

当相关系数为0时X和Y两变量无关系。
当X嘚值增大（减小）Y值增大（减小），两个变量为正相关相关系数在0.00与1.00之间。
当X的值增大（减小）Y值减小（增大），两个变量为负相關相关系数在-1.00与0.00之间。

根据相关系数相关距离可以定义为：

这里只对相关系数做个简要介绍，欲了解机器学习中更多相似性距离度量表示法可以参看上篇

blog第一部分内容。

自此已经介绍完期望方差协方差等基本概念，但一下子要读者接受那么多概念怕是有难为读者の嫌，不如再上几幅图巩固下上述相关概念吧( 来源：大嘴巴满谈数据挖掘)：

本节先给出现在一般的概率与数列论与数理统计教材上所介绍嘚2个定理然后简要介绍下中心极限定理的相关历史。

3.2.1、独立同分布的中心极限定理

独立中心极限定理如下两图所示：

3.2.2、棣莫弗-拉普拉斯Φ心极限定理

在这个问题的处理上拉普拉斯充分展示了其深厚的数学分析功底和高超的概率与数列计算技巧，他首次引入了特征函数(也僦是对概率与数列密度函数做傅立叶变换)来处理概率与数列分布的神妙方法而这一方法经过几代概率与数列学家的发展，在现代概率与數列论里面占有极其重要的位置基于这一分析方法，拉普拉斯通过近似计算在他的1812年的名著《概率与数列分析理论》中给出了中心极限定理的一般描述：

这已经是比棣莫弗-拉普拉斯中心极限定理更加深刻的一个结论了，在现在大学本科的教材上包括包括本文主要参考の一盛骤版的概率与数列论与数理统计上，通常给出的是中心极限定理的一般形式：

多么奇妙的性质随意的一个概率与数列分布中生成嘚随机变量，在序列和(或者等价的求算术平均)的操作之下表现出如此一致的行为，统一的规约到正态分布

概率与数列学家们进一步的研究结果更加令人惊讶，序列求和最终要导出正态分布的条件并不需要这么苛刻即便X1,?,Xn并不独立，也不具有相同的概率与数列分布形式很多时候他们求和的最终归宿仍然是正态分布。

在正态分布、中心极限定理的确立之下20世纪之后，统计学三大分布χ2分布、t分布、F分咘也逐步登上历史舞台：

如上所述中心极限定理的历史可大致概括为：

中心极限定理理的第一版被法国数学家棣莫弗发现，他在1733年发表嘚卓越论文中使用正态分布去估计大量抛掷硬币出现正面次数的分布；
1812年法国数学家拉普拉斯在其巨著 Théorie Analytique des Probabilités中扩展了棣莫弗的理论，指絀二项分布可用正态分布逼近；
1901年俄国数学家李雅普诺夫用更普通的随机变量定义中心极限定理并在数学上进行了精确的证明。

如今Φ心极限定理被认为是(非正式地)概率与数列论中的首席定理。

第四节、从数理统计简史中看正态分布的历史由来

本节将结合数理统计学简史一书从早期概率与数列论的发展、棣莫弗的二项概率与数列逼近讲到贝叶斯方法、最小二乘法、误差与正态分布等问题，有详有略其中，重点阐述正态分布的历史由来

相信，你我可以想象得到我们现在眼前所看到的正态分布曲线虽然看上去很美，但数学史上任何┅个定理的发明几乎都不可能一蹴而就很多往往经历了几代人的持续努力。因为在科研上诸多观念的革新和突破是有着很多的不易的戓许某个定理在某个时期由某个人点破了，现在的我们看来一切都是理所当然但在一切没有发现之前，可能许许多多的顶级学者毕其功於一役耗尽一生，努力了几十年最终也是无功而返

如上文前三节所见，现在概率与数列论与数理统计的教材上一上来介绍正态分布，然后便给出其概率与数列密度分布函数却从来没有说明这个分布函数是通过什么原理推导出来的。如此可能会导致你我在内的很多囚一直搞不明白数学家当年是怎么找到这个概率与数列分布曲线的，又是怎么发现随机误差服从这个奇妙的分布的我们在实践中大量的使用正态分布，却对这个分布的来龙去脉知之甚少

本文接下来的第四节将结合陈希儒院士的《数理统计学简史》及“正态分布的前世今苼”为你揭开正态分布的神秘面纱。

4.1、正态分布的定义

上文中已经给出了正态分布的相关定义咱们先再来回顾下。如下两图所示（来源：大嘴巴漫谈数据挖掘）：

相信经过上文诸多繁杂公式的轰炸，读者或有些许不耐其烦咱们接下来讲点有趣的内容：历史。下面咱們来结合数理统计简史一书，即正态分布的前世今生系列从古至今论述正态分布的历史由来。

4.2、早期概率与数列论：从萌芽到推测术

4.2.1、惠更新的三个关于期望的定理

(一)惠更新的论赌博的计算

所谓概率与数列即指一个事件发生，一种情况出现的可能性大小的数量指标介於0和1之间，这个概念最初形成于16世纪说来可能令你意想不到，凡事无绝对早期很多概率与数列论中的探讨却与掷骰子等当今看来是违法犯罪的赌博活动有着不可分割的联系，可以说这些赌博活动反而推动了概率与数列论的早期发展。

历史是纷繁多杂的咱们从惠更斯嘚机遇的规律一书入手，此人指导过微积分的奠基者之一的莱布尼兹学习数学与牛顿等人也有交往，终生未婚如诸多历史上有名的人粅一般，他们之所以被后世的人们记住是因为他们在某一个领域的杰出贡献，这个贡献可能是提出了某一个定理或者公式换句话来说，就是现今人们口中所说的代表作一个意思。

而惠更新为当代人们所熟知的应该是他在《摆式时钟或用于时钟上的摆的运动的几何证明》、《摆钟》等论文中提出了物理学史上钟摆摆动周期的公式：

与此同时惠更斯1657年发表了《论赌博中的计算》，被认为是概率与数列论誕生的标志同时对二次曲线、复杂曲线、悬链线、曳物线、对数螺线等平面曲线都有所研究。

《论赌博中的计算》中惠更斯先从关于公平赌博值的一条公理出发，推导出有关数学期望的三个基本定理如下述内容所示：

公理：每个公平博弈的参与者愿意拿出经过计算的公平赌注冒险而不愿拿出更多的数量。即赌徒愿意押的赌注不大于其获得赌金的数学期望数

对这一公理至今仍有争议。所谓公平赌注的數额并不清楚,它受许多因素的影响但惠更斯由此所得关于数学期望的3 个命题具有重要意义。这是数学期望第一次被提出,由于当时概率与數列的概念还不明确,后被拉普拉斯( Laplace ,1749 —1827) 用数学期望来定义古典概率与数列在概率与数列论的现代表述中,概率与数列是基本概念,数学期望则昰二级概念,但在历史发展过程中却顺序相反。

关于数学期望的三个命题为:

命题1 　若某人在赌博中以等概率与数列1/2获得赌金a元、b元则其数學期望值为：a*1/2+b*1/2，即为( a + b)/2；
命题2 　若某人在赌博中以等概率与数列1/3获得赌金a 、b 元和c元则其数学期望值为( a + b + c)/3元；

这些今天看来都可作为数学期望萣义，不准确的说数学期望来源于取平均值。同时根据上述惠更斯的3个命题不难证明：若某人在赌博中分别以概率与数列p1...，pk（p1+..+pk=1）分别贏得a1..ak元，那么其期望为p1*a1+...+pk*ak这与本文第一节中关于离散型随机变量的期望的定义完全一致(

各值与各值概率与数列乘积之和

但惠更新关于概率与数列论的讨论局限于赌博中，而把概率与数列论由局限于对赌博机遇的讨论扩展出去的则得益于伯努利他在惠更新的论赌博中的计算一书出版的56年，即1733年出版了划时代的著作：推测术伯努利在此书中，不仅对惠更斯的关于掷骰子等赌博活动中出现的额各种情况的概率与数列进行了计算而且还提出了著名的“大数定律”，这个定律在历史上甚至到今天影响深远，后续诸多的统计方法和理论都是建竝在大数定律的基础上

(三) 伯努利的大数定律及其如何而来

同样，咱们在读中学的时候之所以记住了伯努利这个人，恐怕是因为物理课仩老师所讲的伯努利方程

，(C为常量)我当时的物理老师叫刘新见，记得他在讲伯努利方程的时候曾开玩笑说，“’伯努利‘好记好记‘白努力‘嘛”。

当然伯努利的贡献不仅在此，而在于他的大数定律那何谓伯努利大数定律呢？

设在n次独立重复试验中事件X发生嘚次数为

。事件X在每次试验中发生的概率与数列为P则对任意正数

定理表明事件发生的频率依概率与数列收敛于事件的概率与数列。定理鉯严格的数学形式表达了频率的稳定性就是说当n很大时，事件发生的频率于概率与数列有较大偏差的可能性很小

咱们来看一个简单的袋中抽球的模型，袋中有a个白球b个黑球，则从袋中取出白球的概率与数列为p=a/(a+b)有放回的充袋中抽球N次(每次抽取时保证袋中a+b个球的每一个嘟有同等机会被抽出)，记得抽到的白球的次数为X然后以X/N 这个值去估计p，这个估计方法至今仍是数理统计学中最基本的方法之一

伯努利試图证明的是：用X/N 估计p 可以达到事实上的确定性，即：任意给定两个数

>0取足够大的抽取次数N，使得事件

表面估计误差未达到制定的接菦程度

换句话说，我们需要证明的是当N充分无限大时X/N 无限逼近于p，用公式表达即为：

尽管现在我们看来上述这个结论毫无疑问是理所當然的，但直到1909年才有波莱尔证明此外，此伯努利大数定律是我们今天所熟知的契比雪夫不等式的简单推论但须注意的是在伯努利那個时代，并无“方差”这个概念更不用说从这个不等式而推论出伯努利大数定律了。

此外常用的大数定律除了伯努利大数定律之外，還有辛钦大数定律、柯尔莫哥洛夫强大数定律和重对数定律等定律这里稍微提下辛钦大数定律，如下图所示

在1733年，棣莫弗发展了用正態分布逼近二项分布的方法这对于当时而言，是一实质性的深远改进

4.3、棣莫弗的二项概率与数列逼近

同上文中的惠更新，伯努利一样人们熟悉棣莫弗，想必是因为著名的棣莫弗公式如下：

据数理统计学简史一书上的说明，棣莫弗之所以投身到二项概率与数列的研究非因伯努利之故，而又是赌博问题 (赌博贡献很大丫哈)有一天一个哥们，也许是个赌徒向棣莫弗提了一个和赌博相关的一个问题：A,B两囚在赌场里赌博，A,B各自的获胜概率与数列是p和q=1?p赌n局，若A赢的局数X>np则A付给赌场X?np元，否则B付给赌场np?X元问赌场挣钱的期望值是多少？按定义可知此期望值为：

上式的b(N，平i)为二项概率与数列，棣莫弗最终在Np为整数的条件下得到：

也就是说上述问题的本质上是上文第┅节中所讲的一个二项分布虽然从上述公式可以集结此问题，但在N很大时

计算不易，故棣莫弗想找到一个更方便于计算的近似公式

棣莫弗后来虽然做了一些计算并得到了一些近似结果，但是还不够随后有人讲棣莫弗的研究工作告诉给了斯特林，于是便直接催生了茬数学分析中必学的一个重要公式斯特林公式(斯特林公式最初发表于1730年，而后棣莫弗改进了斯特林公式)：

1733年棣莫弗有了一个决定性意义嘚举动，他证明了当N趋于去穷时有下列式子成立：

不要小瞧了这个公式。当它与上面给出的这个公式

根据上面式子近似地以定积分代替和，得到下式：

不知道当读者读到这里的时候，是否从上式看出了些许端倪此式可隐藏了一个我们习以为常却极其重要的概念。OK戓许其形式不够明朗，借用 rickjin的式子转化下：

没错 正态分布的概率与数列密度(函数)在上述的积分公式中出现了！于此，我们得到了一个结論原来二项分布的极限分布便是正态分布。与此同时还引出了统计学史上占据重要地位的中心极限定理。

「棣莫弗-拉普拉斯定理」：設随机变量Xn(n=1,2...)服从参数为p的二项分布则对任意的x，恒有下式成立：

我们便称此定理为中心极限定理而且还透露着一个极为重要的信息：1730姩，棣莫弗用二项分布逼近竟然得到了正太密度函数并首次提出了中心极限定理。

最终1780年，拉普拉斯建立了中心极限定理的一般形式( 吔就是上文3.2节中所讲的中心极限定理的一般形式)：

棣莫弗的工作对数理统计学有着很大的影响棣莫弗40年之后，拉普拉斯建立中心极限定悝的一般形式20世纪30年代最终完成独立和中心极限定理最一般的形式，在中心极限定理的基础之上统计学家们发现当样本量趋于无穷时，一系列重要统计量的极限分布如二项分布都有正态分布的形式，也就是说这也构成了数理统计学中大样本方法的基础。

此外从上媔的棣莫弗-拉普拉斯定理，你或许还没有看出什么蹊跷但我们可以这样理解：若取c充分大，则对足够大的N事件

|的概率与数列可任意接菦于1，由于

>0 有下式成立：

而这就是上文中所讲的伯努利大数定律( 注：上面讨论的是对称情况，即p=1/2的情况)

我之所以不厌其烦的要论述这個棣莫弗的二项概率与数列逼近的相关过程，是想说明一点：各个定理.公式彼此之前是有着紧密联系的要善于发现其中的各种联系。

同時还有一个问题，相信读者已经意识到了如本文第一节内容所述，咱们的概率与数列论与数理统计教材讲正态分布的时候一上来便給出正态分布的概率与数列密度(函数)，然后告诉我们说符合这个概率与数列密度(函数)的称为正态分布，紧接着阐述和证明相关性质最後说了一句：”在自然现象和社会现象中，大量随机变量都服从或近似服从正态分布如人的身高，某零件长度的误差海洋波浪的高度“，然后呢然后什么也没说了。连正态分布中最基本的两个参数为

的的意义都不告诉我们(

位置参数即为数学期望尺度参数为即为方差，换句话说有了期望和方差，即可确定正态分布

随后教材上便开始讲数学期望，方差等概念最后才讲到中心极限定理。或许在读者閱读本文之后这些定理的先后发明顺序才得以知晓。殊不知：正态分布的概率与数列密度(函数)形式首次发现于棣莫弗-拉普拉斯中心极限萣理中即先有中心极限定理，而后才有正态分布( 通过阅读下文4.6节你将知道高斯引入正太误差理论，才成就了正态分布反过来，拉普拉斯在高斯的工作之上用中心极限定理论证了正态分布)如 rickjin所言：’‘学家研究数学问题的进程很少是按照我们数学课本的安排顺序推进嘚，现代的数学课本都是按照数学内在的逻辑进行组织编排的虽然逻辑结构上严谨优美，却把数学问题研究的历史痕迹抹得一干二净DNA雙螺旋结构的发现者之一James Waston在他的名著《DNA双螺旋》序言中说：‘科学的发现很少会像门外汉所想象的一样，按照直接了当合乎逻辑的方式进荇的’ ’‘

前面，介绍了惠更斯、伯努利和棣莫弗等人的重大成果无疑在这些重要发明中，二项分布都占据着举重轻重的地位这在早期的概率与数列统计史当中，也是唯一一个研究程度很深的分布但除了伯努利的大数定律及棣莫弗的二项逼近的研究成果外，在18世纪Φ叶为了解决二项分布概率与数列的估计问题，出现了一个影响极为广泛的贝叶斯方法贝叶斯方法经过长足的发展，如今已经成为数悝统计学中的两个主要学派之一：贝叶斯学派牢牢占据数理统计学领域的半壁江山。

据数理统计学简史一书托马斯.贝叶斯，此人在18世紀上半叶的欧洲学术界并不算得上很知名，在提出贝叶斯定理之前也未发表过片纸只字的科学论著，套用当今的话来说他便是活生苼一个民间学术屌丝。

未发表过任何科学著作但一个人如果热爱研究，喜好学术的话必找人交流。于此诸多重大发明定理都出现在學者之间的一些书信交流中。奇怪的是贝叶斯这方面的书信材料也不多。或许读者读到此处已知我意，会说这一切在他提出贝叶斯定悝之后有了改变但读者朋友只猜对了一半。

贝叶斯的确发表了一篇题为 An essay towards solving a problem in the doctrine of chances(机遇理论中一个问题的解)的遗作此文在他发表后很长一段时间起，在学术界没有引起什么反响直到20世纪以来，突然受到人们的重视此文也因此成为贝叶斯学派最初的奠基石(又一个梵高式的人物)。

囿人说贝叶斯发表此文的动机是为了解决伯努利和棣莫弗未能解决的二项分布概率与数列P的“逆概率与数列”问题所谓逆概率与数列，顧名思义就是求概率与数列问题的逆问题：已知时间的概率与数列为P，可由之计算某种观察结果的概率与数列如何；反过来给定了观察结果，问由之可以对概率与数列P作何推断也就是说，正概率与数列是由原因推结果称之为概率与数列论；而逆概率与数列是结果推原因，称之为数理统计

4.5、最小二乘法，数据分析的瑞士军刀

事实上在成百上千的各式各样的攻击方法中，取算术平均恐怕是最广为人知使用也最为广泛的方法因为可能一个小学生都知道使用算术平均来计算自己每天平均花了多少零花钱而以此作为向爸妈讨要零花钱的依据。而我们大多数成年人也经常把“平均说来”挂在嘴边故此节要讲的最小二乘法其实并不高深，它的本质思想即是来源于此算术平均的方法

不太精确的说，一部数理统计学的历史就是从纵横两个方向对算术平均进行不断深入研究的历史，

纵的方面指平均值本身諸如伯努利及其后众多的大数定律，棣莫弗-拉普拉斯中心极限定理高斯的正太误差理论，这些在很大程度上都可以视为对算术平均的研究成果甚至到方差，标准差等概念也是由平均值发展而来；
横的方面中最为典型的就是此最小二乘法

而算术平均也是解释最小二乘法嘚最简单的例子。使误差平方和达到最小以寻求估计值的方法则称为最小二乘估计( 当然，取平方和作为目标函数知识众多可取的方法之┅例如也可以取误差4次方或绝对值和，取平方和是人类千百年实践中被证实行之有效的方法因此被普遍采用)。

何谓最小二乘法实践Φ，常需寻找两变量之间的函数关系比如测定一个刀具的磨损速度，也就是说随着使用刀具的次数越多，刀具本身的厚度会逐渐减少故刀具厚度与使用时间将成线性关系，假设符合f（t）=at + b（t代表时间f(t)代表刀具本身厚度），ab是待确定的常数，那么a、b如何确定呢

最理想的情形就是选取这样的a、b，能使直线y = at + b 所得到的值与实际中测量到的刀具厚度完全符合但实际上这是不可能的，因为误差总是存在难以避免的故因误差的存在，使得理论值与真实值存在偏差为使偏差最小通过偏差的平方和最小确定系数a、b，从而确定两变量之间的函数關系f（t）= at + b

这种通过偏差的平方和为最小的条件来确定常数a、b的方法，即为最小二乘法最小二乘法的一般形式可表述为：

在此，说点后話最小二乘法是与统计学有着密切联系的，因为观测值有随机误差所以它同正态分布一样与误差论有着密切联系( 说实话，最小二乘法試图解决的是误差最小的问题而正态分布则是试图寻找误差分布规律的问题，无论是最小二乘法还是正态分布的研究工作，至始至终嘟围绕着误差进行)

那么，最小二乘法是如何发明的呢据史料记载，最小二乘法最初是由法国数学家勒让德于1805年发明的那勒让德发明咜的动机来源于哪呢？

18世纪中叶包括勒让德、欧拉、拉普拉斯、高斯在内的许多天文学家和数学家都对天文学上诸多问题的研究产生了濃厚的兴趣。比如以下问题：

土星和木星是太阳系中的大行星由于相互吸引对各自的运动轨道产生了影响，许多大数学家包括欧拉和拉普拉斯都在基于长期积累的天文观测数据计算土星和木星的运行轨道。
勒让德承担了一个政府给的重要任务测量通过巴黎的子午线的長度。
海上航行经纬度的定位主要是通过对恒星和月面上的一些定点的观测来确定经纬度。

这些问题都可以用如下数学模型描述：我们想估计的量是β0,?,βp另有若干个可以测量的量x1,?,xp,y，这些量之间有线性关系

如何通过多组观测数据求解出参数β0,?,βp呢欧拉和拉普拉斯采用的都是求解线性方程组的方法。

但是面临的一个问题是有n组观测数据，p+1个变量如果n>p+1，则得到的线性矛盾方程组无法直接求解。所以欧拉和拉普拉斯采用的方法都是通过一定的对数据的观察把n个线性方程分为p+1组，然后把每个组内的方程线性求和后归并为一个方程从而就把n个方程的方程组化为p+1个方程的方程组，进一步解方程求解参数这些方法初看有一些道理，但是都过于经验化无法形成统一處理这一类问题的一个通用解决框架。
以上求解线性矛盾方程的问题在现在的本科生看来都不困难就是统计学中的线性回归问题，直接鼡最小二乘法就解决了可是即便如欧拉、拉普拉斯这些数学大牛，当时也未能对这些问题提出有效的解决方案可见在科学研究中，要想在观念上有所突破并不容易有效的最小二乘法是勒让德在1805年发表的，基本思想就是认为 测量中有误差所以所有方程的累积误差为：

仩面我们已经看到，是勒让德最初发明的最小二乘法那为何历史上人们常常把最小二乘法的发明与高斯的名字联系起来呢？( 注：勒让德時期的最小二乘法还只是作为一个处理测量数据的代数方法来讨论的实际上与统计学并无多大关联，只有建立在了测量误差分布的概率與数列理论之后这个方法才足以成为一个统计学方法。尽管拉普拉斯用他的中心极限定理定理也可以推导出最小二乘法但无论是之前嘚棣莫弗，还是当时的勒让德还是拉普拉斯，此时他们这些研究成果都还只是一个数学表达式而非概率与数列分布)

因为1829年，高斯提供叻最小二乘法的优化效果强于其他方法的证明即为高斯-马尔可夫定理。也就是说勒让德最初提出了最小二乘法而却是高斯让最小二乘法得以巩固而影响至今。且高斯对最小二乘法的最大贡献在于他是建立在正太误差分布的理论基础之上的( 后续更是导出了误差服从正态分咘的结论)最后，1837年统计学家们正式确立误差服从正态分布，自此人们方才真正确信：观测值与理论值的误差服从正态分布。

4.6、误差汾布曲线的建立

十八世纪天文学的发展积累了大量的天文学数据需要分析计算，应该如何来处理数据中的观测误差成为一个很棘手的问題我们在数据处理中经常使用平均的常识性法则，千百年来的数据使用经验说明算术平均能够消除误差提高精度。平均有如此的魅力道理何在，之前没有人做过理论上的证明算术平均的合理性问题在天文学的数据分析工作中被提出来讨论：测量中的随机误差应该服從怎样的概率与数列分布？算术平均的优良性和误差的分布有怎样的密切联系

伽利略在他著名的《关于两个主要世界系统的对话》中，對误差的分布做过一些定性的描述主要包括：

误差是对称分布的分布在0的两侧；
大的误差出现频率低，小的误差出现频率高

用数学的語言描述，也就是说误差分布函数f(x)关于0对称分布概率与数列密度随|x|增加而减小，这两个定性的描述都很符合常识

4.6.1、辛普森的工作

许多忝文学家和数学家开始了寻找误差分布曲线的尝试。托马斯?辛普森(Thomas Simpson,)先走出了有意义的一步

Simpson的误差态分布曲线

取小值的机会更大。辛普森的这个工作很粗糙但是这是第一次在一个特定情况下，从概率与数列论的角度严格证明了算术平均的优良性

4.6.2、拉普拉斯的工作

在年間，拉普拉斯也加入到了寻找误差分布函数的队伍中与辛普森不同，拉普拉斯不是先假定一种误差分后去设法证明平均值的优良性而昰直接射向应该去怎么的分布为误差分布，以及在确定了误差分布之后如何根据观测值

，C>0且为常数由于

。故当x<0结合概率与数列密度嘚性质之一(

由此，最终1772年拉普拉斯求得的分布密度函数为：

这个概率与数列密度函数现在被称为拉普拉斯分布：

，拉普拉斯开始考虑如哬基于测量的结果去估计未知参数的值即用什么方法通过观测值

呢？要知道咱们现今所熟知的所谓点估计方法、矩估计方法包括所谓嘚极大似然估计法之类的，当时可是都还没有发明

拉普拉斯可以算是一个贝叶斯主义者，他的参数估计的原则和现代贝叶斯方法非常相姒：假设先验分布是均匀的计算出参数的后验分布后，取后验分布的中值点即1/2分位点，作为参数估计值可是基于这个误差分布函数莋了一些计算之后，拉普拉斯发现计算过于复杂最终没能给出什么有用的结果，故拉普拉斯最终还是没能搞定误差分布的问题

至此，整个18世纪可以说，寻找误差分布的问题依旧进展甚微，下面便将轮到高斯出场了，历史总是出人意料高斯以及其简单的手法，给叻这个误差分布的问题一个圆满的解决其结果也就成为了数理统计发展史上的一块重要的里程碑。

4.6.3、高斯导出误差正态分布

事实上棣莫弗早在1730年~1733年间便已从二项分布逼近的途径得到了正态密度函数的形式，到了1780年后拉普拉斯也推出了中心极限定理的一般形式，但无论昰棣莫弗还是拉普拉斯，此时他们这些研究成果都还只是一个数学表达式而非概率与数列分布也就是压根就还没往误差概率与数列分咘的角度上去思索，而只有到了1809年高斯提出“ 正太误差”的理论之后，它正太理论才得以“概率与数列分布“的身份进入科学殿堂从洏引起人们的重视。

追本溯源正态分布理论这条大河的源头归根结底是测量误差理论。那高斯到底在正态分布的确立做了哪些贡献呢請看下文。

Piazzi发现了一颗从未见过的光度8等的星在移动这颗现在被称作谷神星（Ceres）的小行星在夜空中出现6个星期，扫过八度角后在就在太陽的光芒下没了踪影无法观测。而留下的观测数据有限难以计算出他的轨道，天文学家也因此无法确定这颗新星是彗星还是行星这個问题很快成了学术界关注的焦点。高斯当时已经是很有名望的年轻数学家了这个问题也引起了他的兴趣。高斯一个小时之内就计算出叻行星的轨道并预言了它在夜空中出现的时间和位置。1801年12月31日夜德国天文爱好者奥伯斯(Heinrich Olbers)在高斯预言的时间里，用望远镜对准了这片天涳果然不出所料，谷神星出现了！

高斯为此名声大震但是高斯当时拒绝透露计算轨道的方法直到1809年高斯系统地完善了相关的数学理论後，才将他的方法公布于众而其中使用的数据分析方法，就是以正态误差分布为基础的最小二乘法那高斯是如何推导出误差分布为正態分布的呢？请看下文

为n次独立测量值，每次测量的误差为

假设误差ei的密度函数为f(e)，则测量值的联合概率与数列为n个误差的联合概率與数列记为

到此为止，高斯的作法实际上与拉普拉斯相同但在继续往下进行时，高斯提出了两个创新的想法

便是：高斯并没有像前媔的拉普拉斯那样采用贝叶斯的推理方式，而是直接取L(θ)达到最小值的

的估计值这也恰恰是他解决此问题采用的创新方法，即

现在我们紦L(θ)称为样本的似然函数而得到的估计值θ?称为极大似然估计。高斯首次给出了极大似然的思想，这个思想后来被统计学家R.A.Fisher系统地发展成为参数估计中的极大似然估计理论。
高斯的 第二点创新的想法是：他把整个问题的思考模式倒过来既然千百年来大家都认为算术平均是一个好的估计，那么就直接先承认算术平均就是极大似然估计(换言之极大似然估计导出的就应该是算术平均)，所以高斯猜测：

然后高斯再去寻找相应的误差密度函数

以迎合这一点即寻找这样的概率与数列分布函数

,使得极大似然估计正好是算术平均

。通过应用数学技巧求解这个函数f,高斯证明了所有的概率与数列密度函数中唯一满足这个性质的就是（记为

而这恰巧是我们所熟知的正态分布的密度函数

，就这样误差的正态分布就被高斯给推导出来了！

但，高斯是如何证明的呢也就是说，高斯是如何一下子就把上面(11)式所述的概率与数列密度函数给找出来的呢如下图所示（摘自数理统计学简史第127页注2，图中开头所说的高斯的第2原则就是上面所讲的高斯的第二点创新的想法而下图最后所说的(11)式就是上面推导出来的概率与数列密度函数）：

进一步，高斯基于这个误差分布函数对最小二乘法给出了一个很漂亮的解释对于最小二乘公式中涉及的每个误差ei,有

，则结合高斯的第一个创新方法：极大似然估计及上述的概率与数列密度(e1,?,en)的联合概率与数列分布为

取最小值，这正好就是最小二乘法的要求

高斯的这项工作对后世的影响极大，它使正态分布同时有了”高斯分布“的洺称不止如此，后世甚至也把最小二乘法的发明权也归功于他由于他的这一系列突出贡献，人们采取了各种形式纪念他如现今德国10馬克的钞票上便印有这高斯头像及正态分布的密度曲线

，借此表明在高斯的一切科学贡献中尤以此”正太分布“的确立对人类文明的进程影响最大。

如你所见相比于勒让德1805给出的最小二乘法描述，高斯基于误差正态分布的最小二乘理论显然更高一筹高斯的工作中既提絀了极大似然估计的思想，又解决了误差的概率与数列密度分布的问题由此我们可以对误差大小的影响进行统计度量了。
但事情就完了麼没有。高斯设定了准则“最大似然估计应该导出优良的算术平均”并导出了误差服从正态分布，推导的形式上非常简洁优美但是高斯给的准则在逻辑上并不足以让人完全信服，因为算术平均的优良性当时更多的是一个经验直觉缺乏严格的理论支持。高斯的推导存茬循环论证的味道：因为算术平均是优良的推出误差必须服从正态分布；反过来，又基于正态分布推导出最小二乘和算术平均来说明朂小二乘法和算术平均的优良性，故其中无论正反论点都必须借助另一方论点作为其出发点可是算术平均到并没有自行成立的理由。

也僦是上面说到的高斯的 第二点创新的想法“ 他把整个问题的思考模式倒过来：既然千百年来大家都认为算术平均是一个好的估计那么就矗接先承认算术平均就是极大似然估计(换言之，极大似然估计导出的就应该是算术平均)”存在着隐患而这一隐患的消除又还得靠咱们的咾朋友拉普拉斯解决了。

受高斯启发拉普拉斯将误差的正态分布理论和中心极限定理联系起来，提出了元误差解释他指出如果误差可鉯看成许多微小量的叠加，则根据他的中心极限定理随机误差理应当有高斯分布( 换言之，按中心极限定理来说正态分布是由大量的但烸一个作用较小的因素的作用导致而成)。而20世纪中心极限定理的进一步发展也给这个解释提供了更多的理论支持。

至此误差分布曲线嘚寻找尘埃落定，正态分布在误差分析中确立了自己的地位在整个正态分布被发现与应用的历史中，棣莫弗、拉普拉斯、高斯各有贡献拉普拉斯从中心极限定理的角度解释它，高斯把它应用在误差分析中殊途同归。不过因为高斯在数学家中的名气实在是太大正态分咘的桂冠还是更多的被戴在了高斯的脑门上，目前数学界通行的用语是正态分布、高斯分布两者并用。

4.6.4、正态分布的时间简史

至此正態分布从首次出现到最终确立，其时间简史为：

1705年伯努力的著作推测术问世，提出伯努利大数定律；
年棣莫弗从二项分布逼近得到正態密度函数，首次提出中心极限定理；
1780年拉普拉斯建立中心极限定理的一般形成；
1805年，勒让德发明最小二乘法；
1809年高斯引入正态误差悝论，不但补充了最小二乘法而且首次导出正态分布；
1811年，拉普拉斯利用中心极限定理论证正态分布；
1837年海根提出元误差学说，自此の后逐步正式确立误差服从正态分布。

如上所见是先有的中心极限定理，而后才有的正态分布( 当然最后拉普拉斯用中心极限定理论證了正态分布)，能了解这些历史想想，都觉得是一件无比激动的事情所以，我们切勿以为概率与数列论与数理统计的教材上是先讲的囸态分布而后才讲的中心极限定理，而颠倒原有历史的发明演进过程

第五节、论道正态，正态分布的4大数学推导

如本blog内之前所说：凡昰涉及到要证明的东西.理论便一般不是怎么好惹的东西。绝大部分时候看懂一个东西不难，但证明一个东西则需要点数学功底进一步，证明一个东西也不是特别难难的是从零开始发明创造这个东西的时候，则更显艰难( 因为任何时代大部分人的研究所得都不过是基於前人的研究成果，前人所做的是开创性工作而这往往是最艰难最有价值的，他们被称为真正的先驱牛顿也曾说过，他不过是站在巨囚的肩上你，我则更是如此)

上述第4节已经介绍了正态分布的历史由来，但尚未涉及数学推导或证明下面，参考概率与数列论沉思录引用“正态分布的前世今生”等相关内容，介绍推导正太分布的4种方法曲径通幽，4条小径殊途同归，进一步领略正态分布的美妙

苐一条小径是高斯找到的，高斯以如下准则作为小径的出发点

误差分布导出的极大似然估计 = 算术平均值

次独立测量值每次测量的误差为

，则测量值的联合概率与数列为n个误差的联合概率与数列记为

由于高斯假设极大似然估计的解就是算术平均

，把解带入上式可以得到

洏满足上式的唯一的连续函数就是

，从而进一步可以求解出

正规化一下就得到正态分布密度函数

第二条小径是天文学家John Hershcel和物理学家麦克斯韋(Maxwell)发现的1850年，天文学家Herschel在对星星的位置进行测量的时候需要考虑二维的误差分布，为了推导这个误差的概率与数列密度分布f(x,y)Herschel设置了兩个准则：

x轴和y轴的误差是相互独立的，即误差的概率与数列在正交的方向上相互独立；
误差的概率与数列分布在空间上具有旋转对称性即误差的概率与数列分布和角度没有关系。

这两个准则对于Herschel考虑的实际测量问题看起来都很合理由准则1，可以得到

把这个函数转换为極坐标在极坐标下的概率与数列密度函数设为

具有旋转对称性，也就是应该和

综合以上，我们可以得到

就是标准二维正态分布函数

1860姩，我们伟大的物理学家麦克斯韦在考虑气体分子的运动速度分布的时候在三维空间中基于类似的准则推导出了气体分子运动的分布是囸态分布

。这就是著名的麦克斯韦分子速率分布定律大家还记得我们在普通物理中学过的麦克斯韦-波尔兹曼气体速率分布定律吗？

所以這个分布其实是三个正态分布的乘积你的物理老师是否告诉过你其实这个分布就是三维正态分布？反正我是一直不知道直到今年才明皛。

Herschel-Maxwell推导的神妙之处在于没有利用任何概率与数列论的知识，只是基于空间几何的不变性就推导出了正态分布。美国诺贝尔物理学奖嘚主费曼(Feymann)每次看到一个有

的数学公式的时候就会问：圆在哪里？这个推导中使用到了

也就是告诉我们正态分布密度公式中有个

，其根源来在于二维正态分布中的等高线恰好是个圆

第三条道是一位电气工程师，Vernon D. Landon 给出的1941年，Landon 研究通信电路中的噪声电压通过分析经验数據他发现噪声电压的分布模式很相似，不同的是分布的层级而这个层级可以使用方差来刻画。因此他推理认为噪声电压的分布函数形式昰现在假设有一个相对于而言很微小的误差扰动，且的分布函数是 ,那么新的噪声电压是 Landon提出了如下的准则

随机噪声具有稳定的分布模式
累加一个微小的随机噪声，不改变其稳定的分布模式只改变分布的层级(用方差度量)

应该长成啥样。按照两个随机变量和的分布的计算方式

的分布函数的卷积，即有

在x′处做泰勒级数展开(为了方便展开后把自变量由x′替换为x)，上式可以展开为

,我们认为他取正值或者负徝是对称的所以

,所以按照Landon的分布函数模式不变的假设，新的噪声电压的分布函数应该为把

处做泰勒级数展开，得到

又一次我们推导絀了正态分布！

概率与数列论沉思录作者E.T.Jaynes对于这个推导的评价很高，认为Landon的推导本质上给出了自然界的噪音形成的过程他指出这个推导基本上就是中心极限定理的增量式版本，相比于中心极限定理来说是一次性累加所有的因素，Landon的推导是每次在原有的分布上去累加一个微小的扰动而在这个推导中，我们看到正态分布具有相当好的稳定性；只要数据中正态的模式已经形成，他就容易继续保持正态分布无论外部累加的随机噪声

是什么分布，正态分布就像一个黑洞一样把这个累加噪声吃掉

5.4、正态分布和最大熵

还有一条小径是基于最大熵原理的，物理学家E.T.Jaynes在最大熵原理上有非常重要的贡献他在《概率与数列论沉思录》里面对这个方法有描述和证明，没有提到发现者鈈过难以确认这条道的发现者是否是Jaynes本人。

熵在物理学中由来已久信息论的创始人香农(Claude Elwood Shannon)把这个概念引入了信息论，读者中很多人可能都知道目前机器学习中有一个非常好用的分类算法叫最大熵分类器要想把熵和最大熵的来龙去脉说清楚可不容易，不过这条道的风景是相當独特的E.T.Jaynes对这条道也是偏爱有加。

(给定均值和方差这个条件也可以描述为给定一阶原点矩和二阶原点矩，这两个条件是等价的)则在所囿满足这两个限制的概率与数列分布中熵最大的概率与数列分布

这个结论的推导数学上稍微有点复杂，不过如果已经猜到了给定限制条件下最大熵的分布是正态分布要证明这个猜测却是很简单的，证明的思路如下

读者注意：经好友白石指正，上述等式右边的第一项p(x)の后，1/p(x) 之前少画了个log符号

熟悉信息论的读者都知道这个式子是信息论中的很著名的结论：一个概率与数列分布的熵总是小于相对熵。上式要取等号只有取

的均值方差有如下限制:

的时候上式可以取到等号，这就证明了结论

E.T.Jaynes显然对正态分布具有这样的性质极为赞赏，因为這从信息论的角度证明了正态分布的优良性而我们可以看到，正态分布熵的大小取决于方差的大小。这也容易理解因为正态分布的均值和密度函数的形状无关，正态分布的形状是由其方差决定的而熵的大小反应概率与数列分布中的信息量，显然和密度函数的形状相關

OK，虽然上文已经花了如此多的篇幅讲了那么多的概念然事实上，在概率与数列论与数理统计中上文所讲的概念尚不到1/3，限于篇幅还有诸多概念没有阐述完毕(这些知识将放于数据挖掘中所需的概率与数列论与数理统计知识、下中介绍)，如下图所示：

So如上，之前微博上说要写的概率与数列论与数理统计的科普blog、上部分已经初步整理完成(当然后续一个星期之内会继续修补完善)。从前天晚上开始连續写了两天，花了半身力气文章若有任何问题，欢迎指正尤能给出批评修订意见，则倍感荣幸谢谢。.同时但所有以上这些绝大部汾都只是概率与数列论与数理统计的基础知识，因此本文只能作个科普之效若要深入学习，还是烦请读者朋友们阅读相关书籍或加以動手实践。

本文之后待写的几篇文章罗列如下，具体完成时间全部待定：

机器学习中相关的降维方法如PCA/LDA等等；
神经网络入门学习导论；
程序员编程艺术第二十八章；
数据挖掘所需的概率与数列论与数理统计知识、下；

之后，还将写一系列机器学习的相关笔记此外，这昰本文的微博地址：