统计中的 bootstrap统计图插件 方法是指什么

统计中的 Bootstrap 方法是指什么?与 Monte Carlo 方法有什么联系与区别?
【JackDiamond的回答(73票)】:
风马牛不相及,举个简单的例子(关于一个分布的平均值)来帮你理解bootstrap和Monte Carlo,
比如现在有一个分布F...
1. Bootstrap: 如果我无法知道F的确切分布,手上仅有一组从F中iid抽样的样本(X_1, ..., X_n),我想检验“F的均值是否为0”。看起来这个不可能,因为我只有一个ar{X}的点估计,而并不知道ar{X}的分布。Bootstrap的魔术是现在我把(X_1, ..., X_n)这个样本当做总体,从中(有放回地)重新抽样,重抽样样本大小仍为n,那么每一次重抽样就可以得到一个“样本均值”,不断地重抽样我就得到了一个ar{X}的“分布”。这样接下来我就可以构造confidence interval并做检验了。
虽然实践中bootstrap的重抽样步骤都是用Monte Carlo方法来模拟重抽样样本统计量的分布,但是严格地说这个分布原则上可以精确计算。而如果待估统计量比较简单,bootstrap的结果有时甚至可以直接用(X_1, ..., X_n)的某种统计量表示出来,从而并不需要真正地“重抽样”。当然实际应用中绝大多数时候重抽样分布的解析表达式都会太复杂,所以用模拟代替计算。
(关于bootstrap的更多讨论见此答案下的评论,特别是Lee Sam提的问题)
2. Monte Carlo: 如果我知道F的确切分布,现在想计算mean(F),但是F的形式太复杂(或者我这人太懒);另一方面我又知道如何从F中抽样,于是就抽一个样本出来,拿样本均值充数。
一般来说bootstrap干的事大都跟这个例子中干的事差不多,而Monte Carlo的应用要广泛和多元化得多了。
所以两者连“区别”都谈不上,就是两码事。
【赵卿元的回答(20票)】:
Monte Carlo是一个更基础的想法。在很多数学、物理或者工程问题种有很多无法写出closed form的表达式,为了能得到数值上的一个解,需要通过随机采样的方法去估计。
Bootstrap是重新改变的一个想法。统计推断的主体总是一个的随机变量分布。在这个分布很复杂无法假设合理的参数模型时,bootstrap提供了一种非参数的推断方法,依靠的是对观测到的样本的重新抽样(resampling),其实是用empirical distribution去近似真正的distribution。
这两种方法从目的到用法都完全不同,有联系的话就是都涉及到计算机抽样。
==============================================================
觉得“bootstrap是对empirical distribution的monte carlo”的说法更合理,我保留意见。我认为monte carlo和sampling还是不能互为替换的。我认为Monte Carlo和Bootstrap更多的是两种思想,都是基于random sampling去近似某一目标。Monte Carlo的目标一般是一个难以计算的积分,bootstrap的目标一般是统计推断。
【马拉轰的回答(6票)】:
这个问题又该邀请 了,我先抛砖引玉吧。
Bootstrap的中文翻译是“自助法”,由后来成为斯坦福统计系主任的Bradley Efron在70年代提出。中心思想是通过从样本中重抽样(resample是这么翻的么?),构建某个估计的置信区间。抽象的说,通过样本得到的估计并没有榨干样本中的信息,bootstrap利用重抽样,把剩余价值发挥在了构建置信区间上。
Bootstrap因为其通用性的和简便性而被广泛使用(只要有样本就可以resampling,就可以bootsrap,任何分布都能做,只是消耗一些计算资源)。特别是在各种统计(机器)学习算法大大复杂了“估计”,bootstrap的实用性太明显了。
至于Bootstrap和Monte Carlo有什么联系与区别,这两个本身不是对应的概念,怎么个区别法呢?Bootstrap在重抽样的时候,一般采用sample with replacement而不是穷尽所有组合,也可以认为用到了Monte Carlo吧。
详情还是看Efron&Tibshirani那本An Intro to Bootstrap,没有更好的参考了。
【EdisonChen的回答(6票)】:
来简单讲讲Bootstrap,(Monte Carlo法在中文维基上有了还不错的解答,题主可以参考,)。
Bootstrap,即“拔靴法”(不知道翻得对不对),是用小样本来估计大样本的统计方法。举个栗子来说明好了,(我不会贴一个举栗子的图片的放心!)
你要统计你们小区里男女比例,可是你全部知道整个小区的人分别是男还是女很麻烦对吧。
于是你搬了个板凳坐在小区门口,花了十五分钟去数,准备了200张小纸条,有一个男的走过去,你就拿出一个小纸条写上“M”,有一个女的过去你就写一个“S”。
最后你回家以后把200张纸条放在茶几上,随机拿出其中的100张,看看几个M,几个S,你一定觉得这并不能代表整个小区对不对。
然后你把这些放回到200张纸条里,再随即抽100张,再做一次统计。
如此反复10次或者更多次,大约就能代表你们整个小区的男女比例了。
你还是觉得不准?没办法,就是因为不能知道准确的样本,所以拿Bootstrap来做模拟而已。
【知乎用户的回答(3票)】:
bootstrap是对empirical distribution的monte carlo
【梁世超的回答(2票)】:
parametric vs non-parametric
Monte Carlo 对distribution有 assumption 两者都是在simulate
bootstrap只要有sample就是可以simulate
具体的话还是读书吧 不同model simulate的方法都各不一样
【DeniseFan的回答(1票)】:
Bootstrap是我们在对一个样本未知的情况下,只能抽取其中一部分数据集,然后对其进行n的反复抽样,来对样本进行点估计什么的。
而Mote Carlo则是从simulation的角度出发,当我们对一个distribution已知时,通过一些参数,如均值,方差来对整个distribution进行估计。
【JinguoGao的回答(0票)】:
Bootstrap是对现有的数据,不断再随机取小的样本,对每个小样处理数据,得到estimator.从而来了解estimator 的variation or distribution.
Monte Carlo 是用一个algorithm, 依次输出数组,然后对这些数组处理,得到想要的结果。数组之间的关系由algorithm来决定。Monte Carlo 的概念更广泛。Bootstrap 其实是一种Monte Carlo.
通常Monte Carlo 用来求最优解,平衡值等。
--- Richard Sperling && wrote:
& I would appreciate it if someone could clarify the distinction
& between Monte Carlo simulation and the parametric bootstrap. If I'm
& not mistaken, one use of Monte Carlo simulation is to assess the
& sampling distribution of an estimator. In contrast, the parametric
& bootstrap is used to estimate the variance of a statistic and its
& sampling distribution.
& But don't both the Monte Carlo method and parametric bootstrap
& require specifying a data generating process? It is at this point
& where I'm a little confused and fail to see the distinction between
& the two methods.
& Also note that I am not talking about the non-parametric bootstrap.
In principle both the parametric and the non-parametric bootstrap are
special cases of Monte Carlo simulations used for a very specific
purpose: estimate some characteristics of the sampling distribution.
Remember that the sampling distribution of statistic could be obtained
if we could draw many samples from the population and compute a
statistic in each sample. The idea behind the bootstrap is that the
sample is an estimate of the population, so an estimate of the sampling
distribution can be obtained by drawing many samples (with replacement)
from the observed sample, compute the statistic in each new sample. In
case of the parametric bootstrap you add some extra restrictions while
sampling from the data, but that does not change the point here.
Monte Carlo simulations are more general: basically it refers to
repeatedly creating random data in some way, do something to that
random data, and collect some results. This strategy could be used to
estimate some quantity, like in the bootstrap, but also to
theoretically investigate some general characteristic of an estimator
which is hard to derive analytically.
In practice it would be pretty safe to presume that whenever someone
speaks of a Monte Carlo simulation they are talking about a theoretical
investigation, e.g. creating random data with no empirical content what
so ever to investigate whether an estimator can recover known
characteristics of this random `data', while the (parametric) bootstrap
refers to an emprical estimation. The fact that the parametric
bootstrap implies a model should not worry you: any empirical estimate
is based on a model.
Hope this helps,
-----------------------------------------
Maarten L. Buis
Department of Social Research Methodology
Vrije Universiteit Amsterdam
Boelelaan 1081
1081 HV Amsterdam
The Netherlands
visiting address:
Buitenveldertselaan 3 (Metropolitan), room Z434
-----------------------------------------
__________________________________________________________
Sent from Yahoo! Mail.
A Smarter Email
* For searches and help try:
【知乎用户的回答(0票)】:
都是统计模拟方法
【TJZhou的回答(0票)】:
无法完全认同高票回答。Monte Carlo确实是一个更广泛的想法,而bootstrap过程中确实是用到了Monte Carlo的。我比较赞同的想法“bootstrap是对empirical distribution的monte carlo” 首先看bootstrap的wiki定义
In ,bootstrapping can refer to any test or metric that relies on . 它的定义中就包含了“需要重抽样”。高票答案这段话很对:
虽然实践中bootstrap的重抽样步骤都是用Monte Carlo方法来模拟重抽样样本统计量的分布,但是严格地说这个分布原则上可以精确计算。而如果待估统计量比较简单,bootstrap的结果有时甚至可以直接用(X_1, ..., X_n)的某种统计量表示出来,从而并不需要真正地“重抽样”。当然实际应用中绝大多数时候重抽样分布的解析表达式都会太复杂,所以用模拟代替计算。 我们需要估计一个统计量,统计量是样本的函数。而关于样本,我们能利用的信息只有样本的empirical distribution。所以当然我们的代估计值可以用empirical distribution表示(本来应该用真实分布表示,但只能用empirical distribution近似)。但是绝大多数时候解析表达式太复杂,所以要用模拟代替计算,而bootstrap肯定是包含这个模拟过程的。
高票答案好像是认为把估计值的表达式写出来就算bootstrap了,而和Monte Carlo没关系,这是不对的。如果这样理解,那么贝叶斯的后验估计也应该和Monte Carlo完全没关系了。按这样的思路,贝叶斯就是拿prior和likelihood一乘再一标准化就行了,反正标准化常数也是积分能积出来的,只是有时候很难显式积出来。然后得到后验,就能解析地求出所有待估计值了,虽然大部分情况后验是不知道什么的乱七八糟一堆。MCMC (Markov Chain Monte Carlo) 从后验抽样是可以省去的。但是这样的想法肯定不对。
-------------------------------------------------
下面基于贝叶斯派的观点来看看Bootstrap。如果大家同意贝叶斯和 Monte Carlo 有紧密联系,那么bootstrap 也应该和 Monte Carlo 有紧密联系。
假设我们有独立同分布的样本
,样本的分布形式完全不知道,假设它们都是从分布
里抽取出来的,
按贝叶斯派的观点,应该给未知的
赋一个先验。
是一个分布,所以常用的先验就是分布的分布:Dirichlet Process
那么后验就是
时,此后验趋于empirical distribution。要估计某统计量,此统计量是
的函数,不妨记为
。我们可以通过从
的后验抽样来估计
注意这个过程就是 Monte Carlo。而此方法和bootstrap的联系就在于,从
的后验中抽得的样本
,其形式就是一次bootstrap得到的resample样本的empirical distribution。我们可以通过从
的后验中尽可能多地抽样来使估计准确,就像我们在bootstrap中可以尽可能多地resample来使估计准确。从后验中抽样,或是resample(从empirical distribution 抽样),就是Monte Carlo method。
【陈无左的回答(0票)】:
bootstrap可以看作非参Monte Carlo
再次重申非参不是没有参数,非参是无穷维参数空间,是无法想到合适参数模型时的默认模式。
bootstrap看作对样本经验分布作随机数生成,产生模拟样本。
Monte carlo的解释是依赖随机数生成而产生新样本对其进行模拟。bootstrap完全符合这个定义。
&&&&&本文固定链接:
【上一篇】
【下一篇】
您可能还会对这些文章感兴趣!
最新日志热评日志随机日志

我要回帖

更多关于 bootstrap 统计图 的文章

 

随机推荐