假设检验中的两类错误应注意的问题是什么

当前位置: &
求翻译:本章主要讲述假设检验思想概述,检验的实际意义及两类错误(检验结果的实际意义,检验中的两类错误,样本容量确定问题)等内容。是什么意思?
本章主要讲述假设检验思想概述,检验的实际意义及两类错误(检验结果的实际意义,检验中的两类错误,样本容量确定问题)等内容。
问题补充:
This chapter focuses on the assumptions to test them an overview of the actual significance of the test and two types of error (the actual significance of the test results, two types of errors in the test, the sample size to determine the problem), etc..
This chapter focuses on hypothesis testing and inspection, and an overview of the actual meaning and two types of errors (the inspection results of the test, the actual meaning of the two types of errors, determining sample size, and so on.
This chapter main narration supposition examination thought outline, examination practical significance and two kind of mistakes (examination result practical significance, in examination two kind of mistakes, sample capacity determination question) and so on contents.
This chapter focuses on thinking of hypothesis testing, and testing the significance of the two types of error (testing the significance of the results, two kinds of errors in testing, sample size determination), and more.
正在翻译,请等待...
我来回答:
参考资料:
* 验证码:
登录后回答可以获得积分奖励,并可以查看和管理所有的回答。 |
我要翻译和提问
请输入您需要翻译的文本!您的位置: &
假设检验在体育统计应用中应注意的两个问题 上传我的文档
 下载
 收藏
该文档贡献者很忙,什么也没留下。
 下载此文档
正在努力加载中...
假设检验解决那类问题? 假设检验的基本思想是什么? 参数
下载积分:2500
内容提示:假设检验解决那类问题? 假设检验的基本思想是什么? 参数,参数,基本,问题,假设检验,类错误,基本思想,假设检验的基本,假设检验是,参数假设检验,一类错误,假设检验的,非参数假设检验,假设检验例题,什么是假设检验
文档格式:PPT|
浏览次数:19|
上传日期: 06:14:39|
文档星级:
该用户还上传了这些文档
假设检验解决那类问题? 假设检验的基本思想是什么? 参数
官方公共微信假设检验中,为何要避免第一类错误,而不避免第二类错误?
第一类错误:reject the null when it is true.第二类错误:accept the null when it is false.为何第一类错误是被认为是更加严重的?
按投票排序
谢邀,答案是都要避免,但优先度可以不同。下面一段话和两张图或许可以解答题主的疑问:It's cloudy this morning, and I wonder whether or not I should take my umbrella. There are two possible kinds of error: either I take my umbrella and it doesn't rain, or I don't take it and it does rain. We can't prevent these errors, but we can control them by weighing the relative costs of one type versus the other. Most people would say that carting around an unused umbrella is less of a cost than getting soaked in a downpour, but each individual has to decide. (cf. (cf. . Two Types of Error. Department of Statistics and Actuarial Science, University of Hong Kong.)一些常见的简单/复合假设检验其实都是 (uniformly) most powerful test,因此一旦给定了犯第一类错误的概率,就默认了会最小化犯第二类错误的概率。详见
和 。 更新:看到,一上来就说别人都是错的,感觉很不舒服,所以具体谈一谈我的看法。首先,统计检验的方法有很多,其关键问题是找到一个检验法则(testing rule)使得犯一、二类错误的概率尽可能小。这也就是说,我们需要让功效函数(power function)在被检验参数处于的参数子空间时小,而处于的参数子空间时大。不幸的是,在观测量给定的情况下,这两个目标通常无法同时实现。我们完全可以找一个检验法则使得无论观测到什么数据从来都不被拒绝,此时犯第一类错误的概率为,但这也意味着犯第二类错误的概率为;反过来,我们也可以找一个检验法则使得总是被拒绝,此时犯第二类错误的概率为,但是犯第一类错误的概率为。正因为如此,我们才会使用一些平衡犯一、二类错误概率的方法。一种常见的做法是事先给定显著性水平,接着找一个检验使得功效函数在被检验参数处于的参数子空间时尽可能大。然而这种检验方法本身定义了我们对待和是不平等的,所以并不能作为“某一类错误更有价值”的理由。事实上,我们也可以采用其他的检验方法,如最小化犯一、二类错误概率的线性组合。这样做的优点是随着观测量的增加我们可以迫使犯一、二类错误的概率同时减小。学过贝叶斯统计检验的人对此应该不会陌生。最后, 那两个投硬币的例子仍然没有说明为什么“第一类错误更有价值”。他的第一个例子说的是当犯第一类错误的概率很小时犯了第一类错误会怎么样,他的第二个例子说的是当犯第一类错误的概率很小时犯了第二类错误会怎么样。然而真正应该比较的是当犯第二类错误的概率很小时犯了第二类错误会怎么样。
H0:A是好人。H1:A是坏人。这个时候法官要怎么判?如果A是好人,但是却判成了坏人,这就是犯了第一类错误,拒真错误。但是如果A是坏人,却错判成了好人,这就是犯了第二类错误。这时候法官问陪审团怎么看。法官问了陪审团100个人如下2个问题:问题1:A是不是好人吗?问题2:A是不是坏人吗?有一些陪审员坚定的认为A是好人,另一些人为A是坏人,但是还有一些人说不准,并不知道是不是好人,还有的人觉得A应该不是好人,但是又不能说A是坏人。结果这四个问题的投票结果如下:100个人里面,有97个说,他不是好人,但是还有3个人坚定的说A是好人。这就是P值为0.03。也就是如果他是好人,那么犯错的概率应该是0.03。另一方面,100个人里面却只有45个人认为,他应该是坏人。所以如果A是坏人,那么犯第二类错误的概率应该是0.55。100个人里面,有97个说,他不是好人,但是还有3个人坚定的说A是好人。这就是P值为0.03。也就是如果他是好人,那么犯错的概率应该是0.03。另一方面,100个人里面却只有45个人认为,他应该是坏人。所以如果A是坏人,那么犯第二类错误的概率应该是0.55。这时候法官要如何判决呢?这就要给定一些条件了。如果你说,我宁可错杀三千,绝不放过一个!那你就让第二类错误的概率尽可能小。只要陪审员里面有足够的人认为他是坏人,那么我就判他是坏人。比如这个投票结果中,只有45个人认为是坏人,如果这样就判定A是坏人的话,可能就很武断了。这样判刑带来的代价是很可怕的。政治清明的年代,司法应该尽可能减少冤假错案,即所谓和的原则。也就是,如果没有足够的人说A不是好人,那么司法就应该判定A为好人。因此,全国最高法院给出了这样的标准是:100个人里面只有至少有95个人说他不是好人,那么才能判决A有罪。如果这样,在这个例子中法官就可以判A有罪了。用统计学的语言说,就是,在alpha=0.05的置信水平下,P=0.03,拒绝了原假设。此时犯第二类错误的概率为0.55。但是如果最高法院设定的标准为100个人里面,需要有99个人说A不是好人,才可以判刑,那么法官只能将A无罪释放了。这里并不是说不用避免犯第二类错误,第二类错误也是需要尽量避免的。只不过根据无罪推定原则和疑罪从无原则,我们应该控制的是尽可能别把没罪判为有罪,其次应该控制的才是尽可能减少让有罪的人继续逍遥法外。如果还有另外一组陪审员更明察秋毫,纠结的人很少,判案比较果断的话,那么这组陪审员的判案效果是要好过之前的这组陪审员的。比如他们对法官的两个问题的解释是:那么这组陪审员给出的检验结果就很好。统计学的话就是:犯第一类错误的概率为0.03,犯第二类错误的概率为0.1。这组陪审员于第二组陪审员相比,在犯第一类错误的概率相等的情况下,犯第二类错误的概率更小。这样的陪审员才是好的陪审员啊!(也就是检验2优于检验1)那么这组陪审员给出的检验结果就很好。统计学的话就是:犯第一类错误的概率为0.03,犯第二类错误的概率为0.1。这组陪审员于第二组陪审员相比,在犯第一类错误的概率相等的情况下,犯第二类错误的概率更小。这样的陪审员才是好的陪审员啊!(也就是检验2优于检验1)那么如何寻找这样优秀的陪审员呢?N-P引理告诉我们,如果我们控制犯第一类错误的概率在某个限度内,去寻找犯第二类错误可能最小的检验,在这样的准则下,似然比检验
就是最优的。
不喜欢很学术的讨论,写一点个人的直观理解:一个假设的 “正面” 总是比 “反面” 更narrow:比如H0: beta=0,它的反面就是beta!=0,明显是前面一个比较narrow。又比如test某随机变量X是否服从某分布,这时候 “服从这个分布” 显然比 “不服从这个分布” 要narrow很多。用推理小说举例:eliminate type I error (避免错杀)的逻辑:觉得你有嫌疑 -& 推断如果你是嫌疑人你会有xxx behavior -& 好像你并没有很xxx?(p值也就是概率很小)-& 你的嫌疑解除了 -& 下一个嫌疑人这时候如果要eliminate type II error(避免放过),需要知道 “如果一个人不是嫌疑人会怎样”。这不是很容易知道的事情啊!不是嫌疑人的话他可以是任何样子啊!A whole universe!玩毛线啊!如果用 “不是嫌疑人所以不会做嫌疑人会做的xxx事”,那么这又绕回到利用嫌疑人本身信息了,不属于此处case。这说的就是 “非嫌疑人” 群体太大,没有有价值的信息可以探究。回到数学问题背景就是说。第一类错误可以test出来的,第二类test不出来,因为你信息太不narrow,无法进行推断。
目前正在写关于假设检验的博客,摘抄其中一段。一般情况下,零假设代表无效、无作用或者无影响,而备选假设代表有效、有作用或者有影响。出于谨慎目的,我们会特别在意,实际无效但被我们判断有效的第一类型错误。比如在验证自己设计新算法有效性实验中,如果我们能控制算法实际无效但被我们判断有效的第一类型错误,只要我们做出“新算法有效”的结论,这个结论就一定是坚实的。至于本来新算法有效而被我们认为无效,这样的第二类错误可以狗带了。
NBA, 录像看不清了,都是维持原判, 不能无故改变null assumption.
人之初,性本善。我们在判断的时候基于无罪判断的原则。通常,在设置时便需要设置成如果它的确是对的,不能轻易推翻它的命题,除非收集到了足够的证据。但是如果是乱世,应该用重典,就应该反过来,即应该“宁可错杀千人,不可使一人漏网”。
我先来纠正很多答主的一个错误,再来谈为什么第一种错误更有价值。很多答主都犯了一个严重错误,即拒绝H0的反面不是支持H0,而是无法证明H1。拿这个答案举例,就是第二幅图的护士应该说“没有足够证据证明你是孕妇”,而非“你不是孕妇”。假设检验的方向永远是证明H1,而不能反过来证明H0。假设检验的大体步骤是:1. 明确你要证明的命题。2. 将你要证明的命题放在H1,然后找H0。3. 通过一个比较苛刻的显著性水平(0.05,0.02等)来反驳H0,从而证明H1的成立。这是一个类似反证法的思路。所以,类似目前第一的答案,用来说明第二类错误比第一类错误更严重的方法是错误的。因为我完全的可以把不下雨放在H0的位置。这样第一类错误就变为了太阳天带伞。而这种方法错误的根本就在于无法证明H1这件事并不能用来做决策。有人可能会问,有些通常作为H0的命题,比如均值检验里两个群体均值相等,放在H1该怎么证呢?实际上,相等的另一层含义,就是俩个群体的均值差在一个足够小的区间内,只要证明这一点,我们就可以认为两个均值相等。仔细想想,证明均值不等不也是通过证明两个群体的均值差大于某个值来进行的么?感兴趣的可以去谷歌什么是Equivalence Test。所以回过头来,为什么第一种错误更有价值,关键就在显著性水平的设定上。举个例子,我们想证明投掷一元硬币,得到正反面的概率不相等。H0: 投掷一元硬币,得到正反面的机会相等。H1: 得到正反面的机会不相等。然后,我们的实验设计如下:拿一个一元硬币,投掷一千次,看得到的正面次数是否在n=1000, p=0.5二项分布的98%置信区间内。如果不在,则证明H1,正反面机会不相等。那么这个情境下,第一类错误的表现形式是什么呢?假设,我们得到了545次正面,足以驳斥H0。这时候,通过其他手段,我们得知投掷一元硬币得到正反面的机会实际应该是相等的。显然,我们犯了第一类错误。那么,原因是什么?当然可能只是我们运气太差,恰好进了那2%。但是,是否更有可能是我们实验体系本身有问题?比如,我们用了一枚质量不匀的假币,比如掷硬币的手法偏向投出正面。如果学了贝叶斯统计,很容易算出,是假币的概率有多少。对应的,第二类错误的表现形式是这样的:假设98%置信区间对应的硬币正面数为500+/-40,我们投出了535,无法推出正反面几率不等。但实际上,硬币正反面确实是不等的。这时候,如何去解读第二类错误?可能确实运气不太好,也可能实验体系还不够精确,总之,更合适的推断是2%的显著性水平对目前的实验条件太苛刻了,毕竟差别没有达到2%的显著水平并不意味着没有差别。所以,为什么第一类错误更有价值?因为第一类错误往往揭示了实验体系存在根本性错误,而第二类错误则不能排除误差的可能的,或者说实验体系本身没问题,只是精确度上还有待完善。
楼上写的关于谨慎性的要求并非这个问题的根本原因。其实事情是这样的——在假设检验中,原假设大多是明确的,便于研究的,易于理解和推断的表述。如常见的对于总体均值的双侧检验,原假设H0为: u=0。备择假设H1为u≠0。很显然,原假设如果为真,就能得出均值等于0的结论。这比备择假设精确的多。毕竟备择假设如果为真,u可能大于也可能小于0,大小的程度也无法确定,非常不明确。毕竟,做个数据收集并不容易。如果今天我们为调查“大三学生和大二学生智商是否有显著差异”,抓了几百个人来做调查,花了几万块钱,结果是“u1-u2≠0,有显著差异”,那真是哔了狗了——还得接着做实验来调查怎么个差异法。但是反之,如果结果是两者没有显著差异,那么就很开心了——实验可以盖棺定论了。大家开开心心结题发论文,下班吃火锅,不用加班加点接着研究了。好吧,现在明明事实是两者相等,可以盖棺定论,却错认为两者不相等——这就是一类错误。明明可以开开心心吃火锅去,却不得不接着闷头研究,我们都不喜欢这种情况。怎么办呢?就给a值定的低一点,让一类错误发生概率小一点,就可以了。这就是“首先控制一类错误”的根本原因。至于楼上所说的“谨慎性”考虑,其实是一种操作手法上的考虑。比如我们检验“2015年北京平均温度是否高于2014年”,那么按照谨慎原则,应当设置原假设为: 2015平均温度低于2014。这样进行“反向操作”后,只有2015平均温度样本均值显著高于2014时,才会拒绝原假设,表明检验的事情是真的。这在单侧检验里,作为一种“操作手法”使用。而正是因为原假设有“率先控制一类错误”的约定,我们才会出于谨慎,把反向的假设放到原假设上来。而并不是因为进行了“反向操作”,所以才要控制一类错误。楼上答主的因果搞反了。
请注意一点,假设检验当中,我们考虑的是 "whether to reject null hypothesis" 而非 "to reject or to accept null hypothesis". 换句话讲,如果结果不显著,你的结论只能是该检验“无法推翻null假设”,而不能是“应当接受null假设”。借用Wikipedia上对Type II error的描述:"A type II error, also known as an error of the second kind, occurs when the null hypothesis is false, but erroneously fails to be rejected."所以,在写假设检验结论的时候,如果你得到的不显著,也需要注意措辞—— 无法推翻 接受。
已有帐号?
无法登录?
社交帐号登录

我要回帖

更多关于 假设检验问题 的文章

 

随机推荐