深度学习中 Batch Normalization为什么效果好

深度学习岗位面试问题整理笔记 - 知乎专栏
你正在使用一个过时的浏览器。请以查看此页面。
{"debug":false,"apiRoot":"","paySDK":"/api/js","wechatConfigAPI":"/api/wechat/jssdkconfig","name":"production","instance":"column","tokens":{"X-XSRF-TOKEN":null,"X-UDID":null,"Authorization":"oauth c3cef7c66aa9e6a1e3160e20"}}
{"database":{"Post":{"":{"title":"深度学习岗位面试问题整理笔记","author":"xuhanvsxuhan","content":"更新几个面试被问到或者联想出来的问题,后面有时间回答SGD 中 S(stochastic)代表什么个人理解差不多就是Full-Batch和Mini-Batch监督学习/迁移学习/半监督学习/弱监督学习/非监督学习?Softmax Loss推一下-----------------------------------------本笔记主要问题来自以下两个问题,后续会加上我自己面试过程中遇到的问题。以下问题来自CNN最成功的应用是在CV,那为什么NLP和Speech的很多问题也可以用CNN解出来?为什么AlphaGo里也用了CNN?这几个不相关的问题的相似性在哪里?CNN通过什么手段抓住了这个共性?以上几个不相关问题的相关性在于,都存在局部与整体的关系,由低层次的特征经过组合,组成高层次的特征,并且得到不同特征之间的空间相关性。如下图:低层次的直线/曲线等特征,组合成为不同的形状,最后得到汽车的表示。CNN抓住此共性的手段主要有四个:局部连接/权值共享/池化操作/多层次结构。局部连接使网络可以提取数据的局部特征;权值共享大大降低了网络的训练难度,一个Filter只提取一个特征,在整个图片(或者语音/文本) 中进行卷积;池化操作与多层次结构一起,实现了数据的降维,将低层次的局部特征组合成为较高层次的特征,从而对整个图片进行表示。如下图:上图中,如果每一个点的处理使用相同的Filter,则为全卷积,如果使用不同的Filter,则为Local-Conv。为什么很多做人脸的Paper会最后加入一个Local Connected Conv?以FaceBook DeepFace 为例:DeepFace 先进行了两次全卷积+一次池化,提取了低层次的边缘/纹理等特征。后接了3个Local-Conv层,这里是用Local-Conv的原因是,人脸在不同的区域存在不同的特征(眼睛/鼻子/嘴的分布位置相对固定),当不存在全局的局部特征分布时,Local-Conv更适合特征的提取。以下问题来自什麽样的资料集不适合用深度学习?数据集太小,数据样本不足时,深度学习相对其它机器学习算法,没有明显优势。数据集没有局部相关特性,目前深度学习表现比较好的领域主要是图像/语音/自然语言处理等领域,这些领域的一个共性是局部相关性。图像中像素组成物体,语音信号中音位组合成单词,文本数据中单词组合成句子,这些特征元素的组合一旦被打乱,表示的含义同时也被改变。对于没有这样的局部相关性的数据集,不适于使用深度学习算法进行处理。举个例子:预测一个人的健康状况,相关的参数会有年龄、职业、收入、家庭状况等各种元素,将这些元素打乱,并不会影响相关的结果。对所有优化问题来说, 有没有可能找到比現在已知算法更好的算法?没有免费的午餐定理:对于训练样本(黑点),不同的算法A/B在不同的测试样本(白点)中有不同的表现,这表示:对于一个学习算法A,若它在某些问题上比学习算法 B更好,则必然存在一些问题,在那里B比A好。也就是说:对于所有问题,无论学习算法A多聪明,学习算法 B多笨拙,它们的期望性能相同。但是:没有免费午餐定力假设所有问题出现几率相同,实际应用中,不同的场景,会有不同的问题分布,所以,在优化算法时,针对具体问题进行分析,是算法优化的核心所在。用贝叶斯机率说明Dropout的原理何为共线性, 跟过拟合有啥关联?共线性:多变量线性回归中,变量之间由于存在高度相关关系而使回归估计不准确。共线性会造成冗余,导致过拟合。解决方法:排除变量的相关性/加入权重正则。说明如何用支持向量机实现深度学习(列出相关数学公式)这个不太会,最近问一下老师。广义线性模型是怎被应用在深度学习中?深度学习从统计学角度,可以看做递归的广义线性模型。广义线性模型相对于经典的线性模型(y=wx+b),核心在于引入了连接函数g(.),形式变为:y=g-1(wx+b)。深度学习时递归的广义线性模型,神经元的激活函数,即为广义线性模型的链接函数。逻辑回归(广义线性模型的一种)的Logistic函数即为神经元激活函数中的Sigmoid函数,很多类似的方法在统计学和神经网络中的名称不一样,容易引起初学者(这里主要指我)的困惑。下图是一个对照表:什麽造成梯度消失问题? 推导一下神经网络的训练中,通过改变神经元的权重,使网络的输出值尽可能逼近标签以降低误差值,训练普遍使用BP算法,核心思想是,计算出输出与标签间的损失函数值,然后计算其相对于每个神经元的梯度,进行权值的迭代。梯度消失会造成权值更新缓慢,模型训练难度增加。造成梯度消失的一个原因是,许多激活函数将输出值挤压在很小的区间内,在激活函数两端较大范围的定义域内梯度为0。造成学习停止以下问题来自匿名用户Weights Initialization. 不同的方式,造成的后果。为什么会造成这样的结果。几种主要的权值初始化方法:
lecun_uniform /
glorot_normal / he_normal / batch_normallecun_uniform:glorot_normal:he_normal:batch_normal:为什么网络够深(Neurons 足够多)的时候,总是可以避开较差Local Optima?Loss. 有哪些定义方式(基于什么?), 有哪些优化方式,怎么优化,各自的好处,以及解释。Cross-Entropy / MSE / K-L散度Dropout。 怎么做,有什么用处,解释。Activation Function. 选用什么,有什么好处,为什么会有这样的好处。几种主要的激活函数:Sigmond / ReLU /PReLU","updated":"T09:10:19.000Z","canComment":false,"commentPermission":"anyone","commentCount":15,"collapsedCount":0,"likeCount":613,"state":"published","isLiked":false,"slug":"","isTitleImageFullScreen":false,"rating":"none","titleImage":"","links":{"comments":"/api/posts//comments"},"reviewers":[],"topics":[{"url":"/topic/","id":"","name":"深度学习(Deep Learning)"},{"url":"/topic/","id":"","name":"神经网络"},{"url":"/topic/","id":"","name":"机器学习"}],"adminClosedComment":false,"titleImageSize":{"width":0,"height":0},"href":"/api/posts/","excerptTitle":"","column":{"slug":"xuhanvsxuhan","name":"许韩VS许韩"},"tipjarState":"inactivated","annotationAction":[],"sourceUrl":"","pageCommentsCount":15,"snapshotUrl":"","publishedTime":"T17:10:19+08:00","url":"/p/","lastestLikers":[{"profileUrl":"/people/liu-chi-ming","bio":"A Divergent","hash":"a1ed7508a78dfeab376c6b6fb729e933","uid":04,"isOrg":false,"description":"矮德地图","isOrgWhiteList":false,"slug":"liu-chi-ming","avatar":{"id":"66ba46413","template":"/{id}_{size}.jpg"},"name":"吉米刘"},{"profileUrl":"/people/wei-feng-jia","bio":"深度学习/篮球","hash":"ff06c90ee67bfcfffa06ec32","uid":48,"isOrg":false,"description":"","isOrgWhiteList":false,"slug":"wei-feng-jia","avatar":{"id":"da8e974dc","template":"/{id}_{size}.jpg"},"name":"微风嘉"},{"profileUrl":"/people/evelynwei","bio":"数据采矿工","hash":"a5cc946e2cbecc4cb856b","uid":44,"isOrg":false,"description":"Statistically significant(?o??o?)??","isOrgWhiteList":false,"slug":"evelynwei","avatar":{"id":"66e5df5ddbd5d627fb747c0569efa253","template":"/{id}_{size}.jpg"},"name":"Evelyn Wei"},{"profileUrl":"/people/zhairui","bio":"一无所知","hash":"29cffcdce5faef13e2acec","uid":68,"isOrg":false,"description":"俗人昭昭,我独昏昏。俗人察察,我独闷闷。","isOrgWhiteList":false,"slug":"zhairui","avatar":{"id":"fa84f20c92bb61da1c5c","template":"/{id}_{size}.jpg"},"name":"Revive"},{"profileUrl":"/people/liu-zhi-cai-74","bio":"工学硕士在读","hash":"b45a8a58bcdbd90caaec9","uid":456700,"isOrg":false,"description":"","isOrgWhiteList":false,"slug":"liu-zhi-cai-74","avatar":{"id":"v2-8ca59f6ae4dd2ed49cd033","template":"/{id}_{size}.jpg"},"name":"刘治财"}],"summary":"更新几个面试被问到或者联想出来的问题,后面有时间回答SGD 中 S(stochastic)代表什么 个人理解差不多就是Full-Batch和Mini-Batch监督学习/迁移学习/半监督学习/弱监督学习/非监督学习?Softmax Loss推一下---------------------…","reviewingCommentsCount":0,"meta":{"previous":null,"next":{"isTitleImageFullScreen":false,"rating":"none","titleImage":"","links":{"comments":"/api/posts//comments"},"topics":[{"url":"/topic/","id":"","name":"机器学习"},{"url":"/topic/","id":"","name":"深度学习(Deep Learning)"},{"url":"/topic/","id":"","name":"智能医疗"}],"adminClosedComment":false,"href":"/api/posts/","excerptTitle":"","author":{"profileUrl":"/people/xuhanvsxuhan","bio":"Wechat:xuhanvsxuhan","hash":"cd4d7c3f7ba09556dfeb4a50","uid":84,"isOrg":false,"description":"It's so amazing that I met you.","isOrgWhiteList":false,"slug":"xuhanvsxuhan","avatar":{"id":"0e1eb7ffffc9acaeca1e6","template":"/{id}_{size}.jpg"},"name":"许韩"},"column":{"slug":"xuhanvsxuhan","name":"许韩VS许韩"},"content":"前几天拿到一个智能医疗相关的机器学习岗Offer,做了一点相关的了解笔记分三部分第一部分主要整理了最近两年相关的Paper,后面有时间了边看边做笔记吧第二部分:相关行业第三部分:该领域的公司Paper(可能有遗漏):16/17年,这个细分领域最顶级的课题组应该是GIT的课题组(以前读IC的时候还想去GIT读博来着),16年JMLR/NIPS/KDD各一篇,17年有一篇ICLR不知道中了没有:17 ICLR: 对该论文的笔记16 JMLR: 16 NIPS: 16 KDD: 另外西奈山伊坎医学院/NYU和另外几个学校也有相关研究:行业相关:Goldman Sachs去年年底发布一份,最后一部分讨论了人工智能可能改变的一些领域,其中就有医疗/健康一个小节:不想看英文的朋友们,小结:人工智能在医疗/健康领域的机会:药物研发:主要可以帮助降低研发成本提高医生/医院的效率个人觉得,药物研发这一部分,创业公司可能并没有很大的机会,更多的机会在提高医生/医院的效率这里,有可能以后常规病症直接手机就给你看了(不少公司在做这个工作)。公司相关:约了朋友吃饭,等下继续写","state":"published","sourceUrl":"","pageCommentsCount":0,"canComment":false,"snapshotUrl":"","slug":,"publishedTime":"T17:28:56+08:00","url":"/p/","title":"智能医疗相关论文笔记/调研","summary":"前几天拿到一个智能医疗相关的机器学习岗Offer,做了一点相关的了解笔记分三部分第一部分主要整理了最近两年相关的Paper,后面有时间了边看边做笔记吧第二部分:相关行业第三部分:该领域的公司 Paper(可能有遗漏):16/17年,这个细分领域最顶级的课题组应该…","reviewingCommentsCount":0,"meta":{"previous":null,"next":null},"commentPermission":"anyone","commentsCount":0,"likesCount":0}},"annotationDetail":null,"commentsCount":15,"likesCount":613,"FULLINFO":true}},"User":{"xuhanvsxuhan":{"isFollowed":false,"name":"许韩","headline":"It's so amazing that I met you.","avatarUrl":"/0e1eb7ffffc9acaeca1e6_s.jpg","isFollowing":false,"type":"people","slug":"xuhanvsxuhan","bio":"Wechat:xuhanvsxuhan","hash":"cd4d7c3f7ba09556dfeb4a50","uid":84,"isOrg":false,"description":"It's so amazing that I met you.","profileUrl":"/people/xuhanvsxuhan","avatar":{"id":"0e1eb7ffffc9acaeca1e6","template":"/{id}_{size}.jpg"},"isOrgWhiteList":false,"badge":{"identity":null,"bestAnswerer":null}}},"Comment":{},"favlists":{}},"me":{},"global":{},"columns":{"xuhanvsxuhan":{"following":false,"canManage":false,"href":"/api/columns/xuhanvsxuhan","name":"许韩VS许韩","creator":{"slug":"xuhanvsxuhan"},"url":"/xuhanvsxuhan","slug":"xuhanvsxuhan","avatar":{"id":"v2-2bce4f4e08de9e337b31","template":"/{id}_{size}.jpg"}}},"columnPosts":{},"postComments":{},"postReviewComments":{"comments":[],"newComments":[],"hasMore":true},"favlistsByUser":{},"favlistRelations":{},"promotions":{},"draft":{"titleImage":"","titleImageSize":{},"titleImageFullScreen":false,"canTitleImageFullScreen":false,"title":"","titleImageUploading":false,"error":"","content":"","draftLoading":false,"globalLoading":false,"pendingVideo":{"resource":null,"error":null}},"config":{"userNotBindPhoneTipString":{}},"recommendPosts":{"articleRecommendations":[],"columnRecommendations":[]},"env":{"isAppView":false,"appViewConfig":{"content_padding_top":128,"content_padding_bottom":56,"content_padding_left":16,"content_padding_right":16,"title_font_size":22,"body_font_size":16,"is_dark_theme":false,"can_auto_load_image":true,"app_info":"OS=iOS"},"isApp":false},"sys":{}}分享给朋友:通用代码: <input id="link4" type="text" class="form_input form_input_s" value="" />复 制flash地址: 复 制html代码: <input type="text" class="form_input form_input_s" id="link3" value="" />复 制分享视频到站外获取收益&&手机扫码分享视频二维码2小时内有效机器学习技巧8: 为什么要 Batch Normalization 批标准化 (深度学习)下载至电脑扫码用手机看用或微信扫码在手机上继续观看二维码2小时内有效机器学习技巧8: 为什么要 Batch Normalization 批标准化 (深度学习)扫码用手机继续看用或微信扫码在手机上继续观看二维码2小时内有效,扫码后可分享给好友没有优酷APP?立即下载请根据您的设备选择下载版本
药品服务许可证(京)-经营-请使用者仔细阅读优酷、、Copyright(C)2017 优酷
版权所有不良信息举报电话:你正在使用的浏览器版本过低,将不能正常浏览和使用知乎。

我要回帖

 

随机推荐