有谁能讲解下《how is going on withdeeper with convolutions》这篇论文

科学教育 | 学习帮助 | 出国/留学 | 工程技术科学 | 教育/科学 | 英语听力 | 梦幻西游电脑版 | 视频会议 | 口臭 | 暗黑破坏神3（游戏） | 面相 | 赛尔号 | linux | 山西省 | Xbox One | 思修 | 易经 | solidworks | 钢铁雄心4 | 休闲游戏 | 魔兽争霸3混乱之治 | 显卡 | 武汉大学 | 塞尔达传说（游戏） | 校服 | 剑侠情缘网络版叁 | 脱发 | 日本文化 | 数学建模 | 二次元 | 部落冲突（游戏） | 肖战 | 街机游戏 | 拳皇 | 马鞍山市 | 扑克 | 完美世界（游戏） | 三国志（游戏） | 热血传奇（游戏） | 意大利 | 跆拳道 | 东莞市 | 糖尿病 | 古琴 | 三国 | 电视节目 | 百度 | qq音乐 | 配音 | 电视 | 任天堂 | 科幻小说 | 虚拟专用服务器 | QQ游戏 | 大熊猫 | 微电影 | Android | 竞技游戏 | 动画制作 | QQ炫舞 | 电源 | 日语 | 魔兽争霸3冰封王座 | 产业 | ios开发 | 百度云 | 动画电影 | nba篮球 | 羽生结弦 | iOS应用 | galgame | 电吉他 | 平板电脑 | 周星驰（人物） | 离婚 | 后宫·甄嬛传（书籍） | 牙科 | 游戏开发 | 网络直播 | ios游戏 | 电子邮件 | SNH48 | 民国 | 美容 | 舰队 Collection | 心理 | Mac | 羽毛球技术 | 互联网公司 | 大学生兼职 | 烘焙 | 诸葛亮 | 跑跑卡丁车 | 武侠小说 | 微博 | 骨折 | 掌上游戏机 | 玉米 | 中国足球 | 电脑配置 | 洛奇英雄传 | 硬盘 | 张璐 | akb48 | 炉石传说 | 韩国 | 蓄电池 | QQ空间 | 房贷 | 麦克风 | 相声演员 | 抑郁 | 天下2（游戏） | 农业科学 | 神话 | 农历 | 中国足球协会超级联赛（CSL） | 流星花园 | 易烊千玺 | 火影忍者 | 日语歌曲 | 巴西 | 红酒 | 化疗 | 占地 | 网络小说 | 香烟 | 传奇世界 | 名字 | 日本电影 | 表演 | 西藏自治区 | 英雄传说：闪之轨迹（游戏） | 足球彩票 | 摩尔庄园 | 中国工商银行 | 游戏手柄 | 陈奕迅 | 联赛 | 天体物理学 | 英格兰足球超级联赛 | 超级机器人大战 | 命令与征服：红色警戒2（游戏） | 郭富城 | 一级方程式赛车（f1） | Adobe Photoshop | 英文歌曲 | 玄幻小说 | 猫和老鼠 | 杨凡 | 书籍改编电影 | 俄罗斯 | 网络赚钱 | 罗玉凤 | 刺客信条2 | 角色扮演 | 食物 | 药物 | 杨洋（演员） | 信息安全 | 胡歌（演员） | 张子枫 | 古典音乐 | 时尚 | 大片 | 电脑游戏 | 签证 | 徐佳莹 | 耽美 | 游戏攻略 | 音乐剧 | 前女友 | 男性 | 肠胃 | 刺客信条起源 | 剧场版 | 国际足联世界杯 | 彩虹六号（游戏） | 赵丽颖（演员） | 天体生物学 | 战神（游戏） | 吉他学习 | 飞机 | 三菱商事 | 关节炎 | 斗鱼直播 | 发电 | 张继科 | 华语流行音乐 | 搏击项目 | 主题曲 | 李信 | 刘德华（演员） | 即时战略游戏（RTS） | 欧阳娜娜 | 网址导航 | 海贼王 | 山地车 | 豆瓣电影 | 广场舞 |

你的位置：网站首页 >> 频道首页 >>学习 >>有谁能讲解下《how is going on withdeeper with convolutions》这篇论文

有谁能讲解下《how is going on withdeeper with convolutions》这篇论文

来源：蜘蛛抓取(WebSpider) 时间：2016-08-05 04:41 标签： be going to讲解

有谁能讲解下《Going deeper with convolutions》这篇论文_百度知道
有谁能讲解下《Going deeper with convolutions》这篇论文
　　发展期的散文风格各异；它的语言可刚烈悲壮。议论散文之后；它的形式自由，郭沫若，呈现一派繁荣景象，可长可短、冰心等的清新雅致、言志、小品文也相继问世，它所议论的对象紧贴生活，叶圣陶，周作人的平和冲淡、抒怀　诞生期的议论性散文担任了反封建的先锋、许地山的朴素平直，现代散文进入蓬勃发展阶段、写景，也可幽默讽喻，有记叙，具体而且细微、朱自清，记叙性散文、郁达夫等人的豪迈挥洒、评述、样式不一。就形式而言，徐志摩的浓艳绚丽等；风格上形成了鲁迅的峻冷峭拔
其他类似问题
为您推荐：
论文的相关知识
等待您来回答
下载知道APP
随时随地咨询
出门在外也不愁最近在学深度学习，所以把这篇论文简单翻译了一下，有些地方是结合自己的学习和体会进行翻译的，若有纰漏，望请指正。同时感谢袁冠达同学的校验。以下为《Going Deeper With Convolution》论文作者。
我们在ILSVRC14上提交了一个代号为Inception的深度卷积神经网络架构。这个架构的主要特点是提高网络中计算资源的利用率。在保持计算量不变的前提下，通过细致的设计来提高网络的深度和广度。为了优化性能，这个架构是基于赫布学习规则（Hebbian principle）和多尺度处理的直觉知识来设计的。其中一个典型例子就是我们在ILSVRC14提交的GoogLeNet，一个22层的深度网络，其性能由ILSVRC14的分类检测来评估。
（译者注：赫布学习规则是一个无监督学习规则，使得网络能够提取训练集的统计特性，从而把输入信息按照它们的相似性程度划分为若干类。它只根据神经元连接间的激活水平改变权值，因此这种方法又称为相关学习或并联学习。）
在过去的三年中，由于深度学习的进步，更多具体的卷积网络[10]，图像识别和目标检测性能有了一个激动人心的跃进。一个令人振奋的消息就是，大部分的进步不是仅因为更加强大的硬件、更大的数据集和模型，而主要是因为新的思路、算法和网络架构的改进。没有新的数据源被使用。我们在ILSVRC14上提交的GoogLeNet实际上比两年前的Krizhevsky等人的网络[9]少了12倍的参数，而且准确率更高。目标检测中最大的收获不是来自于深度网络或者是大模型的利用，而是来自于深度架构和经典计算机视觉的协同合作，类似于
Girshick等人的R-NN算法[6]。
另一个值得注意的因素是，随着移动和嵌入式计算的持续推进，我们的算法的效率的重要性——特别是它们的性能和内存使用——得到了凸显。值得一提的是，本文中提出的对深层架构的设计旨在于此，所以不会使用绝对的数量。在大多数的实验中，模型是设计来在运算时间内保持15亿乘加的计算量，所以他们不会让这个问题结束而仅仅成为一个学术方面的好奇，而是会将它用于现实世界，在一个合理的成本内甚至可以用于大型数据集。
在本文中，我们将关注一个针对计算机视觉的高效深度神经网络架构，代号为Inception，它的名字来自于Lin等人的论文《Network in network》[12]以及著名的《Know your meme:We need to go deeper》[1]。在我们的例子中，“深度”这个词被我们用于两种意思：首先，就意义而言，我们用“Inception模型”的形式介绍了一个新的等级结构，也在更直接的意义上增加了网络深度。一般而言，可以把Inception模型看作是一个来自Arora等人的理论工作的灵感和指导的逻辑顶点[2]。该架构的好处已经在ILSVRC2014上面被证明了。
2、相关工作
从LeNet-5[10]开始，卷积神经网络（CNN）通常有一个标准的结构——堆积卷积层（stacked convolutional layers）（可选连接：对比归一化层（contrast normalization）和最大池化层（max-pooling））后面跟着一个或者多个全连接层（fully-connected layers）。这些基本设计的变体在图像分类中普遍存在，并在MNIST、CIFAR上取得了迄今为止最好的结果，最显著的是在ImageNet的分类比赛中[9,21]。对于比较大的数据集，比如ImageNet，最近的趋势是增加层数[12]和层的尺寸[21，14]，同时使用dropout[7]（译者注：Dropout是指在模型训练时随机让网络某些隐含层节点的权重暂时不更新，下次输入样本时又可能更新了）来处理过拟合问题。
尽管注意到最大池化层（max-pooling layers）导致准确的空间信息的丢失，像[9]那样相同的传统卷积网络架构也被成功地应用于定位[9，14]、目标检测[6，14，18，5]和人体姿态估计[19]。Serre等人从灵长类动物的神经视觉皮层的神经系统科学模型得到灵感[15]，他们使用一系列不同尺寸的固定的Gabor滤波器来处理多尺度模型，Inception模型与此类似。但是，和[15]中固定的两层的深度模型所不同，Inception模型中所有的滤波器都进行学习。此外，Inception层重复很多次，就GoogLeNet而言，它成为了一个22层的深度模型。
Network-in-Network是Lin等人为了提高网络表达能力而提出的一种方法[12]。当应用到卷积层，大部分情况下，该方法可以看成是附加的1*1的卷积层跟着线性纠正激活[9]。这使得它可以很容易地集成在当前的CNN通道中。这我们的架构中，我们使用了这种方法。然而，我们设置1*1的卷积有两个目的：最重要的，它们主要作为降维模块，来解决计算瓶颈，否则会对我们的网络规模造成限制。其能在没有显著的性能损失的情况下增加深度和宽度。
在目标检测上，目前领先的方法是Girshick等人提出的R-CNN[6]。R-CNN将所有的检测问题分为两个子问题：在浅层利用颜色、超像素的一致性等信息检测，然后使用CNN分类器对这些部位进行识别分类。这两个步骤，在浅层利用了包围盒分割的准确性以及CNN强大的分类能力。在我们提交的检测网络中，我们使用了类似的通道，而且增强了这两个步骤，如多盒预测[5]和全局方法。
3、动机和深层次的考虑
提高深度神经网络的性能的最直接的方法就是增大它的规模。包括增加网络的深度（层数）和宽度（神经元数目）。这是训练一个更高性能的模型的简单和安全的方式，特别是当有一个有标记的大数据训练集可用的时候。但是这个简单的解决方案有两个主要的缺点。
更大的规模意味着更多的参数，将会使得这个更大规模的网络更容易过拟合，尤其是当有标记的训练样本集是有限的的时候。这可能会成为一个主要的瓶颈，因为创建一个高质量的训练集是非常棘手并代价昂贵的，特别是当有必要专家区分的如图一所示仅仅有细小纹理差别的种类的时候。
（译者注：左图为哈士奇，右图为爱斯基摩犬）
一味地增加网络尺寸的另一个缺点就是计算资源的急剧增加。举个例子，在一个深度视觉网络中，如果两个卷积层连接在一起，对它们的滤波器数目的任何等量增加都将会在计算量上造成一个二次幂级的增加。如果加入后效率很低（例如，如果大部分的权重最后的趋于0），那么很多的计算都是浪费的。由于实际上运算成本总是有限的，所以一个高效的计算资源的分配更倾向于以提高结果质量为主要目标的前提下可以任意地增大网络规模。
解决这两个问题的根本方法就是，从根本上把全连接结构变成稀疏连接结构，包括卷积层内部。除了模仿生物系统，它也有Arora等人开创性的工作[2]提供坚实的理论基础说明其优势。他们的主要结论表明，如果数据集的概率分布可以用一个大的稀疏深度神经网络来描述，那么最佳的网络拓扑结构可以由逐层的分析上一层的激活状态相关性统计值和有高度相关输出的聚集的神经元组成。虽然严格的数学证明需要很强的条件，然而事实上，这个表述和著名的赫布原理异曲同工地表明了在实践中，其内在的原理即使在不严格的条件下也是成立的。
在缺点方面，当涉及非均匀的稀疏数据结构的数值计算的时候，目前的基础计算设备效率非常低。即使运算操作减少100倍，查找和缓存未命中（译者注：即查找的地址不在缓存中）的开销是十分大的，所以转换为稀疏矩阵后并没有什么用。通过稳定提高、高度协调、允许利用底层CPU或者GPU硬件瞬间进行非常快速的稠密矩阵乘法的数值库[16,9]的使用，缺点甚至被进一步放大。此外，非均匀稀疏模型要求更复杂的工程和计算设备。目前，大部分视觉导向的机器学习系统在空间域上只是通过卷积的优势来使用稀疏。但是，卷积和稠密连接的上一层的块集合是紧密联系的。卷积网络向来被用在[11]那样的随机稀疏连接表中来打破对称性和提高学习，想要将其变回[9]那样的全连接来更好地优化并行计算。结构的均匀性、大量滤波器以及更大的批量规模使得其允许使用高效稠密运算。
这就提出了一个问题，下一个中间步骤有否有这样的一丝丝的希望：一个架构，它利用了额外的稀疏性，甚至在滤波器的层次都使用了，而仅仅是使用现有的计算稠密矩阵的硬件设备来实现这个理论。大量关于稀疏矩阵的计算的文献（例如[3]）表明，将稀疏矩阵合并成相对稠密的子矩阵往往会体现出稀疏矩阵乘法的实际性能状况。相似的方法在不久的将来将会被用于非均匀深度学习架构的自动化建设的日子似乎并不遥远。
Inception架构一开始是作为一个第一个实现估计一个复杂网络的拓扑结构假设输出的学习例子，它尝试接近[2]中视觉网络的稀疏结构并用聚集来覆盖假设结果。即使它只有在经过两次准确选择的拓扑结构的迭代之后，我们早已看到了基于[12]的参考架构的效果。进一步调整学习速率、超参数和改进训练方法之后，我们建立的Inception架构在应对基于[6]和[5]的网络的定位和目标检测时很有用。有趣的是，大部分原始架构被怀疑和彻底测试之后，他们最终至少拥有局部最优解。
尽管提出的架构已经在计算机视觉上成功了，但是值得注意的一件事是，它的性能是否可以作为指导它架构的标准，这依然是不确定的。确定这一点需要更多彻底的分析和验证：举个例子，尽管自动化工具基于类似描述的标准，但是对于视觉网络来说它拥有更好的拓扑结构。那么最令人信服的证据就是，这个自动化系统将会创建一个网络拓扑结构来达到其他领域中使用了相同的算法但是在全局上看是不同的架构相似的收益。至少，Inception架构最初获得的成功坚定了在这个方向令人兴奋的未来工作的想法。
4、架构细节
Inception架构的主要思想是，找到卷积视觉网络最优的局部稀疏结构是如何估计并被稠密组件覆盖。注意到，假设平移不变性就意味着我们的网络将会从卷积模块开始建立。我们需要做的就是找到最佳的局部架构并在空间上重复使用它。Arora等人[2]提出了一个层层自组装结构（layer-by-layer construction），每一层都必须分析上一层的相关性统计值，同时按照他们的的高度相关性聚集分类为神经元组。这些簇组成了下一层的神经元并连接上一层的神经元。我们假设从之前的层得到的每一个神经元对应输入图像的某些区域，这些神经元被分为滤波器组。在较低层（接近input层），相关的神经元将会集中在局部的区域。这意味着，我们最后得到的将会是集中在单一区域的集群，它们可以在下一层被1*1的卷积覆盖，如同[12]中提到的那样。然而，也可以尝试让一个簇通过卷积来覆盖更大的空间以减小簇的数量。为了避免块配准（patch
alignment）问题，目前Inception架构的解决方法是限制滤波器尺寸为1*1，3*3，5*5，这些尺寸主要是为了方便，并不是必要的。这也意味着，我们提出的架构是所有的这些层的组合：将输出滤波器组变成单一的输出向量而形成下一个步骤的输入的层。此外，由于池化操作对于当前卷积网络的成功是必不可少的，在每一个步骤增加一个备用的平行池化路径也会获得额外的良好效果（见图2（a））。
这些Inception模块一个一个堆积，它们输出的相关性统计值必然是不同的：更抽象的特征被更高的层获得，如果在我们到更高层的时候选择3*3和5*5卷积的比例，那么它们的空间集中度会降低。
上述模块的一个大问题就是，至少以这种原始的形式，即使是一个合适数量的5*5卷积，也会因为卷积层大量的滤波器而变得高消耗。当池化神经元添加到mix的时候这个问题变得更加明显：它们输出滤波器的数量和上个步骤的滤波器数量是相等的。卷积层的输出和池化层的输出的合并将会导致每个步骤过程中输出数量的不可避免的增加。即使这种架构可能被最优稀疏结构覆盖，但是它依然很低效，而导致在一定的步骤之内就会计算崩溃。
这就有了这个架构的第二个想法：当计算需求大幅提升的时候慎重地运用降维和投影。它基于嵌入的成功：即使低维嵌入可能包含大量关于一个比较大的图像块的信息。但是，稠密地嵌入代表性信息、压缩格式和压缩信息是很难写成模型的。我们将会在很多地方保持稀疏（如[2]中要求的），同时只在必须聚集在一起的时候压缩信号。意思就是，1*1的卷积被用来在使用3*3和5*5卷积之前降维，同时也被用来修正线性激活特性。最后的结果如图2（b）所示。
（译者注：左图为简单状态下的Inception模型，右图为降维之后的Inception模型）
一般而言，一个Inception网络由上述类型的模块堆叠而成，在某些情况下，每两个步骤还会有最大池化层将网格分辨率减半（In general, an Inception network is a network consisting of modules of the above type stacked upon each other, with occasional max-pooling layers with stride 2
to halve the resolution of the grid.）。由于技术原因（训练时的内存效率），似乎只有在网络的高层使用Inception，而在低层保持传统卷积方式，才能发挥优势。当然这不是严格要求的，只不过是考虑到我们当前的一些基础设备效率低下而已。
这个架构其中一个优势就是它允许在每个步骤中神经元数目不用考虑计算复杂度地显著增加。无处不在的降维可以屏蔽从上一个步骤到下一层的大量输入滤波器，首先在用比较大的块来卷积之前降低它们的维度。这个设计的另一个实用处就是，图像信息可以用不同的尺寸来处理然后再合并起来，从而下一个步骤就可以从不同的尺寸同时抽象出特征。
对计算资源的使用进行改进之后，现在已经可以增加每一个步骤宽度和步骤数，也不会陷入计算瓶颈。另一个使用Inception架构的方式就是为它建立一个稍差而且计算简单的版本。我们已经发现，所有包括在内的小部件都允许计算资源的控制平衡这使得网络比同性能的没有使用Inception架构的网络快2到3倍。然而，这一点需要仔细设计。
5、GoogLeNet
我们在ILSVRC14比赛中使用GoogLeNet作为我们的队名。这个队名是向Yann LeCuns开创LeNet网络[10]表达的一种敬意。我们也在比赛中提交GoogLeNet作为Inception架构的具体实现。与此同时，我们使用了更深和更宽的Inception网络，性能稍差但是似乎使得性能轻微地提高了。我们忽略了网络的细节，因为我们的实验结果已经表明，精确架构参数的影响相对而言很小。在这里，最成功的实例（称为GoogLeNet）已经在表1详细描述了。完全相同的拓扑结构（采用不同的采样方法训练）被我们用在6个ensemble的7个模型中。
所有的包括Inception架构内的卷积都使用修正线性激活。我们的网络的感受野（译者注：生物学里，直接或间接影响某一特定神经细胞的光感受器细胞的全体为该特定神经细胞的感受野）尺寸是224*224的RGB色彩通道。“#3×3 reduce”和 “#5×5 reduce” 代表3*3和5*5卷积之前的降维层的1*1滤波器的数量。在“pool proj”这一列可以看到内置最大池化层后的投影层的1*1滤波器的数量。所有的这些降维/投影层（reduction/projection
layer）也都采用修正线性激活。
该网络基于计算效率和实用性来设计，所以可以在个人设备或者那些有计算资源限制的设备上运行测试，特别是那些内存很小的设备。只算有参数的层的话，网络有22层（如果算上池化层的话那么有27层）。再加上一些独立模块的话，该网络总的大概有100层。但是这个数字取决于机器学习的设备系统的使用。分类之前，平均池化的使用是基于[12]的，虽然我们在具体实现的时候，和它有所不同，我们使用了一个额外的线性层。这使得我们在遇到其他标签集的时候可以很容易地改变和精细调整我们的网络来适应。它主要是为了方便，我们也不指望它能发挥什么大作用。结果表明，从全连接层到平均池化层的转变，Top-1的准确率提高了0.6%，但是dropout仍然是必不可少的。
鉴于网络比较深，所有层以一个有效的方式传播梯度回来的能力成为了一个问题。一个有趣的见解是，这个项目中浅层的网络的强大性能表明，从网络中间层产生的的特征应该是非常有识别性的（discriminative）。通过添加连接中间层的附加分类器，我们将能在分类中较早的步骤就增强识别性，增强获得的反向传播的梯度信号，并给予额外的正规化。这些分类器把更小的卷积网络添加到Inception（4a）和（4d）模块的输出之上。在训练的时候，它们造成的损失按照折算出来的权重被添加到网络的总损失里面（附加分类器所占的权重为0.3）。在测试阶段这些辅助网络就会被丢弃。
包括含有辅助分类器的额外网络的确切结构如下：
1、一个拥有尺寸为5*5的滤波器而且步长为3的平均池化层，在（4a）输出4*4*512，在（4d）步骤输出4*4*528。
2、一个拥有128个滤波器的1*1的卷积来降维和修正线性激活
3、一个有1024个神经元和修正线性激活的全连接层
4、一个70%比例下降输出的dropout层
5、一个拥有用softmax损失来作为分类器的线性层（作为主要分类器来预测1000个类，但是在测试的时候移除）
由此产生的网络图如下图3所示
6、训练方法
我们的网络用DistBelief[4]分布式机器学习系统和数据并行进行训练。虽然我们只用CPU实现，但是可以粗略地估计到用数个高端GPU训练GoogLeNet网络的话在一周内就可以收敛，其中主要的限制因素是内存。我们训练的时候采用0.9动力（momentum）[17]的异步随机梯度下降，固定学习速率表（设定学习速率每8个周期下降4%）。测试的时候用Polyak平均来建立最终模型。
在过去的几个月里，为了竞赛我们的图像采样方法发生了很大的变化，模型训练的时候结合其他选项，有时候是变化的超参数，比如dropout和学习速率，所以很难给出一个明确的指导说哪个才是训练这些网络的最有效的方法。详细地说，模型的训练效果不一[8]。但是，如果采样的图像块面积均匀地分布在图像的8%到100%，同时纵横比随机选择3/4或者4/3，那么将会得到很好的效果，这个是在比赛之后就已经被证明了的。同时呢，我们发现Andrew Howard[8]的亮度失真（photometric
distortions）可以在一定程度上防止过拟合。此外，我们开始使用随机插值方法（bilinear, area, nearest neighbor and cubic, with equal probability）结合其他的超参数的改变来作后期调整，所以我们不能肯定最后的结果是哪一个在起积极作用。
7、ILSVRC 2014分类竞赛的设置和结果
ILSVRC 2014分类竞赛的任务是将图像归在ImageNet的1000个类里。训练用图像大致有120万个，验证用图像有5万个，测试图像有十万个。分类器的性能是用它预测的最高分来衡量的。有两个数字经常报告出来：Top-1的准确率，Top-5的错误率。比赛以Top-5的错误率排名。
我们没有使用比赛以外的数据进行训练。除了上述训练技巧，我们在测试的时候也使用了一系列的精心设计的方法来得到更好的效果。
1、我们用GoogLeNet模型各自训练了7个版本（包括一个宽版本），得到了他们的预测结果并取综合值。这些模型初始设定都是相同的（连初始权重也是相同的，这主要是作为监督），不同的只是采样方法和随机的输入图像的顺序。
2、测试过程中，我们采用了比Krizhevsky[9]更积极的方法。具体而言，我们把图像大小调整到4个尺寸，短边（高度或者宽度）的尺寸分别为256、288、320和352，取这些调整后的图像左侧、中间和右侧方块（在肖像图中，我们则取上方、中间、下方方块）。对于每个方块，我们取四个角和中间的224*224大小的采样点，并把方块放缩到224*224，同时复制出它们的镜像版本（mirrored versions）。这样每个图像的的采样个数就是4*3*6*2=144。早些年Andrew
Howard[8]也用了类似的方法，他使用的方法比我们给出的方法效果差一点点。我们注意到这样积极的采样在实际应用中可能是不必要的，因为在得到一个合理的采样数之后，再多的采样点发挥的作用就很小了。
3、softmax概率平均到各个采样点和所有的独立分类器，从而得到最后的预测。在我们的试验中，我们分析了验证数据的可选方法，例如在采样点最大池化和在分类器平均，但是性能都不如简单地取平均。
在本文的余下部分，我们将会分析了几个有助于提高性能的因素。
在比赛中的我们对验证数据和测试数据的Top-5错误率都是6.67%，排名第一。这相对于2012的监督学习方法降低了56.5%，相对于去年最好的方法（Clarifai）降低了40%，而且他们这群还用比赛之外的数据来训练分类器！下表2是一些名列前茅的方法的统计数据。
下表3中我们还分析并报告了多个测试选择的性能，包括不同的模块数和预测时不同的采样数。我们会选择验证数据时Top-1错误率最低的那一个模块来使用。验证数据集报告出数字来让我们可以防止在测试数据统计的时候过拟合。
8、ILSVRC 2014检测竞赛的设置和结果
ILSVRC 2014检测竞赛是要我们在属于200个可能的类的图像的物体周围产生包围盒。如果他们，如果检测出来的符合物体所属类别的真实属性，同时包围盒重叠部分至少有50%的话（使用Jaccard相似性指数），那么就可以认为正确检测到了目标。无关的错误识别会被惩罚。和分类不同，这里每个图像都可能包括多个目标或者根本没有目标，而且目标的尺寸可能很大也可能很小。得到的结果用平均精确度度表示（mAP）。
用GoogLeNet来识别的方法和[6]的R-CNN方法相似，相比之下GoogLeNet增加了Inception模块来作为区域分类器。此外，通过与多盒预测[5]（multi-box predictions）的Selective Search[20]方法结合，来提高包围盒的召回率。为了减少错误识别，超像素的尺寸提高了两倍。这使得选择搜索算法得到的减半。我们又从多盒[5]的结果里面加回200个结果，总的来说，我们大概采用了60%的[6]的结果，将覆盖率从92%提升到93%。可以看到，在单一模型上的效果是把平均精确度提高了1%。最后，在分类区域的时候，我们一同使用6个卷积网络，把结果精确度从40%提升到了43.9%。注意，和R-CNN不同，因为时间不够所以我们没有使用包围盒回归。
我们报告最好的检测结果和逐个检测版本以来的改进。和2013年的结果对比起来，准确度几乎是翻了一番，检测器性能最好的团队都使用了卷积网络。表4是官方给出的分数，以及这些团队的共同点：使用外部数据、集合模型（ensemble models）或者联系模型（contextual models）。外部数据通常是ILSVRC12精确分类的分类数据，用以预训练模型。一些团队也提到了本地数据的使用。因为局部任务包围盒的良好分配不包括检测数据，所以可以用这些数据预训练总体包围盒回归量。而GoogLeNet没有使用本地数据来预处理。
在表5中，我们的GoogLeNet只用了单模型，然而Deep Insight团队设计出来的模型性能最好，也意外地只比我们提高了0.3%，但是他那个用了三模型哦，GoogLeNet集合起来用的时候获得的结果会显著增强的。
我们的研究结果得到了这样的一个可靠的证据：将最佳稀疏结构稠密化是提高计算机视觉神经网络的有效方法。这种方法的主要优点在于，相比于又浅又窄的网络而言，只需要适度增加计算量，性能就能显著提升。同时还注意到，我们的检测工作没有利用上下文，也没用执行包围盒回归，但是依然很有竞争力。这个事实进一步证明Inception架构是很强大的。尽管用更复杂的拥有相同深度和宽度的网络也可以实现差不多的性能，但是我们已经确切证明了在通常情况下用稀疏架构师有效而且实用的。这表明，未来工作可以向基于[2]通过自动的方式建立更加稀疏和设计更加精细的结构来发展。
我们想感谢Sanjeev Arora和Aditya Bhaskara在[2]中卓有成效的讨论。同时我们也想感谢DistBelief [4]团队的支持，特别是Rajat Monga、Jon Shlens、Alex Krizhevsky、Jeff Dean、Ilya Sutskever和Andrea Frome。我们也要感谢Tom Duerig和Ning Ye在亮度失真方面的帮助。当然我们的工作也不能没有Chuck Rosenberg和Hartwig
Adam的支持。
[1] Know your meme: We need to go deeper. /memes/
we-need-to-go-deeper. Accessed: .
[2] Sanjeev Arora, Aditya Bhaskara, Rong Ge, and Tengyu Ma. Provable bounds for learning
some deep representations. CoRR, abs/, 2013.
[3] Umit V. C, ataly ¨ urek, Cevdet Aykanat, and Bora Uc,ar. On two-dimensional sparse matrix par- ¨
titioning: Models, methods, and a recipe. SIAM J. Sci. Comput., 32(2):656–683, February
[4] Jeffrey Dean, Greg Corrado, Rajat Monga, Kai Chen, Matthieu Devin, Mark Mao,
Marc’aurelio Ranzato, Andrew Senior, Paul Tucker, Ke Yang, Quoc V. Le, and Andrew Y.
Ng. Large scale distributed deep networks. In P. Bartlett, F.c.n. Pereira, C.j.c. Burges, L. Bottou, and K.q. Weinberger, editors, Advances in Neural Information Processing Systems 25,
pages . 2012.
[5] Dumitru Erhan, Christian Szegedy, Alexander Toshev, and Dragomir Anguelov. Scalable object detection using deep neural networks. In Computer Vision and Pattern Recognition, 2014.
CVPR 2014. IEEE Conference on, 2014.
[6] Ross B. Girshick, Jeff Donahue, Trevor Darrell, and Jitendra Malik. Rich feature hierarchies
for accurate object detection and semantic segmentation. In Computer Vision and Pattern
Recognition, 2014. CVPR 2014. IEEE Conference on, 2014.
[7] Geoffrey E. Hinton, Nitish Srivastava, Alex Krizhevsky, Ilya Sutskever, and Ruslan Salakhutdinov. Improving neural networks by preventing co-adaptation of feature detectors. CoRR,
abs/, 2012.
[8] Andrew G. Howard. Some improvements on deep convolutional neural network based image
classification. CoRR, abs/, 2013.
[9] Alex Krizhevsky, Ilya Sutskever, and Geoff Hinton. Imagenet classification with deep convolutional neural networks. In Advances in Neural Information Processing Systems 25, pages
[10] Y. LeCun, B. Boser, J. S. Denker, D. Henderson, R. E. Howard, W. Hubbard, and L. D. Jackel.
Backpropagation applied to handwritten zip code recognition. Neural Comput., 1(4):541–551,
December 1989.
[11] Yann LeCun, Leon Bottou, Yoshua Bengio, and Patrick Haffner. Gradient-based learning ?
applied to document recognition. Proceedings of the IEEE, 86(11):, 1998.
[12] Min Lin, Qiang Chen, and Shuicheng Yan. Network in network. CoRR, abs/, 2013.
[13] B. T. Polyak and A. B. Juditsky. Acceleration of stochastic approximation by averaging. SIAM
J. Control Optim., 30(4):838–855, July 1992.
[14] Pierre Sermanet, David Eigen, Xiang Zhang, Michael Mathieu, Rob Fergus, and Yann Le- ¨
Cun. Overfeat: Integrated recognition, localization and detection using convolutional networks. CoRR, abs/, 2013.
[15] Thomas Serre, Lior Wolf, Stanley M. Bileschi, Maximilian Riesenhuber, and Tomaso Poggio.
Robust object recognition with cortex-like mechanisms. IEEE Trans. Pattern Anal. Mach.
Intell., 29(3):411–426, 2007.
[16] Fengguang Song and Jack Dongarra. Scaling up matrix computations on shared-memory
manycore systems with 1000 cpu cores. In Proceedings of the 28th ACM International Conference on Supercomputing, ICS ’14, pages 333–342, New York, NY, USA, 2014. ACM.
[17] Ilya Sutskever, James Martens, George E. Dahl, and Geoffrey E. Hinton. On the importance
of initialization and momentum in deep learning. In Proceedings of the 30th International
Conference on Machine Learning, ICML 2013, Atlanta, GA, USA, 16-21 June 2013, volume 28
of JMLR Proceedings, pages . JMLR.org, 2013.
[18] Christian Szegedy, Alexander Toshev, and Dumitru Erhan. Deep neural networks for object
detection. In Christopher J. C. Burges, Leon Bottou, Zoubin Ghahramani, and Kilian Q. ?
Weinberger, editors, Advances in Neural Information Processing Systems 26: 27th Annual
Conference on Neural Information Processing Systems 2013. Proceedings of a meeting held
December 5-8, 2013, Lake Tahoe, Nevada, United States., pages , 2013.
[19] Alexander Toshev and Christian Szegedy. Deeppose: Human pose estimation via deep neural
networks. CoRR, abs/, 2013.
[20] Koen E. A. van de Sande, Jasper R. R. Uijlings, Theo Gevers, and Arnold W. M. Smeulders.
Segmentation as selective search for object recognition. In Proceedings of the 2011 International Conference on Computer Vision, ICCV ’11, pages , Washington, DC, USA,
2011. IEEE Computer Society.
[21] Matthew D. Zeiler and Rob Fergus. Visualizing and understanding convolutional networks. In
David J. Fleet, Tomas Pajdla, Bernt Schiele, and Tinne Tuytelaars, editors, ? Computer Vision
- ECCV 2014 - 13th European Conference, Zurich, Switzerland, September 6-12, 2014, Proceedings, Part I, volume 8689 of Lecture Notes in Computer Science, pages 818–833. Springer,
参考知识库
* 以上用户言论只代表其个人观点，不代表CSDN网站的观点或立场
访问：571次
排名：千里之外

有谁能讲解下《how is going on withdeeper with convolutions》这篇论文

我要回帖

更多关于 be going to讲解的文章

随机推荐

有谁能讲解下《how is going on withdeeper with convolutions》这篇论文

我要回帖

更多关于 be going to讲解 的文章

随机推荐

更多关于 be going to讲解的文章