为什么现在深度学习会这么火

国际计算机视觉与模式识别会议(CVPR)是IEEE一年一度的学术性会议会议的主要内容是计算机视觉与模式识别技术。CVPR是世界顶级的计算机视觉会议(三大顶会之一另外两个昰)———转自百度百科。

还有几天cvpr2015就要开幕了录用的论文目前在大会官网http://www.pamitc.org/cvpr15/program.php已可查看。博主对11年到15年cvpr录用的论文进行词频搜索大致勾勒出近几年视觉与学习领域的研究热点及变化,供新同学们选择研究领域时参考

词频搜索时,去掉了重复(若单词在同一论文标题中絀现多次只记一次),干扰(类似surface对face的干扰等)考虑了多态(如classification也看作是classfy)。

由于cvpr录用论文数量逐年递增(11-15年分别为438466,472540,602)用15年数目做基准,对11-14年数目进行规范化保留1位小数。得到的词频变化如下表:

博主冒充砖家对数据说明一下不对的地方请自动忽略:

在图像特征领域,以sift为代表的point特征研究和已snakelevelset等为代表的contour特征研究逐年减少,edge和shape的研究占据主流

在处理对象上,face绝对是重量级的研究对象motion的研究有下降趋势,但仍是主流方向之一另外,在自动驾驶中用到的pedestrian检测及人机交互时用到的hand识别跟踪也有稳定的关注度

在机器学习领域目前最火的毫无悬念当属深度学习(deep learning, CNN)svm,boost基本被边缘化了

最后,给要想冲击cvpr2016的同学建议赶紧换到深度学习人脸识别研究方向,論文题目都想好了就叫 deepFace:shape based face detector!!!

加载中,请稍候......

原标题:深度学习那么火,科大讯飛是如何做的

2015结束了,一起聊聊深度学习的那点事!”一文中笔者曾对深度学习与我们日常生活的关联、深度学习的发展现状,以及其所面临的一些挑战等做过一些探讨虽然文中也涉及到了一些应用情况,比如百度、科大讯飞等是如何利用深度学习进行语音识别、图像識别方面的研究的但终究没有深入,为了更好地理解深度学习的方方面面本文将借着科大讯飞的实际案例,作进一步的探讨当然,限于笔者水平有限可能某些方面的表达并不尽如人意,希望谅解

言归正传,在讲述应用之前我们先看看科大讯飞公司的背景。根据百度百科的注释科大讯飞,全名科大讯飞股份有限公司前身安徽中科大讯飞信息科技有限公司,成立于1999年12月30日2014年4月18日变更为科大讯飛股份有限公司,专业从事智能语音及语言技术研究、软件及芯片产品开发、语音信息服务及电子政务系统集成

看得出,科大讯飞的主偠业务都是围绕语音来展开的如果用更好理解的话来阐述,那就是科大讯飞做的就是让机器理解语音基于此则有很大的想象空间,比洳聊天机器人……至于其中有什么难题都是他们要致力解决的问题。那他们究竟是如何利用语音的简单而言就是深度学习。这其中涉忣到算法、模型、平台是一个非常复杂的过程。正因为此做语音识别的只有少数那么几家,毕竟门槛太高了

左:张致江,右:于振華

可能是外行看热闹、内行看门道的原因吧在被问及此问题时,科大讯飞内核研发中心研发总监于振华倒并没有说这个难、那个难而昰一语切中要害。他说至于算法、或者编写程序的难度其实都不是很大,我们认为重点可能在于你需要一些研究院的思维去做这件事聽起来跟互联网思维有些相像,技术水平终究是有办法解决的但思维不改,这事就不太容易做好

算法、编程这些好解决,那硬件系统戓者说平台好搭吗这个说起来还确实有点难度。在谈及此时受访嘉宾也一下子打开了话匣子。科大讯飞深度学习平台研发主管张致江表示要做深度学习并不难,买台机器弄套相关的软件可能就做起来了,但真要上了一定的规模后系统的搭建可是有讲究的。

他解释說首先你需要了解算法,基于算法之上再进行精心的设计包括怎么样去并行,哪些可以并行哪些不可以,然后并行需要一些什么样嘚计算特点带宽是多大类似这样的东西,以及设计出来之后这个系统一个节点能够容忍多大的计算量,存储该怎么弄等这些都要考虑茬内总之,搭建系统是一个很复杂的事情远不像买一台机器那么简单。当然由此带来的直接结果就是投标、采购时,他们很少关注朂低价而是更多考虑谁提供的解决方案更好、更有利。

其实从以上解释中也不难看出搞深度学习对人员的要求极高,不仅需要懂硬件、还得懂软件、懂管理、懂运维以上可以说是宏观层面的分析,要搞深度学习需要些什么东西。下面再从微观层面看看搞深度学习更親睐一些什么样的技术

首先看看最重要的硬件平台,张致江表示他们现在用的机器大致分两种,一种是2:4一种是2:8,其中2代表一台机器ΦCPU的数量4和8则代表GPU的数量。之所以用这样的机器并非出于他们的本意,而是由于当前供应商的机器就是这样设计的从他们实际应用嘚角度来看,则更希望有1:4这样的产品出现因为CPU在其中确实不承担太多的作用,只作为基础的软件运行平台

对此,NVIDIA中国区政府销售总监Tomas He茬接受采访时表示基于客户的实际需求,他们也在积极地和相关OEM厂商合作推出更多可选机型,更好地满足客户的实际需求

据悉,当湔张致江这一个团队深度学习这块所用的GPU就有400多块话说在笔者看来,这确实已经是一个不小的规模不过于振华的一番话却让笔者有了噺的认识。他说现在的神经网络链接数也就是10的8次方,跟真正的人脑差了近6个数量级显然这400块是远远满足不了实际需求的,由此也带絀了第二个问题的探讨即除了关注机器中CPU和GPU的配比,做深度计算还关注哪些内容

从理想的角度出发,做深度学习无非他们希望计算速度更快、更便宜,而且带宽更大于振华强调,在6个数量级填满之前他们对于速度和带宽的追求是永远不会停步的。

但是理性也告诉峩们6个数量级显然不可能是三五年或者短时间内解决的问题,因此科大讯飞在做的就是做一些局部的突破和发展。比如针对特定领域嘚相对简单的问题把它做透。具体来说张致江表示,一是持续优化训练平台包括稳定性、可用性以及使用效率等的再提升;二是针对罙度学习领域,一些新技术的及时跟进比如今年提出的STM技术等,这都是我们非常关注的

其实话说回来,NVIDIA也一直在致力于技术的进步嶊出更快的、带宽的产品。据悉NVIDIA中国区企业传播高级经理Steven Jin介绍明年即将上市的下一代GPU产品相比现在能提升10倍左右的性能,而在去年GTC上首佽露面的NV-Link技术再过不久也将得以应用这对于深度学习的推进无疑是个重大利好。同时在此次HPC China 2015期间,NVIDIA也宣布推出了M系列GPU产品相比前代產品,也有着大幅的性能提高

虽然深度学习还面临着这样、那样的困难,但是以NVIDIA为首的围绕在其周围的一群合作伙伴正在积极的解决这些问题或许再过不了多久,10的6次方的鸿沟就能够填上

  深度学习火热不是假象以丅的十个指数级增长趋势证明:深度学习在过去的一年内获得了极快的发展,已经成为当下人工智能的“顶梁柱”本文从 ImageNet、NIPS和CVPR等顶级学術会议,以及谷歌、英伟达等企业应用还有深度学习人才与投资、收购等角度分析,用13 张图解读深度学习到底有多火

   图像识别准確率的指数级增长

  似乎一切都是从 2015年的 ImageNet 挑战赛开始的,当年在图像识别准确率上机器首次超过了人类,被认为是一个里程碑式的突破

  2010年算法的图像识别错误率至少在25%左右,但到2015年计算机图像识别错误率已经低于人类(人类水平大概是4%左右)。2015年是0.03567也就是3.5%。2016姩ImageNet 竞赛,图像识别错误率进一步下降错误率今年的最好成绩为:平均错误率0.02991,也就是2.99%左右

  搜索热度的指数级增长

  深度学习茬近两年来已经成为名副其实的热词。

  学术会议上深度学习影响力的指数级增长

  现实表明学术研究领域确实迎来爆发式增长

  图:NIPS 增长趋势

  2016 年,作为学界顶级盛会的 NIPS 共收到投稿超过 2500 篇最终接收了 568 篇——保守估计接收率 22.7%。这个论文接收率并不算那么低(相較其他顶会)

  再看参会人数及其近年来的增长趋势(上图右),2016参会人数已经超过了5000人——尤其是近两年用“直线上升”形容毫鈈夸张。

  CVPR 是计算机视觉领域的国际顶级会议下面是 CVPR 的增长趋势图:

  图:CVPR 参会人数趋势

  新智元在此前的报道曾统计过,本届會议共收到论文 2145 篇创下历史记录(有效 1865 篇)。会议接收论文 643 篇(接收率 29.9%)

  2016 CVPR 会议接收的论文里,发表的论文中有 80% 到 90%口头报告更是接近 100% 都来自深度学习领域。

我要回帖

 

随机推荐