如何保存megaface所需的mfcc特征保存

&figure&&img src=&https://pic4.zhimg.com/v2-baa2a8eb848_b.jpg& data-rawwidth=&1920& data-rawheight=&1080& class=&origin_image zh-lightbox-thumb& width=&1920& data-original=&https://pic4.zhimg.com/v2-baa2a8eb848_r.jpg&&&/figure&为技术干货而生的地平线《大牛讲堂》此前举办了首期线下分享活动。中科院研究员、博士生导师山世光博士;中科院博士邬书哲;地平线联合创始人&算法副总裁黄畅博士围绕&b&“自动驾驶系统中的目标检测技术”&/b&分别进行了主题分享,给观众奉献了两个小时的干货盛宴。&p&本期推出的是第二位嘉宾邬书哲博士的分享内容——&b&物体检测算法的革新与传承&/b&。&/p&&figure&&img src=&https://pic4.zhimg.com/v2-bed46d2365cad6ad39be67_b.png& data-rawwidth=&613& data-rawheight=&174& class=&origin_image zh-lightbox-thumb& width=&613& data-original=&https://pic4.zhimg.com/v2-bed46d2365cad6ad39be67_r.jpg&&&/figure&&p&山世光教授的博士生邬书哲对山世光教授讲到的内容在细节上做了补充。其补充内容主要包含三个部分:首先是深度学习在物体检测领域点燃的星星之火,即R-CNN系列的工作,其次是针对检测器的速度问题所提出的两个代表性方法:YOLO和SSD,最后是传承了经典检测方法的Cascade CNN。&/p&&h2&&b&R-CNN&/b&&b&系列&/b&&/h2&&p&R-CNN的出现带来检测精度的一次巨大提升,在Pascal VOC 2010上,全面超越了之前的方法,mAP提高了20%;在ImageNet的物体检测竞赛上,刷新了之前的冠军记录,mAP提高了10%。然而R-CNN的检测速度非常慢,在GPU上处理一张图需要13s,在CPU上处理一张图需要长达53s。&figure&&img src=&https://pic1.zhimg.com/v2-2d9da407fc73ee3e5530f0_b.png& data-rawwidth=&558& data-rawheight=&161& class=&origin_image zh-lightbox-thumb& width=&558& data-original=&https://pic1.zhimg.com/v2-2d9da407fc73ee3e5530f0_r.jpg&&&/figure&&/p&&p&Fast R-CNN是R-CNN的加速版本,其借鉴了SPP-net的做法,在提取每个窗口的特征之前,直接在全图上进行卷积,避免了大量重复计算,同时采用SVD分解对分类所用的全连接层进行压缩,将一个大的全连接层拆解成两个小的全连接层。通过这样的策略,Fast R-CNN相比R-CNN能够有213倍的加速比。总的来看,Fast R-CNN还是不够快,因为其采用了Selective Search来提取候选窗口,这部分处理一张图在CPU上需要2s,而即使是采用EdgeBox,在GPU上也需要0.3s,这个时间和分类的时间相当。于是Faster R-CNN进一步引了RPN网络,并且让其和分类网络共享卷积层,实现进一步的加速。从R-CNN到Faster R-CNN,这是一个化零为整的过程,从不同的模块不同的方法来做,到最后整合到同一个网络中来做,精度不断提高,速度也是在不断提高的。&/p&&p&Faster R-CNN中有一个非常关键的设计,也就是anchor box,相比于之前的滑动窗口+图像金字塔的方式,采用anchor box实际上是固定输入图像不变,而改成去变化窗口,采用不同大小和长宽比的窗口来扫描图像。Faster R-CNN在Pascal VOC 2012、ILSVRC 2015和MS COCO 2015的检测任务上都获得了最好成绩,并且在绝大多数类别上都获得了最高的AP。&figure&&img src=&https://pic2.zhimg.com/v2-16f98dd41a20ddf_b.png& data-rawwidth=&551& data-rawheight=&331& class=&origin_image zh-lightbox-thumb& width=&551& data-original=&https://pic2.zhimg.com/v2-16f98dd41a20ddf_r.jpg&&&/figure&&/p&&p&在Faster R-CNN中,如果采用ResNet这样的网络结构,那么每一个候选窗口都要经过其最后一组卷积层的计算,这会带来巨大的时间开销,这部分时间大概会占到总的检测时间的三分之一,因此出现了一个改进版:R-FCN,其将RoIPooling后移,最后一组卷积继续在整个特征图上做,从而进一步避免了重复计算。R-FCN中有一个比较巧妙的设计,叫做位置敏感得分图,以这张图为例,在判断候选框里面是不是一个人的时候,其会分别观察这个框的各个位置,如左上角、右上角等,然后分别作出判断,之后再投票整合得到最终的分类结果。可以看到这个跟DPM稍微有点相似,但是不同的是这里各个部分的几何关系是固定的,而DPM会推断各个部件的位置。&/p&&p&R-FCN相比于Faster R-CNN在达到类似精度的条件下在速度上能够有3倍左右的提升,在某些情况下甚至能够有20倍的提升。&/p&&h2&&b&YOLO&/b&&b&和SSD&/b&&/h2&&p&R-CNN系列方法经过一系列的加速,在很多情况下,还是无法达到实时的25fps这个要求,影响速度的因素有很多,包括输入大小、候选窗口的数量等。并且这一系列方法还有一个特点,就是要看两次,一看定候选窗口,二看才定检测结果。为了提高检测速度,出现了YOLO和SSD这样的方法,其特点就是只看一次,直接得到检测结果。&/p&&p&另外输入图像的尺寸也减小了,从Faster R-CNN的减小到了YOLO的446x446,网络规模也进行了一定的控制。可以看到在YOLO的网络最后是两个全连接层,直接用全图的信息来预测检测框,这可以看成是对上下文的信息进行了利用,还有就是全连接层的计算本身比较快。YOLO使得检测速度得到了很大提升,快速版本在GPU可以达到150fps,然而其精度下降得非常厉害,因此实用性大大降低了。&figure&&img src=&https://pic1.zhimg.com/v2-c061b38ac33fb100f5db50_b.png& data-rawwidth=&552& data-rawheight=&148& class=&origin_image zh-lightbox-thumb& width=&552& data-original=&https://pic1.zhimg.com/v2-c061b38ac33fb100f5db50_r.jpg&&&/figure&&/p&&p&有两个因素是比较影响精度的,一是网格划分,其使得位置过于粗糙,二是网络深度,太深层的特征使得特征过于粗糙。SSD一方面控制了网络深度,另一方面在回归窗口的时候会同时采用不同层的特征,在较浅层上回归小的窗口,在较深层上回归大的窗口。SSD速度相比没有YOLO那么快,但是换来了精度上的提升。如果和前面提到的Faster R-CNN相对比,SSD可以看成是一个RPN网络。个人认为,在完全相同的条件下,SSD速度会更快,但是Faster R-CNN精度会更好。&/p&&h2&&b&Cascade CNN&/b&&/h2&&p&最后要讲的方法是经典上的一个传承:Cascade CNN。当考虑一些特定类别目标的检测的时候,尤其是人脸和人体,对速度的要求会更高,而如果只考虑单一类别的物体,传统的级联结构分类器仍然是非常有效的方法。而RPN加上Fast R-CNN的形式本身看起来也是一种级联。Cascade CNN是3组一共6个网络进行级联,交替进行分类和边框校准。分类网络的输入图像的分辨率是随着输入规模动态调整的,在最开始输入规模比较大的时候,用比较小的输入图像,这样可以尽量的节约时间,然后逐渐从12x12变化到24x24,再到48x48。&/p&&figure&&img src=&https://pic3.zhimg.com/v2-4ebb1e2b6854aac6bc5f6_b.png& data-rawwidth=&719& data-rawheight=&129& class=&origin_image zh-lightbox-thumb& width=&719& data-original=&https://pic3.zhimg.com/v2-4ebb1e2b6854aac6bc5f6_r.jpg&&&/figure&&p&Cascade CNN在做窗口校准的时候,还不是采取回归的方式,而是人为的设置了45种不同的模式,然后采用分类的方式来对窗口进行校准。Cascade CNN后续也有一些跟进的工作,例如采用多任务协同学习,这种做法在网络比较小的时候,能够让它的精度得到提升。再有比方说把多级分类器协同训练,这样可以采用类似于Faster R-CNN那样端到端的训练方式,这可以使精度再进一步往上提。&figure&&img src=&https://pic1.zhimg.com/v2-fe2e9f5d24b_b.png& data-rawwidth=&592& data-rawheight=&273& class=&origin_image zh-lightbox-thumb& width=&592& data-original=&https://pic1.zhimg.com/v2-fe2e9f5d24b_r.jpg&&&/figure&&/p&&h2&&b&总结&/b&&/h2&&p&从之前的工作到现在的工作,有一些基本的策略,包括难例挖掘,多尺度,相关任务协同学习,上下文建模等,这些策略都被广泛验证是有效的。当出现一个新的方法之后,大家往往会把同样的策略应用到这个新方法上去,做出一系列的工作。&/p&&p&物体检测领域现在还有很多其它的工作,比如说DenseBox、尺度相关池化、Inside-Outside Net、Multi-region CNN等等,这些方法很多都体现了以上提到的策略,同时也使基于深度学习的物体检测方法走得更远。 &/p&
为技术干货而生的地平线《大牛讲堂》此前举办了首期线下分享活动。中科院研究员、博士生导师山世光博士;中科院博士邬书哲;地平线联合创始人&算法副总裁黄畅博士围绕“自动驾驶系统中的目标检测技术”分别进行了主题分享,给观众奉献了两个小时的干货盛宴…
&figure&&img src=&https://pic3.zhimg.com/v2-c635acd06dabf9acb595ef_b.jpg& data-rawwidth=&564& data-rawheight=&327& class=&origin_image zh-lightbox-thumb& width=&564& data-original=&https://pic3.zhimg.com/v2-c635acd06dabf9acb595ef_r.jpg&&&/figure&&p&为技术干货而生的地平线《大牛讲堂》此前举办了首期线下分享活动。中科院研究员、博士生导师山世光博士;中科院博士邬书哲;地平线联合创始人&算法副总裁黄畅博士围绕“自动驾驶系统中的目标检测技术”分别进行了主题分享,给观众奉献了两个小时的干货盛宴。从本期开始,我们将发布现场分享纪要,与大家一起回顾这场技术洪流。&/p&&p&本期推出的是山世光博士的分享内容——&b&基于深度学习的目标检测技术进展与展望。&/b&&/p&&figure&&img src=&https://pic3.zhimg.com/v2-8bfbf71bb7d13ddec5cbc_b.jpg& data-rawwidth=&677& data-rawheight=&264& class=&origin_image zh-lightbox-thumb& width=&677& data-original=&https://pic3.zhimg.com/v2-8bfbf71bb7d13ddec5cbc_r.jpg&&&/figure&&p&山世光博士主要与我们分享梳理了物体检测技术的近期进展。&/p&&h2&&b& 1.
Viola-Jones&/b&&b&人脸检测器&figure&&img src=&https://pic4.zhimg.com/v2-958f4b0ee8c60f14bf89_b.jpg& data-rawwidth=&640& data-rawheight=&394& class=&origin_image zh-lightbox-thumb& width=&640& data-original=&https://pic4.zhimg.com/v2-958f4b0ee8c60f14bf89_r.jpg&&&/figure&&/b&&/h2&&p&物体检测在整个计算机领域里,比较成功的一个例子,就是在大概2000年前后出现的Viola-Jones人脸检测器,其使得物体检测相比而言成了一项较为成熟的技术。这个方法基本的思路就是滑动窗口式的,用一个固定大小的窗口在输入图像进行滑动,窗口框定的区域会被送入到分类器,去判断是人脸窗口还是非人脸窗口。滑动的窗口其大小是固定的,但是人脸的大小则多种多样,为了检测不同大小的人脸,还需要把输入图像缩放到不同大小,使得不同大小的人脸能够在某个尺度上和窗口大小相匹配。这种滑动窗口式的做法有一个很明显的问题,就是有太多的位置要去检查,去判断是人脸还是非人脸。&/p&&p&判断是不是人脸,这是两个分类问题,在2000年的时候,采用的是AdaBoost分类器。进行分类时,分类器的输入用的是Haar特征,这是一种非常简单的特征,在图上可以看到有很多黑色和白色的小块,Haar特征就是把黑色区域所有像素值之和减去白色区域所有像素值之和,以这个差值作为一个特征,黑色块和白色块有不同的大小和相对位置关系,这就形成了很多个不同的Haar特征。AdaBoost分类器是一种由多个弱分类器组合而成的强分类器,Viola-Jones检测器是由多个AdaBoost分类器级联组成,这种级联结构的一个重要作用就是加速。&/p&&p&2000年人脸检测技术开始成熟起来之后,就出现了相关的实际应用,例如数码相机中的人脸对焦的功能,照相的时候,相机会自动检测人脸,然后根据人脸的位置把焦距调整得更好。&/p&&h2&&b& 2.
&/b&&b&可变形部件模型(DPM)&/b&&/h2&&p&Viola-Jones人脸检测器之后,在2009年出现了另外一个比较重要的方法:deformable
part model(DPM),即可变形部件模型。就人脸检测而言,人脸可以大致看成是一种刚体,通常情况下不会有非常大的形变,比方说嘴巴变到鼻子的位置上去。但是对于其它物体,例如人体,人可以把胳膊抬起来,可以把腿翘上去,这会使得人体有非常多非常大的非刚性变换,而DPM通过对部件进行建模就能够更好地处理这种变换。刚开始的时候大家也试图去尝试用类似于Haar特征+AdaBoost分类器这样的做法来检测行人,但是发现效果不是很好,到2009年之后,有了DPM去建模不同的部件,比如说人有头有胳膊有膝盖,然后同时基于局部的部件和整体去做分类,这样效果就好了很多。DPM相对比较复杂,检测速度比较慢,但是其在人脸检测还有行人和车的检测等任务上还是取得了一定的效果。后来出现了一些加速DPM的方法,试图提高其检测速度。DPM引入了对部件的建模,本身是一个很好的方法,但是其被深度学习的光芒给盖过去了,深度学习在检测精度上带来了非常大的提升,所以研究DPM的一些人也快速转到深度学习上去了。&/p&&h2&&b& 3. R-CNN &/b&&b&系列&/b&&/h2&&p&对于基于深度学习的物体检测方法,这里把最近两三年里面出现的比较有代表性的工作做一个概括性地介绍。一个就是R-CNN系列,另一个是传统方法和深度学习的方法的结合。这些方法出现之后带来检测性能的极大的提升,待会我的博士生会介绍性能提升的具体情况,大家可以看到,检测精度几乎是成倍地增长。当然这里面还是存在一些问题,就是检测速度,我知道很多工业界的朋友都在想办法对基于深度学习的检测方法进行加速。&figure&&img src=&https://pic2.zhimg.com/v2-f04d6e80e9ba71e_b.jpg& data-rawwidth=&640& data-rawheight=&480& class=&origin_image zh-lightbox-thumb& width=&640& data-original=&https://pic2.zhimg.com/v2-f04d6e80e9ba71e_r.jpg&&&/figure&&/p&&p&所谓的R-CNN,是基于这样一种非常简单的想法,对于输入图像,通过selective search等方法,先确定出例如2000个最有可能包含物体的窗口,对于这2000个窗口,我们希望它能够对待检测物体达到非常高的召回率。然后对这2000个中的每一个去用CNN进行特征提取和分类。对这2000个区域都要去跑一次CNN,那么它的速度是非常慢的,即使每次只需要0.5秒,2000个窗口的话也是需要1000秒,为了加速2014年的时候何凯明提出了SPP-net,其做法是对整个图跑一次CNN,而不需要每一个窗口单独做,但是这样有一个小困难,就是这2000个候选窗口每一个的大小都不一样,为了解决这个问题,SPP-net设计了spatial pyramid pooling,使得不同大的小窗口具有相同维度的特征。这个方法使得检测时不需要对每一个候选窗口去计算卷积,但是还是不够快,检测一张图像还是需要几秒的时间。&figure&&img src=&https://pic2.zhimg.com/v2-e5d8e59cef042accca884b_b.jpg& data-rawwidth=&640& data-rawheight=&480& class=&origin_image zh-lightbox-thumb& width=&640& data-original=&https://pic2.zhimg.com/v2-e5d8e59cef042accca884b_r.jpg&&&/figure&&/p&&p&Fast R-CNN借鉴了SPP-net的做法,在全图上进行卷积,然后采用ROI-pooling得到定长的特征向量,例如不管窗口大小是多少,转换成7x7这么大。Fast R-CNN还引入了一个重要的策略,在对窗口进行分类的同时,还会对物体的边框进行回归,使得检测框更加准确。前面我们说候选窗口会有非常高的召回率,但是可能框的位置不是很准,例如一个人体框可能是缺胳膊缺腿,那么通过回归就能够对检测框进行校准,在初始的位置上求精。Fast R-CNN把分类和回归放在一起来做,采用了多任务协同学习的方式。&/p&&p&Faster R-CNN相比于Fast R-CNN又带来了一个比较大的变化,其将产生候选窗口这一步也用深度网络来做,并且让这个网络和Fast R-CNN的分类网络共享了卷积层,这个产生候选窗口的网络叫做RPN,是Faster R-CNN的核心。RPN替代了之前非常慢的Selective Search,而且通常所用的候选窗口的数目也比较少,只需要300个就够了,这使得后面分类的速度会更快。为了检测各种各样的物体,RPN引入了所谓anchor box的设计,具体来说,RPN在最后一个卷积层输出的特征图上,先用3x3的卷积得到每个位置的特征向量,然后基于这个特征向量去回归9个不同大小和长宽比的窗口,如果特征图的大小是40x60,那么总共就会有大约2万多个窗口,把这些窗口按照信度进行排序,然后取前300个作为候选窗口,送去做最终的分类。通过用RPN替换Selective Search,并采用共享卷积层的方式,同时降低了候选窗口的数量,Faster R-CNN在速度上有了明显提高,其在GPU上可以达到5fps的速度。&/p&&h2&&b&4. &/b&&b&回归位置&/b&&b&——YOLO&SSD&/b&&/h2&&p&2015年出现了一个名为YOLO的方法,其最终发表在CVPR 2016上。这是一个蛮奇怪的方法,对于给定的输入图像,YOLO不管三七二十一最终都划分出7x7的网格,也就是得到49个窗口,然后在每个窗口中去预测两个矩形框。这个预测是通过全连接层来完成的,YOLO会预测每个矩形框的4个参数和其包含物体的信度,以及其属于每个物体类别的概率。YOLO的速度很快,在GPU上可以达到45fps。&figure&&img src=&https://pic3.zhimg.com/v2-8afbfea2ff448af087304_b.jpg& data-rawwidth=&640& data-rawheight=&480& class=&origin_image zh-lightbox-thumb& width=&640& data-original=&https://pic3.zhimg.com/v2-8afbfea2ff448af087304_r.jpg&&&/figure&&/p&&p&在YOLO之后,在2015年Liu Wei提出了名为SSD的方法。前面提到的YOLO有一个明显的缺点,就是最多只能检测7x7=49个物体,如果图像中有超过49个物体,那么肯定会有检测不到的,YOLO在每个网格里面只会检测一个物体,如果一个网格里面同时放入两个物体,那么其中一个就会被漏检。&figure&&img src=&https://pic1.zhimg.com/v2-5064b67abee87a26ed0583_b.jpg& data-rawwidth=&640& data-rawheight=&480& class=&origin_image zh-lightbox-thumb& width=&640& data-original=&https://pic1.zhimg.com/v2-5064b67abee87a26ed0583_r.jpg&&&/figure&&/p&&p&相比之下,SSD采用了类似于RPN中anchor box的机制,YOLO基于整个特征图用全局信息一起去回归所有位置的检测框,而SSD是用卷积基于局部特征去回归各个位置的检测框,并且SSD还用到了不同层的特征,之前YOLO只用了最后一个卷积层上的特征,这样做的缺点就是难以检测小尺度的物体,最后一个卷积层上的神经元其感受野会非常大,小尺度的物体在这上面的特征就非常不明显。从速度上来看,在一些情况下,SSD甚至会比YOLO更快,在GPU上达到58fps的速度。&/p&&h2&&b&5. Cascade CNN&/b&&/h2&&p&在物体检测领域,过去有这样一种现象,就是对每一个物体我们都需要去设计和学习单独的检测器,例如做人脸检测和车辆检测,两个检测器特征会不一样,分类器也不一样,对于每一类物体,需要去尝试不同的特征和分类器的组合。但是到了现在,不管是R-CNN那一系列方法,还是YOLO和SDD,都没有在物体类别上有任何限制,可以检测人脸,也可以同时检测其他类别的物体,这是一个非常重要的优势。但是在特定类别物体的检测上,现在也还是有一些专门的方法,比方说做人脸检测的Cascade CNN,其用CNN替换了AdaBoost分类器,为了保证速度足够快,其采用非常简单的CNN,比方说把卷积核的数量控制得非常少。在cascade的前面级上,需要非常快速地处理滑动窗口,因此用的CNN会非常简单,到后面级上窗口变少,分类难度变大,会需要稍微复杂一点的CNN。目前Cascade CNN在公开的人脸检测评测集FDDB上,在产生100个误检的的时候,召回率能够达到85%。&/p&&h2&&b& 6. &/b&&b&总结&/b&&/h2&&p&上面介绍了一些代表性的基于深度学习的物体检测方法,简单总结一下:首先深度学习给检测精度确实带来了非常大的提升,以ImageNet上的物体检测任务为例,mAP从2013年的0.23提升到了2015年的0.62,这个变化是非常显著的;其次,物体检测方法中发生了的一个重要的变化,就是bounding
box regression的引入,回归的方式开始兴起,这不仅有利于定位,还有助于得到更为准确的检测框;最后,产生窗口的方式有很大的变化,从原来遍历式的滑动窗口,转变成了去寻找最有可能出现物体的窗口,只对少量的窗口去进行分类。&/p&
为技术干货而生的地平线《大牛讲堂》此前举办了首期线下分享活动。中科院研究员、博士生导师山世光博士;中科院博士邬书哲;地平线联合创始人&算法副总裁黄畅博士围绕“自动驾驶系统中的目标检测技术”分别进行了主题分享,给观众奉献了两个小时的干货盛宴…
&figure&&img src=&https://pic4.zhimg.com/v2-b8d6d21e66bfc88d7840de6_b.jpg& data-rawwidth=&1221& data-rawheight=&655& class=&origin_image zh-lightbox-thumb& width=&1221& data-original=&https://pic4.zhimg.com/v2-b8d6d21e66bfc88d7840de6_r.jpg&&&/figure&&p&近年来,随着深度学习的崛起,图像识别技术也有大幅度的进展,不管是在个人用的图像、社交软件,还是在公共领域中用以识别人像、车辆等信息,图像识别均扮演着重要角色。&/p&&p&「虽看上去国内有不少公司在做图像识别,但大多数都是在做应用型的开发,而真正专注核心技术的公司并不多。」飞搜科技(Faceall)联合创始人兼 CEO 白洪亮如是说&/p&&h1&&strong&离&/strong&开外企创业,将多年储备的深度学习技术引入到图像识别中&/h1&&p&飞搜科技则是一家专注于图像核心技术(深度学习)研发的公司,旨在开发出适应市场的图像视频分析产品,为有需要应用人脸识别和图像识别的企业提供核心算法的技术支持和技术服务。&/p&&p&成立公司之前,白洪亮曾供职于法国电信,从事图片处理方面的技术工作。2015 年初,白洪亮与他共同工作 6 年的伙伴离开公司,创办北京飞搜科技,两个人的积蓄作为自己的项目启动资金。&/p&&p&「团队里的成员算得上是最早一批做深度学习的人,当时的竞标公司也不是那么强,我们赶上了大环境,拿到了一笔融资,将所储备的技术做进一步开发, 包括图片识别、检索,视频分析等。」白洪亮说道。&/p&&h1&&strong&面&/strong&向企业多个在线 API、离线 SDK 的核心产品线,国际客户占 20%&/h1&&p&从一开始,飞搜将深度学习技术应用在人脸识别、图像识别领域,向客户提供简单的解决方案,并在一定周期内更新数据库以及模型。白洪亮表示,深度学习包括设备、数据、算法这三个要点,并且着重依赖数据。目前,飞搜的数据量已达到千万级别,主要是通过互联网、图片售卖网站、用户等渠道获得。&/p&&p&到目前为止,飞搜已经开发出面向企业(ToB)的多个在线 API、离线 SDK 的核心产品线,包括人脸检测、人脸特征点定位(包含 5 点、27 点、68 点、194 点)、人脸识别(人脸校验 1:1,人脸搜索 1:N)、名人识别、人脸属性识别(性别、年龄、种族、颜值等)和目标/场景识别、色情图片识别等。&/p&&br&&figure&&img src=&https://pic4.zhimg.com/v2-ff3ad488f55bdfa06619e2_b.jpg& data-rawwidth=&901& data-rawheight=&584& class=&origin_image zh-lightbox-thumb& width=&901& data-original=&https://pic4.zhimg.com/v2-ff3ad488f55bdfa06619e2_r.jpg&&&/figure&&br&&p&&i&名人识别&/i&&/p&&p&白洪亮表示,随着一些新的智能鉴别需求出现,他们会继续开发新的应用,就比如在直播十分红火之时,飞搜即启动色情识别的项目。「图像识别的应用领域十分广,包括自动驾驶、视频自动分析、医学辅助等,只要是与视觉相关的,均会运用到这项技术,它在解放生产力给人们生活以便利的同时,能给予网络一个安全、纯净的世界」。白洪亮进一步表示。&/p&&p&目前,飞搜的合作伙伴与客户包括广电总局(视频内容的自动分析)、华为,视频监控厂商(在视频监控、安检、智能城市的项目中提供人脸识别技术)、婚恋、视频直播、社交等网站(色情图片识别)。&/p&&p&另外,飞搜的人脸检测、识别技术在各项国际赛事中获得良好成绩:人脸识别技术在全球最具权威的人脸检测平台 FDDB 上达到 90%;人脸验证(1:1)在公开基准测试数据集 Labeled Faces in the Wild(LFW)上准确率高于 99.4%(同一数据集谷歌的准确率为 99.65%);在国际人脸识别通用评估集 Megaface 上,飞搜的 1:N ( N 为 100 万)人脸识别技术目前的一选准确率在 72% 以上(同一数据集谷歌的准确率为 70% 左右)&/p&&br&&figure&&img src=&https://pic1.zhimg.com/v2-e0af30da885eb19_b.jpg& data-rawwidth=&625& data-rawheight=&790& class=&origin_image zh-lightbox-thumb& width=&625& data-original=&https://pic1.zhimg.com/v2-e0af30da885eb19_r.jpg&&&/figure&&br&&p&&i&人脸验证 1:1(Face Verification)&/i&&/p&&p&「之所以会参加这类赛事,除了证明自身技术实力外,另外一个原因就是,早在几年前的外企环境下,我们就已经养成了这些参赛习惯,外企对这类赛事也十分重视,而事实证明,它能带来不错效果——为我们吸引了一些国际客户。」据白洪亮表示,目前,他们已有来自英、美、土耳其、新加坡等国家的客户,占比为 20% 左右。&/p&&h1&&strong&在&/strong&底层技术的基础上做小集成,保持「小而精」的姿势&/h1&&p&「图像、人脸识别等技术在国外还处于一片蓝海市场,计算机尚未成为他们的热门行业(目前国外的热门行业主要集中在法律、金融),而从事人工智能研究的也大部分是华人,软件是我们国内的强项;另外,Google,微软,Facebook 等大公司的图像识别技术主要还是提供给 C 端用户,我们的应用主要针对 B 端客户,因此这些大企业不会对我们造成过多的压力。」&/p&&p&相对于国内 Face++,商汤等强大的竞争对手,飞搜表示虽然有一定压力,但更多的是希望能共同将这个行业的「蛋糕」做大,同时,各个公司也是在发挥自身的优势:&/p&&p&商汤、Face++ 的技术偏重基础和大集成,主要在安全监控、金融等应用方面发力,并且有自己的渠道。飞搜则从自身定位、开发量、市场等方面进行考量,提供底层算法,打算从教育、体育等行业入手,做一些小集成。&/p&&p&「在算法上,我们会根据最新成果加大定点投入,并且对数据模型进行持续的完善。」白洪亮说道,飞搜会根据客户的需求直接提供模型,相比大型一点的公司,对客户的支持力度会大些,服务也更人性化。&/p&&p&目前,飞搜科技的团队有 30 人左右,计划后续还会引进一些高端人才,但尽量保持团队的精简,将精力集中在底层技术的完善,避免不必要的开销,并且用心照顾好客户。就如白洪亮一再强调的,希望公司能够保持「小而精」。■&/p&&p&编辑:林亿&/p&版权声明:本文系深圳湾编辑创作发布,转载请注明来自深圳湾,并标明网站地址 &a href=&https://link.zhihu.com/?target=https%3A//shenzhenware.com/& class=& wrap external& target=&_blank& rel=&nofollow noreferrer&&shenzhenware.com&/a&&br&&br&转载、约稿、投稿、团队报道请联系微信公众号:shenzhenware(回复关键字)
近年来,随着深度学习的崛起,图像识别技术也有大幅度的进展,不管是在个人用的图像、社交软件,还是在公共领域中用以识别人像、车辆等信息,图像识别均扮演着重要角色。「虽看上去国内有不少公司在做图像识别,但大多数都是在做应用型的开发,而真正专注核…
&figure&&img src=&https://pic4.zhimg.com/3c9cd205d7df8cf9f40f7a_b.jpg& data-rawwidth=&504& data-rawheight=&271& class=&origin_image zh-lightbox-thumb& width=&504& data-original=&https://pic4.zhimg.com/3c9cd205d7df8cf9f40f7a_r.jpg&&&/figure&&p&本次CVPR 2016上,深度学习几乎成了如今计算机视觉研究的标配,人脸识别、图像识别、视频识别、行人检测、大规模场景识别的相关论文里都用到了深度学习的方法,加上Google,Facebook这样的大企业助力,很多人疑惑,为什么深度学习相比其它的AI实现方法,已然呈现出一副碾压之态?&/p&&p&本期硬创公开课嘉宾我们邀请了商汤科技执行研发总监曹旭东,其刚从CVPR 2016现场赶回来,正好在这里为大家解释一下为什么深度学习几乎成了计算机视觉研究的标配这个问题。以及为大家讲解CV和深度学习的现状和未来趋势。&/p&&p&曹旭东,商汤科技执行研发总监,深度学习专家。毕业于清华大学。前微软亚洲研究院副研究员,负责研发的人脸算法曾用于微软Xbox、How-old等知名产品,现象级产品How &a href=&http://link.zhihu.com/?target=http%3A//Old.net& class=& external& target=&_blank& rel=&nofollow noreferrer&&&span class=&invisible&&http://&/span&&span class=&visible&&Old.net&/span&&span class=&invisible&&&/span&&/a&有数亿用户。在CVPR/ICCV/ECCV等计算机视觉顶级会议发表论文十余篇,其中三篇CVPR论文和两篇ICCV论文获得口头报告荣誉(接收率小5%)。&/p&&h2&基于深度学习的物体检测&/h2&&p&&b&Q:目前的深度学习用于目标检测中有什么优点和缺点?&/b&&/p&&p&首先简单介绍一下传统物体检测的方法和基于深度学习的物体检测方法。&/p&&p&传统方法使用滑动窗口的框架,把一张图分解成几百万个不同位置不同尺度的子窗口,针对每一个窗口使用分类器判断是否包含目标物体。传统方法针对不同的类别的物体,一般会设计不同的特征和分类算法,比如人脸检测的经典算法是Harr特征+Adaboosting分类器;行人检测的经典算法是HOG(histogram of gradients) + Support Vector Machine;一般性物体的检测的话是HOG的特征加上DPM(deformable part model)的算法。&/p&&blockquote&&p&基于深度学习的物体检测的经典算法是RCNN系列: RCNN,fast RCNN (Ross Girshick),faster RCNN (少卿、凯明、孙剑、Ross)。这三个工作的核心思想是分别是:使用更好的CNN模型判断候选区域的类别;复用预计算的sharing feature map加快模型训练和物体检测的速度;进一步使用sharing feature map大幅提高计算候选区域的速度。其实基于深度学习的物体检测也可以看成对海量滑动窗口分类,只是用全卷积的方式。&/p&&/blockquote&&p&RCNN系列算法还是将物体检测分为两个步骤。现在还有一些工作是端到端(end-to-end)的物体检测,比如说YOLO(You Only Look Once: Unified, Real-Time Object Detection)和SSD(SSD: Single Shot MultiBox Detector)这样的算法。这两个算法号称和faster RCNN精度相似但速度更快。物体检测正负样本极端非均衡,two-stage cascade可以更好的应对非均衡。端到端学习是否可以超越faster RCNN还需要更多研究实验。&/p&&h2&深度学习为何成为CV研究的标配&/h2&&p&&b&Q:针对本届大会深度学习几乎成了如今计算机视觉研究的标配,法国 Inria 研究所的研究员 Nikos Paragios 在 LinkedIn 撰文表示了担忧,似乎过于单一了,对这个有什么看法?&/b&&/p&&p&先回答深度学习为什么会成为现在计算机视觉标配的方法。&/p&&p&首先,最重要的原因是深度学习可以做到传统方法无法企及的精度,这是关键中的关键,如果说这个优点是1的话,其它的优点都是1后面的0。深度学习革命爆发在年,11年的时候在语音识别领域有重大突破,12年的时候在图像识别领域有重大突破。深度学习革命,使得计算机视觉在很多应用领域达到了实用水平,催生了工业界的大量应用。这也是为什么在11年前,机器视觉&人工智能的博士生都是找不到工作的,但是12年之后,尤其是现在,都变成了被众多公司高薪争夺的宝贝。&/p&&p&另外深度学习成为标配,还有其它的优点。&/p&&blockquote&&p&第一,深度学习算法的通用性很强,刚才提到的检测,在传统算法里面,针对不同的物体需要定制化不同的算法。相比来看,基于深度学习的算法更加通用,比如faster RCNN在人脸、行人、一般物体检测任务上都可以取得非常好的效果。&/p&&br&&p&第二,深度学习获得的特征(feature)有很强的迁移能力。所谓特征迁移能力,指的是在A任务上学习到一些特征,在B任务上使用也可以获得非常好的效果。例如在ImageNet(物体为主)上学习到的特征在场景分类任务上也能取得非常好的效果。&/p&&br&&p&第三, 工程开发、优化、维护成本低。深度学习计算主要是卷积和矩阵乘,针对这种计算优化,所有深度学习算法都可以提升性能。另外,通过组合现有的层(layer),我们可以实现大量复杂网络结构和一些算法,开发维护的成本低。想想同时开发、维护Boosting,Random Forest等算法是非常痛苦的一件事情。&/p&&/blockquote&&p&再回答深度学习过于单一的问题。&/p&&p&深度学习过于单一的说法,我觉得是不准确的。就好比说一个包容万象的宇宙过于单一了。&/p&&p&简单来说,机器学习就是学习输入到输出的一个映射,传统方法使用浅层的简单映射,现在深度学习是多层的复合映射。深度学习有很多的自由度,学习目标和学习方法有很多种选择,网络结构层与层之间有无数的可能连接方式,每一层映射的具体形式到底是卷积,还是全连接,还是其它的形式,并没有限制,其实除了全连接和卷积之外,还可以用其它的映射形式,比如说去年ICCV上的一个工作:微软研究院用Random Forest做为新的映射形式。&/p&&h2&深度学习技术树&/h2&&p&&b&Q: 商汤科技CVPR2016送选论文重点介绍了四篇论文《物体分割》《服饰识别搜索技术》《行为识别和定位》《人脸检测中级联卷积神经网络的联合训练》,这4篇有何重要意义?这与你们目前的业务侧重点有何关系?&/b&&/p&&p&深度学习的技术框架是一棵树形结构。&/p&&p&训练平台是树根,如caffe、tensorflow等。现在深度学习还处于实验科学阶段,实验效率很大程度上决定着研发效率,好的训练平台可以把实验周期从一个月缩短到一天,对于深度学习研发非常重要。&/p&&p&模型是树干。自06年提出深度学习概念,学术界花了六年时间才认识到模型结构的研究才是深度学习的重点。典型的成果有AlexNet、VGGNet、GoogleNet、ResNet等。学术界大家主要研究怎么把模型做的精度更好。在工业界我们还要考虑怎么把模型做得更快,更小。&/p&&p&在树干上有几个主干的枝丫,对应着计算机视觉里的核心任务,包括了检测、识别、分割、特征点定位、序列学习等五个大的任务,任何计算机视觉的具体的应用都可以由这五个任务组合而成。以人脸识别为例,人脸识别要完成整个流程,要涉及到人脸的检测、特征点定位,特征的提取&验证。这就包含了检测、特征点定位和识别三个部分。&/p&&p&我们在刚才提到的那五个重要的主干方向其实都投入了非常大的研究力量,一方面是保证我们在学术界的前沿有所突破,另一方面,针对我们一些重要应用也开发出了一整套与学术界并行的方法,能够做到十倍的加速和百倍模型的压缩,同时保持很好的精度。这个问题中提到的四篇论文主要是我们在这五个计算机视觉的核心任务上取得的一些研究方向的成果。其实我们除了在研究方向成果之外在工业实用方面有更大、更多的成果,比如我们的人脸检测在做到学术界最好结果的同时能做到300FPS的速度。人脸特征点的定位超过学术界最好结果的同时,做到3000FPS的速度。在学术界公开的论文中,我还没有看到这样的性能。&/p&&p&&b&Q:在《物体分割》这篇文章中(作者石建萍)主要解决的问题是 instance segmentation(也称为Simultaneous Detection and Segmentation)。Instance segmentation 最近逐渐成为一个新的热点问题。它要解决的问题是检测(Object Detection)和语义分割(Semantic Segmentation)综合的一个问题。比起检测,需要得到物体更精确的边界信息;比起语义分割,需要区分不同的物体个体。&/b&&/p&&p&&b&检测好懂,现在都强调从2D检测升级到3D,4D的深度检测;语义分割一直在做的都是区分不同的物体个体,那么现在的语义分割与之前的区别是什么?是不是指语义分割要上升到结合场景的语义理解?&/b&&/p&&p&在深度学习领域有一个简单但又非常通用的原理。在学习时,指导信息越丰富、越精细,学习的效果一般来说也会越好。&br&&br&举个简单的例子,在数据量充足的情况下,如果我对我图像类别的标注仅仅是动物、植物、场景的话,学习出来的模型和特征可能一般。但是如果把这些类别标记细化,比如最开始有十类数据,我们把它细化到一千类,例如把狗分成斑点狗、斗牛犬等,把猫分成波斯猫、大花猫等,通常来说可以学习到更好的模型和更加好的特征。&br&&br&另一个例子是物体检测,如果在bounding box的基础上增加额外的监督信息通长会得到更好的结果。比如标注出人脸的眼睛、鼻子、嘴的位置,人脸的角度,种族性别男女等属性,做成一个多任务学习的算法的话,通常来说能得到更好的效果。&/p&&p&两个代表性工作可以参考:Joint cascade face detection and alignment,Facial landmark detection by deep multi-task learning。&br&&br&有时候多个标注/任务是并列关系,可以通过Multi-Task Learning的框架来学习。另外一些情况,多个任务是递进关系,前一个任务的结果可以帮助后一个任务,例如将每一个人都独立的检测出来之后再分割每个人身体的Mask。合理利用这种递进关系,可以得到比并列关系更好的结果,这其实就是Instance segmentation的核心思想。因为同传统语义分割不同的是,传统语义分割只需要对物体类别进行分类,不需要区分不同的个体。物体分割(Instance segmentation)是既需要区分类别,又需要区分同一物体的个体,所以深度学习的网络需要学习到比之前语义分割任务更多的信息。这方面微软亚洲研究院的戴继峰做了非常开创性的工作。我们商汤科技石建萍高级研究员的工作也非常有创建性。通过多尺度局部区域融合的方法,端到端的实现了instance segmentation 物体类别与区分统一类别不同个体的信息。&/p&&h2&计算机视觉黑科技 &/h2&&p&&b&Q:最近CV的应用出现了一些黑科技,比如MIT给机器“看电视剧”预测人类行为;MIT的人工智能为视频配音;迪士尼研究院可以让AI直接识别视频里正在发生的事。这些黑科技是噱头多还是真的有意义?&/b&&/p&&p&做深度学习的人都是有一个终极的追求。现在的深度学习模式其实比较傻。给定一个数据,以及对应的标签(label)。比如说给一张图片,标签是一只猫,给另一幅图片,标签是一只狗,然后把这些数据送到神经网络里去学习,最终达到一个很好的识别效果。这样的方法叫做监督学习,虽然非常有效,但是和人类学习的方法还是不一样的。深度学习的研究者希望,机器可以更加聪明,可以像人一样学习。&/p&&p&在监督学习领域取得了重大成果之后,大家就把更多的精力投入到更接近人类学习方式的半监督学习(semi-supervised)和无监督学习(unsupervised)上。一方面,我们希望更加的深入的理解人类视觉的机理、甚至人的智能的机理。另一方面,监督学习需要大量的数据,如果能用半监督或无监督学习的方式绕过大数据标注难题,达到相同精度,这对工业界非常有吸引力。&/p&&p&问题中提到的这些黑科技,都是朝着人类学习方式探索性工作,非常有意义。&/p&&p&其实朝着这个方向努力的工作还有很多。这些工作都使用没有监督信息的图像或者视频。这些数据虽然没有标签,但数据内部其实都是蕴含着一些结构。比如视频里物体的运动、行为存在特定规律;在一张图片里,一个物体也是有特定的结构的。利用这些视频或图像中特定的结构,我们可以把一个无监督的问题转化为一个有监督问题,然后利用有监督学习的方法来学习。&/p&&p&有两个典型的工作。第一个工作把图像划分成2x2或者3x3的图像区域,给定任意两个区域预测他们之间的相对位置关系。这个工作利用到的物体、场景的固有结构特点,例如天空在道路上方,双腿在身体下方。另一个工作利用视频数据学习物体边缘,主要用到了视频中物体的边缘相对于背景有较大的运动这一个特点。&/p&&p&长期来看的话,探索人类学习过程的半监督、非监督、多感知输入的学习方式是深度学习的另一个发展趋势。&/p&&h2&怎么看最佳论文们&/h2&&p&&b&Q:微软亚洲研究院的论文 Deep Residual Learning for Image Recognition 荣获最佳论文奖,本届 CVPR 2016最佳学生论文是斯坦福大学的 Structural-RNN: Deep Learning on Spatio-Temporal Graphs,您对这两篇论文有什么看法?&/b&&/p&&p&凯明、孙剑的两篇best paper都是十分钟就能看懂,一天就能复现出结果。而对于之后的研究产生长远影响的工作。另外,孙剑做研究的风格对我影响很大。问题导向,解决重要问题,做真正work的研究。这些方法论不仅在学术界非常有价值,而且在工业界研究更加重要。&/p&&blockquote&&p&回到论文本身,这篇论文解决的是深度网络一般超过20~30层的时候,训练和测试的loss不再下降,甚至随着层数的增加,loss会逐渐增加,针对这个问题提出了一个非常行之有效的解决方案。这个方法之所以有效,有很多解释,比如说有一种解释是通过跨层(skip-layer)可以把loss反传到中间的很多层,解决了梯度传播的问题。另一种解释认为ResNet通过skip-layer,可以做到深度方面的多模型融合。&/p&&br&&p&我的解释稍微有点复杂。我认为,没有降采样的情况下,当深度达到一定的程度的时候,卷积层的学习能力是逐渐减弱的。当网络过深,增加的卷积层只能学习到噪音,并且造成有效信息损失,导致训练和测试loss都增加的情况。Skip layer可以很好的自适应的调整每一层的学习目标,解决这个问题。&/p&&/blockquote&&p&另外ResNet有很大的冗余,把152层网络中的后面几层去掉也不会改变精度,可能这些层都被skip了。保持精度的情况下,去掉这些冗余,做到更小更经济的网络,非常有研究价值。&/p&&h2& 产业落地:从学术界到工业界&/h2&&p&&b&Q:论文总体上大概有基础理论研究的论文和提出具体解决办法的论文两类,对于论文的产业化,我们正确的态度是怎样的,比如多久论文投入实用的周期是适合?以及怎样发挥最大意义?&/b&&/p&&p&现在产业界跟学术界的研究基本是并行进行的,总体来说,产业界没有落后于学术界,学术界也没有落后于产业界,只是产业界和学术界的侧重点不一样。&/p&&p&现在深度学习的研究迭代速度是非常非常快的,而且快的惊人。在其他领域的话,学术研究主要是通过发表期刊文章来交流,期刊周期短的话可能一年,长的话可能要两三年的时间。而在计算机领域,大家更多的是发表会议论文,会议论文的时间周期大概是半年的时间。在深度学习领域,大家第一时间把自己做出来的成果放在预印本(Arxiv),半年之后再把论文投稿到会议上去。&/p&&p&在商汤科技,很多研究员养成的习惯就是每天先到预印本(Arxiv)上去看最新论文,如果这个论文的思想有价值或者这个论文做出了一些非常突出的成果的话大家都会第一时间尝试复现,做一些探索性的实验。&/p&&p&我认为,在深度学习这个特定的领域,新技术落地的周期几乎为零。&/p&&p&&b&Q:CVPR 上这么多主题演讲(main conference),觉得认为哪几个版块的内容最有用?&/b&&/p&&p&我觉得CVPR的很多版块都非常有意思。要说哪个版块最有用的话,从工业界实用的角度出发,当然是检测识别的板块最有用。&/p&&p&&b&Q:参加本届CVPR后有什么心得体会?&/b&&/p&&p&最大的体会是华人圈做计算机视觉真的很厉害。去年参加ICCV的时候所有ImageNet的比赛第一名都被华人包揽了。这次CVPR的时候也看到了非常多的华人的优秀论文。凯明、少卿、翔宇、孙剑还拿了最佳论文奖。华人在计算机视觉领域的研究水平越来越高。这是非常振奋人心的事。稍微鸡汤一下,我们中国错过了工业革命,错过了电气革命,信息革命也只是跟随状态。但人工智能的革命,我们跟世界上的领先国家是并肩往前跑的。能身处这个时代浪潮之中,做一番伟大的事业,经常激动的夜不能寐。&/p&&h2&小结:&/h2&&p&本期硬创公开课上,曹旭东重点为我们介绍了深度学习目前相对其它AI实现方法占优的4个特点:精度好; 算法通用;特征推广性好;工程框架统一。这或许可以解释为深度学习现在在AI界大受欢迎的原因。&/p&&p&另外他指出计算机视觉里的核心任务,包括检测、识别、分割、特征点定位、序列学习等五个大的任务,为计算机视觉的具体应用勾画了一个清晰的脉络。&/p&&p&不过令人震惊的是,谈到深度学习这个特定领域的研究迭代速度,谈到论文投入实用的合理周期,他认为在深度学习这个特定的领域落地的周期应该是零。虽然现在谷歌,Facebook等大公司正在引导论文从文字到实践的产业化热潮,但这样的周期显然是让业内人士感到惊心动魄的一个速度。&/p&
本次CVPR 2016上,深度学习几乎成了如今计算机视觉研究的标配,人脸识别、图像识别、视频识别、行人检测、大规模场景识别的相关论文里都用到了深度学习的方法,加上Google,Facebook这样的大企业助力,很多人疑惑,为什么深度学习相比其它的AI实现方法,已…
本文译自Xiangxin Zhu
Deva Ramanan的《Face Detection,Pose Estimation,and Landmark Localization in the Wild》,有翻译不当的地方敬请指出。&br&&p&~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~&br&翻译:
&a class=&& href=&mailto:xxx@xn--bxy08o.xn--m7rv64cod312j7xc&&刘畅@百纳.海豚浏览器&/a&&br&校对:
&a class=&& href=&mailto:xxx@%E7%99%BE%E7%BA%B3.%E6%B5%B7%E8%B1%9A%E6%B5%8F%E8%A7%88%E5%99%A8&&吴刚@百纳.海豚浏览器&/a&&br&微信公众号: zero_zebra&br&QQ交流群:
&br&大量职位虚位以待!详情请见公众号.职位列表&br&~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~&/p&&h1&&b&摘要&/b&&/h1&&p&我们提出了一个用于现实世界复杂背景图片中人脸检测、姿态估计和特征点估计的统一模型。我们的模型是基于树和shared pool of parts(译者注:parts共享池)混合模型;我们将每个面部特征点作为一个部分,利用全局混合来捕捉由于视点变化引起的拓扑结构变化。我们证明树结构的模型在捕捉全局弹性形变上是非常有效的,并且和dense graph structures(译者注:密集图形结构)相比,是非常易于优化。我们提出了在标准的脸部benchmark和一个新的“in the wild”(译者注:自然场景)带注释的数据集上的扩展结果,显示出对于所有的三项任务,我们的系统达到了先进的水准。即使我们的模型是用上百张脸进行适当训练,但是优于用数十亿样例训练的的商业系统(比如Google Picasa和&a href=&http://link.zhihu.com/?target=http%3A//face.com& class=& external& target=&_blank& rel=&nofollow noreferrer&&&span class=&invisible&&http://&/span&&span class=&visible&&face.com&/span&&span class=&invisible&&&/span&&/a&)。&br&&/p&&p&&figure&&img src=&https://pic1.zhimg.com/v2-643eefcccef49c863f7bd10_b.jpg& data-rawwidth=&2481& data-rawheight=&3508& class=&origin_image zh-lightbox-thumb& width=&2481& data-original=&https://pic1.zhimg.com/v2-643eefcccef49c863f7bd10_r.jpg&&&/figure&&figure&&img src=&https://pic3.zhimg.com/v2-123c520dbe285b22e48d78a2d1c80d62_b.jpg& data-rawwidth=&2481& data-rawheight=&3508& class=&origin_image zh-lightbox-thumb& width=&2481& data-original=&https://pic3.zhimg.com/v2-123c520dbe285b22e48d78a2d1c80d62_r.jpg&&&/figure&&figure&&img src=&https://pic3.zhimg.com/v2-487eeb67ae7bfec_b.jpg& data-rawwidth=&2481& data-rawheight=&3508& class=&origin_image zh-lightbox-thumb& width=&2481& data-original=&https://pic3.zhimg.com/v2-487eeb67ae7bfec_r.jpg&&&/figure&&figure&&img src=&https://pic1.zhimg.com/v2-bfc88c2b72da7bf9dc80ba796b1d3db0_b.jpg& data-rawwidth=&2481& data-rawheight=&3508& class=&origin_image zh-lightbox-thumb& width=&2481& data-original=&https://pic1.zhimg.com/v2-bfc88c2b72da7bf9dc80ba796b1d3db0_r.jpg&&&/figure&&figure&&img src=&https://pic2.zhimg.com/v2-b7a950bcabc5b81e0885_b.jpg& data-rawwidth=&2481& data-rawheight=&3508& class=&origin_image zh-lightbox-thumb& width=&2481& data-original=&https://pic2.zhimg.com/v2-b7a950bcabc5b81e0885_r.jpg&&&/figure&&figure&&img src=&https://pic3.zhimg.com/v2-dff0c1946_b.jpg& data-rawwidth=&2481& data-rawheight=&3508& class=&origin_image zh-lightbox-thumb& width=&2481& data-original=&https://pic3.zhimg.com/v2-dff0c1946_r.jpg&&&/figure&&figure&&img src=&https://pic4.zhimg.com/v2-45bc253c77f2931a7bdb63_b.jpg& data-rawwidth=&2481& data-rawheight=&3508& class=&origin_image zh-lightbox-thumb& width=&2481& data-original=&https://pic4.zhimg.com/v2-45bc253c77f2931a7bdb63_r.jpg&&&/figure&&figure&&img src=&https://pic1.zhimg.com/v2-5ac27fa841c70f05faa34_b.jpg& data-rawwidth=&2481& data-rawheight=&3508& class=&origin_image zh-lightbox-thumb& width=&2481& data-original=&https://pic1.zhimg.com/v2-5ac27fa841c70f05faa34_r.jpg&&&/figure&&figure&&img src=&https://pic4.zhimg.com/v2-a63e59dedd72c_b.jpg& data-rawwidth=&2481& data-rawheight=&3508& class=&origin_image zh-lightbox-thumb& width=&2481& data-original=&https://pic4.zhimg.com/v2-a63e59dedd72c_r.jpg&&&/figure&&figure&&img src=&https://pic1.zhimg.com/v2-fc8b6d97bf8de4890d98_b.jpg& data-rawwidth=&2481& data-rawheight=&3508& class=&origin_image zh-lightbox-thumb& width=&2481& data-original=&https://pic1.zhimg.com/v2-fc8b6d97bf8de4890d98_r.jpg&&&/figure&&figure&&img src=&https://pic1.zhimg.com/v2-16231dfe23bec2b7d78d3c92e530ddec_b.jpg& data-rawwidth=&2481& data-rawheight=&3508& class=&origin_image zh-lightbox-thumb& width=&2481& data-original=&https://pic1.zhimg.com/v2-16231dfe23bec2b7d78d3c92e530ddec_r.jpg&&&/figure&&figure&&img src=&https://pic1.zhimg.com/v2-ec1cad8719fde39dd8b0_b.jpg& data-rawwidth=&2481& data-rawheight=&3508& class=&origin_image zh-lightbox-thumb& width=&2481& data-original=&https://pic1.zhimg.com/v2-ec1cad8719fde39dd8b0_r.jpg&&&/figure&&figure&&img src=&https://pic4.zhimg.com/v2-088cc7b11d94a1dd3d7f_b.jpg& data-rawwidth=&2481& data-rawheight=&3508& class=&origin_image zh-lightbox-thumb& width=&2481& data-original=&https://pic4.zhimg.com/v2-088cc7b11d94a1dd3d7f_r.jpg&&&/figure&&figure&&img src=&https://pic2.zhimg.com/v2-b6e3f9b6c5d76f776cf368d47e83d7c1_b.jpg& data-rawwidth=&2481& data-rawheight=&3508& class=&origin_image zh-lightbox-thumb& width=&2481& data-original=&https://pic2.zhimg.com/v2-b6e3f9b6c5d76f776cf368d47e83d7c1_r.jpg&&&/figure&&figure&&img src=&https://pic4.zhimg.com/v2-1ae5fa64cb7cdc89bd61cf_b.jpg& data-rawwidth=&2481& data-rawheight=&3508& class=&origin_image zh-lightbox-thumb& width=&2481& data-original=&https://pic4.zhimg.com/v2-1ae5fa64cb7cdc89bd61cf_r.jpg&&&/figure&&figure&&img src=&https://pic1.zhimg.com/v2-19b403f214a6d3513b8c_b.jpg& data-rawwidth=&2481& data-rawheight=&3508& class=&origin_image zh-lightbox-thumb& width=&2481& data-original=&https://pic1.zhimg.com/v2-19b403f214a6d3513b8c_r.jpg&&&/figure&译者注:由于翻译水平有限,难免有些地方翻译不妥,有问题的欢迎提出来,大家共同学习,谢谢~&/p&
本文译自Xiangxin Zhu Deva Ramanan的《Face Detection,Pose Estimation,and Landmark Localization in the Wild》,有翻译不当的地方敬请指出。 ~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~ 翻译:
&figure&&img src=&https://pic4.zhimg.com/v2-1da5f19ec2ed72326d4b_b.jpg& data-rawwidth=&1269& data-rawheight=&541& class=&origin_image zh-lightbox-thumb& width=&1269& data-original=&https://pic4.zhimg.com/v2-1da5f19ec2ed72326d4b_r.jpg&&&/figure&深度学习大讲堂致力于推送人工智能,深度学习方面的最新技术,产品以及活动。请关注我们的知乎专栏!&br&&br&&p&&b&JointFace Alignment and 3D Face Reconstruction&/b&&br&&/p&&p&&figure&&img src=&https://pic3.zhimg.com/v2-f81e5f04beb15f07d1cf8a_b.jpg& data-rawwidth=&710& data-rawheight=&375& class=&origin_image zh-lightbox-thumb& width=&710& data-original=&https://pic3.zhimg.com/v2-f81e5f04beb15f07d1cf8a_r.jpg&&&/figure&&b&(此处三维重建结果是gif动图,但不知什么原因,我的电脑本地无法保存,所以只好截图上传,请点击链接查看原文中的gif动图:&a href=&http://link.zhihu.com/?target=http%3A//mp.weixin.qq.com/s/udr3573GXQOOF46jLriekg& class=& external& target=&_blank& rel=&nofollow noreferrer&&&span class=&invisible&&http://&/span&&span class=&visible&&mp.weixin.qq.com/s/udr3&/span&&span class=&invisible&&573GXQOOF46jLriekg&/span&&span class=&ellipsis&&&/span&&/a&)&/b&&/p&&br&&p&三维人脸重建的目标是根据某个人的一张或者多张二维人脸图像重建出其三维人脸模型(此处的三维人脸模型一般仅指形状模型,定义为三维点云)。今天我们只讨论由单张二维图像重建三维人脸的问题。这个问题本身其实是个病态(ill-posed)问题,因为在将人脸从三维空间投影到二维平面上形成我们看到的二维人脸图像的过程中,人脸的绝对尺寸(如鼻子高度)、以及由于自遮挡而不可见的部分等很多信息已经丢失。在不掌握相机和拍摄环境的相关参数的情况下,这个问题其实是没有确定解的。&/p&&p&为了解决这一病态问题,一个直接思路是借助机器视觉中的Shape-from-Shading(SFS)方法。但是该方法依赖于光照条件和光照模型的先验知识,而未考虑人脸结构的特殊性,在任意拍摄的人脸图像上效果一般。后来,Kemelmacher-Shizerman和Basri [1] 引入了平均三维人脸模型作为约束条件对传统的SFS方法进行了改进,取得了不错的效果。然而,重建结果往往都接近平均模型,缺少个性化特征。另一个常用思路是建立三维人脸的统计模型,再将该模型拟合到输入的二维人脸图像上,利用拟合参数实现三维人脸的重建。这类方法基本都是基于Blanz和Vetter提出的三维形变模型(3D Morphable Model,简称3DMM) [2]。由于3DMM采用主成分分析(PCA)方法构建统计模型,而PCA本质上是一种低通滤波,所以这类方法在恢复人脸的细节特征方面效果仍然不理想。此外,上述两类方法在重建过程中对每幅图像都需要求解优化问题,因而实时性较差。&/p&&p&受到近年来回归方法在人脸对齐中的成功应用的启发,我们最早试图建立二维人脸图像上的面部特征点(包括眼角、鼻尖、嘴角等)与人脸三维模型之间的回归关系。这一思路的基本出发点是面部特征点是反映人脸三维结构的最直观依据。我们尝试根据二维特征点的偏差直接预测三维人脸形状的调整量。这就好比我们知道二维特征点是由三维人脸形状投影得到的,如果我们发现二维特征点存在偏差,那么根据这一线索我们就应该能够计算出三维人脸形状应该做怎样的调整。而这个计算过程可以用事先训练好的二维特征点偏差与三维形状调整量之间的回归函数来实现。基于这样的思路,我们成功地设计实现了在给定输入二维人脸图像上的特征点的条件下实时重建其三维模型的新方法。相关结果发布在Arxiv [3]。&/p&&p&沿着上述思路,基于2D人脸特征点和3D人脸形状之间很强的相关性,我们进一步尝试将二维人脸图像特征点检测(即人脸对齐)与三维人脸重建过程耦合起来,在回归的框架下同时实现这两个任务。这就是我们今天要介绍的发表在ECCV2016上的工作 [4] (以下称ECCV2016方法)。扯了这么多(希望不是那么远^_^),下面正式进入正题。&/p&&p&&figure&&img src=&https://pic3.zhimg.com/v2-f5b1aeb04dd7e_b.png& data-rawwidth=&1269& data-rawheight=&485& class=&origin_image zh-lightbox-thumb& width=&1269& data-original=&https://pic3.zhimg.com/v2-f5b1aeb04dd7e_r.jpg&&&/figure&如上图所示,之前研究者大都将2D特征点定位和3D人脸重建两个过程割裂开来解决,而这两个工作本质是一个“鸡生蛋、蛋生鸡”问题。一方面,2D特征点 &em&U &/em&可由中性3D人脸 &em&S&/em& 经过表情(&em&FE &/em&)、姿态变换( &em&FP&/em&)及投影(&em& FC&/em&)得到,即 &br&&/p&&figure&&img src=&https://pic3.zhimg.com/v2-6c486d1d4c6abc5d8117a2_b.jpg& data-rawwidth=&158& data-rawheight=&32& class=&content_image& width=&158&&&/figure&&p&另一方面,2D特征点携带有丰富的几何信息,这也是3D重建方法的基础。&/p&&p&现有的2D特征点检测方法大部分是基于2D人脸形状建模的,主要存在以下几个问题:i)很难去刻画3D平面外旋转的人脸特征点;ii)在人脸姿态不是很大的情况下,通过变化人脸轮廓特征点语义位置来解决自遮挡的情况,这样会导致不同姿态下检测的特征点语义信息不一致 [5](如上图,人脸图像中蓝色点所示);iii)在更大姿态下,尤其是yaw方向超过60度以后,人脸区域存在近一半自遮挡,遮挡区域的纹理特征信息完全缺失,导致特征点检测失败。&/p&&p&现有的利用2D特征点来恢复3D人脸形状的方法也存在以下几个问题:i)需要第三方2D特征点检测算法或者手动得到2D特征点;ii)不同姿态下检测的特征点语义信息不一致,难以确定3D点云中与其对应的点 [6];iii)只生成与输入人脸图像同样姿态和表情的3D人脸,而这样的3D人脸,相对于姿态和表情归一化的3D人脸而言,显然并不有利于人脸识别。&/p&&figure&&img src=&https://pic4.zhimg.com/v2-1da5f19ec2ed72326d4b_b.png& data-rawwidth=&1269& data-rawheight=&541& class=&origin_image zh-lightbox-thumb& width=&1269& data-original=&https://pic4.zhimg.com/v2-1da5f19ec2ed72326d4b_r.jpg&&&/figure&&p&为了在一个框架内处理2D特征点定位和3D人脸重建,我们利用两组级联的线性回归,一组用来更新2D特征点,另一组用来更新3D人脸形状。在每一次迭代中,先用SDM[7]方法得到特征点更新量,基于方法[3]再用特征点的更新量去估计出3D人脸形状的更新量。新的3D人脸一旦更新就可以粗略地计算出3D-to-2D投影矩阵,同时再利用3D人脸对特征点进行修正,尤其是自遮挡区域的特征点位置及特征点可见性信息。整个过程2D特征点、3D人脸形状、3D-to-2D投影矩阵的更新都是一个由粗到精的估算过程。&/p&&p&我们先给出利用训练好的回归模型检测任意一张二维人脸图像上的特征点,并重建其三维模型的过程。&/p&&figure&&img src=&https://pic3.zhimg.com/v2-1e23feee_b.jpg& data-rawwidth=&687& data-rawheight=&354& class=&origin_image zh-lightbox-thumb& width=&687& data-original=&https://pic3.zhimg.com/v2-1e23feee_r.jpg&&&/figure&&p&值得指出的是:Step 5中,从3D人脸投影得到2D特征点对人脸形状和姿态都有很强的约束。而Step 2中,特征点是通过纹理特征指导得到的,其中自遮挡区域由于纹理信息的缺失,回归得到的特征点常常是不准确的。通过此步骤3D投影来修正能够有效地提高特征点检测的准确度。&/p&&p&在训练过程中,为了得到上述回归模型,需要提供成对的标定好特征点的二维人脸图像及其对应的三维人脸数据&/p&&figure&&img src=&https://pic4.zhimg.com/v2-f7b62bf62b_b.jpg& data-rawwidth=&183& data-rawheight=&31& class=&content_image& width=&183&&&/figure&&p&为了更好地处理任意姿态、任意表情的二维人脸图像,训练数据中需要包括尽量多不同姿态和不同表情的人脸,而对应的三维人脸则都是中性表情的、且已经稠密对齐的点云数据。下面我们重点介绍一下用于人脸对齐的2D特征点回归的目标函数和用于三维人脸重建的3D形状回归的目标函数。&br&&/p&&p&&figure&&img src=&https://pic3.zhimg.com/v2-27ba23fe_b.jpg& data-rawwidth=&541& data-rawheight=&100& class=&origin_image zh-lightbox-thumb& width=&541& data-original=&https://pic3.zhimg.com/v2-27ba23fe_r.jpg&&&/figure&该目标函数建立当前2D特征点周围的纹理特征与其距离真实位置的偏移量之间的回归关系。我们训练所用2D特征点是从3D形状投影得到的,因而确保了语义上的一致性。同时为了处理大姿态人脸图像,如果某个特征点被判定为不可见点,那这个点的SIFT特征向量置为0。&br&&/p&&figure&&img src=&https://pic2.zhimg.com/v2-41f61ffbe0fc571b4ead0d_b.jpg& data-rawwidth=&518& data-rawheight=&97& class=&origin_image zh-lightbox-thumb& width=&518& data-original=&https://pic2.zhimg.com/v2-41f61ffbe0fc571b4ead0d_r.jpg&&&/figure&&p&3D形状回归建立的是2D特征点修正量与3D形状修正量之间的关系。所有训练3D人脸都进行了稠密对齐,且2D特征点之间也作好了对齐,所以并不需要增加额外的平滑约束,同时也尽量保持了3D人脸的个性化差异。训练数据中的3D形状是姿态-表情归一化(Pose and Expression Normalized,简称PEN)3D人脸,如此重建得到的PEN 3D人脸更适用于人脸识别。&/p&&p&在公开测试集上的实验结果证明了在统一的回归框架下同时解决人脸对齐和三维重建的有效性。ECCV2016论文中还进一步证明了重构出来的姿态与表情归一化的三维人脸在提升人脸识别准确率方面的有效性。最后,我们展示利用ECCV2016方法得到的人脸对齐和三维重建的几个典型结果。&br&&/p&&figure&&img src=&https://pic1.zhimg.com/v2-8bc2ffab81d46defe5fba8be7fab9c38_b.jpg& data-rawwidth=&494& data-rawheight=&188& class=&origin_image zh-lightbox-thumb& width=&494& data-original=&https://pic1.zhimg.com/v2-8bc2ffab81d46defe5fba8be7fab9c38_r.jpg&&&/figure&&figure&&img src=&https://pic2.zhimg.com/v2-8a202e17e0ece_b.jpg& data-rawwidth=&505& data-rawheight=&372& class=&origin_image zh-lightbox-thumb& width=&505& data-original=&https://pic2.zhimg.com/v2-8a202e17e0ece_r.jpg&&&/figure&&p&&b&参考文献&/b&&/p&&p&&b&[1]&/b& Kemelmacher-Shlizerman, I., Basri, R.: 3D face reconstruction from a single image using a single reference face shape. TPAMI (2011).&/p&&p&&b&[2] &/b&Blanz, V., Vetter, T.: A morphable model for the synthesis of 3D faces. In: SIGGRAPH (1999).&/p&&p&&b&[3]&/b& Liu, F., Zeng, D., Li, J., Zhao, Q.: Cascaded regressor based 3D face reconstruction from a single arbitrary view image. arXiv preprint arXiv: (2015 Version)&/p&&p&&b&[4]&/b& Liu F, Zeng D, Zhao Q, Liu X.: Joint face alignment and 3D face reconstruction. In: ECCV (2016).&/p&&p&&b&[5]&/b& Jourabloo, A., Liu, X.: Pose-invariant 3D face alignment. In: ICCV (2015)&/p&&p&&b&[6]&/b& Qu C, Monari E, Schuchert T. Fast, robust and automatic 3D face model reconstruction from videos. In: AVSS, 113-118 (2014)&/p&&p&&b&[7] &/b&Xiong X, De la Torre F. Supervised descent method and its applications to face alignment. In: CVPR. 532-539 (2013)&/p&&br&&p&&b&该文章属于“深度学习大讲堂”原创,如需要转载,请联系&a href=&https://www.zhihu.com/people/guo-dan-qing& class=&internal&&@果果是枚开心果.&/a&&/b&&/p&&br&&p&&b&作者简介:&/b&&/p&&p&&figure&&img src=&https://pic2.zhimg.com/v2-74cdc4f29_b.jpg& data-rawwidth=&121& data-rawheight=&122& class=&content_image& width=&121&&&/figure&&b&刘峰,&/b&四川大学计算机学院生物特征识别实验室博士三年级学生,导师游志胜教授、赵启军博士。研究方向为机器学习与模式识别(三维人脸建模与识别、二维人脸特征点检测等)。个人邮箱:liuf1990@stu.scu.edu.cn。&br&&/p&&p&&b&原文链接:&/b&&a href=&http://link.zhihu.com/?target=http%3A//mp.weixin.qq.com/s/udr3573GXQOOF46jLriekg& class=& external& target=&_blank& rel=&nofollow noreferrer&&&span class=&invisible&&http://&/span&&span class=&visible&&mp.weixin.qq.com/s/udr3&/span&&span class=&invisible&&573GXQOOF46jLriekg&/span&&span class=&ellipsis&&&/span&&/a&&br&&/p&&p&&b&欢迎大家关注我们的微信公众号,搜索微信名称:深度学习大讲堂&/b&&br&&/p&&figure&&img src=&https://pic4.zhimg.com/v2-a29f11dacaf2c3a3f8b93_b.jpg& data-rawwidth=&346& data-rawheight=&67& class=&content_image& width=&346&&&/figure&
深度学习大讲堂致力于推送人工智能,深度学习方面的最新技术,产品以及活动。请关注我们的知乎专栏! JointFace Alignment and 3D Face Reconstruction (此处三维重建结果是gif动图,但不知什么原因,我的电脑本地无法保存,所以只好截图上传,请点击链接…)
&figure&&img src=&https://pic4.zhimg.com/87d645fd2f6eecdfce1c2e_b.jpg& data-rawwidth=&601& data-rawheight=&353& class=&origin_image zh-lightbox-thumb& width=&601& data-original=&https://pic4.zhimg.com/87d645fd2f6eecdfce1c2e_r.jpg&&&/figure&深度学习大讲堂致力于推送人工智能,深度学习方面的最新技术,产品以及活动。请关注我们的知乎专栏!&br&&p&&strong&摘要&/strong&&br&&/p&&p&CVPR2016刚刚落下帷幕,本文对面部特征点定位的论文做一个简单总结,让大家快速了解该领域最新的研究进展,希望能给读者们带来启发。CVPR2016相关的文章大致可以分为三大类:&strong&处理大姿态问题,处理表情问题,处理遮挡问题。&/strong&&br&&/p&&br&&p&&strong&1.姿态鲁棒的人脸对齐方法&/strong&&br&&/p&&strong&1.1 Face Alignment Across Large Poses: A 3D Solution [1]&/strong&&br&这里首先介绍一篇大会口头报告文章,来自中国科学院自动化研究所Xiangyu Zhu等人的工作。极端姿态下(如侧脸),一些特征点变了不可见,不同姿态下的人脸表观也存在巨大差异,这些问题都导致大姿态下面部特征点定位任务极具挑战性。为了解决以上问题,本文提出一种基于3D人脸形状的定位方法3DDFA,算法框架如下图所示:&figure&&img src=&https://pic3.zhimg.com/a547fb4ee01b6ae231617d_b.jpg& data-rawwidth=&595& data-rawheight=&171& class=&origin_image zh-lightbox-thumb& width=&595& data-original=&https://pic3.zhimg.com/a547fb4ee01b6ae231617d_r.jpg&&&/figure&算法输入为100x100的RGB图像和PNCC (Projected Normalized Coordinate Code) 特征,PNCC特征的计算与当前形状相关,可以反映当前形状的信息;算法的输出为3D人脸形状模型参数。使用卷积神经网络拟合从输入到输出的映射函数,网络包含4个卷积层,3个pooling层和2个全连接层。通过级联多个卷积神经网络直至在训练集上收敛,PNCC特征会根据当前预测的人脸形状更新,并作为下一级卷积神经网络的输入。此外,卷积神经网络的损失函数也做了精心的设计,通过引入权重,让网络优先拟合重要的形状参数,如尺度、旋转和平移;当人脸形状接近ground truth时,再考虑拟合其他形状参数。实验证明该损失函数可以提升定位模型的精度。由于参数化形状模型会限制人脸形状变形的能力,作者在使用3DDFA拟合之后,抽取HOG特征作为输入,使用线性回归来进一步提升2D特征点的定位精度。&br&训练3DDFA模型,需要大量的多姿态人脸样本。为此,作者基于已有的数据集如300W,利用3D信息虚拟生成不同姿态下的人脸图像,核心思想为:先预测人脸图像的深度信息,通过3D旋转来生成不同姿态下的人脸图像,如下图所示:&figure&&img src=&https://pic4.zhimg.com/d96cf418e5bdc7382428_b.jpg& data-rawwidth=&605& data-rawheight=&347& class=&origin_image zh-lightbox-thumb& width=&605& data-original=&https://pic4.zhimg.com/d96cf418e5bdc7382428_r.jpg&&&/figure&&p&(a)为原始图像,(b,c,d)为生成的虚拟样本,yaw方向的角度依次增加20°,30°和40°。生成虚拟人脸图像的code和3DDFA的code可以在以下链接下载:&/p&&p&&a href=&https://link.zhihu.com/?target=http%3A//www.cbsr.ia.ac.cn/users/xiangyuzhu/projects/3DDFA/main.htm& class=& external& target=&_blank& rel=&nofollow noreferrer&&&span class=&invisible&&http://www.&/span&&span class=&visible&&cbsr.ia.ac.cn/users/xia&/span&&span class=&invisible&&ngyuzhu/projects/3DDFA/main.htm&/span&&span class=&ellipsis&&&/span&&/a&&/p&&br&&strong&1.2 Large-Pose Face Alignment via CNN-Based Dense 3D Model Fitting [2]&/strong&&br&这篇文章是来自密西根州立大学的Amin Jourabloo和Xiaoming Liu的工作。和上一篇文章的出发点一样,作者试图使用3D人脸建模解决大姿态下面部特征点定位问题。2D的人脸形状U可以看成是3D人脸形状A通过投影变化m得到,如下图所示:&figure&&img src=&https://pic2.zhimg.com/d1331dff2d6aaccda5fa163a9c22e1f3_b.jpg& data-rawwidth=&587& data-rawheight=&339& class=&origin_image zh-lightbox-thumb& width=&587& data-original=&https://pic2.zhimg.com/d1331dff2d6aaccda5fa163a9c22e1f3_r.jpg&&&/figure&&p&3D人脸形状模型可以表示为平均3D人脸形状A0与若干表征身份、表情的基向量Aid和Aexp通过p参数组合而成。面部特征点定位问题(预测U)可以转变为同时预测投影矩阵m和3D人脸形状模型参数p。算法的整体框架图如下所示:&/p&&figure&&img src=&https://pic2.zhimg.com/5adc0cffeca07_b.jpg& data-rawwidth=&605& data-rawheight=&392& class=&origin_image zh-lightbox-thumb& width=&605& data-original=&https://pic2.zhimg.com/5adc0cffeca07_r.jpg&&&/figure&作者通过级联6个卷积神经网络来完成这一任务。首先以整张人脸图像作为输入,来预测投影矩阵的更新。使用更新后的投影矩阵计算当前的2D人脸形状,基于当前的2D人脸形状抽取块特征作为下一级卷积神经网络的输入,下一级卷积神经网络用于更新3D人脸形状。基于更新后的3D人脸形状,计算可得当前2D人脸形状的预测。根据新的2D人脸形状预测,抽取块特征输入到卷积神经网络中来更新投影矩阵,交替迭代优化求解投影矩阵m和3D人脸形状模型参数p,直到在训练集收敛。值得一提的是,该方法在预测3D人脸形状和投影矩阵的同时也考虑到计算每一个特征点是否可见。如果特征点不可见,则不使用该特征点上的块特征作为输入,这是普通2D人脸对齐方法难以实现的。此外,作者提出两种pose-invariant的特征Piecewise Affine-Warpped Feature (PAWF)和Direct 3D Projected Feature (D3PF),可以进一步提升特征点定位的精度。&br&&br&&strong&1.3 Unconstrained Face Alignment via Cascaded Compositional Learning [3]&/strong&&br&这篇文章是来自香港中文大学的Shizhan Zhu等人的工作。和前面两篇工作不同,本文提出的方法Cascaded Compositional Learning (CCL)没有从3D人脸建模出发来解决大姿态下人脸对齐问题,而是将所有人脸样本划分成多个域(Domain)来分别处理,并通过学习组合系数,融合不同域的结果来得到最终的定位结果。方法的出发点与GSDM[4]类似,不过GSDM依赖视频中上一帧的人脸对齐结果来选择域,所以不能处理静态图片的人脸对齐问题。本文提出的方法巧妙地学习组合系数来自动完成域的选择,从而有效地解决GSDM的局限性。CCL算法的示意图如下所示:&figure&&img src=&https://pic3.zhimg.com/88a65e76298ecf1cf4e7e64f82893bb2_b.jpg& data-rawwidth=&598& data-rawheight=&178& class=&origin_image zh-lightbox-thumb& width=&598& data-original=&https://pic3.zhimg.com/88a65e76298ecf1cf4e7e64f82893bb2_r.jpg&&&/figure&算法整体框架为级联形状回归,每一级包含三块,分别是特征提取模块,形状回归模块和组合系数预测模块。其中特征提取模块在LBF [5]特征的基础上引入特征点是否可见的信息,为后续预测组合系数提供重要线索,当出现自遮挡情况时(Self-occlusion)比LBF特征更加鲁棒。形状回归模块包含K个形状回归器,分别对应于K个域。组合系数预测模块融合K个形状回归器的预测,生成最终的定位结果。该方法在AFW和AFLW数据集上均取得了State-of-the-art的结果,在单核的台式机上达到350 FPS,方法简单、高效。&br&&strong&2.表情鲁棒的人脸对齐方法&/strong&&br&&br&&strong&2.1 Constrained Joint Cascade Regression Framework for Simultaneous Facial Action Unit Recognition and Facial Landmark Detection [6]&/strong&&br&前面给大家介绍了三篇主要解决大姿态下人脸对齐问题的文章,接下来给大家带来一篇联合处理表情识别和面部特征点检测的文章。这篇文章是来自Rensselaer Polytechnic Institute的Yue Wu和Qiang Ji的工作。考虑到表情识别和人脸对齐是两个非常相关的人脸感知任务,作者在级联形状回归算法框架的基础上,提出新的Constrained Joint Cascade Regression Framework (CJCRF)来联合预测表情(这里是识别脸部运动单元(Facial Action Unit))和面部特征点定位。下图为算法框架图:&figure&&img src=&https://pic1.zhimg.com/a7ae5eba96ec73d_b.jpg& data-rawwidth=&543& data-rawheight=&231& class=&origin_image zh-lightbox-thumb& width=&543& data-original=&https://pic1.zhimg.com/a7ae5eba96ec73d_r.jpg&&&/figure&算法分两步,首先使用受限玻尔兹曼机模型,建模脸部运动单元与人脸形状之间的联系。下图(a)蓝色人脸形状展示了不同的脸部运动单元(AU12,AU15和AU25)对应的人脸形状先验(红色为平均人脸形状)。下图(b):给定一个特定的人脸形状(蓝色),不同的脸部运动单元(AU)被激活的概率分布情况。&figure&&img src=&https://pic4.zhimg.com/02c780f2f1aec56d348de8_b.jpg& data-rawwidth=&552& data-rawheight=&120& class=&origin_image zh-lightbox-thumb& width=&552& data-original=&https://pic4.zhimg.com/02c780f2f1aec56d348de8_r.jpg&&&/figure&&br&接着,以脸部运动单元与人脸形状之间的联系作为约束,嵌入到级联形状回归框架下来联合估计特征点的位置和脸部运动单元。实验表明,Constrained Joint Cascade Regression Framework (CJCRF)可以同时提升特征点定位任务和脸部运动单元识别任务的精度。下图展示了不引入脸部运动单元信息(图a)和引入脸部运动单元信息(图b)的定位结果,可以看出引入脸部运动单元信息可以提升面部特征点定位模型对于夸张表情的鲁棒性。&figure&&img src=&https://pic1.zhimg.com/1cf12a29c25cebff140e9e_b.jpg& data-rawwidth=&511& data-rawheight=&137& class=&origin_image zh-lightbox-thumb& width=&511& data-original=&https://pic1.zhimg.com/1cf12a29c25cebff140e9e_r.jpg&&&/figure&&strong&3.遮挡鲁棒的人脸对齐方法&/strong&&br&&strong&3.1 Occlusion-Free Face Alignment: Deep Regression Networks Coupled With De-Corrupt AutoEncoders [7]&/strong&&br&最后介绍本人的一篇工作,主要是处理遮挡问题。面部特征点定位系统在出现遮挡时往往会性能退化。为此,本文提出一个新的算法框架Deep Regression Networks Coupled WithDe-corrupt Autoencoders(DRDA)来&strong&显示&/strong&处理面部特征点定位任务中的遮挡问题。算法总体框架如下所示:&figure&&img src=&https://pic4.zhimg.com/f0edc4fd61a4_b.jpg& data-rawwidth=&621& data-rawheight=&347& class=&origin_image zh-lightbox-thumb& width=&621& data-original=&https://pic4.zhimg.com/f0edc4fd61a4_r.jpg&&&/figure&去遮挡网络(De-corrupt Autoencoders)用于自动恢复被遮挡区域的人脸信息。由于姿态、表情的影响,人脸表观千差万别,很难仅使用一个去遮挡网络来很好地恢复人脸表观细节。为了恢复较为精细的人脸表观,本文依据当前预测的人脸形状,将人脸划分为若干个区域,对每个区域学习一个去遮挡网络,来去除遮挡物。深度回归网络(Deep Regression Networks)使用去遮挡后的人脸作为输入,来预测人脸形状。通过级联多个去遮挡网络和深度回归网络,逐步优化人脸去遮挡结果和特征点定位的结果。该方法不但可以预测出特征点是否被遮挡(如图a所示),而且能定位出遮挡物区域,并最终得到“干净的”人脸(如图b所示)。&br&&figure&&img src=&https://pic4.zhimg.com/f1f4bdbe73d49c7b5b3813c_b.jpg& data-rawwidth=&529& data-rawheight=&206& class=&origin_image zh-lightbox-thumb& width=&529& data-original=&https://pic4.zhimg.com/f1f4bdbe73d49c7b5b3813c_r.jpg&&&/figure&&strong&结语&/strong&&br&&br&以上介绍的几个工作分别从姿态、表情、遮挡等因素出发设计算法,提升特征点定位模型的鲁棒性。所有方法或多或少都和级联形状回归框架有关,足见级联形状回归方法的有效性。但级联形状回归框架下的每一级回归模型都是独立训练的,并不是一个端到端(End-to-End)的方法。英国帝国理工大学的George Trigeorgis等人提出使用Convolutional Recurrent Neural Network 来解决特征点定位问题 [8],可以端到端地训练特征点定位模型,比传统的级联回归方法有显著的性能提升。此外,姿态估计、表情识别以及遮挡检测与特征点定位任务有很强的依赖关系,联合考虑这些任务或许是人脸分析应用里不错的解决方案。马里兰大学的Rama Chellappa教授在CVPR2016 ChaLearn Looking at People and Faces Workshop的特邀报告上介绍了HyperFace。这一工作的核心思想也是融合卷积神经网络不同层的feature map来同时完成人脸检测、面部特征点定位、姿态预测和性别识别等任务。再者,以上介绍的大部分工作与深度模型相关,如何学习低复杂度的定位网络,能在手持终端上高效准确地定位面部关键点也是一个值得探索的问题。&br&&br&&strong&参考文献&/strong&&br&&strong&[1]&/strong& Xiangyu Zhu, Zhen Lei, Xiaoming Liu, Hailin Shi, Stan Z. Li. Face Alignment Across Large Poses: A 3D Solution. CVPR 2016.&br&&strong&[2] &/strong&Amin Jourabloo, Xiaoming Liu. Large-Pose Face Alignment via CNN-Based Dense 3D Model Fitting. CVPR 2016.&br&&strong&[3]&/strong& Shizhan Zhu, Cheng Li, Chen-Change Loy, Xiaoou Tang. Unconstrained Face Alignment via Cascaded Compositional Learning. CVPR 2016.&br&&strong&[4]&/strong& Xuehan Xiong, De la Torre Fernando. Global supervised descent method. CVPR 2015.&br&&strong&[5]&/strong& Shaoqing Ren, Xudong Cao, Yichen Wei, Jian Sun. Face Alignment at 3000 FPS via Regressing Local Binary Features. CVPR 2014.&br&&strong&[6]&/strong& Yue Wu, Qiang Ji. Constrained Joint Cascade Regression Framework for Simultaneous Facial Action Unit Recognition and Facial Landmark Detection. CVPR 2016.&br&&strong&[7]&/strong& Jie Zhang, Meina Kan, Shiguang Shan, Xilin Chen. Occlusion-Free Face Alignment: Deep Regression Networks Coupled With De-Corrupt AutoEncoders. CVPR 2016.&br&&strong&[8]&/strong& George Trigeorgis, Patrick Snape, Mihalis A. Nicolaou, Epameinondas Antonakos, Stefanos Zafeiriou. Mnemonic Descent Method: A Recurrent Process Applied for End-To-End Face Alignment. CVPR 2016.&br&&p&&b&该文章属于“深度学习大讲堂”原创,如需要转载,请联系&a href=&https://www.zhihu.com/people/guo-dan-qing& class=&internal&&@果果是枚开心果&/a&.&/b&&/p&&p&&b&作者简介:&/b&&br&&/p&&figure&&img src=&https://pic1.zhimg.com/afe2c7f37f48ba656d5d7_b.jpg& data-rawwidth=&104& data-rawheight=&108& class=&content_image& width=&104&&&/figure&&strong&张杰&/strong&,中科院计算技术研究所VIPL课题组博士生,专注于深度学习技术及其在人脸识别领域的应用。相关研究成果发表在计算机视觉国际顶级学术会议ICCV, CVPR和ECCV,拥有两篇关于人脸跟踪和对齐方面的专利,并担任国际顶级期刊TPAMI,TIP和TNNLS审稿人。&br&&br&&b&原文链接:&/b&&b&&a href=&https://link.zhihu.com/?target=http%3A//mp.weixin.qq.com/s%3F__biz%3DMzI1NTE4NTUwOQ%3D%3D%26mid%3D%26idx%3D1%26sn%3D09ebbb48c7de%26scene%3D0%23wechat_redirect& class=& external& target=&_blank& rel=&nofollow noreferrer&&&span class=&invisible&&http://&/span&&span class=&visible&&mp.weixin.qq.com/s?&/span&&span class=&invisible&&__biz=MzI1NTE4NTUwOQ==&mid=&idx=1&sn=09ebbb48c7de&scene=0#wechat_redirect&/span&&span class=&ellipsis&&&/span&&/a&&/b&&br&&br&&b&欢迎大家关注我们的微信公众号,搜索微信名称:深度学习大讲堂&figure&&img src=&https://pic4.zhimg.com/a29f11dacaf2c3a3f8b93_b.jpg& data-rawwidth=&346& data-rawheight=&67& class=&content_image& width=&346&&&/figure&&/b&
深度学习大讲堂致力于推送人工智能,深度学习方面的最新技术,产品以及活动。请关注我们的知乎专栏! 摘要 CVPR2016刚刚落下帷幕,本文对面部特征点定位的论文做一个简单总结,让大家快速了解该领域最新的研究进展,希望能给读者们带来启发。CVPR2016相关的…
深度学习大讲堂致力于推送人工智能,深度学习方面的最新技术,产品以及活动。请关注我们的知乎专栏!&br&&br&&p&面部特征点定位任务即根据输入的人脸图像,自动定位出面部关键特征点,如眼睛、鼻尖、嘴角点、眉毛以及人脸各部件轮廓点等,如下图所示。&br&&/p&&p&&figure&&img src=&https://pic4.zhimg.com/a2ae516b4db1afcdf028cda_b.jpg& data-rawwidth=&622& data-rawheight=&359& class=&origin_image zh-lightbox-thumb& width=&622& data-original=&https://pic4.zhimg.com/a2ae516b4db1afcdf028cda_r.jpg&&&/figure&这项技术的应用很广泛,比如自动人脸识别,表情识别以及人脸动画自动合成等。由于不同的姿态、表情、光照以及遮挡等因素的影响,准确地定位出各个关键特征点看似很困

我要回帖

更多关于 图像特征保存 opencv 的文章

 

随机推荐