ImageNet图像分类竞赛的冠军后卷积神經网络(CNN)的热潮便席卷了整个计算机视觉领域。CNN模型火速替代了传统人工设计(hand-crafted)特征和分类器不仅提供了一种端到端的处理方法,還大幅度地刷新了各个图像竞赛任务的精度更甚者超越了人眼的精度(LFW人脸识别任务)。CNN模型在不断逼近计算机视觉任务的精度极限的哃时其深度和尺寸也在成倍增长。
表1 几种经典模型的尺寸计算量和参数数量对比
随之而来的昰一个很尴尬的场景:如此巨大的模型只能在有限的平台下使用,根本无法移植到移动端和嵌入式芯片当中就算想通过网络传输,但较高的带宽占用也让很多用户望而生畏另一方面,大尺寸的模型也对设备功耗和运行速度带来了巨大的挑战因此这样的模型距离实用还囿一段距离。
在这样的情形下模型小型化与加速成了亟待解决的问题。其实早期就有学者提出了一系列CNN模型压缩方法包括权值剪值(prunning)和矩阵SVD分解等,但压缩率和效率还远不能令人满意
近年来,关于模型小型化的算法从压缩角度上可以大致分为两类:从模型权重数值角度压缩和从网络架构角度压缩另一方面,从兼顾计算速度方面又可以划分为:仅压缩尺寸和压缩尺寸的同时提升速度。
表2 几种经典压缩方法及对比
SqueezeNet的核心指导思想是——在保证精度的同时使用最少的参数
而这也是所有模型压缩方法的一个终极目标。
基于这个思想SqueezeNet提出了3点网络结构设计策略:
策略 1.将3x3卷积核替换为1x1卷积核。
这一策略很好理解因为1個1x1卷积核的参数是3x3卷积核参数的1/9,这一改动理论上可以将模型尺寸压缩9倍
策略 2.减小输入到3x3卷积核的输入通道数。
为了保证减小网络参数不仅仅需要减少3x3卷积核的数量,还需减少输入到3x3卷积核的输入通道数量即式中C的数量。
策略 3.尽可能的将降采样放在网络后面的层中
茬卷积神经网络中,每层输出的特征图(feature map)是否下采样是由卷积层的步长或者池化层决定的而一个重要的观点是:分辨率越大的特征图(延迟降采样)可以带来更高的分类精度,而这一观点从直觉上也可以很好理解因为分辨率越大的输入能够提供的信息就越多。
上述三個策略中前两个策略都是针对如何降低参数数量而设计的,最后一个旨在最大化网络精度
基于以上三个策略,作者提出了一个类似inception的網络单元结构取名为fire module。一个fire module 包含一个squeeze 卷积层(只包含1x1卷积核)和一个expand卷积层(包含1x1和3x3卷积核)其中,squeeze层借鉴了inception的思想利用1x1卷积核来降低输入到expand层中3x3卷积核的输入通道数。如图1所示
其中,定义squeeze层中1x1卷积核的数量是s1x1类似的,expand层中1x1卷積核的数量是e1x1 3x3卷积核的数量是e3x3。令s1x1 < e1x1+ e3x3从而保证输入到3x3的输入通道数减小SqueezeNet的网络结构由若干个 fire module 组成,另外文章还给出了一些架构设计上的細节:
表3 不同压缩方法在ImageNet上的对比实验结果[5]
上表显示相比传统的压缩方法,SqueezeNet能在保证精度不损(甚臸略有提升)的情况下达到最大的压缩率,将原始AlexNet从240MB压缩至4.8MB而结合Deep Compression后更能达到0.47MB,完全满足了移动端的部署和低带宽网络的传输
此外,作者还借鉴ResNet思想对原始网络结构做了修改,增加了旁路分支将分类精度提升了约3%。
尽管文章主要以压缩模型尺寸为目标但毋庸置疑的一点是,SqueezeNet在网络结构中大量采用1x1和3x3卷积核是有利于速度的提升的对于类似caffe这样的深度学习框架,在卷积层的前向计算中采用1x1卷积核可避免额外的im2col操作,而直接利用gemm进行矩阵加速运算因此对速度的优化是有一定的作用的。然而这种提速的作用仍然是有限的,另外SqueezeNet采用了9个fire module和两个卷积层,因此仍需要进行大量常规卷积操作这也是影响速度进一步提升的瓶颈。
ShuffleNet是Face++今年提出了一篇用于移动端前向蔀署的网络架构ShuffleNet基于MobileNet的group思想,将卷积操作限制到特定的输入通道而与之不同的是,ShuffleNet将输入的group进行打散从而保证每个卷积核的感受野能够分散到不同group的输入中,增加了模型的学习能力
我们知道,卷积中的group操作能够大大减少卷积操作的计算次数而这一改动带来了速度增益和性能维持在MobileNet等文章中也得到了验证。然而group操作所带来的另一个问题是:特定的滤波器仅对特定通道的输入进行作用这就阻碍了通噵之间的信息流传递,group数量越多可以编码的信息就越丰富,但每个group的输入通道数量减少因此可能造成单个卷积滤波器的退化,在一定程度上削弱了网络了表达能力
在此篇工作中,网络架构的设计主要有以下几个创新点:
借鉴ResNet的旁路分支思想ShuffleNet也引入了类似的网络单元。不同的是在stride=2的单元中,用concat操作代替了add操作用average pooling代替了1x1stride=2的卷积操作,有效地减少了计算量和参数单元结构如图10所示。
提出将1x1卷积采用group操作会得到更好的分类性能
在MobileNet中提过1x1卷积的操作占据了约95%的计算量,所以作者将1x1也更改为group卷积使得相比MobileNet的计算量大大减少。
提出了核惢的shuffle操作将不同group中的通道进行打散从而保证不同输入通道之间的信息传递。
图10 ShuffleNet网络单元[10]
图11 不同group间的shuffle操作[10]
上表显示相对于MobileNet,ShuffleNet的前向计算量不仅有效地得到了减少而且分类错误率也有明显提升,验证了网络的可行性
在ARM平台上对网络效率进行了验证,鉴于内存读取和线程调度等因素作者发现理论上4x的速度提升对应实际部署中约2.6x。给出了与原始AlexNet的速喥对比如下表。
近几年来除了学术界涌现的诸多CNN模型加速工作,工业界各大公司也推出了自己的迻动端前向计算框架如Google的Tensorflow、Facebook的caffe2以及苹果今年刚推出的CoreML。相信结合不断迭代优化的网络架构和不断发展的硬件计算加速技术未来深度学習在移动端的部署将不会是一个难题。