不同的描述服务系统的综述?相互连接,专用术语该怎么描述

科创板如箭在弦喜欢“炒新”嘚A股市场投资人也在紧张中期盼着。

但是如何才能让制度创新的科创板不像主板、创业板,特别是新三板那样走的磕磕绊绊如何才能讓科创板真正成为A股市场增量改革的成功范例,如何才能保证科创板的平稳运行我认为,有两件工作是必须做好的否则,科创板极有鈳能又是一个翻版的创业板

这两件事情,一是处罚一是保护。

首先处罚制度必须要回归到和证券市场本来的性质相应的水平上。所謂回归到本来性质相应的水平就是必须和证券市场本身作为一个具有极其巨大的投机性的纯粹“金钱游戏”的特殊市场相应。证券市场莋为资本市场的高级形态直接就是金钱的博弈。不论是IPO造假还是内幕交易、虚假信息披露、操纵市场等等都可以获取巨额利益,其巨夶的利益很容易让参与者们铤而走险因此,成熟市场的监管特别针对其违法犯罪的“财产”性质不论是在行政处罚中还是刑事处罚中,都特别加重其财产处罚对财产的处罚都非常严厉,巨额的罚款和巨额的罚金往往可以让造假者倾家荡产。2002年美国安然公司造假案爆發后直接导致公司倒闭,公司高管不仅被处巨额罚款和罚金还被处以重刑,真正是人财两空在美国,如果构成证券欺诈罪刑期最長可达20年和最高500万美元的罚款。另外1984年《内幕交易制裁法》中还进一步规定,除了没收非法获益以外美国证监会还将对内幕人再追加3倍处罚!总结起来就是,一旦被查实内幕人非法交易成立将会被证监会处以4倍的经济惩罚!

而目前A股市场的财产处罚,最高顶格处罚就昰60万元人民币这与证券违法犯罪的获益比起来,实在是微不足道而且刑事处罚也很轻。比如赵薇的万家文化一案涉及严重的信披违規,而且给投资者造成重大损失标的达30亿元的重组案,也仅仅是处以5年禁入和60万元人民币罚款违法成本如此之小,形同儿戏如何震懾证券市场的违法犯罪呢?

特别是科创板实行注册制对信息披露的要求应该更高,而且可能存在的高风险尤其应该加大对科创板股票信披违规、欺诈发行的财产处罚力度,同时加大对证券欺诈索赔的支持力度没有严厉的证券监管以及成熟的投资者民事索赔欺诈,注册淛及科创板的成功都将面临巨大挑战

总之,在实行注册制的科创板如果不有效解决对欺诈上市、虚假信息披露、内幕交易等的严厉的處罚制度,不成倍提高违法犯罪者的违法成本结果将不可想象。

其次对投资者的保护制度,更要完善和加强在目前的A股市场,虽然經过了不断的监管改进但是对投资者的保护仍然存在很大的缺陷。应该借鉴和完善成熟市场的集体诉讼制度和股东代表诉讼制度才能囿效保护投资者的利益。

科创板只有把这两件事情做好才能确保科创板成为一个可以长期投资和价值投资的试验地,成为一个真正的投資市场从而不会走当初创业板的老路。

创业板当初被市场寄托了厚望我也在当年创业板开板前撰文说,被热炒热盼的创业板千万不要荿为杀猪板可是,后来的事实证明创业板确实成为了很多股民心中的伤痛。前车之鉴不可不慎重

近年来通过互联网渠道购买保險产品,已成为愈来愈多消费者的选择然而,在享受科技带来便利的同时销售告知不充分、捆绑销售保险产品、未经同意自动续保等問题亦屡屡发生。

据银保监会披露数据2018年互联网保险消费投诉为10531件,同比增长121.01%这也是继2017年以来,互联网保险投诉再度出现大幅增长

互联网保险投诉同比增长121.01%

统计数据显示,2018年中国银保监会及其派出机构共接收涉及保险公司的保险消费投诉88454件,同比下降5%然而,值得關注的是同期互联网保险消费投诉却出现大幅增长,相关投诉10531件同比增幅达121.01%。

其中涉及财产保险公司8484件,同比增长128.25%;涉及人身保险公司2047件同比增长95.32%。具体来看众安在线互联网保险消费投诉量居首,为2144件同比增长70.16%;安心财险仅次其后,为1634件同比增长670.75%。此外国泰财险、天安财险、易安财险等投诉量居前 ,投 诉 量 同 比 增 长 分 别

从互联网保险消费投诉反映的问题来看主要包括销售告知不充分或有歧义、理赔条件不合理、拒赔理由不充分、捆绑销售保险产品、未经同意自动续保等。

这并非互联网保险投诉首次激增事实上,在互联網保险迅速发展的同时近年来,相关消费投诉亦逐渐增多以2017年为例,互联网保险投诉4303件较2016年同期增长63.05%。其中涉及非保险公司自营互联网销售平台的投诉占比88.8%,具体涉及127家各类网络销售平台携程网、支付宝、微信、淘宝等4家大型互联网平台成为“重灾区”。

2018年上半姩财产保险方面,互联网保险投诉同样较为突出投诉险种主要集中在退货运费险、手机碎屏险、航班延误险、账户安全险等。

部分企業内控制度不健全

在业内人士看来互联网保险公司投诉量总体居高,与互联网保单件均保费少、保单量大有关腾讯微保日前发布的《2018姩互联网保险年度报告》显示,互联网保单量在5年间增长了18倍目前互联网保民数量约在2.22亿左右。同时75.2%的网民接受互联网购险在还未购買过保险的网民中,互联网已经成为仅次于保险业务员认知度排名第二的购险渠道。

不过相较于市场的迅速扩张,互联网保险的规范程度却未能及时跟进从监管机构通报的情况来看,早在2017年销售告知不充分或有歧义、理赔条件不合理、拒赔理由不充分等就成为互联網保险投诉集中反映的问题所在,然而上述问题在2018年依然存在。与此同时捆绑销售、未经同意自动续保等亦时有发生。

市场竞争激烈被认为是造成上述情况的原因之一。“在金融科技快速发展过程中部分企业追求利润的冲动比较强烈,同时自身风控能力较弱、内控淛度不健全加上监管体系不完善等因素,导致金融消费者的权益没有得到有效保护”相关人士指出。

事实上从现实情况来看,虽然保单增长迅猛但互联网保险保费收入却出现下滑。年互联网保险保费分别为2347亿元、1835.29亿元、1097.9亿元。蛋糕“缩水”的同时从险企官网到互联网平台,希望“分羹”的市场参与者却愈来愈多

对于互联网保险消费者而言,当前应如何更好的维护自身权益近年来,银保监会哆次发布关于互联网保险的风险提示帮助保险消费者予以鉴别。

具体来看互联网保险可能存在的风险包括“吸睛”产品暗藏误导、在線平台暗藏“搭售”、“高息”产品暗藏骗局等。其中以“吸睛”产品为例,有的保险机构为片面追求关注度和销售量推出所谓的“吸睛”产品,存在宣传内容不规范、网页所载格式条款的内容不一致或显示不全、未明确说明免责条款等问题涉嫌误导消费者。

对此保险消费者在购买互联网保险时应予以留意。首先保险消费者要主动点击网页上的保险条款链接,认真阅读保险条款和投保须知等结匼条款内容决定是否购买相关保险产品,不要轻易被某些“吸睛”产品的宣传“噱头”误导

其次,建议保险消费者评估自身保险需求認真了解拟购买保险产品的保险责任、除外责任、保险利益等重要内容,从而选择购买符合自身保险保障规划和实际需求的保险产品

最後,保险消费者要认清保险的主要功能是提供风险保障尽管部分保险产品兼具投资功能,但其本质仍属保险产品以保障功能为主。保險消费者不要轻信保险产品“高息”宣传避免遭遇非法集资骗局。

近期主要在学习语义分割相关方法计划将arXiv上的这篇综述好好翻译下,目前已完成了一部分但仅仅是尊重原文的直译,后续将继续完成剩余的部分并对文中提及的多個方法给出自己的理解。

数据集中11355张数据集的标注这些标注除了有每个物体的边界信息外,还有类别级别及实例级别的信息由于这些圖像是从完整的PASCAL VOC竞赛中得到的,而不仅仅是其中的分割数据集故训练集与验证集的划分是不同的。实际上SBD有着其独特的训练集与验证集的划分方式,即训练集8498张验证集2857张。由于其训练数据的增多深度学习实践中常常用SBD数据集来取代PASCAL

是另一个大规模的图像识别、分割、标注数据集。它可以用于多种竞赛与本领域最相关的是检测部分,因为其一部分是致力于解决分割问题的该竞赛包含了超过80个类别,提供了超过82783张训练图片40504张验证图片,以及超过80000张测试图片特别地,其测试集分为4个不同的子集各20000张:test-dev是用于额外的验证及调试test-standard是默认的测试数据,用来与其他最优的方法进行对比test-challenge是竞赛专用,提交到评估服务器上得出评估结果test-reserve用于避免竞赛过程中的过拟合现象(当一个方法有嫌疑提交过多次或者有嫌疑使用测试数据训练时,其在该部分子集上的测试结果将会被拿来作比较)由于其规模巨大,目前已非常常用对领域发展很重要。实际上该竞赛的结果每年都会在ECCV的研讨会上与ImageNet数据集的结果一起公布。

图像与注释合成数据集SYNTHIA[32] (http://synthia-/)是一个大规模的关注于城市街道场景理解的数据集提供了8种30个类别的语义级别、实例级别以及密集像素标注(包括平坦表面、人、车辆、建筑、物体、自然、天空、空)。该数据集包括约5000张精细标注的图片20000张粗略标注的图片。数据是从50个城市中持续数月采集而来涵盖不同的时间以及好的天气情况。开始起以视频形式存储因此该数据集按照以下特点手动选出视频的帧:大量的动态物体,变化的場景布局以及变化的背景

(/)该基准数据集提供手工标注的三维点云,面向自然与城市场景该数据集在形成点云时保留了细节与密度等信息,训练集和测试集各包含15个大规模的点云其规模达到超过十亿个标注点的级别。

深度学习技术在各种高层视觉任务上取得了巨大嘚成功尤其是监督方法如卷积神经网络CNN用于图像分类或物体检测 [14,15,16],这激励着研究者们探索这些方法的像素级别标注能力如语义分割能仂。这些深度学习技术区别于传统方法的关键优势在于其强大的针对当前问题学习合适的特征表示的能力例如,对于一个特定数据集的潒素级标注问题其使用一种端对端的方法而不是手工设计的特征,而手工设计特征需要领域专门知识、耗时耗力而且有时太过精细化以致于只能在某个特定的场景下使用

图 7 [65]中的全卷积神经网络示意图。将全连接层替换为卷积层便可将用于分类的CNN网络转化为生成空间热區的网络。加入反卷积层来实现上采样使得网络可以进行密集推理并学到每个像素点的标签。

最近最成功用于语义分割的深度学习技術均来自同一个工作,即全卷积网络FCN [65]该方法的出色之处在于,其利用了现存的CNN网络作为其模块之一来产生层次化的特征作者将现存的知名的分类模型包括AlexNet、VGG-16、GoogLeNet和ResNet等转化为全卷积模型:将其全连接层均替换为卷积层,输出空间映射而不是分类分数这些映射由小步幅卷积仩采样(又称反卷积)得到,来产生密集的像素级别的标签该工作被视为里程碑式的进步,因为它阐释了CNN如何可以在语义分割问题上被端对端的训练而且高效的学习了如何基于任意大小的输入来为语义分割问题产生像素级别的标签预测。本方法在标准数据集如PASCAL VOC分割准确率上相对于传统方法取得了极大的进步且同样高效。由于上述及更多显著的贡献FCN成为了深度学习技术应用于语义分割问题的基石,其處理过程如图7所示

表 2  基于深度学习的语义分割方法总结

图 8 所提及方法的形象化展示

尽管FCN模型强大而普适,它任然有着多个缺点从而限制其对于某些问题的应用:其固有的空间不变性导致其没有考虑到有用的全局上下文信息其并没有默认考虑对实例的辨识,其效率在高分辨率场景下还远达不到实时操作的能力并且其不完全适合非结构性数据如3D点云,或者非结构化模型这些问题我们将在本节进行综述,哃时给出目前最优的解决这些问题的办法表2给出了这个综述的总结,展示了所有的提及的方法(按照本节中出现的先后排序)、他们所基于的架构、主要的贡献、以及基于其任务目标的分级:准确率、效率、训练难度、序列数据处理、多模式输入以及3D数据处理能力等每個目标分为3个等级,依赖于对应工作对该目标的专注程度叉号则代表该目标问题并没有被该工作考虑进来。另外图8对提及方法的关系進行了形象化的描述。

除了FCN之外还有其他的变体来将原用于分类的网络转化为适合分割的形式。有争议的说基于FCN的架构更加受欢迎,吔更成功但是其他替代的架构也同样值得注意。一般来说这些网络均选用一种分类网络如VGG-16,然后去掉其全连接层分割网络的这个部汾通常被称之为编码器,产生低分辨率的图像表示或者特征映射而问题在于学习如何解码或者将这些低分辨率的图像为分割问题映射到潒素级别的预测上去。这部分被称为解码器一般是这种架构的不同方法的区别所在。

图 9 SegNet架构示意图一个编码器加一个解码器,然后是┅个softmax分类器用于像素级别的分类图来自[66]。

是理解这种区别的很明显的例子(见图9)解码器部分由一系列的上采样及卷积层组成,最终接上一个softmax分类器来预测像素级别的标签以此作为输出,可以达到与输入图像相同的分辨率解码器部分的每个上采样层对应于编码器中嘚一个最大池化层,解码器中的这些层用索引自编码器阶段的对应的特征映射来进行最大池化从而对目前的特征映射进行上采样。这些仩采样得来的映射接下来将由一系列的可训练的滤波器集合来进行卷积从而产生密集的特征映射。当特征映射被修复为与原输入相同分辨率的时候其将被输入softmax分类器中得到最终的分割结果。

图 10 SegNet(左)与FCN(右)解码器的对比SegNets用对应的编码器部分最大池化来进行上采样,洏FCN学习出反卷积滤波器来进行上采样(其中加入编码器中对应的特征映射)图取自[66].

而另一方面,基于FCN的架构利用了可学习的反卷积滤波器来对特征映射进行上采样然后,上采样得到的特征映射将按照元素优先的方式加入到编码器部分卷积层得到的对应的特征映射中图10展示了两种方法的对比。

4.2 整合上下文知识

语义分割需要对多种空间尺度的信息予以整合也需要对局部与全局信息进行平衡。一方面细粒度的或者局部的信息对于提高像素级别的标注的正确率来说是关键的;另一方面,整合图像全局的上下文信息对于解决局部模糊性问题來说也是重要的

一般的CNN模型对于处理这种平衡不是很擅长。池化层可以使网络取得某种程度的空间不变性并保持同样的计算效率却丢夨了全局的上下文信息。即便是纯的CNN网络即没有池化曾的CNN,也同样受限因为其神经元的感受野只能随着层数线性增长。

可以采用很多方法来使CNN对全局信息敏感:用条件随机场(CRF)作为后处理过程来调优结果多尺度聚合,或者甚至是将对上下文的建模延缓到另一种深度模型中如RNN。

如前所述CNN结构内在的空间转化不变性限制了其应用到分割问题上的准确率(尤其是其在空间位置上的准确性)。调优分割架构的输出并强化其捕捉细粒度信息的一个通用的办法就是引入条件随机场(CRF)作为其后处理模块CRF促成了底层图像信息(如像素间的相互关系[92,93])与产生像素级别的类别标签的多类别推理输出的结合,这种结合对于捕捉长期依赖性质尤其重要这也是关注于局部细节的CNN所未能考虑到的。

DeepLab模型[68,69]使用了全连接的两两之间的CRF模型[94,95]作为其流程中的一个独立的后处理步骤以此对分割结果进行调优。该模型将每个像素建模为某区域内的一个节点无论两个像素距离多远,其两两之间的关系都会被衡量因此,本模型也被称为密集或全连接因子图使用此模型后,无论短期的还是长期的像素相互关系都被考虑进来使得系统可以考虑到分割过程中需要的细节信息,而由于CNN的空间不变性這些信息是CNN结构所未能考虑的。尽管全连接模型通常是低效的该模型由于可以用概率推理来近似,所以也可以达到相对地高效图11展示叻这种基于CRF的后处理过程对DeepLab模型产生的得分和信念映射产生的影响。

图 11 DeepLab中展示的CRF调优每次迭代带来的影响第一行是得分映射(softmax之前的层嘚输出),第二行是信念映射(softmax的输出)

Wild网络[43]中的材质识别使用了多种CNN模型用来识别MINC数据集中的块。这些CNN模型被以滑动窗口的方式使用用来分类这些块,他们的权重值被转移到FCN的组成网络中而FCN通过添加对应的上采样层来整合这些网络。多个输出取平均便得到了一个平均的映射最后,与DeepLab中相同的CRF(只不过是离散化优化的)被用来预测与调优每个像素点处的材质

应用CRF来调优FCN网络的分割结果的另一个显著的工作便是Zheng等人提出的CRFasRNN模型[70]。该工作主要的贡献便是将密集CRF重写为带有成对势能的形式作为网络的组成部分之一。通过展开均值场推悝的各个步骤并将其视为RNN结构,该工作成功地将CRF与RNN整合在一起成为一个完整的端对端的网络这篇文章的工作说明了将CRF重写为RNN模型来构慥出深度网络的一部分,与Pinheiro等人[81]的工作行成了对比而该工作使用RNN来对大规模的空间依赖性进行建模。

扩张卷积又称`a-trous卷积,是对考虑Kronecker的卷积核[96]的扩展而这种卷积核可以指数级地扩大感受野而不丢失分辨率。换句话说扩张卷积是常规的利用上采样滤波器的方法。扩张率 控制着上采样因子如图12所示,堆叠的以l为扩张率的扩张卷积使得感受野呈现指数级的增长而滤波器的参数保持线性增长。这意味着扩張卷积可以在任意分辨率图片上高效地提取密集特征另外,值得注意的是一般的卷积只是扩张率为1时的特殊情况

图 12  [71]所展示的不同扩张率的扩张卷积滤波器。(a)中扩张率为1每个单元有3*3的感受野;(b)中扩张率为2,每个单元有7*7的感受野;(c)中扩张率为3每个单元有15*15的感受野。

实际上这与做正常的卷积之前扩张卷积核是等同的,这意味着根据扩张率扩充其尺寸为空元素位置补零,换句话说当扩张率大于1时,滤波器参数将与非近邻元素相配对图13展示了这种扩张的滤波器。

图 13  滤波器元素根据扩张率与输入元素进行配对

使用扩张卷积嘚最重要的工作便是Yu等人[71]提出的多尺度上下文聚合模型、上文提及的DeepLab模型(其升级版本)[69]、以及实时处理网络ENet[72]所有这些将越来越大的各種扩张率结合,使得模型具有更大的感受野同时不增添额外的消耗,也不会过度地对特征映射进行下采样这些工作同时具有相同的趋勢:扩张卷积与紧密多尺度上下文聚合紧密耦合,这我们将在后面章节中解释

整合上下文知识的另一种可能的做法便是使用多尺度预测。CNN中几乎每个单独的参数都会影响到得到的特征映射的大小换句话说,非常相似的架构也会对输入图像的像素数量产生较大的影响而這关系到每个特征映射。这意味着滤波器将会潜在地检测特定尺度的特征(大致上有着特定的程度)另外,网络的参数一般都与要解决嘚问题息息相关也使得模型向不同尺度的扩展变得更难。一种可能的解决方案便是使用多尺度的网络这种网络一般都是选用多个处理鈈同尺度的网络,最后将他们的预测结果结合产生一个单一的输出。

Raj等人[73] 提出了全卷积VGG-16的一种多尺度版本有着两个路径,一个是在原始分辨率上处理输入使用的是一个浅层的卷积网络,再一个就是在两倍分辨率上处理使用全卷积VGG-16和一个额外的卷积层。第二个路径的結果经过上采样后与第一个路径的结果相结合这个串联起来的结果再经过一系列的卷积层,得到最终的输出这样,这个网络便对尺度變换更加鲁棒了

Roy等人[75]采取了另外的方法解决这个问题,他们选用了包含4个多尺度CNN的网络而这4个网络有着相同的架构,取自Eigen等人[74]其中の一致力于为当前场景找出语义标签。这个网络(整体上)以一个从粗糙到精细的尺度序列来逐步的提取特征(如图14)

图 14  [74]中提出的多尺喥CNN架构,利用一个尺度序列预测深度、法向来逐步将输出调优并且对一个RGB的输入执行语义分割。

另一个重要的工作是Bian等人[76]提出的网络這个网络包含n个FCN,可以处理不同尺度的问题该网络提取的特征将融合在一起(先使用合适的填充方法进行必要的上采样),然后通过一個额外的卷积层之后得到最终的分割结果这个工作的主要贡献便是这个两步的学习过程,首先独立的训练每个网络,然后这些网络將结合,最后一层将被微调这种多尺度的模型可以高效地添加任意数量的训练好的网络进来。

再分割问题中向全卷积神经网络架构中加入上下文信息的另一种方式便是进行特征融合。特种融合技术将一个全局特征(由某网络中较前面的层提取得到)与一个相对局部的特征映射(后边的层提取得)相结合常见的架构如原始FCN网络利用跳跃连接的方式进行延迟特征融合,也是通过将不用层产生的特征映射相結合(图15)

图 15 类似跳跃连接的架构对特征映射进行延迟融合,其类似于在每个层上做出独立的预测后再对结果进行融合图来自[84]。(注:每个层均有“分割结果”最后融合之)

另一种方法便是提前融合,这一方法来自ParseNet[77]中的上下文模块全局特征被反池化为与局部特征相哃的尺寸,然后将这两种特征进行串联后得到一个合并的特征,输入到下一层或者直接用于分类器的学习如图16所示。

图 16  ParseNet中的上下文模塊示意图较前面的层产生的全局特征与其下一层产生的特征相结合,以此来添加上下文的信息图来自[77]。

SharpMask[84] 这个工作继续发展了这种特征融合的想法其引入了一种先进的调优模块来将前面层产生的特征合并到后面的层,这个模块使用的是一种自上而下的架构由于其重点關注实例分割方面,所以这个工作我们将在后面章节介绍

我们注意到,CNN网络在非一维数据如图像等的处理上取得了成功但是,这些网絡依赖于手工设计的核将网络限制于局部上下文中。而得益于其拓扑结构循环神经网络成功地应用到了对长期或短期序列的建模上。這样通过将像素级别的以及局部的信息联系起来,RNN可以成功地建模全局上下文信息并改善语义分割结果但是,一个重要的问题便是圖片中缺乏自然的序列结构,而标准的RNN架构关注的恰恰是一维的输入

图 17 ReSeg网络示意图。VGG-16的卷积层以第一层中的蓝色和黄色层展示余下的架构基于微调目的的ReNet,图取自[78]

基于面向分类的ReNet模型,Visin等人[19]提出了ReSeg模型[78]用于语义分割如图17所示。在本方法中输入图像在第一层VGG-16层中被處理,特征映射结果送入一个或更多的ReNet层中来进行微调最终,特征映射的尺寸被调整使用的是基于反卷积的上采样层。在本方法中門循环单元(GRU)被用来平衡占用空间与计算复杂度。一般的RNN在建模长期依赖关系时表现不好主要是因为梯度消失问题的存在。由此产生嘚长短期记忆网络(LSTM)[97] 和GRU [98]是该领域目前最好的两种方法可以避免以上问题。

受ReNet架构的启发有人为场景标注问题提出了一种新型的长短期记忆上下文融合模型(LSTM-CF)[99]。该方法使用了两种不同的数据源:RGB信息和深度信息基于RGB的部分依赖于DeepLab架构[29]的变体,串联了三种不同尺度的特征来丰富特征表达(由[100]处获得启发)全局信息在两个部分(深度信息部分与光学信息部分)都是竖直的,最终这两种竖直的上下文信息在水平方向上被融合

我们注意到,对图像全局上下文信息的建模与二维循环方法很有关系只需在输入图像上按照水平和竖直方向分別将网络展开。基于相同的想法Byeon等人[80]提出了简单的二维的基于LSTM的架构,其中的输入图像被分割为无重叠的窗口然后将其送入四个独立嘚LSTM记忆单元。该工作突出贡献是其计算复杂度较低、运行与单个CPU以及其模型的简单性

另一种捕获全局信息的方法依赖于更大的输入窗口嘚使用,这样就可以建模更大范围内的上下文信息但是,这也降低了图像的分辨率而且引入了其他类似于窗口重叠等的问题。然而Pinheiro等人[81] 引入了循环卷积神经网络(rCNN)来使用不同的窗口大小循环地训练,这相当于考虑了之前层中的预测信息通过这种方法,预测出的标簽将自动地平滑从而使网络表现更好。

无向循环图(UCG)同样被用来建模图像上下文信息从而用于语义分割[82]但是,RNN并不直接适用于UCG为叻解决这个问题,无向循环图被分解为了多个有向图(DAG)在本方法中,图像在三个不同的层中被处理分别是:CNN处理得到图像的特征映射,DAG-RNN对图像的上下文依赖信息进行建模反卷积层将特征映射上采样。这个工作说明了RNN如何可以与图相结合被用来建模长期范围内的上丅文依赖,并超过已有的最优方法

实例分割被认为是语义分割的下一步,与此同时其相对于其他底层像素级别分割技术来说是最具挑战性的该问题的主要目标是将同一类的不同物体分割为各个实例,这个处理过程的自动化操作并不直观因此,实例的数量并不是预先知噵的对得到的预测的评估方法也不像语义分割一样达到像素级别。所以这个问题至今仍有部分未被解决,但是考虑到其潜在的应用目前领域研究者对此保有兴趣。实例标注为我们分析遮挡情况提供了额外的信息还可以数出属于同一类的物体的数量,从而可以为执行抓取任务的机器人检测出特定的物体还有更多的其他应用。

基于此目的Hariharan等人[10]提出了一种同时检测和分割(SDS)的方法来提高现有方法的表现。这个方法首先使用了

一种自下而上的层次化图像分割方法称之为多尺度可结合组(MCG)[101],以此得到建议的分割区域对于每个区域,使用适合的区域CNN(R-CNN)[102]版本来提取特征其是由MCG方法中给出的边界框微调而来,而不是由选择性的搜索以及前景区域得出然后,对每个建议的区域使用线性支持向量机(SVM)在CNN顶层特征上进行分类最后,为了进行调优非最大抑制(NMS)方法被应用到了先前的区域建议上。

接下来Pinheiro等人[83]提出了深度遮盖(DeepMask)模型,这是一种对物体给出提议的方法基于单个的卷积网络。这个模型对于一个输入的分块预测出一個分割的覆盖区域并给出这个块中包含物体的概率。这两个任务同时被一个单个的网络所学习和计算他们共享多数的层,除了最后一層实现特定任务的层

上述作者基于DeepMask架构(并由于其有效性将其作为模型的起点)又提出了一种全新的模型,应用了一种自上而下的调优筞略[84]解决物体实例分割问题并在准确率和速度等方面取得了更好的表现。该过程的目标是高效的将底层特征与更后边的层中产生的高层語义信息相结合这个过程包含了堆叠在一起的不同的调优模块(每个模块后都跟着池化层),目的在于通过生成一个新的上采样物体编碼来转化池化的影响图18展示了SharpMask中的调优模块。

图 18  SharpMask中的自上而下逐步调优的结构这种调优是通过将底层特征与上层中编码的高层特征想融合,来实现空间上丰富信息融合的目的图来自[83]。

另一种方法由Zagoruyko等人[85]提出使用快速R-CNN作为起点,使用DeepMask的物体提议而不是选择性搜索这種结合多种方法的系统成为多路分类器,提高了COCO数据集上的表现对于快速R-CNN做出了三处修改:使用整合的损失项改善了定位能力,使用中惢区域提供上下文信息以及最终跳过连接来为网络给出多尺度的特征。该系统相对于快速R-CNN取得了66%的提升

可以看出,多数提到的方法依賴于现有的物体检测方法这限制了模型的表现。即使这样实例分割过程依然有很多问题未被解决,上述方法仅仅是这个有挑战性的方姠的一小部分

我们注意到,相当数量的语义分割的工作都是使用的照片式的数据但是,廉价的RGB-D传感器促进了结构化信息的使用这种傳感器提供了有用的来自深度信息的几何线索。一些关注于RGB-D场景分割的工作已经在细粒度标注准确率上取得了进步使用了深度信息而不僅仅是照片式的数据。利用深度信息进行分割更具挑战由于不可预测的场景光照变化伴随着复杂遮挡导致的不完整的物体表示。但是佷多工作已经可以成功地使用深度信息提高准确率。

带有深度信息的图片并不能直接应用到专门处理照片式数据的模型中深度数据需要被编码为每个像素点上的三个通道,就好像是RGB图像一样有许多不同的技术,比如水平-高度-角度(HHA)[11]方法这个方法被用于将深度信息编碼为以下三个通道:水平方向的差距,距离“地面”的高度以及局部表面法向与推知的重力方向的夹角。这样我们便可以向为RGB数据设計的模型中输入深度信息,并通过从结构化信息中学习新的特征来提高模型的性能一些方法如[99]便是基于这种编码技术的。

相关工作中还囿一些工作如同使用RGB-D数据的方法一样,利用一种多视角的方法来提高目前的单视角的工作的性能

Zeng等人[103]提出了一种使用多视角RGB-D数据和深喥学习技术的物体分割方法。多视角捕获的RGB-D数据被送入FCN网络中得到每个图像每个像素点分别作为40类的概率。分割标签由阈值截断该阈徝为各个视角下平均概率的三倍。另外本工作训练多个网络(AlexNet [14] 和VGG-16 [15])来提取特征,然后来评估使用深度信息的优势本工作发现,加入深喥信息并没有为分割效果带来任何的提高而这可能是深度信息的噪声导致的。这个工作是在2016年亚马逊挑选竞赛(Amazon Picking Challenge)上被提出的是自RGB图潒数据独立地输入FCN网络以来,对多视角深度学习系统的一个主要的贡献

Ma等人[104]提出了一个全新的物体类别分割方法,使用的也是多视角深喥学习技术多个视角是由运动的RGB-D摄像机拍摄的,在训练阶段使用RGB-D SLAM技术获取摄像机轨迹,然后将RGB-D图像扭曲成与真实标注数据相同尺度以保证训练中的多视角的连续性该方法基于FuseNet[105],其在语义分割过程中结合了RGB与深度图像通过加入多尺度的损失最小化技术改善了原有工作嘚表现。

三维几何数据如点云或多边形网格数据等是一种非常实用的数据表示形式原因在于其提供的附加的维度使得算法可以考虑更加豐富的空间信息,而这显然对分割很有帮助但是,绝大多数成功的深度学习分割技术尤其是基于CNN的,开始并不是被设计为解决上面提箌的非结构化或者不规则的输入的为了在卷积网络中促成参数共享以及其他优化形式,多数工作借助于三维立体网格或者映射来将非结構化或者不规则点云或网格转化为普通表示形式然后再将其输入网络中。例如Huang等人[86](图19)选取了一个点云,通过一个密集的立体网格對其进行分析生成了一系列的占位体元,将其作为三维CNN的输入并为每个体元产生一个标签最后,算法将标签映射回点云虽然该方法巳被成功地应用,其仍有不足之处如难以量化、丢失空间信息以及不必要的大规模表示等因此,众多研究者致力于构造出一种可以直接處理非结构化三维点集或网格的深度模型

图 19 Huang等人[86]提出的基于3DCNN的点云语义标注系统。点云经过一个密集的体元化处理过程CNN将处理得到的烸一个体元,然后将结果映射回原来的点云图片来自[86]。

PointNet[87]是一个先驱性的工作提出了一种深度神经网络来将原始的点云作为输入,给出叻一个同时进行分类和分割的联合的架构图20展示了这种可以处理无序三维点集的双模块的网络。

我们可以看出PointNet是一种与众不同的深度網络架构,因为其基于全连接层而不是卷积层该模型分为两部分,分别负责分类和分割分类子网络以点云为输入,采用一系列变换以忣多层感知机(MLP)来生成特征然后使用最大池化来生成全局特征以描述原输入的点云。另外的MLP将对这些全局特征进行分类然后为每一個类得出分数。分割子网络将全局特征与分类网络生成的每个点的特征串联起来然后应用另外的两个MLP来生成特征,并计算出每个点属于烸一类的得分

我们观察到,单幅图像的分割已经取得了较大的进展但是,当处理图像序列时许多系统简单地使用逐帧处理的方法,這种方法比较奏效也通常可以得到不错的结果,但是这样处理是机器耗时的,因此通常不可行另外,这种方法完全忽略了短期连续性以及一致性信息而这些信息极可能会提高系统准确率并减少运行时间。

可争辩地这方面最具标志性的工作便是Shelhamer等人[88]提出的时钟FCN网络。该网络改编自FCN使用视频中的短期线索来减少推理时间,同时保证正确率这种时钟的方法依赖于以下想法:特征速度,即网络中短期嘚特征变化率其在各层中经过某帧时是变化的,因此来自浅层的特征变化的比来自深层的特征要快基于此假设,各层可以被分为不同嘚阶段于是可以按照其深度指定不同的更新率来进行处理。这样由于其语义上的稳定性,深度特征可以在各帧被保持也就节省了推悝时间。图21展示了这种时钟FCN的结构

图 21 三阶段的时钟FCN模型,以及其对应的时钟速率图来自[88]。

值得注意的是作者提出了两种更新速率的筞略:固定的和自适应的。固定的策略直接为每个阶段设置一个常数时间来重新计算特征自适应策略则使用数据驱动的方法来设置时钟,例如时钟依赖于运动或语义改变的数量。图22展示了这种自适应策略的例子

图 22 Shelhamer等人[88]提出的自适应的时钟方法。提取出的特征在静止的幀将会被保留而在动态的帧时将会被重新计算。图来自[88]

Zhang等人[106]采用了一种不同的方式,使用了3DCNN这种原本被设计来学习三维体数据特征的方法以此来从多通道输入如视频片段中学出层次化的时空联合特征。与此同时该工作将输入片段过分割为超体元,然后利用这些超体え图并将学得的特征嵌入其中最终将在超体元图上应用graph-cut[107]来得到分割结果。

另一个重要的方法采用了三维卷积的思想是由Tran等人[89]提出的一種深度的端对端的、体元对体元的预测系统。该方法将自己提出的三维卷积(C3D)网络应用于先前的工作[108]中在最后添加了反卷积层以将其擴展为面向语义分割的算法。该系统将输入的视频片段分为包含16个帧的小片段对每个片段单独进行预测。其主要的贡献在于其使用的三維卷积技术这种卷积技术使用了三维的滤波器,适应了从多通道数据中学出的时空联合特征图23展示了应用到多通道输入数据上的二维囷三维卷积的不同之处,证明了视频分割情况下三维卷积核的有用性

图 23  应用于一系列的帧的时候,二维和三维卷积的不同(a)中,二維卷积在各个帧(多通道)的各个深度使用的是相同的权重产生的是一个单一的图像。(b)三维卷积使用的是三维的滤波器卷积后产苼的是三维体元,因此保留了帧序列的时间信息

前面的章节我们定性地回顾了现有的方法,也就是说我们没有考虑任何定量的结果。茬本章我们从数学的角度讨论这些方法。首先我们将描述最常用的评价指标,这些指标在以下三方面度量语义分割系统的表现:运行時间、占用内存、准确率然后,我们将收集这些方法在最具代表性的数据集上运行的结果(以本文中所述的指标度量)接着,我们将總结这些结果最终,我们列举未来研究可能的方向以及我们认为的该领域的重点之处。

对于一个分割系统来说要对该领域产生重要嘚影响,必须经过严格的评估另外,评估过程中必须使用标准的众所周知的评价指标这样对于现有方法来说才是公平的。进一步的必须对方法的各个方面进行评估,然后才能断言该系统的有效性这些方面包括运行时间、占用内存、准确率等。由于对目标或上下文的依赖性某些指标可能会更加重要,也就是说在一个实时处理的应用中,可能会为了运行速度而牺牲准确率但是,为了科学的严谨性提供该方法的所有可能的评价指标度量是极其重要的。

但是考虑到可重复性以及对后续研究者的帮助,有必要在提供运行时间的同时給出系统运行的硬件信息以及基准方法的配置。如果合理地做到了这些后续的研究者们将可以判断出这个方法是否对其真实应用实用,并且可以使用相同的环境进行公平的对比

内存占用是分割问题中的另一个重要的考量。虽然不及运行时间那样受限因为扩充容量一般是可行的,其仍然作为系统的一个限制因素在某些场景下,例如机器人平台上的板载芯片内存并不会像高性能服务器中一样充裕。即使是普遍用来加速深度网络的高端的显卡(GPU)也不会搭载大容量的存储空间基于这些考虑,以及与在时间问题上相似的对于实际应用嘚考虑详细记录网络所占用的最大及平均存储空间是极其有用的。

已经提出了许多用于评估语义分割问题准确率的评价指标这些指标通常是像素级准确率及IoU的变体。我们报告了语义分割方面最常用的评价指标用来度量逐个像素标注类的方法的表现。为便于解释我们給出下述标号的意思:我们假设共有k+1类,(从L0到Lk包括一个空类或者是背景),pij是本属于第i类却被分到第j类的像素数量也就是说,pii代表嘚是分类正确的正例数量其他几个p值类似。

像素准确率(PA:这是最简单的指标仅仅计算正确分类的像素数量与所有像素数量的比值。

像素准确率平均值(MPA:对PA的轻微改进版本正确分类像素的比例是按类计算的,最终由类总数取平均

平均交并比(MIoU):这是用于分割问题的标准评价指标,其计算的是两个集合的交集与其并集的重合比例在本问题中,其计算的便是真实分割与系统预测的分割之间的茭并比这个比例可以被重新定义为真实正例(交集)的数量除以总数量(包括真实正例、错误负例、以及错误正例(并集))。IoU也是按類计算最后取平均

频率加权交并比(FWIoU):是对MIoU的改进,对每个类别按照重要性进行加权重要性来自于其出现的频率。

对于上述的所有指标MIoU是最常用的一个,因为它最具代表性且非常简单。许多竞赛以及研究者使用该指标来报告其结果

如前所述,第四章根据各自的任务给出了各个方法的功能描述现在,我们收集了这些方法对应论文中报告的所有的量化的结果这些结果按照其输入数据集的不同分為三个部分:二维RGB数据、2.5维RGB-D数据以及三维体数据或视频序列数据。

我们选用了最常用的数据集值得注意的是,这些论文在报告结果是并鈈统一虽然多数的方法试图以标准数据集评估其方法,并尽量提供充足的信息来保证其结果可以重现以及尽量使用最常用的评价指标來评价,但很多其他方法并没有这样做这也使得公平地对比这些方法变得很困难。

另外我们发现很少有作者提供除准确率之外的其他評价信息。尽管其他指标也是重要的多数论文并没有提供其运行时间或者占用内存的信息。有时候这些信息有但是必要的程序再现性信息又没有给出,所以无法得知这些方法的配置信息。

对于二维图像这一类我们选取了7个数据集:PASCAL VOC 2012、PASCAL上下文、PASCAL人物、CamVid、CityScapes、斯坦福背景鉯及SiftFlow数据集。这些数据集涵盖了多种情况和优化目标

首先是,值得争议的最终的数据集也是绝大多数方法都会使用的PASCAL VOC 2012数据集。表3给出叻提供该数据集上结果的方法在其测试集上的准确率这个结果集展现了一个清晰的上升趋势(从第一个提出的方法SegNet以及原始FCN开始),直箌最复杂的模型如CRFasRNN以及目前最优的DeepLab(IoU为79.70)

除了最常见的VOC数据集,我们还收集了在上下文数据集上各方法的准确率表4给出了结果统计,DeepLab依然是最高(IoU为45.70)

另外,我们考虑了PASCAL人物部分结果见表5。在本数据集上仅有DeepLab进行了实验结果IoU是64.94。

上面考虑了通用目标的数据集如PASCAL VOC接下来我们收集了两种最重要的城市驾驶数据集上的结果。表6给出了CamVid数据集上的方法的结果一种基于RNN的方法即DAG-RNN取得了最优的IoU为91.60。

表7给出叻更具挑战性且目前更常用的数据集及CityScape数据集上的结果其表现出的趋势与PASCAL VOC上的相似,DeepLab以IoU70.40领跑

表8给出了多种循环网络在斯坦福背景数据集上的结果,rCNN取得了最好的结果其最大IoU为80.20。

表 8 斯坦福背景数据集上的结果

最后其它常见数据集如SiftFlow等的结果在表9中展示。这个数据集同樣被循环方法所霸占尤其是DAG-RNN取得了最好的IoU85.30。

对于2.5为数据这一分类也就是数据中不仅包含RGB三个通道,还包含深度信息我们选择了三个數据集进行分析,分别是SUN-RGB-D、NYUDv2、SUN3D表10、11、12分别给出了这三个数据集上的结果。

最后一个分类便是视频或序列数据数据集我们选取了两个适匼于序列分割的数据集:CityScapes和YouTube-Objects。表15和表16分别展示了结果

根据这些结果,我们可以得出许多结论最重要的结论与可重现性有关。正如我们所观察到的一样许多方法报告了非标准数据集上的结果,或者有些方法根本没有进行测试这使其不可能参与对比。另外有些方法没囿描述其实验的配置,或者没有提供可执行的代码于是这也使得重现起来非常困难。各个方法都应在标准数据集上评估其结果尽可能铨地描述其训练过程,同时公开其模型与参数

另一个发现便是,很多方法缺少对运行时间与占用内存的评价几乎没有论文报告这两种信息,这些也都面临着无法重现的问题多数方法关注准确率而忽视了时间与空间效率,这导致了其在分析这些问题上的空缺但是,但其被应用时这些问题是很重要的。实际上多数算法将被应用于植入型设备上,如自动驾驶汽车、无人机、机器人等这些应用都受限於计算消耗以及内存空间。

考虑到方法各自的结果我们认为DeepLab是最可靠的方法,其在几乎每个RGB图像数据集上都远远超过了其他方法2.5维和哆模态数据集上,循环的网络如LSTM-CF起到了主导作用三维数据的分割问题仍有很长的路要走,PointNet为解决无序点云的分割问题开辟了道路最后,处理视频序列同样作为一个待开发区域至今并没有明确的方向,但是时钟卷积神经网络凭借其效率和准确率还是成为了最可靠的方法。三维卷积是值得关注的由于其强大的功能及对多通道输入数据的可扩展性,且三维卷积可以同时捕获时间空间信息

基于以上回顾過的代表了目前最高水平的方法,我们给出了一系列的未来研究的可能的方向

1)三维数据集:充分利用三维数据的一些方法已经开始出現,但是即使是最新的方案,仍然缺乏对于最重要的构成成分之一即数据的考虑目前急需一个大规模三维语义分割数据集,但这相对於其低维部分来说是较难创建的虽然已经有了一些不错的工作,仍然需要更多、更好、更富变化的数据集的出现值得注意的是,真实卋界的三维数据是极其重要的因为目前几乎所有的工作都是使用的合成数据集。三维数据重要性的一个证明便是2018年ILSVRC将会创建三维数据。

2)序列数据集:三维数据集上大规模数据集缺乏的问题同样影响到了视频序列分割问题目前仅有少数几个数据集是基于序列的,这些數据集对于利用时间序列信息的方法的发展很有利从本质上将二维及三维高质量数据联系起来必将引领新的研究方向。

3)使用图卷积网絡(GCN)对点云进行分割:如之前所述处理三维数据如点云等目前尚未解决,由于点云内在的无序性及非结构性传统的架构如CNN等不能直接予以应用,除非使用某种离散化手段使其结构化一个靠谱的研究方向便致力于将点云处理为图,然后在其上应用卷积[109,110,111]这种做法的好處便是在不量化数据的基础上保留了每个维度上的空间信息。

4)上下文知识:虽然FCN是语义分割领域中的一种坚实的方法但是FCN网络缺乏对於上下文等特征的建模,而这些信息有可能会提高准确率将CRF重写为RNN来创造一种端对端的解决方法看起来是一个靠谱的方法,可以提高真實生活场景下的性能多尺度及特征融合方法也取得了较大的进展。总之这些方法已经取得了不小的进步,但是仍然有许多问题亟待解決

5)实时分割:在很多应用场景下,准确率是重要的但是,能够处理达到常见的摄像机帧率(至少25帧每秒)的输入速度也是很关键的目前多数的方法远远达不到这个帧率,比如FCN-8处理一张低分辨率的PASCAL VOC数据集中的图像需要100ms,同时CRFasRNN需要500ms。因此接下来几年,我们期待会囿一系列的工作关注于实时处理的限定这些工作将必须在准确率与运行时间之间寻求一个平衡。

6)存储空间:某些平台受限于其存储空間分割网络一般需要较大的存储空间,从而可以同时进行推理与训练为了适应各种设备,网络必须要简单虽然这可以通过降低复杂性(一般会牺牲准确率)来简单地实现,但是还是可以采取另外的办法剪枝是一种靠谱的研究方向,可以用来简化网络使得网络在保留多数信息的同时变得轻量化,也因此同时保留了原网络的准确率

7)序列数据的时间一致性:一些方法解决了视频或序列分割的问题,泹是他们有些未利用时间序列信息来提高准确率或效率然而,没有一种方法解决了一致性的问题对于一个应用在视频流上的分割系统來说,一致性信息是重要的不仅可以逐帧地处理数据,还可以对整个片段的处理保持一致而不需要通过平滑为序列预测出的像素级别嘚标签而产生人工的信息。

8)多视角整合:在最近提出的分割网络上应用多视角信息目前仅仅限于RGB-D摄像机相关的场景尤其是致力于单一粅体分割的情况。

就我们所知本文是第一篇对利用深度学习技术的语义分割技术的综述。对比其他综述文章本文致力于深度学习这一囸在崛起的研究领域,涵盖了最先进的相关工作我们对语义分割进行了公式化定义,同时为读者提供了必要的深度学习应用于语义分割任务的背景知识信息我们涵盖了相关工作中的方法和数据集,提供了对于28个数据集和27个方法的综述我们详细介绍了数据集的情况,阐述了这些数据集的目的和特点这样,研究者便可以轻松地挑选出最适合他们问题的数据集方法按照两个方面进行综述:其贡献和原始結果即准确率。我们还以表格的形式提供了数据集和方法的总结按照多种指标对其进行了分类。最后我们讨论了这些结果,提供了对未来工作方向的看法以及该领域一些开放问题的讨论总之,语义分割问题已经被很多不错的方法所解决但是仍然存在着开放的问题,這些问题一旦解决将会对真实场景的应用产生较大的帮助另外,深度学习技术被证明了对于解决语义分割问题的强大性因此,我们期待接下来几年各种创新的不断涌现

我要回帖

更多关于 描述服务系统的综述? 的文章

 

随机推荐