Instance Segmentation 比 Semantic Segmentation 难很多吗

Iterative Instance Segmentation (1)_图文_百度文库
两大类热门资源免费畅读
续费一年阅读会员,立省24元!
Iterative Instance Segmentation (1)
阅读已结束,下载文档到电脑
想免费下载本文?
定制HR最喜欢的简历
下载文档到电脑,方便使用
还剩8页未读,继续阅读
定制HR最喜欢的简历
你可能喜欢本文转自:
周博磊 MIT博士在读, AI and Computer Vision
收录于 编辑推荐 o217 人赞同
最近也在做跟这个相关的问题,来分享一下自己的见解.
图1. 这张图清楚说明了image classification, object detection, semantic segmentation, instance segmentation之间的关系. 摘自COCO dataset ()
Semantic segmentation的目的是在一张图里分割聚类出不同物体的pixel. 目前的主流框架都是基于Fully Convolutional Neural Networks (FCN,详情见).FCN区别于物体识别网络诸如AlexNet最主要的差别是pixel-wise prediction,就是每个像素点都有个probability, 而AlexNet是一张图一个prediction.AlexNet或者VGG通过一个小的trick(caffe/net_surgery.ipynb at master · BVLC/caffe · GitHub)就可以转变成FCN. 这里有个八卦是当年FCN得到CVPR’15 best paper honorable mention的时候, Yann LeCun等人出来吐槽这个’FCN’的概念早就有了,AlexNet里面的fully connected layer (FC)本身就是个误导,因为FC layer可以看成是1x1的convolution, 本来就可以输入任意大小的图片.
Semantic segmentation的其他典型代表还有诸SegNet, Dilated Convolution Net, deconvolutionNet
等.这里又有两个八卦,比如SegNet相关的几篇论文连续投了两年多到现在都还没中(作者要哭晕在厕所里了),以及关于deconvolution, dilated convolution, atrous convolution这几个概念的争论(这里有篇分析我觉得不错Dilated Convolutions and Kronecker Factored Convolutions).在我个人使用过程中,相对于FCN等带skip connection结构的网络,我更喜欢类似于Dilated Net这种桶状结构的网络,原因是带skip connection的网络由于需要normalize不同layer之间的activation, 比较难训练. Liu Wei有一篇专门分析这个layer之间normalization trick的论文().
切入正题,semantic segmentation把图片里人所在的区域分割出来了,但是本身并没有告诉这里面有多少个人,以及每个人分别的区域.这里就跟instance segmentation联系了起来,如何把每个人的区域都分别分割出来,是比semantic segmentation要难不少的问题.基于semantic segmentation来做instance segmentation的论文,大家可以看看Jifeng Dai最近的几篇论文:,. 大致做法是在dense feature map上面整合个instance region proposal/score map/RoI, 然后再分割.
这里instance segmentation本身又是跟object detection是紧密相关的.最近Facebook放出来的DeepMask和SharpMask(GitHub - facebookresearch/deepmask: Torch implementation of DeepMask and SharpMask), 很明确地点出了两者关系. 我之前跟Piotr Dollar也讨论过这个问题, 他自己觉得: semantic segmentation is a bad direction, we should focus on object detection. 我不赞同他的观点,但觉得还是挺有道理:) 这里可以想象, 如果object proposal和object detection能做得非常好, instance segmentation本身这个问题就能比较好的解决. COCO detection challenge (COCO - Common Objects in Context) 里面一个track, 就是要求predict segmentation mask rather than bbox, 可惜今年只有两个队参加(你参加的话再差都是第三哟:p) .
总结一下, instance segmentation其实是semantic segmentation和object detection殊途同归的一个结合点, 是个挺重要的研究问题. 我非常期待后面能同时结合semantic segmentation和object detection两者优势的instance segmentation算法和网络结构.
图2. Scene Parsing (MIT Scene Parsing Challenge 2016) from ADE20K dataset (ADE20K dataset). 每张图的每个物体以及物体的物体都有清楚的标注.
最后,我个人觉得之所以大家猛搞semantic segmentation而忽略instance segmentation的一个原因是没有好的数据集. pascal dataset里面一张图片里的instance数量非常少, 而且物体种类也只有20种. 这里自荐下我自己的工作, 我们组最近搞了个Scene parsing dataset and challenge (MIT Scene Parsing Challenge 2016). 这里scene parsing跟semantic segmentation最大的不同是我们包含了150类概念类别(包括离散物体类别诸如person, car, table, 也包含了很多stuff类别, 如floor, ceiling, wall) , 图片里面每个pixel都需要被predict. 分割floor, ceiling, wall这些类对于robot navigation等应用也是非常重要,但是他们并没有instance segmentation的概念. 今年我们的scene parsing challenge采用semantic segmentation的框架进行, 大家提出了不少新颖的模型, 也挺受欢迎 . 我们明年的scene parsing challenge (ICCV’17) 将设立instance segmentation track, 希望能推动instance segmentation 的进步.
再然后,其实semantic segmentation可以用到很多地方,比如说我们lab之前的一个PhD把这个用在medical imaging中癌症细胞的检测和分割(),拿了奖,还开了自己的startup :)
本文已收录于以下专栏:
相关文章推荐
个人觉着RFCN系列的工作还是非常好的,所提出的position sensitive score maps 非常有启发性,包括本文的一些工作都是有很高的价值的。
主要涉及的论文
主要基于:
- FCNs for Semantic Segmentation 基于FCN的语义分割. 传统FCNs卷积具有平移不变性, 但实例分割需要平移可变.
- instance mask p...
作者第一个提出了针对Instance-aware Semantic Segmentation的fully convolutional end-to-end solution 。针对为什么FCN不能用来...
最近从semantic segmentation坑又跳入了instance-aware semantic segmentation坑,发现在后面这个坑里挖掘的时候一个叫做Jifeng Dai的来自MS...
Fully Convolutional Instance-aware Semantic Segmentation - arXiv 16.11
论文链接:https://arxiv.org/pdf/16...
论文框架:作者提出一种基于多任务的网络串联方法(Multi-task Network Cascade),解决问题实例分割(Instance-aware Semantic Segmentation)。该...
笔记仅供参考,如有错误请批评指正!
本文是arXiv上去年5月份的文章,依然是zifeng wu的工作。一句话总结作者ResNet网络的各种超参的作用,最后得到了在当时state of the art的分割成绩,并提出了自己的insta...
这篇文章,继承了InstanceFCN和FCIS方法的思想,进一步做了优化和补充。创新点1:在InstanceFCN文章中描述的以7*77*7作为每个单元格的分辨率时效果最好,本文考虑到在某些情况下9...
他的最新文章
讲师:刘文志
讲师:陈伟
您举报文章:
举报原因:
原文地址:
原因补充:
(最多只允许输入30个字)最近总结了一下语义分割相关的文章。
这是我在一篇文章(deconvolution network)中看到的近期一些方法的评估表:
下面谈到的一些文章整理都是关于以上的方法。
1、 FCN8s 文章出处:CVPR2015-FullyConvolutional Networks for Semantic Segmentation
CNN对分类问题的效果非常好,但不适合直接做分割;
CNN模型的输入维度固定则输出维度也被固定,不适合输入图片尺度变化的情况;
FCN是对CNN改进适合直接用于分割的模型,直接拿segmentation 的 ground truth作为监督信息,训练一个端到端的网络,让网络做pixelwise的prediction,直接预测label map。
网络特点:所有Layer都是Conv Layer,无FC层,适合end-to-end和dense/pixelwise prediction,输出结果就是Segment Map;
输入:整幅图像;
输出:resample到corresponding空间维度。
2、TTI-zoomout-16 文章出处:CVPR2015-Feedforwardsemantic segmentation with zoom-out features
& & & & & & & &
这篇文章的方法是superpixel-level的,主要是基于CNN实现的。
这篇文章的亮点应该是:1,它把CNN每一层的特征都拿出来使用,兼顾了local信息和global信息2,直接使用image classification的现有成果,不用自己训练网络,方便高效,易于推广。3,实验结果好,比FCN的方法结果好。
从作者贴出的example来看,分割的边缘还是有些粗糙,原因是:本文方法是直接基于superpixel做特征提取和分类的,提取的superpixel是不够准确的,一个superpixel中可能包含了多个class。要优化这个边缘,应该还是要挖掘出pixel level的细节信息。
3、DeepLab-CRF 文章出处:ICLR2015-SemanticImage Segmentation with Deep Convolutional Nets and Fully Connected CRFs
主要在FCN改进的地方:
通过控制InputStride实现Fine目标(Dense Extractor)(hole algorithm),而不用像FCN结合Lower Layer和上采样的方式来Fine,相对FCN减小了运算量。Author最后还是结合了Lower Layer信息,进一步提升了效果。
以前对于分割物体的精确定位主要是两个方面:
一、& 利用多层信息(如FCN中用前几个pooling层做预测);
二、& 利用super-pixel(zoomoutrepresentation)。
本文提出了用CRF进行优化,主要是能够更好的修复分割的边界结构。
4、CRFasRNN 文章出处:ICCV2015-ConditionalRandom Fields as Recurrent Neural Networks
主要贡献点:将CRF融入到deep learning的网络结构中,作为其中的一层(递归神经网络)
进行端对端的学习时,CNN的训练也得到CRF的影响,将CNN的参数学习和CRF的参数学习统一到一个网络。
& & & & & &&&&
5、 Deconvolution Network &文章出处:Learning Deconvolution Network for SemanticSegmentation
FCN的缺点:由于感受野的固定,如果物体大了或者小了,分割效果就不好。而且通过纯粹的双线性插值算法得到最终的得分概率图,不太准确,虽然用了CRF进行了改善,但没有从根本上解决。
本文的创新点:
一、& 学习了一个多层反卷积网络代替简单的双线性插值;
二、& 将objectproposal(edge box)送入训练后的网络,然后整幅图像是这些proposal的分割结果的组合,这样就可以解决物体太大或者太小所带来的分割问题。
6、SDS 文章出处:Simultaneous Detection and Segmentation
& & & & & &&
这篇文章的效果不算太好,主要创新是把detection和分割结合一起。对于检测来说,只能提供一个粗略的位置,而对于语义分割的网络来说需要对每个点进行Label。
一、& SDS使用了掩码后的图像,有很多边缘信息,而在CNN训练中并没有表现出来;
二、& SDS对每幅图产生2000多个候选框,每个候选框都要产生CNN特征,这是非常耗时的,Convolutional Feature Masking for Joint Object and StuffSegmentation这篇文章对这个问题做了很好的解决。
7、DeepLab-public 文章出处:Weakly-and Semi-Supervised Learning of a Deep Convolutional Network for Semantic ImageSegmentation
主要创新点在于:训练网络时用的是一些简单的训练数据如bounding boxes或者图像级标签,提出的是半监督和弱监督学习,不要太多的annotation effort而可以得到较好的结果,可以接近全监督学习的网络结果。这篇文章的网络框架用的是deepLab-CRF。
8、boxup 文章出处:BoxSup:&ExploitingBounding Boxes to& SuperviseConvolutional Networks
创新点:很多语义分割的CNN训练都是靠大量的annotated segmentation masks,这种方式需要大量的工作来标记。本文通过boundingbox来进行相应的监督学习,主要是一个迭代过程,首先在区域proposal的配合下用bounding box得到分割掩膜,得到掩膜反过来更新CNN模型,再用CNN模型估计掩膜,直到迭代终止。
这是论文里面的优化的核心部分,前者是考虑与bounding box的平均交集最多的segmentation mask作为监督信息,后者考虑的就是FCN(之前有文章介绍过)。
9、DecoupledNet 文章出处:DecoupledDeep Neural Network for Semi-supervised Semantic Segmentation
之前的很多方法都需要大量的ground truth,这样导致的结果是分割的图像类别有限制(20类都需要大量的ground truth),之前有提出半监督的训练,通过不断迭代的方式进行,但那种方式可能导致的问题的没法迭代收敛,相应的实现接口也比较复杂。这个方法对于类别数没有限制,具有可扩展性。
decoupling classification and segmentationreduces search space for segmentation significantly, which makes it feasible totrain the segmentation network with a handful number of segmentationannotations
输入一张图片,分类网络得到图片的标签,分割网络得到相应的每一类的前景背景分割图(概率分布?),中间加入bridge层提取class-specific information。
训练过程:先用大量的image-level 标签训练前面的分类网络,然后用少量的pixel-level标签来进行后续网络的训练,由于pixel-level标签较少,用数据增加得到人工的训练样本。
分类网络给的class-specific&activation maps可以减少分割网络中优化时的搜索空间,因为只有两类(前景或者背景),这样减少了很多网络参数。
创新点和优点:
一、& 提出了一个将分类和分割网络结合的半监督网络,对于训练来说比较简单;
二、& 引入了bridgelayer连接两个网络,主要是提取每一类的activation map然后进行前景背景的分割,这些map提供了很好的先验信息,使得整个参数学习过程也比较简单容易,只需要少量的anotation。
阅读(...) 评论() &"author_name": "董卓瑶",
"duoshuo_name": "dongzhuoyao",
"links": [
"name": "123",
"link": "http://www.eadgbe.club"《A generic CNN-CRF model for semantic segmentat... - 简书
《A generic CNN-CRF model for semantic segmentation》阅读笔记
背景知识:作为传统的计算机视觉领域的经典问题,Semantic Segmentation 语义分割是分割问题研究的热门问题。具体来说,我们的目标是对于图像中所有像素点分配给其对应的标签(区别于Object Detection 和 Localization),但是语义分割和Instance Segmentation 分割的最主要的区别在于,Semantic Segmentation 只是关心每个像素所属的类别,而不关心其具体内容实例。具体举例来说,上图Semantic Segmentation 对于草地上的四头牛只关心其属于类别为
"Cow" ,而并不区分其中每个牛的不同个体。CRF:structured models最重要的:the ability to explicitly model the dependencies between output variables(CRFs) using thereby the incredible power of CNNs.最主要的贡献: a joint, maximum likelihood-based, learning procedure for all model parameters. 之前的都是training-in-pieces或者joint learning of restricted model families,例如 Gaussian CRFs 或者 CRFs with a few variables only。Introduction:计算机视觉的CNN任务,例如segmentation,stereo或者更复杂的问题scene understanding。Deep models有一些问题,最主要的是这些模型是highly data-oriented,例如给这些dl框架增加先验知识很困难。Graphical model例如CRF give fairly more possible,他们可以capture for example geometric properties, spatial relations between objects, global properties like e.g. connectivity, shape and many others(例如,几何属性,对象之间的空间关系,诸如连接性、形状等全局属性)结合CNN和CRF的最重要的优点在于:the ability to explicitly model the dependencies between output variables(CRFs) using thereby the incredible power of CNNs.过去的三个相关的工作(try to learn CNNs and CRFs on top jointly):(Lin et al, 2015)最重要的假设是the potentials can be approximated by logarithms of the corresponding marginals. 可能性通过相应边缘的对数来估计。 这个假设很具有约束性,一些模型也是错误的。当underlying graph is a chain,如果他的pairwise potential对势设置为the corresponding marginal
pair-probabilities的对数,一元团的概率设置为corresponding marginal label probabilities的负对数。对于任意图,概率和边缘概率之间的关系是不知道的,并且计算是NP难问题。
我们的模型 there is no model approximation in our method, but only algorithmic one.
换句话说,we do not want to compute wrong quantities exactly, our aim is to compute right quantities approximately.(Zheng et al, 2015)where the Mean Field approximation平均场近似 is employed for inference. RNN,使用a joint end-to-end training。还是使用了模型假设,Mean Field is an approximation of the maximum marginal decision indeed最大边际决策.另一个问题是it works with a particular class of pairwise potential only. 使用我们的方法可以学习 repulsive pairwise potentials(Chen et al. 2015),使用极大似然概率来学习。It is proposed to substitute the true marginals by local beliefs obtained by Loopy Belief Propagation. (这里实在看不懂。。。以后如果再看再来补上吧)模型:A CRF with unary potentials that depend on the image through a Convolutional Neural Network(CNN)。G=(R,E) 是一个图,R是node set,E是edge set。Node和图像的像素关联,每个像素都被labelled by a label l from a pre-defined finite discrete label set L. 例如,在身体部位被标记为“head”,“left hand”,“torso”等。我们的任务是给每个像素分配一个label,为了获取这样的映射y:R--&L。令yi属于L,i是节点属于R。更general一些,yA denotes the restriction of the labelling y to a subset of nodes A属于R。建模后验概率分布 of labellings y given images x we use pairwise CRF whose energy can be written as
referred by the index c in equation (1)例如:一类包含所有边,connecting pixels that are neighbours in the horizontal direction in the image grid. 另一类:the set of edges so that one node is 2 pixels left and 3 pixels above the other one, etc.
corresponding probability distribution
the image specific partition function

我要回帖

更多关于 雅思难度与四六级相比 的文章

 

随机推荐