为什么图像自动分类不能完全人工智能取代人类工

您现在的位置:
从感知型摄像机看图像识别技术具体行业应用
Yesky天极新闻
  1、 图像识别是重要的人工智能分支
  近一两年来,人工智能领域得到了媒体界、产业界和学术界等前所未有的关注,大家一致认为智能化时代正在到来,机器正在越来越多的取代人类特有的优势和技能,而其中最为重要的可能就是图像识别技术。
  图像识别是对图像进行处理、分析和理解,以识别各种不同模式的目标和对像的技术。简单来说,就是让机器能够通过对感知信息的处理像人类一样读懂图片的内容,而不是只看到像素。目前,伴随着图片成为互联网中的主要信息载体,难题随之出现。当信息由文字记载时,我们可以通过关键词搜索轻易找到所需内容并进行任意编辑,而当信息是由图片记载时,我们却无法对图片中的内容进行检索,从而影响了我们从图片中找到关键内容的效率。图片给我们带来了快捷的信息记录和分享方式,却降低了我们的信息检索效率。在这个环境下,计算机的图像识别技术就显得尤为重要。
  计算机视觉有着广泛应用,其中包括,医疗成像分析被用来提高疾病的预测、诊断和治疗;人脸识别被Facebook用来自动识别照片里的人物;在安防及监控领域被用来指认嫌疑人;在购物方面,消费者现在可以用拍摄下产品以获得更多购买选择。
  我们在图像识别领域的研究有着众多突破性进展,Facebook人工智能负责人YannLeCun发明的卷积神经网络促使整个人工智能领域在近期出现了快速发展,而其最重要的应用就是图像识别和语音识别。2012年一支由吴恩达领导的谷歌团队展示了一个无监督学习的机器对数百万张YouTube视频图像的分析。这个机器学会了给它见过的常见物体进行分类,包括人类面孔和(供网民娱乐的)猫,包括网上随处可见的各种动作:睡着的、跳跃的、玩滑板的。人类没有在这些视频上标明包含「面孔」或「猫」的字眼。相反,机器在看了每个物体不计其数的例子后简单断定,它们表现出来的统计模式已经具备了足够的普遍性,从而可以将这些物体进行分类。斯坦福大学Andrej Karpathy和李飞飞发表的论文描述了一个计算机视觉系统可以标出一个给定图像的特殊部分。例如给它看一个早餐桌子,它可以识别出餐叉、香蕉片、一杯咖啡和桌子上的花以及桌子本身。它甚至可以在场景中用自然英语做出描述――尽管这项技术还不是特别完美。
  2、应用场景决定着图像识别技术的普及程度
  MIT宇宙学家Max Tegmark说,人工智能的运作已处于走出实验室进入社会的阶段了。我们目前确实看到甚至使用到了许多人工智能服务和产品,比如说更好的搜索引擎服务,语音助手等等。在和图像识别技术有关的细分领域,这样的服务和产品也非常多,比如说以图搜图、图像对比、人脸识别、图像自动分类,等等。但我们虽然看到了如此多的产品或功能,但却没有发现将图像识别进行通用化的应用。许多国内外的创业公司,甚至是科技巨头在图像识别领域也没有找到最具爆发性和发展前景的应用方向。这其中的原因就在于应用场景的缺失。
  人工智能的发展和成熟取决于三个要素,算法、大数据和应用场景。不论是创业公司,还是科技巨头,他们都会在算法上给予足够多的重视,会花费大量人力和财力进行算法和模型和研发。其次,得益于互联网、社交媒体、移动设备和廉价的传感器,这个世界产生的数据量急剧增加。随着对这些数据的价值的不断认识,用来管理和分析数据的新技术也得到了发展。大数据是人工智能发展的助推剂,这是因为有些人工智能技术使用统计模型来进行数据的概率推算,比如图像、文本或者语音,通过把这些模型暴露在数据的海洋中,使它们得到不断优化,或者称之为“训练”――现在这样的条件随处可得。
  科学家吴恩达曾把算法和数据比作火箭的发动机和燃料,只有这两者实现良好互补,人工智能这架火箭才能升空。这也是目前所有人工智能领域内公司所重点关注的两大方面,但是,大家容易忽略对人工智能起决定性作用的第三个因素――应用场景。主要的原因在于,我们对于人工智能终极目标是创造出一个在综合智力水平方面能够媲美人类的机器,但这样一个略带科幻色彩的目标很难用来指导我们的具体工作,甚至可能会影响该领域的健康发展。当回归到人工智能的具体应用时,我们应该忘掉那个终极目标,尊重一种循序渐进的发展过程,注重人工智能技术的阶段性进步和各个行业的细分化应用。而目前的科技巨头在互联网时代都是以面向大众的通用型产品为主,比如说搜索引擎,或者,等等。因此,他们在一定程度上缺乏某些具体行业的积累和经验,很难发掘出特定行业的潜在需求和人工智能技术在此领域的具体应用。同时,相较于隐藏在背后的行业解决方案,将人工智能技术应用在普遍的民用产品能够起到更好的推广效果和教育意义。
  3、图像识别技术的引爆点在于具体行业的解决方案
  上文提到,大多数公司对应用场景的忽视影响了人工智能技术在各个领域的普及,而对于图像识别技术来说更是如此,该技术作为一种认知计算技术,需要特定的应用环境作为支撑,我们希望机器像人类一样看懂外部世界,来代替我们做出决策,这和机器所处的具体环境密切相关,因此,在特定行业积累了丰富经验,深入了解该行业的需求,然后再利用图像识别技术来解决这些需求,将先进的技术作为整体解决方案的一部分,这样才能真正拓展图像识别技术的应用范围,真正解决我们的具体问题,而不是仅作为一个转瞬即逝的噱头。
  不管是在人工智能领域,还是在细分化的图像识别领域,在从技术向实际应用的转化过程中有两个路径,第一是走通用化路线,即这项技术能够满足各个行业个各种用户的需求,比如说,IBM推出的Watson开放计划,目前已经将这台智能计算机应用在了金融、医疗和客户管理等方面。许多图像识别领域的科技巨头和创业公司也旨在将图像识别技术落地到通用型应用中。这是人工智能一种自上而下的应用路径。这样的趋势不可更改,未来任何机器和都需要「视觉」,但问题在于,目前的图像识别技术可能还没有达到这样一个「奇点」。这也就是目前大多数图像识别技术公司没有找到最佳的应用方向的原因之一。这就引出来第二条路径,即根据现有的图像识别技术水平,结合具体行业的应用场景,从解决行业的需求出发,来实现需求和技术良好结合的最佳状态。比如说,自动驾驶汽车、机器人厨房、刷脸支付、远程人脸认证办理银行和证券业务,等等。
  从这方面来说,某些在特定行业有着深厚积累的公司反而具备了一定优势。比如说位于苏州的科达公司,该公司自十几年前进入了领域,与面向大众的互联网科技公司相比,其可能不为人熟知,看起来也没有那么酷。但该公司自2006年就开始了对图像识别技术的布局和研发。而他们切入图像识别技术领域的原因是在于他们在安防领域的客户提出的越发智能化的需求。正是这种行业积累和公司基因决定了他们能够站在特定行业的最前沿,然后将图像识别技术应用在用户的具体需求上。
  2014年底,科达推出了一种全新品类――感知型摄像机,通过他们的产品案例,我们可以大体了解到图像识别技术和具体行业需求相结合的重要性。
  影像技术的出现帮我们极大提到了采集信息和存储信息的效率,但同时却严重影响了我们分析信息的效率,当无法从海量数据中提取出有价值的东西时,就失去了我们当初采集数据的意义。而图像识别技术的出现就是要解决这个矛盾。对于安防监控领域来说同样如此,我们布置了越来越多的才采集信息,但最终却发现,虽然我们看似获得了海量数据,但是数据处理能力,我们从海量数据中发掘出有价值的信息的能力,却依然取决于监控屏后面的人类视觉,而这种矛盾催生了视频分析和智能监控的出现。而由于成本的原因,对视频的智能分析技术也逐渐从迁移到了摄像头端,这被称为智能摄像头。目前市场上的智能摄像头主要定位于警戒线、区域看防等报警类应用不同,而科达感知型摄像机(Intelligent IPC)能够基于视频的智能分析,识别出监控画面中的内容,并对其进行语义描述和最佳图片抓拍,同时基于后端的大数据平台进行更加深入的数据挖掘。
  下面将通过具体的三种智能摄像机来说明一下应用场景:
  1)特征分析摄像机
  主要是针对视野范围较大场景中人、车、物混行场景的运动目标识别与抓拍。中国国情下的城市道路与路口,是人、机动车、非机动混行的复杂环境,同时又是公共安全的防治重点。特征分析摄像机正是为这一场景所设计,它能综合性识别人车分类、颜色、方向等基本特征信息,再开展图像识别的专业应用,最典型的就是将这些信息提供给大数据库平台进行车或人的以图搜图与分析判断,以进一步锁定相似的犯罪嫌疑人与车辆。
  2)人员卡口摄像机
  识别人员及细节信息,包括人脸及全身(正面与背面)、性别、年龄、服装、行走方向、颜色。应用场景为:嫌疑犯已被锁定,并确定藏匿在某小区。公安传统的侦查手段是派若干警力在该小区人工蹲守,对每一个进出人员进行辨认与判断是否嫌疑人。现在,人员卡口摄像机就可以完全代替警方人工蹲守――它自动识别每个人的脸部与全身信息并抓拍最佳照片提交给平台,平台实时即可自动进行比对分析,然后按相似度百分比将嫌疑人排名并发出警告,嫌疑人信息均实时传送至现场待命警察,现场进一步明确后即实施抓捕。
  3)车辆卡口摄像机
  识别车辆细节信息,包括车牌、车型、车标、车身颜色、行驶方向、速度。典型应用是:30起连环盗窃案,作案车辆在不同地点使用不同假车牌。车辆卡口摄像机记录下每个案发地所有车辆细节信息并抓拍最佳照片,再向大数据平台分别提供文字描述类的结构化数据和视频、照片类非结构化数据。平台会对这几百万甚至上千万条结构化数据进行比对分析,并将碰撞出30个案发地外形相似的所有车辆,提供这些车辆的详细信息并关联相应的照片与视频。
  上文提到,人工智能的发展需要算法、大数据和应用场景的共同支撑,科达除了具有图像识别技术的感知摄像头之外,还拥有后端的大数据分析平台。拿和安防监控密切相关的智慧城市来说,在公共安全和智能交通领域,海量的视频数据是最主要的行业特征,于是,大数据,成为这两大行业视频应用中最急需引入的技术。通过与智慧城市大数据平台的结合,科达感知型摄像机(Intelligent IPC)已经在智慧城市中取得了众多的应用,主要包括实时布控、基于语义的智能搜索、高危人员比对、人脸照片搜索、全身像搜索、人像多点碰撞、车辆以图搜图、车辆多点碰撞,等等。
  拥有感知能力的Intelligent IPC,相当于物联网中的一个一个视觉传感器,大量摄像机感知的海量信息,进入大数据和云计算平台,使我们不仅能从单个摄像机中识别内容作出判断,还能从海量的监控数据中,作出深度分析和挖掘,从而对社会管理产生深远的影响。科达感知型摄像机正是配合后端大数据平台开展实际应用:感知型摄像机在前端采集、分析、识别、提交有效数据至后端,大数据平台以云的方式对这些数据进行存储、二次深度分析、预测判断结果。至此,形成一个视频数据采集、识别、感知、思考、行动的完整闭环。
  就像科达总经理陈卫东所说,感知型摄像机是智慧城市大数据应用的关键,大数据时代,感知型摄像机才是视频监控的未来。
  科达的感知摄像机可能离我们普通用户比较远,看起来也没有那些科技巨头和创业公司所做的和图像识别等人工智能技术有关的产品和功能那么炫酷,但这才是图像识别技术的最佳应用。而科达公司深耕某个行业,再从行业的具体需求出发,将图像识别技术应用于该行业,并解决该行业的具体问题的人工智能技术实施路径也为其他人工智能公司提供了一条有价值的参考路径。
  ( 来源:机器之心 作者:赵云峰 )
IT新闻微信公众平台
第一时间获取新鲜资讯
使用手机扫描左方二维码
* 网友发言均非本站立场,本站不在评论栏推荐任何网店、经销商,谨防上当受骗!单尺度词袋模型图像分类方法研究--《西南大学》2012年硕士论文
单尺度词袋模型图像分类方法研究
【摘要】:随着计算机技术、互联网技术的发展,网络中涌现出了海量的图像,如何有效管理和利用这些图像成为了亟待研究的课题。解决该问题的突破口就是数字图像处理技术中的图像自动分类技术。
然而,图像自动分类技术一直是困扰图像标注、图像检索发展的学术性难题。目前,在很多的图像分类系统中仍然是利用人工手动分类。由于网络中日益产生大量的图像,利用人工手动分类存在着工作量大而乏味,工作人员眼睛极易疲劳且效率低下,分类结果容易受分类人员主观因素影响而产生语义分歧等问题。因此,图像的自动分类得到了更多的重视。图像自动分类方法利用计算机视觉原理来代替人工进行图像分类,不仅可以提高效率,降低操作人员的劳动强度,而且使得分类结果更为客观。
本文对图像的自动分类展开研究,当前在图像分类领域里应用较为广泛的词袋模型是本文分析研究的重点。传统的词袋模型的特征表示方式,在提取SIFT特征时需要构造多尺度的极值空间导致计算复杂,并且对局部区域所提取的特征点数目不够导致描述能力不足。针对以上不足,本文提出一种不需要构造极值空间,而是通过网格直接提取单尺度SIFT特征点并进行特征描述,形成词袋模型的图像分类方法。该方法直接通过网格确定特征点提取位置,不但在提取更多特征点时没有增加计算量,而且注重兼顾局部特征的全局性,使得在形成视觉词典之后,视觉单词之间的类间差别更大,从而更有利于利用svM的分类。通过实验证明单尺度SIFT词袋模型比常规SIFT词袋模型在查全率、查准率、综合指标等三方面都有所提高。
由于提出的单尺度SIFT词袋模型的分类效率依然不高,实质还是描述符维度相对较高,影响了描述符检索的效率。进而提出一种基于单尺度提取低维度描述符的方法形成词袋模型。通过实验证明,该方法在查全率、查准率、综合指标等三方面保持了与单尺度SIFT词袋模型效果基本相同,但极大的减少了描述符生成过程中带来的运算复杂度。
【关键词】:
【学位授予单位】:西南大学【学位级别】:硕士【学位授予年份】:2012【分类号】:TP391.41【目录】:
摘要5-6Abstract6-8第1章 绪论8-12 1.1 研究的目的及意义8 1.2 国内外研究状况概述8-9 1.3 论文主要研究内容9-10 1.4 论文的框架结构10-12第2章 图像分类识别技术12-26 2.1 图像分类识别技术概述12-13 2.2 图像分类全局特征介绍13-15
2.2.1 颜色特征13-14
2.2.2 纹理特征14
2.2.3 形状特征14
2.2.4 空间关系特征14
2.2.5 多特征融合14-15 2.3 图像分类局部特征介绍15-22
2.3.1 SIFT特征15-19
2.3.2 SURF特征19-20
2.3.3 其他改进SIFT特征介绍20-22 2.4 图像检索技术概述22-24
2.4.1 基于文本的图像检索技术22-23
2.4.2 基于内容的图像检索技术23-24 2.5 本章小结24-26第3章 单尺度SIFT词袋模型图像分类方法26-46 3.1 引言26 3.2 单尺度SIFT26-28 3.3 词袋模型介绍28-29 3.4 SVM的基本理论29-34
3.4.1 线性支持向量机29-32
3.4.2 支持向量机的应用32-34
3.4.3 LIBSVM介绍34 3.5 基于SVM的单尺度SIFT词袋模型图像分类34-37 3.6 实验结果与分析37-44
3.6.1 实验设置及步骤37-39
3.6.2 评价方法39
3.6.3 实验结果39-41
3.6.4 实验分析41-44 3.7 本章小结44-46第4章 单尺度低维描述符词袋模型图像分类方法46-56 4.1 引言46 4.2 单尺度低维描述符46-49 4.3 基于SVM的单尺度低维描述符词袋模型图像分类49 4.4 实验结果与分析49-54
4.4.1 实验设置及步骤49-50
4.4.2 实验结果50-52
4.4.3 实验分析52-54 4.5 本章小结54-56第5章 总结和展望56-60 5.1 总结56-57
5.1.1 主要工作56-57
5.1.2 创新点57 5.2 展望57-60参考文献60-64致谢64-66攻读硕士学位期间公开发表的论文66
欢迎:、、)
支持CAJ、PDF文件格式
【引证文献】
中国硕士学位论文全文数据库
刘涛;[D];大连理工大学;2013年
张亚宁;[D];华南理工大学;2013年
【参考文献】
中国期刊全文数据库
周皓;李少洪;;[J];北京航空航天大学学报;2009年11期
黄祥林,沈兰荪;[J];电子学报;2002年07期
许新征;丁世飞;史忠植;贾伟宽;;[J];电子学报;2010年S1期
郭晓娟;李长江;梁玉琪;;[J];河南科技学院学报(自然科学版);2011年04期
王正群,孙兴华,郭丽,杨静宇;[J];计算机工程;2002年03期
付岩,王耀威,王伟强,高文;[J];计算机学报;2003年10期
明安龙;马华东;;[J];计算机学报;2008年04期
王陈飞;肖诗斌;;[J];计算机与数字工程;2006年08期
吴锐航;李绍滋;邹丰美;;[J];计算机应用研究;2008年02期
虎晓红;钱旭;郑凯梅;;[J];计算机应用研究;2009年02期
中国硕士学位论文全文数据库
王金德;[D];浙江大学;2010年
【共引文献】
中国期刊全文数据库
王全凤;郑浩;;[J];四川建筑科学研究;2010年05期
张根耀,李竹林,赵宗涛;[J];安徽大学学报(自然科学版);2003年03期
陈弋兰;王鸣;孙书诚;;[J];安徽工程科技学院学报(自然科学版);2008年04期
张红涛;胡玉霞;张恒源;顾波;;[J];安徽农业科学;2008年27期
张昭;何东健;;[J];安徽农业科学;2010年26期
汪洁;朱军;;[J];安徽农业大学学报;2011年02期
苏科;陈志彬;;[J];辽宁科技大学学报;2010年05期
孙梁;郗安民;;[J];半导体光电;2009年06期
张贵,乔春生;[J];北方交通大学学报;2004年01期
李翠霞,于剑;[J];北京交通大学学报;2005年02期
中国重要会议论文全文数据库
刘志斌;金连文;;[A];第二十六届中国控制会议论文集[C];2007年
张彬;金连文;;[A];第二十六届中国控制会议论文集[C];2007年
吕蓬;柳亦兵;马强;魏于凡;;[A];第二十六届中国控制会议论文集[C];2007年
梁禹;王义刚;王娜;;[A];第二十六届中国控制会议论文集[C];2007年
;[A];第二十七届中国控制会议论文集[C];2008年
刘华;张建华;王娆芬;王行愚;;[A];第二十九届中国控制会议论文集[C];2010年
晋朝勃;胡刚强;史广智;李玉阳;;[A];中国声学学会水声学分会2011年全国水声学学术会议论文集[C];2011年
尹雪娇;;[A];创新沈阳文集(A)[C];2009年
江萍;;[A];'2003系统仿真技术及其应用学术交流会论文集[C];2003年
王刚;邬晓钧;郑方;王琳琳;张陈昊;;[A];第十一届全国人机语音通讯学术会议论文集(二)[C];2011年
中国博士学位论文全文数据库
赵莹;[D];哈尔滨工程大学;2010年
梁洪;[D];哈尔滨工程大学;2010年
任桢;[D];哈尔滨工程大学;2010年
殷志伟;[D];哈尔滨工程大学;2009年
孔凡芝;[D];哈尔滨工程大学;2009年
乔小燕;[D];中国海洋大学;2010年
陈志国;[D];江南大学;2010年
王晓明;[D];江南大学;2010年
徐红林;[D];江南大学;2010年
王晓松;[D];北京林业大学;2010年
中国硕士学位论文全文数据库
杜二玲;[D];河北大学;2007年
朱杰;[D];河北大学;2007年
周雪梅;[D];河南理工大学;2010年
廖甜甜;[D];南昌航空大学;2010年
黄正荣;[D];南昌航空大学;2010年
刘棉;[D];山东科技大学;2010年
刘桂珍;[D];山东科技大学;2010年
张海峰;[D];山东科技大学;2010年
田文娟;[D];山东科技大学;2010年
陈楠楠;[D];山东科技大学;2010年
【同被引文献】
中国期刊全文数据库
李德平;[J];辐射防护;1986年03期
王宇新;郭禾;何昌钦;冯振;贾棋;;[J];计算机科学;2011年08期
石晶;范猛;李万龙;;[J];自动化学报;2009年12期
田甜;张振国;;[J];咸阳师范学院学报;2010年04期
杨潇;马军;杨同峰;杜言琦;邵海敏;;[J];智能系统学报;2010年02期
中国博士学位论文全文数据库
赵海勇;[D];西安电子科技大学;2011年
胡宏宇;[D];吉林大学;2010年
王上;[D];吉林大学;2010年
何卫华;[D];重庆大学;2012年
覃文军;[D];东北大学;2010年
【二级参考文献】
中国期刊全文数据库
张崚,路威;[J];安徽工程科技学院学报;2002年02期
秦其明,陆荣建;[J];北京大学学报(自然科学版);2000年06期
向友君;谢胜利;;[J];重庆邮电学院学报(自然科学版);2006年03期
黄桂兰,郑肇葆;[J];测绘通报;1997年06期
郑肇葆,郑宏,潘励;[J];测绘学报;2000年01期
朱长青,杨晓梅;[J];地理研究;1997年01期
魏海,沈兰荪;[J];电路与系统学报;2001年02期
薛重生,王霞;[J];地质科技情报;1997年S1期
魏海,沈兰荪;[J];电子学报;2001年07期
李艳,彭嘉雄;[J];电子学报;2002年07期
中国博士学位论文全文数据库
夏定元;[D];华中科技大学;2004年
郑征;[D];中国科学院研究生院(计算技术研究所);2006年
中国硕士学位论文全文数据库
赵建敏;[D];吉林大学;2006年
【相似文献】
中国期刊全文数据库
赵炳爱,范晓虹;[J];电脑开发与应用;2003年05期
潘建刚,赵文吉,宫辉力;[J];首都师范大学学报(自然科学版);2004年03期
冯霞,黄亚楼;[J];南京航空航天大学学报;2005年03期
孟祥增,杨晓娟;[J];山东师范大学学报(自然科学版);2005年04期
王一达;沈熙玲;谢炯;;[J];遥感信息;2006年05期
赵凯;李春平;;[J];微计算机应用;2007年05期
李海峰;杜军平;;[J];智能系统学报;2008年02期
李含光;吴小季;;[J];武汉理工大学学报;2010年16期
刘斌;陆华;刘国涛;;[J];四川理工学院学报(自然科学版);2011年01期
朱义明;;[J];西南科技大学学报;2011年02期
中国重要会议论文全文数据库
吴霜;张一飞;修非;王大玲;鲍玉斌;于戈;;[A];第二十四届中国数据库学术会议论文集(研究报告篇)[C];2007年
陈思坤;吴洪;;[A];第六届和谐人机环境联合学术会议(HHME2010)、第19届全国多媒体学术会议(NCMT2010)、第6届全国人机交互学术会议(CHCI2010)、第5届全国普适计算学术会议(PCC2010)论文集[C];2010年
万余庆;;[A];第十四届全国遥感技术学术交流会论文摘要集[C];2003年
李杰;付萍;刘金国;;[A];中国图象图形学会第十届全国图像图形学术会议(CIG’2001)和第一届全国虚拟现实技术研讨会(CVR’2001)论文集[C];2001年
王海峰;管亮;;[A];中国仪器仪表学会第六届青年学术会议论文集[C];2004年
潘海为;李建中;张炜;;[A];第二十届全国数据库学术会议论文集(研究报告篇)[C];2003年
耿迅;龚志辉;张春美;;[A];第十三届全国图象图形学学术会议论文集[C];2006年
李玉峰;郑德权;赵铁军;;[A];第四届全国信息检索与内容安全学术会议论文集(上)[C];2008年
吴楠;李晓曦;宋方敏;;[A];2006年全国理论计算机科学学术年会论文集[C];2006年
张淑雅;赵晓宇;赵一鸣;李均利;;[A];第十三届全国图象图形学学术会议论文集[C];2006年
中国重要报纸全文数据库
刘杰;[N];中国摄影报;2009年
;[N];中国电脑教育报;2004年
武德锋 李国辉 林洪文 姚作梁;[N];计算机世界;2002年
乔瑞波;[N];中国水利报;2009年
中国博士学位论文全文数据库
杨冰;[D];浙江大学;2013年
白有茂;[D];中国矿业大学(北京);2013年
赵鑫;[D];中国科学技术大学;2013年
贾世杰;[D];大连理工大学;2013年
吴丽娜;[D];北京交通大学;2013年
李晓旭;[D];北京邮电大学;2012年
匡金骏;[D];重庆大学;2013年
员永生;[D];西北农林科技大学;2010年
任桢;[D];哈尔滨工程大学;2010年
曾璞;[D];国防科学技术大学;2009年
中国硕士学位论文全文数据库
刘彤彦;[D];山东师范大学;2004年
武京相;[D];电子科技大学;2010年
臧伟;[D];清华大学;2004年
贾宁;[D];南华大学;2010年
高锦;[D];西北大学;2010年
龚建军;[D];浙江大学;2004年
薛长花;[D];西安电子科技大学;2010年
李慧君;[D];哈尔滨工业大学;2010年
柳一鸣;[D];浙江大学;2011年
王军;[D];南昌大学;2007年
&快捷付款方式
&订购知网充值卡
400-819-9993
《中国学术期刊(光盘版)》电子杂志社有限公司
同方知网数字出版技术股份有限公司
地址:北京清华大学 84-48信箱 大众知识服务
出版物经营许可证 新出发京批字第直0595号
订购热线:400-819-82499
服务热线:010--
在线咨询:
传真:010-
京公网安备75号您的位置: &
基于人工蚁群优化算法的遥感图像自动分类
优质期刊推荐能看的人工智能——微软自动图像注释系统_技巧_电脑爱好者
能看的人工智能——微软自动图像注释系统
电脑爱好者
条评论 标签:
微软最近大出风头,他们推出的&How Old&服务可以判断人的颜值年龄,已经吸引了很多眼球,而最近他们正在研发的图像注释功能可能更要让人印象深刻,它可以自动识别出照片中的各种对象:脸、男人、女人、猫、相机等等。下面就让我们深入了解一番,微软研发的这个全新系统究竟如何实现对图形里的物体的智能识别。
年龄识别&&认识How Old
How Old是微软最近推出的一款人像识别服务,我们只要登录http://how-old.net,然后在搜索框输入需要搜索的人物(或者点击&Use your own photo&上传本地照片),这样在出现的人物搜索界面会添加一个黄色小标签,同时会判断出图片中人物的性别和年龄(图1)。
图1 使用How Old服务可以识别照片人物的性别和年龄
这是微软人工智能技术在图片识别上的典型应用,而近日其推出的图像注释功能则是在How Old基础上更进一步,除了正确识别人脸外,它还可以识别照片中的其他物件,如照相机、头发等,它的幕后功臣其实是微软Project Oxford服务。
更智能的识别&&微软Project Oxford系统
如上所述,图像注释功能拥有比How Old更强大的功能,它对照片其他部件的识别主要基于Project Oxford服务。Project Oxford服务是微软在Build2015大会中发布的,这一服务主要能为Azure用户免费提供图像、语音识别等智能REST API和SDK。其中的识别服务则主要使用其中的图像识别API和人脸识别API。
比如对于人物的识别,微软首先根据一定的标准为脸部识别建立复杂而庞大的数据库。在这套识别系统中,微软将人脸分为27个标志点,如瞳孔、眼角、嘴角、鼻子等明显会随着年龄变化的部位,然后根据不同部位变化与相应的年龄段对应起来,从而将人脸关键标记点量化(图2)。
图2 微软划分脸部的标志点
举个简单的例子,比如皮肤褶皱是衰老的第一个重要标志,这样(脸部API)可借助医用级别定义的褶皱范围,然后通过褶皱程序来判断照片里人的年龄。婴儿、妇女、男人皮肤的褶皱程度是不同的,这样当网站服务器接收到一张包含上述三种人物的图片后,微软的Project Oxford服务首先根据人脸的主要器官(如脸、眼睛、嘴巴)将人脸识别出来,接着会在后台对人脸的褶皱进行检测,假设褶皱程度在0~2则判定为这张人脸是婴儿的脸部。这样服务器会在后台发出指令,同时在婴儿脸部上方弹出标注黄色标注框,告诉你这是一张婴儿脸和对应的年龄。同理,通过其他人脸的褶皱判断出女人和男人脸(图3)。
图3 微软Project Oxford服务会自动识别人脸和年龄
当然,在实际识别服务中,仅仅依靠人脸的褶皱还无法实现精准地判断,Project Oxford服务还会通过照片中人脸的其他特征进行综合判断。比如眼部皮肤作为人面部最薄弱最细嫩的部位,眼角、眼袋及上眼睑都会随着年龄的增长出现松弛和下垂。Project Oxford服务将可以表示人年龄和性别的几个主特征组合在一起,这样就可以比较正确地判断出照片中人物的性别和年龄了(图4)。
图4 综合判断人的脸部特征
同样的,对于照片中其他部件的识别也采用类似的方法。比如Project Oxford服务要判断出照片中的相机,首先Project Oxford也是在系统中建立关于相机的各种参数判断标准,指定在某个数值范围内的物体,如果该物体前方有突出的镜头则判定为相机,这样当一张照片中有人举着这样一个物体时,Project Oxford服务就判断其为照相机。通过这样的方法,Project Oxford服务就可以识别照片中的人物和其他物体,同时借助每个物体的关键字生成照片的说明。
在下面这张照片中,Project Oxford会先根据识别的各个物体生成&人群&(通过识别多个人脸的识别判定)、&照相机&(通过相机参数判定)、&举着&(通过人手的高度判定)、&女人&(通过人脸识别)、&猫&(通过女人蜷曲的头发判定,这个是识别错误)这几个关键字。接着系统再根据实际情况对上述关键字进行组合(排除猫的可能性),这样最终就会自动为这张照片生成一句&人群中举着相机的一个女人&的注释,也就比较精确地为这张照片做了文字注释(图5)。
图5 Project Oxford服务通过关键字生成的文字注释
不仅是好玩,Project Oxford也许会改变旧有生活
通过上面的介绍,我们了解了Project Oxford服务的强大功能,对于一张普通的照片,Project Oxford服务可以精确进行识别并且添加正确的注释。这种增强的人工智能会给我们生活带来极大的便利。
在日常图片搜索中,我们经常需要使用模糊自然语言进行搜索,如果Project Oxford服务普及了,那么微软就可以为图库中的每一张照片添加精确的注释,这样我们在输入诸如&举着相机的女人&进行搜索时,搜索引擎就可以通过检索图库内文字注释快速为我们推送类似上述的照片,可以大大提高我们搜索图片的效率。
此外,由于Project Oxford服务可以自动识别图片中人物和物品,这样当我们需要在视频监控(视频可以自动截取为图片)中查找某人的时候,如生活中的逃犯或者丢失亲人,借助Project Oxford的自动识别服务就可以很快在众多视频中找到目标人物。
          
增值电信业务经营许可证编号:合字B2-
Copyright(C) .cn,All rights reserved
法律顾问:周涛律师&&
&&新出网证(京)字038号

我要回帖

更多关于 人工智能取代程序员 的文章

 

随机推荐