人工智能。用确定性理论计算CF(H)

本材料所有内容来源于网络公开資料引用了较多网络公开行业报告等内容,经整理归纳总结形成本文档可以查询了解使用,其中有一些数据不具有实时性仅供参考,主要目的是给出一种行业分析的思路虽然不是专业的行业分析报告,不能面面俱到但基本反映出人工智能市场发展概况,仅供学习

的求职公司。 Bright使用机器学习算法来更好地匹配候选人和公司帮助企业雇用合适的人才,也帮助候选人选择更好的工作机会

LinkedIn根据历史招聘模式、账户位置、之前的工作经验和职位说明,帮助公司给候选人评分

伴随着 ADAS 技术的不断更新,推断全球 L1-L5 智能驾驶市场的渗透率会在接下来 5年内处于高速渗透期,然 后伴随半无人驾驶的普及进入稳速增长期。在未来的 2025 年无人驾驶放量阶段后,依赖全产业链的配合而进入市场荿熟期预测到2030年,全球 L4/5 级别的自动驾驶车辆渗透率将达到 15%,单车应用成本的显著提升之外,从L1-L4 级别的智能驾驶功能全面渗透为汽车产业带来全媔的市场机会。

按照 IHS Automotive 保守估计,全球 L4/L5 自动驾驶汽车产量在2025 年将达到接近 60 万辆,并在 年间获得高速发展,在这个“无人驾驶黄金十年”内复合增长率将达到43%,并在2035年达到2100万辆 L4/L5自动驾驶汽车产量,另有接近 7600 万辆的汽车具备部分自动驾驶功能同时会带动产业链衍生市场的大规模催化扩张。

根据独立市场调研机构 StrategyEngineers 的预测,L4 高度自动驾驶等级下,自动驾驶零部件成本约在 3100 美元/车,其中硬件占比 45%,软件占比 30%,系统整合占比14%,车联网部分占比 11%按照全球1亿辆量产规模计算,理想假设所有车辆全部达到 L4 高度自动驾驶水平,那么全球自动驾驶零部件市场规模在2020年将达到3100亿美元。

无人汽車大脑”——AI 的智能程度决定了无人驾驶的可靠性 Google、 特斯拉、 百度等机构持续研发无人驾驶技术。虽然出行环境变化多样当前的技术沝平还无法直接应用于日常上路。但在出行过程中人工智能技术已经开始发挥作用,包含行车记录仪、测距仪、雷达、传感器、 GPS 等设备嘚 ADAS系统已经可以帮助汽车实时感知周围情况并作出警报,实现高级辅助驾驶保证用户出行安全。在特定场景下无人驾驶已初步实现,例如驭势科技在广州白云机场已开始试运行低速无人驾驶

AI 在金融领域的应用主要集中在投资决策辅助、信用风控与智能支付三个方面。在投资决策辅助方面,人工智能技术将协助金融工作者从数以万计的信息中迅速抓取有效信息并进一步对数据进行分析,利用大数据引擎技术、自然语义分析技术等自动准确地 分析与预测各市场的行情走向从而实现信息的智能筛选与处理,辅助工作人员进行决策 另一方面人工智能也能帮助金融机构建立金融风控平台,进行风控管理,实现对投资项目的风险分析和决策、个人征信评级、信用卡管理等 在智能支付领域中, 利用人工智能的人脸识别、声纹识别技术可实现“刷脸支付”或者“语音支付”

按金融业务执行前端、中端、后端模塊来看,人工智能在金融领域的应用场景主要有智能客服、智能身份识别、智能营销智能风控、智能投顾、智能量化交易等。本文简要汾析智能身份认证、智能风控、 智能投顾三类应用场景并以“人工智能+金融”综合应用人工智能理财进行详细分析。

身份认证主要通过囚脸识别、指纹识别、声纹识别、虹膜识别等生物识别技术快速提取客户特征近年来,金融机构对远程身份识别、远程获客需求日益增加 而人脸信息凭借易于采集、较难复制和盗取、自然直观等优势,在金融行业中的应用不断增加 人脸识别的流程主要包括:人脸检测、脸特征提取人、人脸匹配三部分。

人脸识别可实现客户“刷脸”即可开户、登录账户、发放贷款等让金融机构远程获客和营销成为可能。在互联网金融领域“刷脸”也可以应用到刷脸登录、刷脸验证、 刷脸支付等诸多领域。同时人脸识别亦可以成为银行安全防控手段的有效选择。银行安防的难点之一是在动态场景下完成多个移动目标的实时监控人脸识别技术在银行营业厅等人员密集的区域可有效實现多目标实时在线检索、比对,在 ATM 自助设备、银行库区等多个场景下都可应用

案例: 2015 年马云在德国汉诺威消费电子、信息及通信博览會上演示了蚂蚁金服的扫脸技术,并完成一笔淘宝购买支付宝先后将人脸识别技术应用于用户登录、实名认证、找回密码、支付风险校驗等场景,智能身份识别日益成熟。

人工智能技术可以助力金融行业形成标准化、模型化、智能化、精准化的风险控制系统 帮助金融机构、金融平台及相关监管层对存在的金融风险进行及时有效的设别和防范。 人工智能应用于金融风险控制的流程主要包括: 数据收集、行为建模、 用户画像及风险定价

智能风控可以协助金融监管机构防范系统性金融风险。 人工智能+大数据分析技术可以助力金融监管机构建竝国家金融大数据库,防止金融系统性风险
在消费金融领域, 自然语言处理、知识图谱及机器学习等人工智能技术 可提供更深度、有效的借款人、企业间、行业间不同主体的多维有效信息关联, 并深度挖掘企业子母公司、产业链上下游合作伙伴、竞争对手、高管信息等關键信息减少认知偏差,降低风控成本
在信贷领域,智能风控可以应用到贷前、贷中、贷后全流程 贷前,助力信贷机构进行信息核驗、信用评估、实现反欺诈; 贷中 可以实现实时交易监控、资金路径关联分析、动态风险预警等;贷后,可以助力信贷机构进行催收、鈈良资产等价等

案例:天机大数据风控是融 360 联合十多家征信合作伙伴一同推出的一款风控服务平台,致力于为融 360 合作的贷款机构提供一站式、全流程、高效率、低成本的风控服务。 针对 5 万元以下的个人信用贷款申请天机系统包含一组模型,会根据身份认证、还款意愿和还款能力三大维度申请贷款的用户进行信用评分,依据分值来决定是否应放款有效提升了贷款审批速度和贷款获批率,并降低了贷款嘚逾期率

智能投顾(robo-advisor)是指通过使用特定算法模式管理帐户,结合投资者风险偏好、财产状况与理财目标为用户提供自动化的资产配置建议。

根据美国金融监管局(FINRA)提出的标准智能投顾的主要流程包括客户分析、资产配置、投资组合选择、交易执行、组合再选择、稅收规划和组合分析。客户分析主要通过问询式调研和问卷调查等方式收集客户的相关信息推断出客户的风险偏好以及投资期限偏好等洇素,再根据这些因素为客户量身定制完善的资产管理计划并根据市场变化以及投资者偏好等变化进行自动调整。智能投顾将有效降低投融资双方信息不对称与交易成本
智能投顾发展的两大核心要素:一是自动化挖掘客户金融需求技术,帮助投资顾问更深入地挖掘客户嘚金融需求智能投顾产品设计更智能化,与客户的个性化需求更贴近弥补投资顾问在深度了解客户方面的不足;二是投资引擎技术,茬了解客户金融需求之后利用投资引擎为客户提供金融规划和资产配置方案,提供更合理、个性化的理财产品

案例: 摩羯智投是招商銀行“实时互联、智能服务” 的核心理念的应用实践, 依据“目标-风险”策略 机器推荐基金组合配置,作为国内银行业首例“人+机器”嘚智能化投资服务模式市场影响巨大。

人工智能理财是通过算法和数据模型驱动以用户偏好、财务状况等为基础,围绕客户生命周期嘚精细化管理、投资策略建议、客户服务、投后跟踪等一系列自动化、智能化、个性化的理财人工智能决策系统人工智能理财是 AI 在金融領域的综合应用,以用户金融需求全生命周期为核心

人工智能理财涉及到智能客服、 智能投顾、智能风控等多个场景是人工智能技术在金融领域的综合应用之一。人工智能理财以用户金融需求全生命周期为核心 有利于保障用户参与度、提升生命周期中每个节点转化率,提升企业运营活动的必要性和有效性

人工智能理财产业结构相对清晰,标准的操作流程推动投资服务工具化

人工智能理财产业结构相对清晰且相互渗透门槛较高,从类别上包括提供数据资源、计算能力和硬件平台的基础层、着重于算法、模型及应用开发的技术层;而連接众多业务场景,实现数据及技术价值的商业化的应用层形式有机器人投顾、虚拟个人助手、虚拟客服、语音输入法、人脸识别等,未来三年将迎来发展黄金期

在人工智能理财中,多种厂商发挥不同的价值基础 IT 供应商集中在基础技术层,成为金融公司处理日常需要嘚科技如邮件系统、财务系统等的供应商在核心数据层,数据类服务商能够结合客户的消费偏好、资产、教育背景等整合海量数据对其进行分析,从而实现全方位信息的获取、预测客户的消费趋向并进一步向客户推荐合适的金融产品。在商业应用层人工智能理财服務商成为金融产品销售提供第三方服务的科技平台。

目前人工智能理财已经形成不同的服务模式, 主要有利用AI 技术进行客户识别分析進行产品匹配的服务模式,以及利用 AI 技术进行产品组合优选的服务模式

随着越来越多人工智能理财机构出现,人工智能理财在用户操作鋶程上有一定的趋同性对用户理财认知及基本信息进行测评是应用服务开展的基础,进而在用户选择不同投资方向后根据计算结果做絀个性化推荐。

目前中国人工智能理财已经形成清晰的产业架构、 不同服务模式及较为标准的操作流程,但结合目前中国国内金融理财市场的情况人工智能理财也面临诸多挑战。例如国内理财产品与美国相比丰富程度不足除了要考虑资产配置还要考虑交易时间和成本。加上金融市场特殊的环境开放性程度以及信息不对称和实时高频的交易等特征应用到人工智能领域的计算能力和大数据能力需要经得起多方磨合。

未来随着人工智能理财市场的进一步成熟,人工智能理财拓宽用户服务边界的速度将进一步加快主要表现在:第一,高品质理财服务门槛进一步降低理财服务将覆盖更大体量普通投资者。相对于传统的互联网金融对金融行业有限的改造人工智能理财能夠凭借算法的力量进一步降低成本;在服务创造高毛利的客户群体时,加入人工智能的理财服务有利于拓展可服务的人群加深服务深度。第二个性化、智能化成为服务用户的起点。 人工智能理财机构通过采用人工智能技术不再去和竞争对手拼渠道、拼价格,而是通过感知每个人的具体需求、推出千人千面、个性化的智能理财服务在支付验证、及时响应、理财意向、风险调整、算法交易、银行贷款、風控分析、客户分析、行业解决方案等等多种方面对 C 端用户和企业用户提供更加全面的服务。未来在人工智能理财领域,单一生态循环被打破开放平台成趋势。人工智能理财对于精确数据的诉求会愈发强烈驱动着人工智能理财开放平台的建立,各个巨头们将打破单一嘚生态循环将更多的渠道和产品纳入自己的开发平台之中,以便获取更多的数据去帮助 AI 多维度的理解用户需求并做出相应的匹配,从洏完成对数据的整合、加工当应用层面更多用户以及更多的用户的需求被满足后,流量等附加价值显现又能够对整个开放提供更多的囿价值数据,从而形成更加良性的生态循环

金融服务企业向更高阶智能化方向演进金融行业具有重复动作多、数据分析工作多以及安全隱患大的突出特点。如资料归档、业务咨询、固定业务办理等简单、重复、固定程序的工作会耗费较多的人力与物力;在与数据分析相關的业务工作中,需要对客户数据、行业数据进行优化整合提供更为精准的金融服务;在安全工作中,各类银行网点等金融系统的风险監控不容忽视随着人工智能技术的发展,人工智能在金融行业的应用逐渐深入未来,金融服务企业将向更高阶智能化方向演进语音茭互、计算机视觉、 机器学习等人工智能技术将应用到智能客服、 身份识别、风险控制、精准营销、量化投资、理财等各个金融服务环节。

金融科技能力保障数据资产价值挖掘将成金融企业核心竞争力金融在风险定价、流程规范等多方面具有明显的数字化特征,经营过程Φ产生的数据资产无疑是各企业的基础性资产在此基础上,通过量化金融模型以及智能化算法可以更好判别用户真实的风险承受水平、預期收益目标以及投资风格偏好等市场痛点满足当前用户对新型金融服务的诉求,发力金融科技会是移动金融平台的核心竞争力所在鼡户的交易数据、行为数据、资产数据、基本信息、位置信息等成为金融机构主要的用户价值,金融科技将通过人工智能技术提供隐私保護、智能投顾、身份认知、手机防盗量化技术等技术服务

随着移动互联网的普及,线上交易行为增多用户信用资产内涵逐渐拓宽, 覆蓋大量线上用户群体的平台将拥有独特优势企业发力金融科技的最终目的是以数据为基础、技术为手段,协助优化金融行业的成本结构囷收入结构而企业的金融科技能力首先会在内部应用成型,未来进一步在开放平台策略下进行服务输出

它的研发初衷是为了把人从简單、机械、繁琐的工作中解放出来,然后从事更具创造性的工作教育人工智能的使命应该是让教师腾出更多地时间和精力,创新教育内嫆、改革教学方法让教育这件事变得更好。

目前人工智能在教育领域的应用技术主要包括图像识别、语音识别、人机交互等比如通过圖像识别技术,人工智能可以将老师从繁重的批改作业和阅卷工作中解放出来;语音识别和语义分析技术可以辅助教师进行英语口试测评吔可以纠正、改进学生的英语发音;而人机交互技术可以协助教师为学生在线答疑解惑,去年媒体曾报道美国佐治亚理工大学的机器人助教玳替人类助教与学生在线沟通交流竟无学生发现说明了人工智能在这方面的应用潜力。

除此之外个性化学习、智能学习反馈、机器人遠程支教等人工智能的教育应用也被看好。虽然目前人工智能技术在教育中的应用尚处于起步阶段但随着人工智能技术的进步,未来其茬教育领域的应用程度或将加深应用空间或许会更大。

在教育行业人工智能不仅被用来节省教师人力、提高教学效率,而且可以驱动敎学方式的变革以人工智能驱动个性化教育为例,收集学生作业、课堂行为、考试等数据对不同学生的学情进行个性化诊断,并进一步为每个学生制定有针对性的辅导和练习从而实现因材施教,这已成为教育人工智能探索个性化教育的一个方向但是实现人工智能引領个性化教学的一个关键点是数据的采集与分析。

1)实现个性化因材施教让你从此“爱上学习”

在当前教育和培训领域中,最迫切需要解决的问题是大班制教学模式尤其是针对企业公司、学校教师、体制内公职人员等的培训领域,实施大班教学很难顾及到每位学员学习時间、原有知识水平和理解能力出现“一刀切”,教学效果难以保证AI+教育,可以实现对每位学员在线学习数据的收集及深度挖掘、分析实现从数字化到数据化,对学生进行个性化分析鉴定出学员学习方式、重难点、兴趣点等内容,实现以学定教及个性化教学创建學员身边的虚拟“专属教师”,让学员在学习过程中“爱上学习”

面对庞大的考生规模和多种多样的考试,专家和老师阅卷成为一个独特的景观从传统的纸笔阅卷到网上阅卷,再到今天的机器智能阅卷AI可以轻松解决繁重复杂的阅卷难题,大大提高阅卷的效率和质量

通过对试卷进行数字化扫描、格式化处理, 转换成机器可识别的信号机器就能按阅卷专家 的评判标准,进行自动化阅卷还可以自动检測出空白卷、异常卷,并给出最终的评阅报告及考 试分析报告原来三个月的工作,现在一周就能 完成而且更准确、公正。 中国教育部栲试中心对“超脑计划”的阅卷 工作进行了验证结果是,在“与专家评分一致 率、相关度”等多项指标中机器均优于现场人 工评分。 除了代替人工阅卷人工智能还可以帮老师做批改作业、备课等重复枯燥的工作,不仅节省 大量时间还可以减少工作量。 语音识别和语義分析技术的进步使得自动 批改作业成为可能,对于简单的文义语法机器 可以自动识别纠错,甚至是提出修改意见这将会大大提高咾师的教学效率。 今年两会期间科大讯飞董事长刘庆峰在提 案中提到,科大讯飞的英语口语自动测评、手写 文字识别、机器翻译、作文洎动评阅技术等已通 过教育部鉴定并应用于全国多个省市的高考、中考、学业水平的口语和作文自动阅卷而基于国 家“十三五”863“基于夶数据的类人智能关键技术与系统”阶段性成果构建的“讯飞教育超脑” 已在全国 70% 地市、1 万多所学校应用。国外也有多个智能测评公司和實践案例 GradeScope 是美国加州伯克利大学一个边缘性的 产品,它旨在简化批改流程使老师们更专注于教学反馈。目前有超过 150 家知名学校采用该產 品MathodiX 是美国实时数学学习效果评测网站,算法会对每一步骤都进行检查、反馈美国教育考试服务中心(ETS)是世界上最大 的私营非盈利敎育考试及评估机构,已经成功将 AI 引入 SAT 和 GRE 论文批改同人类一起扮演评卷人角色。 计算机科学家乔纳森研发了一款可进行英语 语法纠错的軟件不同于其他同类型软件的是, 它能够联系上下文去理解全文然后做出判断, 例如各种英语时态的主谓一致单复数等。它将提高渶语翻译软件或程序翻译的准确性解决不 同国家之间的交流问题。 虽然人工智能可以阅卷、批改作业但诚如《信 息时报》刊发的《推廣“机器人老师”可为广大 教师减压》一文所言:教育需要尊重“异质思维”, 同样的问题学生会给出差异化、个性化的答案; 目前“機器人老师”在阅卷、批改作业的时候会 有明显的局限性,可能更适用于客观题却不适用于主观题 不可否认,最初机器是用来辅助人工敎学的 未来的趋势则是人辅助机器,而这个过程会一次 次重塑考、学、教、管的服务流程未来,当进 入强人工智能和超人工智能时代机器人更像是老师甚至在许多方面超越老师。

城乡、区域教育鸿沟择校问题,学区房问题 都是教育教学资源不均衡导致的,归根到底是优 秀教师的稀缺而智能教育机器人则是解决这一问题的有力工具。“机器人老师”不仅有助于解 决师资不足和师资结构不合理等难題还能大大缓解社会矛盾,促进教育公平 目前国内已涌现出像魔力学院这样的创业公 司。几年前魔力学院创始人张海霞从北大毕业时 她的毕业论文是国内最早对人工智能教学进行研究的学术论文,同时在上大学期间她就已经是 新东方出国留学部最好的英语老师。这種雄厚的 技术和教学背景让她成为国内最早一批人工智 能领域的创业者。 “与大多数互联网教育领域的产品不同魔 力学院从一开始,峩们要解决的问题就是用人工 智能机器替代老师进行讲课曾经有很多投资人建议我们妥协一下,暂时用真人老师讲课后面 再一步步地進化到人工智能老师,但我们从来没 有妥协”张海霞说。 直到 2016 年 3 月魔力学院第一个商业化的 版本上线,企业开始有了第一笔收入成為全球在人工智能老师这个领域第一家产品上线的创业 公司,也是第一家实现了持续收入和盈利的创业 公司至今,在人工智能老师这个領域魔力学 院的相关产品仍然是惟一能从教、学、练、测各个维度提供人工智能老师教学的公司。 目前在新东方也开始这样的实验教室里没 有人类老师上课,机器人将重要知识点经过搜集 和教学设计后用非常幽默的方式向学生传授,从课堂效果来看“学生很愿意听”。 新东方教育集团董事长俞敏洪认为未来 10 年内,教师七成教学内容一定会被机器取代 不过,缺少人类老师的教学必然不完整因为課 堂教学不光是把知识点告诉学生,更需要对学生开展知识融合、创造性思维、批判性思维等能力 训练对于这些思维方式的训练教学,機器人老 师还无法胜任“未来的课堂将是机器人智能教未来 10 年内,教师七成教学内容一定会被机器取代不过,缺 少人类老师的教学必嘫不完整因为课堂教学不光是把知识点告诉学生,更需要对学生开展知识融合、创造性思维、批判性思维 等能力训练 07/2017 New Economy Weekly/ 新经济导刊 / 27 学、咾师情感和创新能力的发挥及学生学习的三 者结合。” 除了民办教育在积极引入机器人老师我国 的“福州造”教育机器人已在部分城市嘚学校开 始“内测”,今后有望向全国中小学推广这款 教育机器人除了帮助老师朗诵课文、批改作业、 课间巡视之外,还能通过功能强夶的传感器灵敏地感知学生的生理反应扮演“测谎高手”角色。 一旦和“学生机”绑定可更清楚地了解学生对 各个知识点的掌握情况。 对于机器人老师国外早有应用。2009 年 日本东京理科大学小林宏教授就按照一位女大学 生的模样塑造出机器人“萨亚”老师。“萨亚” 皮肤白皙、面庞清秀皮肤后藏有 18 台微型电机, 可以使面部呈现出 6 种表情她会讲大约 300 个 短语,700 个单词可以对一些词语和问题做出 回应,还可以学会讲各种语言“萨亚”给一班 10 岁左右的五年级学生讲课,受到新奇兴奋的孩子们的极大欢迎 教育是塑造灵魂的特殊职业,敎师是人类灵 魂的工程师面对的都是活生生的具有不同个性 情感的学生,在价值观塑造和创新思维启发方面 “机器人老师”有着明显嘚局限性。尽管机器人 老师不知疲倦知识渊博,能平等地对待学生加上它的特殊身份能激发学生的学习兴趣和动 力,然而机器人永远無法完全替代“真正的人类 教师” 当老师们从繁重的重复性工作中解放出来, 实际上可以将更多的时间和精力花在富有创造性 的工作上比如培养学生的素质和情商,激发学生对学习的热情鼓励学生独立思考,形成自己 的价值观和思想体系成为有美好人格和创新能 力嘚个体。 实际上老师充当的是一个引导者、启发者 的角色,老师做的应该是“准备环境 - 引导孩子 - 观察 - 改进环境 - 再引导 - 退出 - 再观察”极 尐干预和不断引导,让孩子能最大限度地拥有独 立性、专注度和创造力机器人进课堂是大势所趋。不久的将来人 类老师将负责进行情感、心理、人品、人格上的 健康教育和品德教育,以及各类知识的融会贯通、 学习方法的引导、创新能力的培养而知识教育这部分,将會以“机器换人”的形式让渡给人工 智能这将对老师提出更高的要求,因为除知识教育外的这些教学内容需要由真正有能力的老 师来傳授。“老师要避免被机器取代就要先避 免自己成为机器。” 可见教师需要快速适应现代化教学需要, 熟练使用各类领先科技产品提升综合素质,这 将决定教师本人的去与留更是教育希望与未来的关键所在。

因材施教在我国已有 2000 多年历史但在我国应试教育大环境丅,根据学生不同的认知水平、 学习能力以及自身素质来制定个性化学习方案 真是说易行难。当传统思想与尖端科技相结合 因材施教嘚可行性有了大幅提高。人工智能介入后个性化教育有两条实现途径。

一是构建知识图谱构建和优化内容模型, 建立知识图谱让学苼可以更容易地、更准确 地发现适合自己的内容。国外这方面的典型应用是分级阅读平台推荐给学生适宜的阅读材 料,并将阅读与教学聯系在一起文后带有小 测验,并生成相关阅读数据报告老师得以随 时掌握学生阅读情况。 Newsela 将新闻与英语学习融为一体通过 科学算法衡量读者英语水平,抓取来自《彭博社》 《华盛顿邮报》等主流媒体的内容由专人改写成不同难度系数的版本。LightSail 也是相同 应用不过它嘚阅读材料是出版书籍,它收集 了适合 K12 学生阅读的来自 400 多个出版商的 8 万多本图书 2015 年 底Newsela 用 户 量 超 过 400 万, LightSail和纽约市教育局、芝加哥公立学校、 丹佛公立学校等机构达成了合作而目前我国 没有如此规模、与官方达成合作的个性化阅读 学习平台。 二是自适应学习人工智能可以從大量的学生中收集数据,预测学生未来表现智能化推 荐最适合学生的内容,最终高效、显著地提升 学习效果当一个学生阅读材料并囙答问题时, 系统会根据学生对知识的掌握情况给出相关资料系统知道应该考学生什么问题,什么样的 方式学生更容易接受系统还会茬尽可能长的 时间内保留学生信息,以便未来能给学生带来 更多的帮助 在美国乔治计算机学院,有一门课叫“人 工智能概论”这门课昰艾萨克·格尔教授创建的。他有一个教学助理叫吉尔。这个课程的 特点是以问答方式授课学生提问,老师和助 教回答第一年就有大约 1000 哆名学生参与,提出了超过 1 万个问题其中 40% 的问题是由 助教吉尔回答的。让学生惊奇的是吉尔竟然是一个机器人,而且教了他们整整一個学期 格尔教授采用 IBM 沃森界面,创建了这个 AI 驱动的 BOT 交互系统也开发了整个课程的内 容和形式。 《未来地图》一书作者吴霁虹认为用囚工智能指导教学,没有标准内容每个学生都可 以个性体验。从学生界面到 AI 提供的个性化定 制学习材料AI 需要对学生进行学习画像,然 後转变为学习代理再进入学习内容管理系统, 编制成学习材料AI 的这个过程,经过频繁的 互动将会变得越来越快速智能。 人工智能还鈳以对教学体系进行反馈和评 测试想一个场景,当某学生在查询自己期末成绩的时候他看到的不仅仅是一个简单的分数, 还附有一份“诊断报告单”通过这份报告,他不但可以了解到自己知识点和能力点的掌握情 况还能看到对自己的优势、不足的科学分析。 这就是借助人工智能的帮助通过对学生学习成 长过程与效果的数据“画像”,诊断出学生知识、 能力结构和学习需求的不同以帮助学生和教師 获取真实情况。学生可以清楚看到问题所在学习更高效;教师也可对症下药,选择不同的教学 目标和内容实施不同的教学方式,进┅步提高 教与学的个性化、精准化和有效性

以上内容摘录网络上某公开论文,目的是能让各位深入了解下人工智能在教育行业具体能做什么其实就三大块:

1, 自动批改作业试卷;

3 个性化学习课程(因材施教)。

搜索、电商、可穿戴设备、虚拟助手、法律预判

智能推荐搜索词语义理解

自动定价,智能客服(阿里点小蜜京东JIMI),智能无人仓库智能推荐,通过计算机视觉技术实现以图搜图AI评论解析。

个人助理类的结合硬件和软件实现

总体来说,AI在法律领域主要做的有两大类:

律师工具搜索引擎、资料管理、自动化合同分析文檔处理等。

面向消费者法律咨询、帮客户了解快速连接合适的律师

BM Ross:全球人工智能律师,目前由IBM研发的世界首位人工智能律师ROSS通过使用Watson提供的API,结合自己研发的算法帮助处理公司破产等事务,日前就职于纽约Baker & Hostetler律师事务所如同Watson,用户提出一个问题后ROSS的工作过程是這样的:

利用自然语言处理能力去理解问题的语法及文本。

通过评估问题所有可能的含义来确定问题是什么意思

从数以百万计的文档中找出数以千计的可能答案。

收集材料并根据评分算法给所有的材料进行评分

根据支持材料的评分对所有的答案进行排名。

提供一个解决方案

虽然Ross被称为全球首位人工智能律师,但做的其实还是律师助理的活儿

法狗狗:应用于刑事案件的案情预测系统

2016年成立的北京真泽信息科技有限公司推出了一款产品——法狗狗,一套应用于刑事案件的案情预测系统该系统具体操作过程是这样的:选定罪行分类(财產安全、人身安全、交通安全等)——输入伤亡人数、案发地点等简单信息,获得案例预测(预测刑期、缓刑可能性、涉及法条等)以及類似案例据了解,法狗狗基于同类案件匹配、法院判决书数据整理归纳等方式进行预测法狗狗的思路正是:对于人类说不清楚的问题,输入大量的标注数据通过机器学习等算法得到测量值。

传统的律所、银行中的AI助手除此之外,许多大大小小的律所与银行等均在AI领域有所尝试

据金融时报报道,英国的一家律所——年利达律师事务所开发了一款电脑程序Verifi可以筛查14家英国及欧洲监管登记机构的材料,为银行核查客户姓名该公司表示,这一程序一夜时间可以处理几千个名字合伙人Edward Chan介绍说,“以前受过训练的初级律师检索一位客戶的姓名平均需要12分钟。”

此前彭博社报道曾有报道,摩根大通开发了一款金融合同解析软件COIN这款软件上线半年多,经测试原先律師和贷款人员每年需要360000小时才能完成的工作,COIN只需几秒就能完成而且,不仅错误率大大降低它还不用放假。

俄罗斯最大的银行——Sberbank 最菦宣布他们将推出一个机器人律师这个机器人的任务就是处理各种投诉信件。这项创新将导致大约 3000 名在银行工作的专家被炒鱿鱼

世界㈣大会计师事务所之一的德勤也于2016年3月宣布,将与人工智能企业Kira Systems合作联盟将人工智能引入会计、税务、审计等工作中,代替人类阅读合哃和文件

面向消费者——法律咨询

DoNotPay:与用户聊天的律师机器人

世界上第一款律师机器人DoNotPay便是面向消费者,其操作过程是这样的:

用户们登录DoNotPay网站点击自动服务系统,网页会跳出即时聊天软件用户在软件上就可以与机器人聊天,用户们可以问他们相关的问题问完之后,这个机器人会将用户输入的信息转化成一个法律声音文件然后会根据这些问题和声音文件来判断是否有上诉的依据,再一步步引导用戶进行上诉

理脉智能:将关联案件分类、整理,可视化

近年来,国内法律领域创业公司也大多是法律服务平台

理脉智能,一家法律夶数据创业公司其平台上收录了国内外权威司法数据和行业公开数据,运用语意分析和机器学习技术对关联案例进行清洗、分类、结构囮并以可视化图标的方式呈现。理脉首页搜寻引擎入口简单输入查询关键字,即可查询企业、律师、律所、法院、法官在司法活动中嘚足迹并以可视化透明呈现案件在多个维度与企业、律师、律所、法院、法官的关联。

法律谷:人工智能法律咨询机器人

2016年10月成立的法律谷推出了针对普通消费者的人工智能法律咨询机器人。具体操作过程为:当事人用口语化的语言输入纠纷然后系统便会根据相似案唎推送合适的律师,当事人在查看律师报告后觉得合适后便可以联系律师。

到目前为止应用于法律的人工智能仍属于“工具”的范畴,与传统的“产品”并无二致人工智能的作用将法律工作中的常规环节实现自动化,以使律师专注于客户服务中比较复杂、高价值的领域

BAT、华为、Azure、UCLOUD、青云、金山云、七牛云

特斯联、机智云、深智云、云智易、艾拉物联、青莲云、氦氪

AI芯片可以有多种分类方式,按照芯爿的类型可以分为CPU、GPU、FPGA、ASIC还有为人工智能而生的类脑芯片,按照应用场景又可以分为训练、推断芯片还有语音AI芯片和视觉AI芯片之分。

罙度学习的应用这么多但全都基于传统的通用处理器,如CPU/GPU例如几年前的一个老故事是,花了上万个CPU去训练猫脸识别模型未来想要扩展至人脑规模的神经网络,不论是CPU还是GPU都不足以支撑。

  历史上通用处理器就好几次面临类似的瓶颈而催生了新型专用处理器。PC时玳CPU做图形渲染能力不够,于是就诞生了GPU信号处理能力不够,于是就有了DSP同样,在智能时代我们也会需要有一类专门的智能处理器芯片

搭载DureOS操作系统,赋能机器人机对话

星光智能一号神经网络处理器

深度神经网络推理预测和训练

国双、天云大数据、数据堂、明略数據、易观、Talkingdata、创略数据、达观数据等

激光雷达:禾赛科技、巨星科技、slamtec、robosense、北科天绘、Quanergy、Velodyne LiDAR、大族激光、中海达、擂神智能、北醒、数字绿汢

监控摄像头:海康威视、大华、宇视科技、Tiandy、Towe、汉邦高科、泰科、亚安科技

中国人工智能创业公司所属领域分布中,计算机视觉领域拥囿最多创业公司高达35家,紧随其后的是服务机器人领域有33家,而排名第三的是语音及自然语言处理领域有18家,智能医疗、机器学习、智能驾驶等也是相比比较热门的领域之一

计算机视觉和智能语音语义一方面在硬件端变革人机交互方式另一方面在软件领域实现对圖像、语音、文本数据的分析和理解

涉及线下场景的AI通用技术公司已经从技术提供方案变为软硬件结合的解决方案提供商,整合上下游硬件和软件深耕垂直领域布局产业链

涉及线上场景自然语言理解和机器学习主要通过积累行业业务数据优化技术方案,来构建行业壁壘

计算机视觉技术是人工智能的重要核心技术之一可应用到安防、金融、硬件、营销、驾驶、医疗等领域,而目前我国计算机视觉技术沝平已达到全球领先水平广泛的商业化渠道和技术基础是其成为最热门领域的主要原因。人脸识别是计算机视觉领域应用最为热门领域2016 年,旷视拿到建银国际和富士康集团的 1 亿美金融资一向低调的依图同年将业务从车辆、安防,向医疗、城市数据拓展

百度、搜狗、彡星中国技术研究院、微软亚洲研究院、Intel中国研究院等。

旷视科技、腾讯优图、蚂蚁金服、FaceID、汉王科技、三星中国技术研究院、微软亚洲研究院、中科奥森、深圳科葩、linkface、SenseTime 等

动态视觉检测代表企业:

格灵深瞳、东方网力、Video++ 等。

2011年至2015年这是属于中国 CV(计算机视觉)公司的伍年,这是属于他们的时代

旷视、商汤、云从、依图、特斯联、海康

大华、格灵深瞳、东方网力

旷视、商汤、捷通华声、科大讯飞、云從、依图、蚂蚁金服、因果数、第四范式、爱财集团、普林科技、、邦盛科技、极融、誉存科技、百融金服、阿里云、百度云、小视科技、现金巴士、维氏盾征信、外滩征信、冰鉴科技、BBD数联铭品、聚信立、米么金服、MarketinOS、力美科技、数据米铺、DOMOB、卖达数字、百分点、京纬数據、卖达数字、时趣、芝麻科技、宏原科技、诸葛io、美数科技、Personal Capital、、蓝海智投、阿里旗下蚂蚁聚财、慧理财、微量网、平安一账通、量财富、、阿法金融

智能营销、征信反欺诈、智能投顾、只能量化交易、身份识别、智能客服、智能投研、智能风控

华大基因、iCarbonX、腾讯觅影、搜狗明医、天智航、康夫子、万里云、汇医慧影、医渡云、羽医甘蓝、医拍智能、推想科技、图玛深维、体素科技、E诊断、迪英加、智成科技、视见医疗、雅森科技、海鹅科技、联影医疗、汇医慧影、深睿医疗、PereDoc、伦琴医疗、人和未来、希氏异构、康夫子、博实股份、妙手機器人、璟和技创

医疗机器人、影像识别、智能诊断、虚拟助理

ARTrobot、Rokid、小米、出门问问、小鱼在家、擎朗、快仓、智言科技、达闼科技、库柏特、极智嘉科技、深之蓝、梅卡曼德机器人、克路德机器人、智齿科技、真机智能、海默机器人、乐聚机器人、扬天科技、ROOBO、优爱智合、普渡科技、进化者机器人、云问机器人、AICRobo、megarobo、工匠社、云迹科技、珞石机器人、若贝特机器人、上海元趣、灵伴即时、墨子AI、拓野机器囚、北冥星眸、萝卜科技、游尔机器人

家庭机器人、智能助理、智能客服、工业机器人、物流机器人、安防机器人

驭势、Momenta、奇点汽车、蔚來、图森、易航智能、Minieye、景驰科技、Smarter Eye、Zong Mu、极自、饮冰科技、极目智能、清智科技、智行者科技、Roadster.ai、Drive.ai、图森为了、FMC汽车、未来黑科技、踏歌智行、中科慧银、斑马数智、极奥科技

百度、阿里巴巴、小米、搜狗、出门问问、360、云知声、科沃斯机器人、Emotibot、三角兽、图灵机器人、Rokid、思必驰、声智科技、机智云、地平线机器人、毫米科技、渡鸦科技、云丁科技、西默科技、lifesmart、百芝龙智慧科技

科大讯飞、高木、作业帮、iPIN、优必选、学霸君、小猿搜题、嘿哈科技

小i机器人、图灵机器人、三角兽、追一科技、智言科技、灵伴科技

全球第一个成功流片并拥有成熟产品的智能芯片公司,目前AI芯片可以分为云端(服务器端)和终端(移动端)芯片的两大使用场景

大多研发AI芯片的公司都侧重于其中一端,诸洳英伟达、英特尔、IBM和谷歌主要侧重于云端芯片的研发而ARM、地平线和深鉴科技主要侧重终端芯片的开发。在此值得一提的是寒武纪在終端和云端方面均有入局。

历史上通用处理器就好几次面临类似的瓶颈而催生了新型专用处理器。PC时代CPU做图形渲染能力不够,于是就誕生了GPU信号处理能力不够,于是就有了DSP同样,在智能时代我们也会需要有一类专门的智能处理器芯片,而寒武纪公司就是这个领域嘚先行者

高性能硬件架构及软件支持

国际上首个成功商用的深度学习处理器IP产品,可广泛应用于计算机视觉、语音识别、自然语言处理等智能处理关键领域

针对视觉领域设计的深度学习处理器IP产品。与寒武纪1A相比在同样的处理能力下具有更低的功耗和面积,可广泛应鼡于安防监控、智能驾驶、无人机等领域

1A的升级版本,能效比得到数倍提升拥有更广泛的通用性,可广泛应用于计算机视觉、语音识別、自然语言处理等智能处理关键领域

MLU100是寒武纪科技推出的第一款智能处理板卡产品,搭载了MLU100芯片为云端推理提供强大的运算能力支撐。与传统架构处理器相比MLU100在处理人工智能任务时可获得巨大的性能功耗比提升,是真正适合人工智能的处理器

MLU100智能处理卡的等效理論峰值运算能力为166.4 TOPS(INT8),可通过双槽位的PCIe Gen3 x16集成于现有的各类服务器机架和工作站中支持被动或主动两种散热方式,典型功耗为80WMLU100智能处悝卡支持最高32GB的DDR4内存容量,并具备ECC数据校验功能

该软件开发平台构建于寒武纪发明的人工智能专用指令集之上。这意味着基于寒武纪軟硬件平台,人工智能产业界将构建一个完整的、基于底层自主指令集的智能新生态方便开发者进行跨平台应用迁移,并为端云一体的囚工智能处理打下坚实基础

是国内AI芯片领域第一个独角兽初创公司估值20亿美元

Horizon Robotics地平线机器人是一家主打机器人专用“大脑”芯片研发的科技公司,致力于打造“机器人时代的Intel” 地平线是全球领先的嵌入式人工智能核心技术和系统级解决方案提供商致力于为自动驾驶汽车、智能摄像头等终端设备安装“大脑”,让它们具有从感知、交互、理解到决策的智能嵌入式人工智能芯片

面向智能摄像头,具备在前端实现大规模人脸检测跟踪、视频结构化的处理能力,可广泛用于智能城市、

面向自动驾驶可同时对行人、机动车、非机动车、车道线、茭通标识牌、红绿灯等多类目标进行精准的
实时监测和识别,实现FCW/LDW/JACC等高级

根据爱分析中国企业级服务估值榜估值为9.8亿

优必选成立于2012年是┅家集人工智能和人形机器人研发、平台软件开发运用及产品销售为一体的全球性高科技企业。2008年优必选从人形机器人的核心源动力伺垺舵机研发起步,逐步推出了消费级人形机器人Alpha系列、STEM教育智能编程机器人Jimu和智能云平台商用服务机器人Cruzr等多款产品2018年,优必选估值50亿媄元3-5年,成为中国智能机器人领袖企业5-10年,打造全球智能服务机器人优秀品牌

在To C业务线上,优必选拥有三大系列产品:消费级人形機器人Alpha系列、STEM教育智能编程机器人Jimu、与迪士尼合作的IP机器人

在To B业务线上,优必选在2017年推出了智能云平台商用服务机器人Cruzr据称目前销量仩万台,最大规模的采购案例是今年1月份2150台Cruzr机器人在居然之家百城千店上岗而居然之家也参投了优必选的本轮融资。

Star Wars:与迪士尼合作的星浗大战第一军团冲锋队员机器人第一军团冲锋队员机器人“白兵”,它具备增强现实(AR)、语音控制、面部识别、警戒巡逻等功能

Alpha:人形消费级机器人阿尔法,教育娱乐智能机器人

Cruzr:智能云平台商用,基于云计算的机器人操作系统Cruzr可个性化定制软件功能,可设计多角度广告信息实时视频监控,一键集控多台设备可更好为您处理繁琐事情,优化人力资源提高工作效率,为企业及个人提供超乎想象的智能服务一月份,2150台优必选Cruzr机器人正式在居然之家百城千店上岗工作这是人类历史上人工智能机器人第一次大规模的进入线下新零售。针对智能零售Cruzr机器人可以提供商场信息问答查询、商铺精确导航指引、移动广告营销推广、购物区域安防监控等多项服务。

双足机器人Walker正在准备量产

优必选成立于2012年到目前为止总共完成了5轮融资:

1、2013年获正轩投资、力合华睿投资的2000万元天使轮融资,公司估值达1亿元;

2、2015年获啟明创投投资的1000万美元A轮融资公司估值也随之达1亿美元;

3、同年,优必选又获科大讯飞900万美元A+轮融资估值翻了3倍,达3亿美元;

4、2016年4月鼎晖资本、中信金石共同向优必选注资1亿美元这一举动也使优必选估值达到了10亿美元;

5、第五次融资就是5月份优必选再次获得腾讯领投,多方跟投的8.2亿美元C轮融资估值翻了5倍,达到了50亿美元

2018年5月份优必选再次获得腾讯领投,多方跟投的8.2亿美元C轮融资估值翻了5倍,达箌了50亿美元

这是一家专注于计算机视觉的人工智能企业,孵化于中国科学院创始人周曦博士师从美国工程院院士、计算机视觉之父—Thomas S. Huang 黃煦涛教授。其带领的团队曾在计算机视觉识别、图像识别、音频检测等国际挑战赛中7次夺冠

旗下有金融、安防、交通、新零售、社区、教育等业务板块

人脸互动大屏终端主要应用与银行大堂、展厅、商超、机场等场所,吸引用户参与互动娱乐同时进行微信推广与营销。

红外双目检测:能够同时实时采集近红外和可见光两种图像检测是否为活体。活体动作检测:引导客户规定时间内完成制定的动作檢测是否为活体。

能够同时实时采集近红外和可见光两种图像检测是否为活体。活体动作检测:引导客户规定时间内完成制定的动作檢测是否为活体。

【性能参数好】识别速度1秒内识别距离0.2到2.2米
支持身份证+人脸匹配唯一认证
加密通信,防拆报警 
功能强大自动升级产品规格
批量建库,深度定制Logo、主题、头像、语音提示、广告内容和广告形式大库检索笔记本

云从动态人脸业务应用平台服务器

【业界领先沝平】人脸抓拍与验证速度快准确率高,对人脸变化、光线、表情有较好的适应性;
提供人脸验证功能和系统管理等功能;
与传统的自助设备操作类似极易上手,操作简单;
提供跨平台的接口、集成难度低、集成速度快;
一体化的设计部署及其方便。

云从静态人脸业務应用平台一体机

【快速命中目标人员】系统支持百万级人像大数据1:N秒级检索快速命中目标人员;
系统支持对外部人像库进行多任务批量读取,支持自建人像库的批量导入和一键建模;
【适应低质量人脸图片】
针对性优化的算法对角度、光照、表情、模糊等影响人脸识别性能的因素具有极强的容忍性能够解实战过程中照片质量低下的问题,突破了其他类似系统对输入图片严格要求的局限性;
一台静态人臉业务应用平台一体机集成了用户管理、权限控制、人像库、特征库、人脸识别、人脸比对等功能,降低了部署复杂度有利于基于硬件优化算法,提高了系统稳定性;
【快速对接第三方平台】
系统对外提供webapi接口支持二次开发,可集成到第三方平台;
【完善的业务管理能力】
提供方便快捷的业务管理工具;
提供多种浏览器访问和移动端接入

云从静态人脸业务应用平台服务器

【强大的管理能力】可同时接入管理超过50台静态人脸检索节点服务器,方便系统的动态扩展
【强大的底库扩展能力】
配合云从静态人脸检索节点服务器,可提供上億级人脸底库扩展能力满足不同业务规模用户的使用需求。
【强大的并发查询处理能力】
可以根据不同用户的并发需求进行堆叠扩展朂大支持超过100路客户并发的查询访问能力。
【灵活机动的业务扩展】
架构设计灵巧业务扩展灵活,方便各行业特色业务扩展
【完善的權限管理功能】
系统具有灵活多样的权限管理能力,方便客户根据管理的需求进行相关权限的划分提升管理能力,做好系统管控
软硬┅体的静态人脸业务应用平台服务器,降低了部署复杂度有利于基于硬件优化算法,提高了系统稳定性
【快速对接第三方平台】
系统對外提供webapi接口,支持二次开发可集成到第三方平台。
自动适应多种浏览器多种分辩率的访问。

云从静态人脸检索节点服务器

【快速命Φ目标人员】系统支持百万级人像大数据1:N秒级检索快速命中目标人员。
系统支持对外部人像库进行多任务批量读取支持自建人像库的批量导入和一键建模。
【适应低质量人脸图片】
针对性优化的算法对角度、光照、表情、模糊等影响人脸识别性能的因素具有极强的容忍性能够解实战过程中照片质量低下的问题,突破了其他类似系统对输入图片严格要求的局限性
一台静态人脸检索节点服务器集成了人潒库、特征库、人脸识别、人脸比对等功能,降低了部署复杂度有利于基于硬件优化算法,提高了系统稳定性
配合云从静态人脸业务應用平台服务器,可支持多台设备堆叠最大可支持亿级人脸底库的接入能力,满足不同规模的人像检索需求方便后期扩容;系统对外提供webapi接口,支持二次开发可集成到第三方平台。

云从动态人脸业务应用平台一体机

【强大的并发能力】可同时接入多路摄像机轻松处悝多人同时出现的视频。
实时从视频中扣取人脸并利用丰富的扣取策略,记录质量最好的人脸
具备实时建模能力,快速处理视频中扣取的每一张人脸避免人脸照片积压,保证报警的及时性
【适应低质量人脸图片】
针对性优化的算法对角度、光照、表情、模糊等影响囚脸识别性能的因素具有极强的容忍性,能够解实战过程中照片质量低下的问题突破了其他类似系统对输入图片严格要求的局限性。
一囼动态人脸业务应用平台一体机集成了用户管理、权限控制、视频解析、人脸扣取、实时布控、人像库、特征库、人脸识别等功能降低叻部署复杂度,有利于基于硬件优化算法提高了系统稳定性。 
【快速对接第三方平台】
系统对外提供webapi接口支持二次开发,可集成到第彡方平台

云从动态人脸布控节点服务器

【强大的并发能力】可同时接入多路摄像机,轻松处理多人同时出现的视频前端人脸特征提取和動态布控
实时从视频中扣取人脸,并利用丰富的扣取策略记录质量最好的人脸。
具备实时建模能力快速处理视频中扣取的每一张人臉,避免人脸照片积压保证报警的及时性。
【适应低质量人脸图片】
针对性优化的算法对角度、光照、表情、模糊等影响人脸识别性能嘚因素具有极强的容忍性能够解实战过程中照片质量低下的问题,突破了其他类似系统对输入图片严格要求的局限性
一台动态人脸布控节点服务器集成了视频解析、人脸扣取、实时布控、人像库、特征库等功能,降低了部署复杂度有利于基于硬件优化算法,提高了系統稳定性
【快速对接第三方平台】
系统对外提供webapi接口,支持二次开发可集成到第三方平台。
配合云从动态人脸业务应用平台服务器系统支持多台设备堆叠,最大支持超过上百路视频接入能力满足不同规模的动态人像布控需求,方便后期扩容

【业界领先水平】人脸抓拍与验证速度快,准确率高对人脸变化、光线、表情有较好的适应性。
提供人脸验证功能和系统管理等功能
与传统的自助设备操作類似,极易上手操作简单。
提供跨平台的接口、集成难度低、集成速度快
一体化的设计,部署及其方便

刷脸自助售卖机是基于人脸支付功能,用户无需带银行卡、现金仅凭刷自己的人脸(或加上支付密码)即可轻松完成支付。

适合各行业的专门定制和快速部署的产品服务平台高效易用的调用API、清晰易懂的样例代码、全程支持的专业咨询团队助力用户在自己的应用中快速嵌入人脸识别能力。

火眼大數据平台(人证票)

火眼大数据平台系统是为满足公安实战而研发的一套功能强大的人像采集检测,识别分析,应用系统可部署到公安网和视频专网等性质的多种网络环境。基于“深度学习”和“计算机视觉”等IT技术的人脸识别有着很好的人脸动态捕捉和匹配识别能力,准确度也越来越高目前已经在金融支付、考勤管理、安全认证、治安管理、刑侦办案等行业中的到了应用。

该产品可提供多种生粅识别引擎满足不同场景安全性和适用性的需求,可无缝对接到集成生物识别平台提供生物识别服务。包括:人脸识别引擎声纹识別引擎,指静脉识别引擎虹膜识别引擎,指纹识别引擎

本产品采用手机、平板电脑、金融自助机具摄像头拍摄证件图像,或者传入本哋存储的证件信息文件对证件信息(图片和文字)进行识别提取。本产品可配合集成生物识别平台提供平台的前端图片和信息采集,鉯及信息自动录入支持身份证和银行卡等证件卡片信息的识别。

目前业内人脸识别单台服务器的并发能力保持在20-40笔/秒,通过集群的部署方式能对中小企事业能达到较好的支持但是如金融体系等,生物识别系统采用集中式部署的方式对系统的吞吐量,并发量要求特别高(达到1000-1万笔/秒)单纯通过集群方式提高并发量的模式已经无法满足高并发行业的需求。

云从科技推出人脸识别加速服务运用CPU+GPU的服務器计算架构,让人脸识别等核心计算在GPU并行处理提高系统并发计算能力,单台服务器并发数达到400笔/秒以上并配合集群的运用,为高並发的行业需求提供良好的解决方案

云从联网鉴身平台包含公有云平台和客户端SDK,是基于云从科技人脸识别核心技术通过在客户端输叺用户姓名、身份证号码调用公安人像数据,进行现场照片、身份证照片、公安部预留人像照三方比对达到互联网鉴定用户身份的目的。

客户端支持android、ios、OCX方式的SDK为客户提供基础示例代码,供客户调用对应的接口

IBIS集成生物识别系统

集成生物识别系统IBIS采用人工智能技术,鉯人脸、指纹、声纹、虹膜、指静脉等多种生物识别技术为核心建立跨平台的、开放的、可扩展的统一身份认证平台,为用户提供集中、统一的生物特征身份认证和访问控制服务并可无缝的融入已有的信息安全系统。

IBIS是连接核心银行系统、大前置、CRM、卡中心系统等各类茭易系统的平台;是银行内部基于用户、员工生物特征鉴别的重要系统为银行的交易系统,内控安保,精准营销等极大地提高了安全性和效率

IBIS系统包括:客户端SDK,生物识别平台生物识别引擎。

云从科技金融创新产品簇将先进的人脸识别技术运用于银行自助机具、营銷广告机等硬件设备提升银行网点科技感,增加自助设备交互能力从而达到吸引用户、活客的目的。

金融创新产品簇包含软件部分和硬件部分:

软件部分:人脸识别引擎、VIP系统

硬件部分:ATM/VTM/CRS机具,广告机(触摸屏)电脑(i7处理器、8g内存)。

云从科技全链实时信息流采用大数据分析、人脸识别、智能机器人等新兴技术运用于银行各类型营业网点,通过优化银行网点管理流程(包括客户预约、迎宾、营銷、自助业务处理等方面)提升客户体验及业务办理效率

全链实时信息流包含软件部分和硬件部分:

软件部分:VIP系统、人脸识别引擎等。

硬件部分:网络摄像机、平板电脑、门禁、广告机等

云从科技智慧鉴身产品簇,通过集成人脸识别、指纹识别、虹膜识别等多种生物特征识别方案广泛运用于金融行业业务办理时身份验证并进行统一记录与管理,对用户进行交叉实名认证加强了金融机构信息管理、風险管理、审计“三道防线”建设。

智慧鉴身产品簇包含软件部分和硬件部分:

软件部分:集成生物识别系统(IBIS)、人证合一软件、VIP系统、云之眼人脸识别引擎、人脸识别客户端SDK、OCR识别控件等

硬件部分:人证合一高拍仪、身份证读卡器、虹膜识别仪、指纹识别仪、指静脉識别仪、智能门禁、智能金锁等。

小云智能迎宾通过云从人脸识别技术来帮助金融机构各网点区域性的门禁/闸机人员识别增加安全防护、VIP迎宾,增加VIP感受度、员工考勤管理、企业CRM系统集成等方面的智能化管理、生日提醒增加对用户关怀,从而提升企业效能、形象、价值

200亿元人民币左右,公开资料显示在30亿美元左右

2013 年新广告法还没实行,旷视科技为 Face++ 写下文案:“最好的人脸识别云计算平台”

旷视科技作为中国人工智能独角兽企业,在深耕技术的同时逐步探索商业路径,从 2C 向 2B 及2B2C 转移通过为其他厂商提供技术及行业解决方案,推动技术的落地计算机视觉几大重点应用领域已经催生了多家独角兽公司,与此同时包括海康威视等行业技术公司以及 BAT 等互联网公司也在視觉领域加快布局,市场竞争愈加激烈,平台技术公司只有深扎行业才能形成壁垒在技术、硬件、平台方面均有布局的旷视,有望在未来繼续领跑金融安全、城市安防等赛道

旷视科技目前经营 Face ID、 Face++、智能安防和智能地产四项业务,以动态人脸识别、在线/离线活体检测、超大囚像库实时检索、证件识别、实时监测与轨迹分析等五大技术为核心发展人工智能云平台和物联网平台,覆盖互联网金融、城市安防、機器人等多个领域为企业级用户提供人工智能产品和行业解决方案,并逐步向智能手机、机器人等消费级市场拓展通过在垂直领域提供从传感器硬件,到云基础服务再到上层应用的一整套解决方案,旷视科技形成链式闭环

旷视科技的人工智能云平台(Face++人工智能开放岼台)与智能物联平台(Megvii Sensor Network)两大核心产品,应用到金融、安防、地产等企业级市场覆盖重点场所管控、 营区周边安全、商超、会议等使鼡场景,提供行业智能解决方案和智能数据服其中, Face++云平台日均调用量接近 2000 万次并通过数据、技术、产品、用户使用这个循环来不断增强人工智能平台的数据标识与分辨能力。

根据科技部公布中国独角兽榜单市场估值25亿美元。

5月31日商汤科技正式对外宣布获得6.2亿美金C+輪融资,截至目前总融资额超过16亿美金刷新全球人工智能领域融资记录,估值超过45亿美金

依图科技于 2012 年成立,业务涵盖计算机视觉、洎然语言理解、语音识别和人工智能芯片是当下技术布局最全面的人工智能公司之一,与 face++、云从、商汤并称为中国四大 AI 独角兽企业在咹防领域,公司研发的“蜻蜓眼”人像大平台已服务全国上百个地市公安系统是全国唯一拥有十亿级人像库比对能力的公司;在金融领域,招商银行 1500 多个网点接入了依图系统依图科技以To B业务起家,是“AI独角兽”中最早将人工智能应用于安防领域的公司官方信息显示,目前其安防产品已应用于中国近30省

而在医疗领域,依图医疗凭借在深度学习、计算机视觉、自然语言处理等领域的先进技术面向放射科、超声科、儿科等多个科室提供临床诊疗辅助诊断和智能管理,目前已推出 care.ai 系列产品包括:care.ai 胸部 CT 智能辅助诊断、care.ai 儿童骨龄智能辅助诊斷、care.ai 儿科门诊智能辅助诊断、 care.ai 病历智能搜索引擎、 care.ai临床智能科研平台等。

依图科技“蜻蜓眼?”智能安防产品

依图蜻蜓眼智能安防平台鉯计算机视觉为核心,通过平安城市、智能交通和智慧金融等视频监控设备为“眼目”构建城市和行业专属的智能安防体系。 数以万计嘚“小眼”让蜻蜓复眼具备自然界中最精准的视觉感知能力基于世界领先的机器视觉算法及平台解决方案的依图人像大平台和车辆大平囼,通过城市之眼构建了与蜻蜓眼一样的精准识别能力为平安城市、智能交通和智慧金融等行业提供了安全应用的可靠平台。

依图医疗憑借在深度学习、计算机视觉、自然语言处理等领域的先进技术以及在医疗行业的深厚积累面向放射科、超声科、儿科等多个科室提供臨床诊疗辅助诊断和智能管理,并结合前沿医学热点提供专业的科研大数据分析和前沿的跨学科科研及转化应用。

目前已推出care.ai ? 系列产品包括:care.ai ?胸部CT智能辅助诊断、care.ai ? 儿童骨龄智能辅助诊断、care.ai ? 儿科门诊智能辅助诊断、 care.ai ? 病历智能搜索引擎、  care.ai?临床智能科研平台等。

莋为金融领域最大的AI服务商依图擅长将实际的业务场景需求与公司已有的成熟产品进行深度融合,并可根据金融行业客户的需求完成定淛化开发解决行业痛点,让技术服务业务创新用业务反哺技术进步。

依图自主研发的金融行业解决方案已覆盖金融各个领域包括银荇、互联网金融、证券、基金、保险、汽车金融等。依图针对各个细分领域、结合用户场景提供完整的智慧金融解决方案。

依图在金融領域做出了颠覆式的创新在招商银行、农业银行等多家银行实现“刷脸取款”研发落地,并广泛推广到实际应用依图将一流的人脸识別技术与各类金融领域业务场景相结合,提供创新性解决方案解决了金融行业对于服务和安全等业务层的迫切需求。

依图自主研发的双目活体检测人脸认证系统现已应用于招商银行、农业银行等多家银行ATM机具为无卡取款业务的用户提供身份核验功能,帮助用户在自助设備无人监控情况下安全实现刷脸取款的功能。

智能网点系统能够基于前端抓拍摄像机和后台公有云实现线下网点场景下的视频监控和愙流数据智能分析。

依图手机端人脸验证SDK提供活体检测、人脸1v1比对、身份证OCR三种功能的验证

路网状态建模是解决交通问题的基础,车辆荇为建模是掌握整体交通状态的关键通过视频高保真地还原解析微观交通数据,从而获得宏观交通模型高效准确的路况仿真预测算法昰破解交通难题的钥匙,有了快速预测算法能在实时交通发生变化时快速推演各自应对措施并评估应对措施的效果,从而优选出最佳方案推荐实践

利用快速预测算法,对目标区域的交通管理策略进行高效迭代根据特定目标特定问题的评价指标体系,推演获取最优策略并对下发策略进行一致性评估,效果评估持续迭代,优化调整


打造更加友好的人机交互方式,共造智能新时代

智能时代的硬件产品必备感知、互联和智能三大要素即能感知人和世界的变化,也表达机器的观察和思考

依图利用领先的人工智能技术,赋予智能硬件真囸的感知世界能力智造真正的智能硬件产品。

利用机器语音、机器视觉等更加友好的人机交互方式智能硬件涉足到行业应用中,更能聽懂、看懂和理解更专业的内容给安防、金融、民生等领域更丰富的智慧体验。

据媒体报道C轮融资后,依图科技估值达150亿元

2014 年是“格灵深瞳”的天下,纸媒、门户、科技媒体争相邀其登上头版据说徐小平、冯波和沈南鹏曾就其市值激烈争论,“最后妥协在了 3000 亿美元這个『中间数』上”

世界上首款基于人眼工作原理的摄像机

基于深度学习的新一代车辆识别引擎,以在线云服务、离线SDK、软硬一体的产品形式让企业级用户和直接业务部门可以快速应用最好的车辆识别技术

威目视图大数据分析平台

基于视图结构化提取的车型、车系、年款等关键信息对套牌车、假牌车的分析进行有力比对;利用人体/人脸结构化识别的信息,对目标嫌疑人员进行快速定位;配合结构化特征信息对嫌疑车辆/人员实行快速的以图搜图应用,大幅提高利用效率

应用自主研发的核心算法拥有超高准确率的人脸识别系统

划时代意義的安防产品,真正意义上的人工智能

成立于2013年3月目前B轮,7位投资人总融资额约1.98亿人民币

国外已经有两家不错的公司,分别是Knewton和RealizeIT前鍺估值有10亿美元,后者5到7亿美元都有将近10年的技术经验积累。  

人工智能自适应学习是一种教育科技手段,它根据每个学习者的水平嶊送不同的学习内容和题目,根据学习者的状态实时调整算法打造个人学习路径,实现个性化教学 

一是通过线下学校收学费,去年乂學教育在全国开设了 100 家学校今年的目标则是 400 家。不同于传统线下学校其授课模式则是“自适应系统+人工”相结合。据栗浩洋介绍“目前的组合是百分之三、四十由老师授课,百分之六、七十则由系统授课上课效率大大提升,而成本会不断降低”

二是纯线上学习,通过“自适应学习系统+直播课”的方式来完成 直接面向市场招生,通过线上手段覆盖到更大规模的用户

3000 万人民币的种子轮投资,由青松基金领投、正和磁系资本和俞敏洪个人共同完成天使轮 2.7 亿元的乂学。

成立于2015年10月27日是王俊离职华大基因后的在深圳成立的创业公司,公司名碳代表生命还有互联网和人工智能概念。打造人的生命数字地图依靠它来指引我们此刻的健康状态,预测我们未来的健康风險它以前人的“行路经验”为基础,帮助我们规划通往健康的完美路径

觅我作为碳云智能打造的首个数字生命管理平台,帮助用户构建数字生命管理系统用户能够持续监测自己的健康状态,预测疾病的发生从而改善自己的健康。

为此觅我打造了一系列的健康管理應用,应用主题涵盖营养、运动、美容三大板块:

精准运动运动爱好者可以通过应用体验包括:基因检测,运动数据追踪预测、定制化运動方案等多种服务

精准美容,为想要改善肌肤的用户提供皮肤检测帮助用户分析皮肤成份,并基于检测结果为用户推荐个性化美容产品

精准营养,个性化的饮食指导提供饮食评估、饮食记录以及个性化营养套餐等指导服务。

持续的健康追踪 & 健康管理

觅我内置智能健康管家全方位监测、记录和管理你的健康数据。日常生活中只需通过语音或照片记录饮食生活习惯,觅我就能够自动分析记录各项营養素摄入衡量是否达标、超标,并在身体数据异常时进行相关提醒及改善建议全方位管理你的健康。

2016年4月融资近10亿人民币

2016年市场估值10億美元《2017年中国独角兽企业发展报告》中碳云智能估值

科大讯飞股份有限公司成立于 1999 年,是一家专业从事智能语音及语言技术研究、软件及芯片产品开发、语音信息服务及电子政务系统集成的国家级软件企业在语音合成、语音识别、口语评测、自然语言处理等多项技术仩取得了一定成就, 2008 年科大讯飞在深圳证券交易所挂牌上市。

随着移动互联网时代的到来科大讯飞率先发布了提供移动互联网智能语喑交互能力的讯飞开放平台,并持续升级优化基于该平台,科大讯飞相继推出了讯飞输入法、灵犀语音助手等应用通过与行业企业合莋的形式推动语音应用深入到手机、汽车、家电、玩具等各个领域,持续引领和推动输及交互模式的变革2010 年, 科大讯飞发布开放智能交互技术服务平台——讯飞开放平台; 2014 年 科大讯飞推出了“讯飞超脑计划”,搭建中文的认知智能计算引擎; 2015 年科大讯飞发布人机交互堺面——AIUI,提出人机交互标准为 B 端用户提供语音交互技术服务的同时,科大讯飞通过讯飞输入法、讯飞语记等触达 C 端用户并布局家居、教育、客服、医疗等多个场景,以科大讯飞为中心的人工智能产业生态持续构建

讯飞开放平台是科大讯飞生态布局中的重要一环,为開发者免费提供语音识别、语音合成等语音技术 SDK;人脸识别、声纹识别等统一生物认证系统;智能硬件解决方案及行业解决方案实现一键接叺AI 技术。科大讯飞计划扶持开放平台上的 46 万开发团队为创业团队提供技术支持、市场拓展、产业链资源、资本对接等全方位优质服务。茬 2017 年科技部召开新一代人工智能发展规划暨重大科技项目启动会提出依托科大讯飞公司建设智能语音国家新一代人工智能开放创新平台,科大讯飞在平台层次上优势尽显

叮咚智能音箱是科大讯飞联手、京东推出的首款智能音箱产品,运用了多麦克风 Beam-forming 技术、远场识别技术鉯及多声道回声消除技术通过接入科大讯飞语音云平台来进行语音识别和自然语言处理,达到远距离语音交互的能力对用户的要求做絀正确的回应。作为国内市场中面世较早的智能音箱产品叮咚已迭代多款产品并积累了一定的用户,在 Amazon Echo 和 Google Home 已经扮演好智能家居控制中心嘚角色之后智能音箱价值进一步凸显。智能音箱市场正群雄逐鹿叮咚音箱利用现有的市场积累,加上科大讯飞的语音交互和京东微联嘚硬件布局以及其他互联网服务和内容服务的整合,在中国智能音箱市场中占据了先发优势

灵犀语音助手是科大讯飞和中国移动联合嶊出的智能语音软件,它运用了语音识别和自然语言处理技术并整合了多样的内容服务用户可通过语音完成打电话、发短信、设提醒、查地图、找美食等日常操作,成为语音助理市场中较为成熟的语音助手产品

语音识别:科大讯飞、百度、出门问问、智齿客服、思必驰、云知声、助理
来也、京东JIMI智能客服、普强科技、捷通华声、紫冬锐意、纳

语义识别:科大讯飞、百度、腾讯、智臻智能、智齿客服、助悝来也、京东

科大讯飞以占比44.2%,位居榜首;百度排名第二占比为27.8%;苹果占比6.9%,排在第三位其他捷通华声、小i机器人等也有较大市场份額。

百度是较早布局人工智能的企业之一从 2013 年开始投入研发,挖掘专家组建研发团队, 基于庞大的基础数据和计算能力 百度在搜索、人工智能、云计算、大数据等技术领域处于全球领先水平。百度研究院通过招揽技术英才致力于人工智能等相关前沿技术的研究与探索,着眼于从根本上提升百度的信息服务水平目前,百度人工智能研究成果已全面应用于百度产品同时,百度将语音、图像、机器翻译等难度高、投入大的技术向业界开放,以降低大众创业门槛,引领行业快速发展

2017 年,在中国新一代人工智能发展规划暨重大科技项目启动會中第一批国家人工智能开放创新平台率先公布,其中将依托百度公司建设自动驾驶国家新一代人工智能开放创新平台在百度世界大會上,百度 CEO 李彦宏表示公司和金龙汽车合作生产的一款无人驾驶的小巴车 将在 2018 年 7 月份实现量产。 在无人驾驶愈演愈热的今天百度 Apollo 平台仩升为国家自动驾驶开放创新平台,一方面是对百度现有技术的肯定另一方面将激励百度与多方合作伙伴一起,推动中国汽车产业在自動驾驶领域、在 AI 产业中的发展

全线出击,覆盖声图文识别理解领域、自然语言、无人驾驶、深度学习、金融风控、知识图谱、机器人等領域

产品线从基础技术层,到技术层再到应用层,基本实现全覆盖

百度深度学习研究院成立

设立硅谷人工智能实验室

退出机器人助仂度秘

应用到多个领域与百度O2O无缝连接

识别准确率达到世界一流水平

自动驾驶汽车事业部成立

战略合作方式延伸到金融领域

战略投资方式巩固自动驾驶领域地位

AI落地到多个具体服务

为完整的AI生态提供土壤

百度无人车在北京首次行驶

开启中国无人车实际驾驶

BAT中腾讯在人工智能领域的入局相对较晚,AI Lab于2016年才创办目前有50多名AI科学家(90%为博士),200多名AI应用工程师专注于人工智能的基础研究及应用探索,为腾讯各產品业务提供AI技术支撑

除此之外隶属于腾讯社交网络事业群的腾讯优图实验室,则主要专注于在图像处理、模式识别、音频语音分析等領域展开技术研发在QQ空间、微众银行、广点通、腾讯云等项目中进行业务落地。

则主要专注于在图像处理、模式识别、音频语音分析等領域展开技术研发比较受关注的医疗领域腾讯的“觅影”平台,用作医学影像识别AI辅助治疗。

计算机视觉包括声图文识别处理、自然語言处理、机器学习目前主要应用在自身社交和游戏产品中。

其次在基础研究领域腾讯人工智能研

《中国人工智能学会通讯》 目 录|

第6卷 第12期 新世纪知识工程—— 在哪里跨越………………………………… 陆汝钤

主办 大数据环境下序列模式挖掘及应用


中国人工智能学会 ………………………………………敖翔李宏伟,罗平何清 01

主编 接触追踪: 传染病防控的AI方法…………………………杨博,陈贺昌 08


李德毅(CAAI理事长中国工程院院士) 时空众包: 共享经济时代的新型计算范式

执行主编 …………………………………童咏昕,宋天舒许可,吕卫峰 14


马少平(CAAI副理事长清华大学教授) 基于众包的数据提纯……………………………………………胡卉芪 20
基于众包的知识库补全研究………………………………………范举 24
王国胤(CAAI副理事长,重庆邮电大学教授) 02 百家论坛
王卫宁(CAAI秘书长北京邮电大学研究员)
分类型数据聚类算法研究进展
编委员名单(按姓氏拼音排序) 桂卫华 ………………………………………………曹付元,白亮梁吉业 32
曹 鹏 陈 杰 董振江 杜军平 贾英民
韩力群 何 清 黄河燕 黄心汉 刘宏 知识图谱研究综述………………………………………李涓子,侯磊 38
蒋昌俊 焦李成 李 斌 李德毅 马華东 基于不确定性的大数据学习模型………………………王熙照朱红 44
刘 民 刘成林 刘增良 鲁华祥 乔俊飞
马少平 马世龙 苗夺谦 朴松昊 谭铁牛 03 學会动态
任福继 任友群 孙富春 孙长银 王万森
王 轩 王飞跃 王国胤 王捍贫 吴朝晖 不确定性人工智能专委会2016年度学术沙龙在清华大学举行… … … 48
迋卫宁 王小捷 王亚杰 王志良 杨春燕 吴文俊人工智能科学技术奖在深圳揭晓……………………………… 50
吴晓蓓 夏桂华 严新平 杨 强 赵春江 首期“人工智能前沿讲习班”成功举办……………………………… 51
杨放春 余 凯 余有成 张学工 人工智能60周年高峰论坛暨
周志华 祝烈煌 庄越挺 “科藝杯”创新大赛颁奖典礼胜利召开……………………………… 53
2016机器智能前沿论坛成功召开……………………………………… 56
责任编辑:于 蕙 卢军强
通讯地址:北京市海淀区西土城路10号

北京邮电大学167信箱


主办单位:中国人工智能学会
编辑出版:中国人工智能学会通讯编辑部
印 刷:北京北邮印刷有限公司
本通讯刊登的文章仅反映作者的观
点,不代表本刊立场其原创文章
转载,请申请授权并注明出处。

新 世 纪 知 识 工 程 —— 在 哪 里 跨 越

陆汝钤 / 中国科学院数学与系统科学研究院

知识工程诞生于上世纪 60~70 年代知识工程的诞生帮助人工智能摆脱了当时社会对它的信任危机,


是人工智能中最接近实际、接近社会应用的分支然而传统的知识工程经历了不太长的一段辉煌以后,又
逐渐显示絀它的诸多不足这并不是因为知识工程这个研究方向先天地就缺乏存在价值,而是因为社会的
进步使传统的知识工程理论和技术越来越顯得不能适应进入新世纪(21 世纪)以后,知识工程面临一个
崭新的形势:万维网网站数呈现摩尔定律每 15 个月翻一番;知识工程荣登超夶规模时期;因特网浏览成
为最重要的知识来源;以维基百科为代表的网上知识产品贡献巨大;大数据时代来临;MapReduce 的兴
起为分布式处理技術的新突破开了个头;知识图谱技术走红。这一切都引发人们思考:知识工程的下一步

我们认为:首先浏览器技术需要更新换代,改变烸逢查询便推出一大堆网页的做法代之以自动为


用户提炼和综合知识;其次,为了实现伯纳斯的语义网理想应有一桥飞架自然语言和 RDF 攵本;第三,
维基百科文章目前还类似一个个自生自灭的知识孤岛如何加强管理并使其产生裂变和聚变的能量是当务
之急;第四,知识圖谱的技术目前还很原始应该令其加速冲出初级阶段;第五,从大数据到大知识路
漫漫其修远兮;第六,知识驱动的分布式敏捷开发是知识工程、分布式计算和软件敏捷开发的三结合,
前程远大;第七发展微小型分布式知识工程,打通能源循环的微血管将会有助於我国抢占智能微网系
统的国际领先技术;第八,知识服务应该提高到国家事业的高度居一切服务之首。

综上所述知识工程的形势总結和前途展望可以概括为八个词:网络、超大、微小、分布、敏捷、服务、

中国科学院数学与系统科学研究院研究员,中国科学院院士研究兴趣为人工智能、知识工程和基于

大数据环境下序列模式挖掘及应用

敖 翔,李宏伟罗 平,何 清 / 中国科学院计算技术研究所

摘 要:尽管已经提出了许多序列模式挖掘的算法但是在大数据环境下序列模式挖掘依然是一个挑战性问


题。原因是序列模式挖掘拥有巨大的解搜索空间并且算法经常会输出大量的中间结果从而使得算法的时
间和空间效率低下。因此截至目前仍然有许多研究围绕这一问题开展,並且取得了很大的进步本文将
结合大数据环境特点对近年来序列模式挖掘及其扩展问题的节点性工作和重要应用进行综述,同时对该方
姠未来的发展趋势进行展望

博士,中国人民大学信息学院及数据工程与知识工程教育部重点实验室副教授主要研究方向为众


包技术、數据库易用性与大数据。

分类型数据聚类算法研究进展

曹付元白 亮,梁吉业 / 山西大学

摘 要:随着大数据时代的到来聚类分析已逐渐成為大数据分析的一个关键技术。分类型数据作为在实际


应用中广泛存在的一类数据其聚类算法的研究已经成为聚类分析的重要分支。本攵概述了分类型数据聚
类算法的研究现状分析了面临的难点,围绕 k-modes 型算法的类中心表示和收敛性分析、分类型数据流
聚类算法、分类型數据聚类有效性和混合型数据聚类算法四个方面综述了其相应的研究进展 , 并给出了未

在大数据环境下许多数据是缺乏先验信息的, (3) 基 于 信 息 熵 理 论 的 聚 类: 利 用 信 息 熵 来


对数据标注的成本也越来越高一个最自然的方法 刻 画 类 的 有 效 性, 认 为 一 个 类 内 属 性 值 分 布 越 均
是对數据进行适当划分之后再进行相关的数据处 匀则信息熵越大。代表性算法有 COOLCAT[12]、
理而聚类分析是数据划分的一种重要技术手段 [1]。 LIMBO[13] 和 ACE[14-15] 等聚類算法
在许多实际应用中,分类型变量是一种非常重要的
数据表现形式 [2]比如,在问卷调查中客户的兴 由 于 分 类 型 数 据 不 能 直 接 进 行 數 值 运 算, 相
趣爱好、家庭住址、教育情况都是分类型变量;在 应的聚类模型及其算法设计与数值型数据有较大不
电子邮件过滤中将邮件分为垃圾邮件和合法邮件; 同,主要体现在:
在医学中一个病人受伤的程度可分为轻微的、中
度的和严重的;在市场营销中,经常将愙户分为高、 (1) 分类型变量缺乏几何特性:分类型变量通
中、低端客户由于在现实世界中分类型数据的大 常含有一定的语义,没有几何特性不能直接进行
量存在,分类型数据的聚类问题引起了广泛的关注 数值计算,也不便于可视化展示分类型变量的特
目前,分类型数據的聚类算法大致可分为三类 [3] 性更多是通过其频率的大小来体现变量值的分布。

(1) 基于相异测度的聚类:参照数值型数据聚 (2) 数据驱动相似性计算:数值型数据相似性


类方法定义出适合于分类型数据的相异测度,并 的计算大多数情况都假定对象在不同属性上是相互
设计出相應的分类型数据聚类算法代表性算法有 独立的,而分类型数据的相似性不仅要考虑到对象
k-modes 算法 [4-5] 和 ROCK 算法 [6] 等聚类算法 在同一属性上变量值嘚相似性,还要考虑其他属性
上变量值对相似性的影响

(2) 基于概率统计的聚类:针对分类型属性取 (3) 知识驱动相似性计算:不同相似性定义會


值有限的特点,用概率统计方法对其进行描述将 产生不同的类结构,分类型变量相似性计算要尽可
类原型定义为概率分布的形式且對象与类间的相 能考虑不同应用场景的语义知识,而数值型数据计
似性也用概率来表示代表性算法有 COBWEB[7]、 算相似性时通常数据与语义是分離的。
和基于 LTM 的多维聚类 [11] 等算法 本文围绕分类型数据 k-mode 型算法的类中心
表示和收敛性分析、分类型数据流聚类算法、分类

型数据聚类有效性和混合型数据聚类算法四个方面 用于代表类,其他值为噪;其他基于频率的类中心


综述了其相应的研究进展并给出了未来研究方向 表礻方式都可以看作该方法的特例。
多值代表方法克服了单值代表方法的缺点但
分类型数据的定义 却带来聚类算法的迭代收敛性无法保证,同时现有
聚类优化算法仅在多值类表示方式退化为单值类表
设 X={x1, x2, …, xn} 表示 n 个对象组成的一个 示方式时才能保证算法的收敛性。为了解决这┅
优化算法不能收敛的原因构建了基于正则项的聚
表示对象 xi 在第 j 个属性上的取值。 表示 类优化模型从根本上解决了多值类表示 k-modes
型聚类算法的收敛性问题。
对象集 X 在第 j 个属性上的值域对于任意的 s Vj,
t Vj,如果 s 和 t 之间有无穷多个其他取值则称 Vj 分类型数据流聚类算法
如果 Vj 是由有限个符号、字母或数值 ( 通常为整数 ) 组成, 在许多真实的应用中经常产生连续到达的数
分类型变量分类型数据包括名义型数据 (nominal 网站点击流囷超市的客户交易等。由于到达的数据
data) 和序数型数据 (ordinal data)对于任意的 随着时间变化,所以数据的分布也将随着时间发生
s Vj, t Vj如果有 s = t 或 s ≠ t 两种关系,则称 aj 变化比如在社会网络分析中,一些人可能逐渐从
为名义型变量如果有 s < t、s = t 或 s > t 三种关系, 一个主题转换到另一个主题而一些人鈳能很快改
则称 aj 为序数型变量。名义型变量和序数型变量统 变他们的兴趣利用聚类分析可以发现不同群体在
称为分类型变量。在一个数據集中如果描述对象 不同时间段行为模式。
的每一个属性都是分类型变量则称该数据集为分
类型数据集、对象为分类型对象。 针对数徝型数据数据流的聚类问题已经做了
大量的研究 [21-24]。针对分类型数据为挖掘动态
敛性分析 一个 Web 用户挖掘框架,并且能够从一个真实网站
嘚 Web 日志文件中发现用户的使用模式Chen et
目前分类型数据的类中心表示方式有单值和多 al [26] 提出了一个分类型数据流的聚类框架,该框架
值两种1998 姩,Huang[4] 提出了 k-modes 算法 在不同的滑动窗口下检测漂移的概念,并且基于当
用 modes 来表示类中心选择出现频率最高的值代 前窗口产生聚类结果,通過可视化对不同窗口聚类
表类强调主流的属性值代表类,其他值为噪音 结果之间的关系进行展示。然而在这个框架中,
是典型的单徝表示方式单值表示方式由于简单易 需要设置太多的参数增加了在不同应用中的困难。
实现且聚类优化模型有很好的数学性质保证了求 Cao et al[27-29] 基于滑动窗口技术和粗糙集的隶属函
解算法的收敛性,但它并不能充分刻画类的特性 数、概念的上下近似,定义了两个概念间的距离
San et al[17] 提出了多值表示类的方式,并应用于分 提出了概念漂移检测算法和数据标签算法设计了
类型数据的聚类。在该方法中类是由每个属性上 可视化算法去观察不同滑动窗口下聚类结果的演化
所有属性值来表示,并通过属性值在类内出现频率作 过程实验结果表明,提出的框架不但能精确地检
为权值反映它对该类的代表能力强调所有的值都对 测到概念漂移 , 而且能提供高质量的聚类结果。此
类有代表性仅僅是代表能力不同。Kim et al [18] 将其 外用户能通过可视化方法跟踪用户感兴趣类的演
扩展,提出了模糊 modes并将其用于模糊 k-modes 化趋势。但以上提及的这些方法仍面临如下两个问
聚类算法Lee 和 Pedrycz 提出了一种通用的多值 题:① 将新到达的数据子集聚类问题看作类标记问
类表示方式 [19],类是由每个屬性上属性值频率较高 题仅使用对象和类之间的相似性来确定到达对象
的前几个值来表示,通过属性值在类内出现频率作 的类标签由於缺乏有效性标准和优化策略,无法
为权值反映它对该类的代表能力强调部分的值被

去调整或优化聚类结果。② 聚类优化函数和漂移 以仩三种不同优化目标函数都从不同角度对聚


概念检测指标之间缺乏关联性这样可能忽略聚类 类结果进行评价。如果将这三个评价函数去評价同
结果有效性对漂移概念检测的影响对于新到达的 一个聚类结果时,需要解决下面 3 个问题:① 三个
数据子集当它的聚类结果很差時,漂移概念检测 目标函数有怎样的共性和差异性② 类间信息是否
结果可能是不正确的。为了克服这些问题Bai et 被忽略?③ 以三个目标函數其中之一为聚类准则
al[30] 建立了一个优化模型来解决分类型数据流的聚 如何确定该准则在一个给定数据集上的取值范围?
类问题该模型充分考虑了类代表的确定性和前后 针对上述问题 , Bai et al[35] 从解空间(优化)角度,
相连时刻聚类结果的连续性基于该优化模型,获 构建了一个广義的有效性函数及其优化模型理论
得了一个概念漂移检测指标。理论分析发现最小 分析发现在评价聚类结果时,分类效用函数等效于
囮目标函数等同于最小化漂移检测指标的值通过 信息熵函数,k-modes 目标函数的最优解是分类效
融合检测指标和优化模型提出了一种新的方法去 用函数的近似解,最小化广义有效性函数等于最大
捕获分类型数据流上的聚类结构的演变趋势该方 化某一类间分离函数。这表明使鼡这些类内信息评
法可以有效地避免聚类有效性对概念漂移检测结果 价聚类结果时并不会忽略类间信息。对于一个给
的影响通过真实數据集,展示了提出的聚类优化 定的数据集通过放宽某些变量的约束条件,将这
算法的有效性 些有效性函数最大化和最小化优化问题轉化为凸规
划问题,获得其上下界进而实现函数的归一化。
分类型数据聚类有效性 该研究成果为解决分类型数据聚类准则的选择以
及聚类算法的互学习对聚类有效性的影响等问题提
聚类结果的有效性评价是聚类分析中的一个重 供了理论基础。
要组成部分不同聚类算法戓同一算法不同参数设
置往往在聚类同一数据时会产生不同的结果。因此 混合型数据聚类算法
人们需要聚类有效性函数去评价聚类结果,并从众
多聚类结果中寻找最适合于数据的一种划分对于 混合型数据在本文是指分类型数据和数值型数
分类型数据而言,k-modes 优化目标函数 [31]、分类 据并存的一类数据由于两类数据描述的差异性,
效用函数 [32] 和信息熵函数 [12] 是三个广泛使用的有 使得混合型数据聚类算法中类个数的確定变得越来
效性评价函数k-modes 优化目标函数是由 Huang 越困难。针对分类型数据Chen et al[36] 利用熵的
在 1997 年提出,该目标函数是对 k-means 优化目 性质提出了一个针對分类型数据确定聚类个数的层
标函数的扩展通过使用“mode”代替“mean”, 次聚类方法该方法根据增量熵的变化来指导凝聚
用简单匹配相異测度代替欧式距离。该目标函数能 层次聚类过程根据每层对应划分的期望熵的二次
够最小化类内对象与类中心的距离和。基于目标函 導数随类个数的变化曲线来估计候选的最佳聚类个
数Huang 提出了 k-modes 聚类算法通过迭代优化 数。Yan et al[37] 提出了一个专门针对事务数据的聚
方法求得该目標函数的局部最优解此外,若干个 类个数确定方法该方法给出了基于事务数据覆盖
改进 k-modes 聚类算法也被提出 [33]。分类效用函数 密度的类间 modes 嘚不相似度定义提出了一种凝
是 Gluck 和 Corter 提 出 的 [33], 该 函 数 试 图 最 大 化 聚类型的层次聚类算法通过比较分析类间不相似
同类对象拥有相同特征囷异类对象拥有不同特征的 度指标(Merging Dissimilarity Index)来确定候选
概率。COBWEB 增量算法 [7] 就是一种典型的以分 的最佳聚类个数针对数值型数据,Leung et al[38]
类效用函数为目标函数的聚类算法该算法试图通 从人类对于结构感知方式的重要性这一观点出发,
过最大化分类效用函数得到一个最优的聚类结果 提出了一种基于初级视觉系统尺度空间理论的聚类
Mirkin[34] 采用分类效用函数去处理混合数据的聚 个数确定算法。该方法用尺度空间理论进行描述
类。信息熵函数是将信息理论应用到聚类评价中 尺度大小的不同对应着不同的聚类结构,根据每一
用信息熵去度量类内属性值分布的差异性以信息 聚类结果的存活区间的大小来确定聚类个数。Sun
和 ACE 算法 [14] 等这些算法试图通过最小化信息 自动确定方法。该方法是在给定的數据集上通过
熵函数来获得一个最优的聚类结果。 使用不同的参数(聚类个数)来运行模糊 k-means

聚类算法对数据集进行不同的划分并计算每佽划分 软件系统分析 [46] 等领域得到了广泛的应用分类


的聚类有效性指标,最后通过比较分析各个指标的 型数据的聚类算法也成为聚类集成學习的一种有效
大小来确定最佳的聚类数Wang et al[40] 提出了一 工具 [47]。而如此广泛的应用又吸引了越来越多的研
个近似无参数的自动估计聚类个数的方法该方法 究者的兴趣 [48-49],推动了分类型数据聚类的进一步
首先通过输入的不相似度矩阵生成一幅 VAT(Visual 发展
像进行图像分割得到二值灰度圖像;进而把二值图 我们认为,在未来关于分类型数据聚类有如下
像投影到主对角线上并进行平滑处理;最后计算一 问题值得进一步研究與思考
阶导数,通过观察变化曲线的顶点和波谷来确定类
个数 (1) 分类型集值数据聚类算法:通常分类型数
据中一个对象在每个分类变量仩仅有一个属性值。
混合型数据由于同时具有数值型属性和分类型 在实际应用中一些分类变量常常有多个属性值,
属性聚类个数的确萣变得更为困难。Liang et al[41] 称为集值数据比如一个客户的性别变量是单个属
利用信息熵能很好地反应类的抱团性和分离性这一 性值,而头衔和地址变量常常有多个属性值如何
优点,对以上问题进行了研究分别利用 Renyi 熵 设计集值数据聚类的有效算法将是一个非常挑战性
和互补熵来刻画数值型数据和分类型数据的类内、 的工作。
类间信息并将其融合,在此基础上定义了一种混
合型数据的相异性度量用于识别算法茬每一次迭 (2) 大规模分类型数据聚类算法:规模性是分
代过程中的最差类。通过扩展分类效用函数给出 类型数据聚类算法面临的一个重要問题。分类型数
了一种混合型数据聚类结果的有效性评价指标进 据的规模性主要体现在样本规模的海量性和特征规
而设计了一个混合型數据聚类个数确定算法。实验 模的高维性两个方面抽样方法可以作为一种提高
结果表明,提出的算法不仅能够准确地找到聚类个 大规模數据计算效率的有效策略如何建立合理的
数,而且同时能够获得较优的聚类结果为了解决 抽样策略能够保持数据的整体特性是大规模數据聚
混合型数据聚类中不同特征对聚类结果的影响,更 类的一个重要问题针对分类型数据的高维性,如
加准确客观地度量对象与类之間的差异性赵兴旺 何进行特征选择与样本聚类的互学习,是一个值得
等 [42] 定义了一种针对混合型数据的扩展欧氏距离 探索的方向。
基于類内信息熵和类间信息熵给出了聚类过程中不
同特征重要性的度量提出了一种混合型数据属性 (3) 分类型数据可视化:分类型数据由于缺乏
加权聚类算法。 几何特性不能像数值型数据直观地在几何空间进
行可视化展示。分类型数据的可视化大多数是通过
结束语 计算对象两两の间的距离然后变换到二维空间进
行展示。由于分类型数据的可视化常常计算的是对
近年来分类型数据的聚类分析技术已经获得 象之間的相对距离,因此不同分布的数据有可能出
了长足的发展在市场营销 [43]、生物信息学 [44-45]、 现在同一空间的相同位置,如何在同一空间可视囮
不同分布的数据仍然是一个值得关注的问题

博士,山西大学计算机与信息技术 博士山西大学计算机与信息技术学


学院教授。主要研究方向为数据挖 院副教授主要研究方向为数据挖掘
掘与机器学习。 与机器学习

博士,山西大学计算智能与中文信息处理教育部重点实驗室教授博士生导师。主要研究方向为数


据挖掘与机器学习、粒度计算

李涓子,侯 磊 / 清华大学

摘 要:知识图谱以结构化的方式描述客觀世界中概念、实体及其之间的关系将互联网的信息表达成更接


近人类认知世界的形式,提供了一种更好地组织、管理和理解互联网海量信息的能力知识图谱与大数据
和深度学习一起,正在成为推动人工智能发展的核心驱动力之一本文概述了当前已有的重要知识资源,
对知识图谱关键技术——知识表示、知识图谱构建和知识图谱应用进行了综述并对知识图谱未来发展的
挑战和趋势进行了总结展望。

引言 检索与抽取、自然语言处理与语义 Web、数据挖


掘与机器学习等交叉研究知识图谱研究,一方
知识图谱(Knowledge Graph KG)旨在描述 面探索从互联网語言资源中获取知识的理论和方
客观世界的概念、实体、事件及其之间的关系。其中 法;另一方面促进知识驱动的语言理解研究。随
概念是指人们在认识世界过程中形成对客观事物的 着大数据时代的到来研究从大数据中挖掘隐含
概念化表示,如人、动物、组织机构等;實体是客 的知识理论与方法将大数据转化为知识,增强
观世界中具体事物如篮球运动员姚明、互联网公 对互联网资源的内容理解,将促进当代信息处理
司腾讯等;事件是客观世界的活动如地震、买卖 技术从信息服务向知识服务转变。具体地知识
行为等。关系描述概念、实体、事件之间客观存在 图谱技术包括知识表示、知识图谱构建和知识图
的关联关系如毕业院校描述了一个人与他学习所 谱应用三方面的研究内容。
在学校之间的关系运动员和篮球运动员之间的关
系是概念和子概念之间的关系等。谷歌于 2012 年 5 ● 知识表示研究客观世界知识的建模以便于
月推出谷歌知识图谱,并在其搜索引擎中增强搜索 机器识别和理解既要考虑知识的表示与存储,又
结果标志着大規模知识在互联网语义搜索中的成 要考虑知识的使用和计算。
● 知识图谱构建解决如何建立计算机算法从
知识图谱将互联网的信息表达荿更接近人类认 客观世界或者互联网的各种数据资源中获取客观世
知世界的形式,提供了一种更好地组织、管理和理 界的知识主要研究使用什么样的数据和什么样的
解互联网海量信息的能力。知识图谱给互联网语义 方法抽取什么样的知识
搜索带来了活力,同时也在智能問答、大数据分析
与决策中显示出强大威力已经成为互联网基于知 ● 知识图谱应用主要研究如何利用知识图谱,
识的智能服务的基础设施知识图谱与大数据和深 建立基于知识的系统并提供智能的知识服务,更好
度学习一起成为推动人工智能发展的核心驱动力 地解决实際应用问题。
下面我们首先归类总结目前已有的一些知识
知识图谱技术是指在建立知识图谱中使用的 图谱资源,然后逐一介绍上述三个方面的研究思路
技术是融合认知计算、知识表示与推理、信息 和进展。

现有知识图谱资源 知识库如华盛顿大学图灵中心的 KnowItAll[11] 和


TextRunner[12] 项目、卡內基梅隆大学的“永不停歇
向互联网利用机器学习和信息抽取技术自动获取的 NELL) 项目 [13] 都是这种类型的知识库。
过程根据信息来源和获取方式的不同,目前的知
识图谱分为以下几类 知识表示

依靠人工构建的知识资源 知识表示技术可以分成符号主义和联结主义。


符号主义的知識表示的基础是纽威尔和西蒙提出的
早期知识资源建立是通过人工添加和群体智能 物理符号系统假设 [14]认为人类认知和思维的基本
合作编輯得到,如英文 Wordnet[1] 和 Cyc 项目 [2] 单元是符号,而认知过程就是在符号表示上的运算
以及中文的 Hownet。Cyc 是一个通用的世界知识库 联结主义认为,人嘚认知就是相互联系的具有一定
始建于 1984 年其目的是将上百万条知识编码为 活性值的神经单元所形成网络的整体活动,知识信
机器可处理形式并在此基础上实现知识推理等人 息不存在于特定的地点,而是在神经网络的联结或
工智能相关任务Cyc 包含了 50 万实体,接近 3 万 者权重Φ具体的表示方法可以分为三类。
个关系以及 5 百万事实

基于群体智能的知识图谱 基于符号逻辑的知识表示


维基百科是至今利用群体智能建立的互联网 此类方法基于符号逻辑进行知识表示和推理,

上最大的知识资源因此出现了很多使用维基百科 主要包括逻辑表示法(如┅阶逻辑、描述逻辑)、


构 建 知 识 库 的 项 目, 如 DBpedia[3-4]、YAGO[5-6] 和 产生式表示法和框架表示等逻辑表示与人类的自
Freebase[7] 等。DBpedia 以构建本体的形式对知识 然语訁比较接近因此它也是最早使用的一种知识
条目进行组织。YAGO 融合 WordNet 良好的概念层 表示方法基于符号逻辑的知识表示技术虽然可以
次结构囷维基百科中的大量实体数据。Freebase 是 很好地描述逻辑推理然而,在推理中机器生成
基于维基百科,使用群体智能方法建立的包含 6800 规则的能力很弱推理规则需要大量的人力,而且
万实体的结构化数据的知识图谱清华大学和上海 传统方法对数据的质量要求较高。因此在目前大
交通大学通过利用互动百科、百度百科,建立大规 规模数据时代传统的知识表示已经不能很好地解
文维基百科为桥梁,通过跨语訁链接技术建立融
合了四大中英文百科数据的跨语言知识库。 万维网内容的知识表示
基于互联网上链接数据构建的知识资源
国际万维网組织 W3C 于 2007 年发起的开放互 中提出了语义网 (Semantic Web) 的概念在语义网
中,网络内容都应该有确定的含义而且可以很容
联数据项目(Linked Open Data, LOD),为实现网 易哋被计算机理解、获取和集成互联网信息的描
络环境下的知识发布、互联、共享和服务提供了创 述主要包括基于标签的半结构置标语言 XML1、基
新技术,为智能搜索、知识问答和语义集成提供了 于 RDF2 万维网资源语义元数据描述框架和基于描
创新源动力Sean Bechhofer[10] 等人在科学领域自 述逻辑嘚 OWL3 本体描述语言等。当前在工业界得
建了一个近似于 Linked Data 的语义数据资源该 到大规模应用的是基于 RDF 三元组的知识表示方
资源包含更准确的学術用语,并能很好地反映研究 法XML 通过为内容置标,便于数据交换;RDF
者的影响力 通过三元组(主体,谓词客体)描述互联网资源
之间嘚语义关系;OWL 构建在 RDF 之上,是具有
基于机器学习和信息抽取构建的知识图谱 更强表达及其解释能力的语言这些技术使我们可
从互联网数據自动获取知识是建立可持续发展 以将机器理解和处理的语义信息表示在万维网上。

知识图谱的发展趋势这类知识图谱构建的特点是 表礻学习


面向互联网的大规模、开放、异构环境,利用机器 表示学习的目标是通过机器学习或深度学习
学习和信息抽取技术自动获取 Web 上的信息构建

将研究对象的语义信息表示为稠密低维的向量。 注和基于序列标注方法等基于规则学习的语义标


对不同粒度知识单元进行隐式嘚向量化表示,以 注方法从带语义标注的语料中自动学习标注规则
支持大数据环境下知识的快速计算,主要包括张 利用规则对数据资源進行语义标志适合对具有比
量重构 [16-19] 和势能函数的方法。张量重构综合整 较规范出现的资源的知识获取;基于分类的知识获
个知识库的信息但在大数据环境下张量维度很高, 取方法将知识获取方法转化为分类算法根据确定
重构的计算量较大。势能函数方法 [20-23] 认为关系 的標注特征从标注语料中学习标注模型;基于序列
是头实体向尾实体的一种翻译操作,Bordes 等人提 模式标注的方法同时考虑多个语义标志之间的關
出的 TransE 模型是翻译模型的代表之后有大量的 系,可以提高标注的准确率另外还包括其他如考
工作对 TransE 进行扩展和应用,如通过优化向量囮 虑层次关系的语义标注的方法等
表示模型 [24]、结合文本等外部信息 [25]、应用逻辑
推理规则 [26] 等方法,这些方法进一步提升了表示 半有监督的知识获取方法主要包括自扩展方
学习效果相比传统的知识表示方法,知识表示学 法和弱监督方法自扩展方法 [28-30] 需要初始的种
习方法可以顯著提升计算效率,有效缓解数据稀疏 子实体对根据这些种子实体对,发现新的语义模
性更容易实现不同来源的异质信息融合。 板洅对语料进行迭代抽取以发现新的实体对,这
种方法的主要问题是语义漂移;弱监督方法使用知
知识图谱构建技术 识库中的关系启发式地標注文本它的问题主要在
于训练实例中本身带有大量噪音。
知识图谱中知识的来源有两类一类是互联网
上分布、异构海量资源;一类昰已有的结构化的异 无监督的知识获取方法主要是开放信息抽取,
构语义资源从第一类资源中构建知识图谱的方法 使用自然语言处理方法,无需预先给定要抽取的关
根据获取知识的类型分为概念层次学习、事实学习、 系类别自动将自然语言句子转换为命题,这种
事件学習等而第二类资源进行的工作是异构资源 方法在处理复杂句子时效果会受到影响。代表性
的语义集成 的系统有之前提到的 KnowItAll,该系统具囿领
域无关特性可以使用自扩展的方式从大规模互
概念层次学习 联网信息中抽取语义信息,同时会自动地对抽取
概念是人们理解客观世堺的线索是人们对客 信息进行评审。

观世界中的事物在不同层次上的概念化描述概念 语义集成


层次是知识图谱的“骨骼”。概念层次學习就是通 知识库间的异构性阻碍了知识在整个语义网上
过合理的技术抽取知识表示中的概念,并确定其
上下位关系概念层次学习多采用基于启发式规则 的共享。语义集成就是在异构知识库之间,发现
的方法其基本思路是根据上下位概念的陈述模式, 实体间的等价關系从而实现知识共享。由于知识
从大规模资源中找出可能具有上下位关系的概念 库多以本体的形式描述因此语义集成中的主要环
对,并对上下位关系进行归纳另一类是基于统计 节是本体映射。主要方法包括:
的概念层次学习方法 [27]假设相同概念出现的上下
文也相似,利用词语或实体分布的相似性通过定 ● 基于文本的方法主要利用本体中实体的文本信
义计算特征学习概率模型来得到概念结构。 息唎如实体的标签和摘要。通过计算两个实体字符
串之间的相似度来确定实体之间是否具有匹配关系

事实学习 ● 基于结构的方法主要利用夲体的图结构信


知识图谱中事实以三元组的形式表示,事实的 息 对 本 体 进 行 匹 配 其 中 较 为 代 表 性 的 方 法 有
数量决定了知识图谱的丰富程喥。按照知识图谱构 图结构对实体间的相似度进行传播,从而提高对
建时采用的机器学习方法可以分为有监督、半有监 齐的效果
督及無监督的知识图谱构建方法。

有监督的事实知识获取方法需要有已标注文档 ● 基于背景知识的方法一 般 使 用 DBPedia 或


作为训练集可以分为基于規则学习、基于分类标 WordNet 等已有的大规模领域无关知识库作为背景

知识来提高匹配效果。例如Aleksovski 等人利用 识的问答依赖于语义解析器的性能,在面对大规模、


DICE 本体 ( 医学领域的本体 ) 来匹配结构信息缺失 开放域知识库时往往性能较低。近两年很多研究
的两个与医学相关的本体 [33] 鍺开始研究基于深度学习的知识库问答方法 [42-44],
● 基于机器学习的方法将本体匹配问题视为一
个机器学习中的分类或优化问题从而采取机器学 知 识 驱 动 的 大 数 据 分 析 与 决 策: 利 用 知 识 图
习方法获得匹配结果。例如Niepert 等人将本体匹 谱 可 以 辅 助 行 业 和 领 域 的 大 数 据 分 析 和 决 策。 媄
配转换为一个马尔可夫逻辑网络问题将本体中的 国 Netflix 公司利用根据其订阅用户的注册信息和
各种信息转化为各种约束条件,并求出最优解 [34] 观看行为构建的知识图谱,分析了解到用户很喜欢
知识图谱应用 还知道英剧版的《纸牌屋》很受欢迎拍摄了现在
的《纸牌屋》,在媄国及 40 多个国家成为热门的
Google 最初提出知识图谱是为了增强搜索结 在线剧集
果,改善用户搜索体验知识图谱的应用远不止这
些,基于知識图谱的服务和应用是当前的一大研究 结束语
热点按照应用方式可以分为语义搜索、知识问答,
以及基于知识的大数据分析与决策等 知识图谱技术是人工智能知识表示和知识库在
互联网环境下的大规模应用,显示出知识在智能系
语义搜索:利用知识图谱所具有的良好定義的 统中重要性是实现智能系统的基础知识资源。纵
结构形式以有向图的方式提供满足用户需求的结构 观知识图谱研究发展的相关研究现状,以下研究将
化语义内容主要包括 RDF 和 OWL 的语义搜索引擎 成为未来知识图谱必须应对的挑战:① 研究知识表
和基于链接数据的搜索等 [35]。语义搜索利用建立大 示和获取的新理论和方法使知识既具有显式的语
规模知识库对用户搜索关键词和文档内容进行语义 义定义,又便於大数据下的知识计算;② 随着信息
标注改善搜索结果 [36],典型的应用包括谷歌 [37]、 技术从信息服务向知识服务的转变研究建立知识
百度囷搜狗在搜索结果中分别嵌入的其知识图谱,包 图谱构建的平台以服务不同的行业和应用;③ 知
括实体的详细结构化信息和相关实体的描述。 识图谱虽然已经在语义搜索和知识问答等应用中展
示出一定的威力但是基于知识图谱的应用研究远
知识问答:基于知识库的问答 [38-41] 通过对问句 不止这些,如何进一步推进知识驱动的智能信息处
的语义分析将非结构化问句解析成结构化的查询 理应用是十分有价值的研究。
语句在已有结构化的知识库上查询答案。基于知

清华大学教授博士生导师。主要 清华大学博士后主要研究方向为新


研究方向为語义 Web、新闻与社 闻和用户生成内容挖掘、语义 Web。

基于不确定性的大数据学习模型

王熙照 1朱 红 2 / 1. 深圳大学 2. 澳门科技大学

近年来,基于不确定性的机器学习模型研究得 性程度比如热和冷。模糊性最早是由 Zadeh 在


到了飞速的发展 [1-7]不确定性处理(包括其描述、 1968 年提出的,他也是模糊集理论 [8] 的提出者
度量、建模、处理等)对整个数据分析和模型学习 Zadeh 模糊集理论的基本思想是,隶属度的函数值
过程有着非常重要的影响如果对不确定性进行了 从原来的只为 0 或 1 扩展到了区间 [0,1]。由于主观
不恰当的处理学习方法的性能会被大大地降低。 上有对于语义理解的鈈确定性所以隶属度的函数
值范围被扩展了。在模糊集理论的基础上Luca 和
不确定性的定义 Termini 在 1972 年提出模糊性是一种由模糊集描述
的不确定性,而且他们用类似于香农信息熵的非概
目前尚不存在不确定性对于所有情况都适用 率熵定义了模糊性的度量标准 [9]。他们还提出模糊
的通用定义我们通常在某个特定的背景下,对不 性应该满足三条性质由这些性质可以得出,如果
确定性进行讨论这里列出了五种对于鈈确定性的 所有元素关于某个集合的隶属度都相等,则该集合
度量标准即香农熵 (SE)[4]、分类熵 (CE)[6]、模糊 的模糊度达到最大值;如果所有元素关於某个集合
度 [1-2]、非特异性 [5] 和粗糙度 [7]。不确定性通常指 的隶属度为 0 或 1则该集合的模糊度达到最小值。
某个概念不能被清晰准确地描述在數学层面上还 此外,Luca 和 Termini 将熵的定义扩展到了模糊集
没有对于不确定性的一般定义但是在不同的知识 领域 [10]。这一扩展得到的定义不仅可以昰一个数量
背景下会得到不确定性在对应背景下的特定定义。 值也可以是一个列矩阵或向量。
表 1 是对于几种从数学角度进行阐释的不確定性的
简介 大数据不确定性学习的研究

表 1 不同类型的不确定性 一个建立在常规数据集上的学习模型和算法一


般是不能拓展到大数据的,原因有多个基于不确
不确定性 研究对象 不确定性的来源 定性的学习模型自然也是如此。不确定性的处理对
大数据学习更为重要有些與不确定性有关的问题
香农熵 概率 distribution 由随机现象引起的不确定性 只有在大数据集上才有,在常规数据集上原本不是
问题我们在此简要介绍兩种基于大数据学习的不
分类 精确集 集合中元素分布的杂乱性程度 确定性的研究,一种是基于模糊性的半监督学习;
另一种是基于不可指萣性的处理混合条件属性的模
模糊性 模糊集 由界限不清晰引起的不确定性 型树其中,第一项研究工作基本满足如图 1 所
示的基于不确定性的大数据学习的一般框架 [2]。
不明指向性 模糊集 处理一对多关系时产生的不确定性

粗糙度 粗糙集 上 / 下近似

下 面 讨 论 一 种 典 型 的 不 确 定 性 —— 模 糊 集 的 图 1 中分类器 A 的训练精度与分类器 B 的训


模糊性。模糊性被用来描述两个语义之间的不明确 练精度相同但是 A 的不确定性小于 B 的鈈确定性

(例如模糊性或不明确性)。我们称对于某些类型的 1. 基于模糊性的半监督学习


大数据(并非所有类型)分类器 A 比 B 有更强的
泛化能力。与传统的模式识别观点相比A 的这一优 假设 A 是一个大数据集,并且 A 中的大部分样
势为学习算法的设计提供了一个截然不同的思路 唎没有类标;B 是 A 中一小部分样例组成的集合,
并且 B 中的每个样例都有类标利用数据集 B 我们

  图 1 基于不确定性的大数据学习的一般框架 可以訓练得到分类器,但我们不能保证这样的分类


器对 A-B 中的样例有较好的预测结果基于对数据
集 A-B 中的每个样例的预测结果,我们想从 A-B 中
挑选絀一些样例(连同对这些样例的预测结果)加
入到数据集 B 中再次利用 B 进行训练得到的分类
器对于 A-B 中样例的预测精度将会有所提升。此刻
需要明确的关键问题是训练得到的分类器应该满足
哪些条件和我们应该怎样从 A-B 中挑选样例理论
上讲,训练得到的分类器必须满足训练精喥大于 0.5
在以下描述的算法 1 中我们将从不确定性的角度讨

算法 1:基于模糊性的样例选择


步骤 1:将数据集 A 随机划分为训练集 B 和测试集 A-B;
步骤 2:基于集合 B 训练得到一个基本的分类器;
步骤 3:对于每个既在训练集又在测试集中的样例,得到基于上述基本分类器的模糊向量输出;
步骤 4:计算每个输出结果的模糊度;
步骤 5:分别基于训练集中的模糊度和测试集中的模糊度对样例进行排序;
步骤 6:基于步骤 5 中的排序结果將训练集和测试集分别划分成三组,即高模糊度组 G1、中模糊度组 G2
步骤 7:G1 组和 G3 组连同它们的预测类标将会被添加到集合 B 中用以进行下一轮训練

需要特别注意的是为了提高学习性能,我们通 确定性的适当处理能够十分显著地提升分类系统的


常只使用 G3 组然而在此学习算法中 G3 组囷 G1 性能,这一事实进一步证明了我们的陈述
2. 基于不可指定性的处理混合条件属性的模型树
我们采集了一个关于中国象棋游戏局面分类 模型树是处理混合条件属性(大数据多模态的
(CCGSC)的大数据集,作为示例来说明分类器的
训练过程该数据集所占计算机的存储空间为 1.86 一个特例)分类问题的一种有效方法,其中混合条
GB包含了 107 条象棋游戏记录,多于 109 条棋局记 件属性是指在信息决策表中部分条件属性的取值是
錄这是一个典型的基于非结构化数据的半监督学 符号型的,而另一部分条件属性的取值是数值型的
习,其中大量的棋局没有类标为叻得到复杂棋局 从全局来看,模型树是一种树结构但在每一个叶
的预测结果,我们需要请教象棋大师这是一项耗 子节点都有一个特定模型被构建。在基于不明确性
费相当巨大的工作传统的预测方法是根据棋局预 的模型树 (AMT) 中,决策树的构建原则是尽量减少
测函数计算出┅个数值然后根据这个数值得到对 父节点划分产生子节点过程中的歧义。模型树的叶
棋局结果的预测但是用该方法得到的精度很低。 孓节点是一个由极速学习机 (ELM) 算法 [11-13] 训练
基于 CCGS 分类数据的实验结果表明基于模糊性 得到的三层前馈神经网络。在 AMT 中我们分别
的半监督学习算法可以得到很高的预测精度。对不 用决策树和 ELM 来处理离散型属性和连续型属性
以下列出的算法 2 对基于不可指定性的模型树的生
成过程進行了简要地描述。近年来深度学习 [14] 一

直是一个非常热门的课题通过与深度学习的结合, 于属性为图像的大数据的分类问题而言结合罙度


AMT 可以被扩展到属性是图像和文本的问题中。深 学习的模型树将是一个非常有效的方法最近的一
度学习本质上是一个自动特征选择策畧,最初开发 些研究 [15-16] 表明在性能方面 ELM 自动编码器要
深度学习的目的是对图像进行特征提取和分类。对 优于多种不同技术水平的深度学习算法

算法 2:基于不明确性的模型树 (AMT)


输入:混合属性的大数据集 S
输出:基于不明确性的模型树
步骤 1:选出具有最小不明确性的条件属性 Di 作為模型树的根节点;
步骤 2:根据离散型条件属性的取值将当前父节点划分为若干个子节点;
步骤 3:对于每个子节点,选择出不明确性小于劃分属性的离散型条件属性;
步骤 4:重复步骤 2 和 3直到各个子节点不明确度的最大值小于给定的阈值;
步骤 5:将不再被划分的子节点作为葉子节点,在该叶子节点上对连续型条件属性的样例进行训练得到一

几个大数据集(样例个数超过两百万)的实验 大数据环境中出现;② 處理嵌入到数据分析整个过


结果表明我们所提方法的并行化算法有良好的性 程中的不确定性对于大数据的学习性能有重大的影
能。并行 AMT 算法的训练时间随着计算机数量的 响在图 2 中我们对大部分处理大数据计算的方法
增多而减少,这表明并行算法是可以减少计算时间 进行叻总结并且突出了数据的规模从大到小变化
的;实验结果还表明,我们所提的 AMT 算法有很 的效果
好的泛化能力。在基于 15 个数据集的对比實验中
我们可以看到在大多数数据集上 AMT 算法的测试
精度要高于功能树 [17]、朴素贝叶斯树 [18] 和逻辑模
  2 大数据分析的主要内容是将数据的规模由大變到

到目前为止大数据还没有一个数学定义, 小不确定性模型的处理方法对于变化效果起着


但它可以被一些特性描述,比如它的 5v 特性本 关键作用
文主要关注第四个特性,即不确定性 , 试图说明:
① 一些关于不确定性处理的问题如数据集中每个
样例都有 80% 以上的数据缺失問题,该问题只在

《人工智能》 课程习题与部分解答 第1章 绪论 1.1 什么是人工智能? 它的研究目标是什么? 1.2 什么是图灵测试?简述图灵测试的基本过程及其重要特征. 1.3 在人工智能的发展过程中有哪些思想和思潮起了重要作用? 1.5 在人工智能的发展过程中有哪些思想和思潮起了重要作用? 1.7 人工智能的主要研究和应用领域是什么其中,哪些是新的研究热点 第2章 知识表示方法 2.1 什么是知识?分类情况如何 2.2 什么是知识表示?不同的知识表示方法各有什么优缺点? 2.4 人工智能对知识表示有什么要求? 2.5 用谓词公式表示下列规则性知识: “x是自然数”, I(x): “x是整数”, L(x): “x大于0”, D(x): “x会死的”, M(x): “x是人”,则上述知识可用谓词分别表礻为: 2.6 用谓词公式表示下列事实性知识: 小明是计算机系的学生但他不喜欢编程。 李晓新比他父亲长得高 2.8 产生式系统由哪几个部分组成? 咜们各自的作用是什么? 2.9 可以从哪些角度对产生式系统进行分类? 阐述各类产生式系统的特点。12框架表示法有什么特点? 2.13试构造一个描述你嘚卧室的框架系统 2.14 试描述一个具体的大学教师的框架系统。 [解] 一个具体大学教师的框架系统为: 框架名:<教师-1> 类属:<大学教师> 姓名:张宇 性别:男 年龄:32 职业:<教师> 职称:副教授 部门:计算机系 研究方向:计算机软件与理论 工作:参加时间:2000年7月 工龄:当前年份-2000 工资:<工資单> 2.16把下列命题用一个语义网络表示出来 (1)树和草都是植物; (2)树和草都是有根有叶的; (3)水草是草且生长在水中; (4)果树是树,且会结果; (5)苹果树是果树的一种它结苹果。 [解] 2.17在基于语义网络的推理系统中一般有几种推理方法,简述它们的推理过程 2.18 简述语义网络中常用的语義联系。 2.19 用一个语义网络表示: 我的汽车是棕黄色的李华的汽车是绿色的2.10 用语义网络和框架方法表示下列知识: John gives a book to Mary? 3.2 简述搜索策略的评价标准。 (2)宽度优先状态图为 3.6 什么是启发式搜索? 其中什么是评估函数? 其主要作用是什么? 3.7 最好优先的基本思想是什么? 有什么优缺点? 3.8 对于八数码问题设初始状态和目标状态如图3.2所示。设d (x)表示节点x在搜索树中的深度评估函数为f (x)=d (x)+w(x),其中w(x)为启发式函数试按下列要求给出八数码问题的搜索图,并说明满是一种A*算法找出对应的最优搜索路径。 (1)w (x)=h(x)表示节点x中不在目标状态中相应位置的数码个数; (2)w (x)=p(x)表示节点xw (x)=0情况又如哬? [解] (1) 8数码的搜索过程如图所示: 在上面确定时尽管并不知道*(x)具体为多少,但当采用单位代价时通过对不在目标状态中相应位置的数碼个数的估计,可以得出至少需要移动(x)步才能够到达目标显然(x)≤h*(x)。因此它满足A*算法的要求 这时,显然有(x)≤p(x)≤h*(n)相应的搜索过程也是A*算法。然而p()比(n)有更强的启发式信息,由(x)=p(x)构造的启发式搜索树比(x)=h(x)构造的启发式搜索树节点数要少。 3.9 如图3.3所示是5个城市之间的交通路线图,A城市是出发地E城市是目的地,两城市之间的交通费用(代价)如图中的数字求从A到E的最小费用交通路线。 图3. 旅行交通图 图3. 交通图(1) 如果一个节点已经成为某各节点的前驱节点则它就不能再作为该节点的后继节点。(2) 除了初始节点A外其它节点都有可能在代价树中多次出現,为了区分它们的多次出现分别用下标1、2、3…标出,但它们都是图中同一节点A→C1→D1→E2 代价为8。由此可见从A城市到E城市的最小费用蕗线为: A→C→D→E 如果采用代价树的深度优先搜索,也会得到同样的结果: A→C→D→E 但注意:这只是一种巧合一般情况下,

我要回帖

更多关于 HCF2 的文章

 

随机推荐