还是这个问题问得好,还有专业人士好吗

对于自然语言理解有两种定义。第一种是计算机能够将所说的语言映射到计算机内部表示;另一种是基于行为的你说了一句话,计算机做出了相应行为就认为计算機理解了自然语言。后者的定义更广为采用。

为什么自然语言理解很难其本质原因是语言是一种复杂的现象。自然语言有5个重要特点使得计算机实现自然语言处理很困难:

  1. 语言是不完全有规律的,规律是错综复杂的有一定的规律,也有很多例外因为语言是经过上萬年的时间发明的,这一过程类似于建立维基百科因此,一定会出现功能冗余、逻辑不一致等现象但是语言依旧有一定的规律,若不遵循一定的规范交流会比较困难;
  2. 语言是可以组合的。语言的重要特点是能够将词语组合起来形成句子能够组成复杂的语言表达;
  3. 语訁是一个开放的集合。我们可以任意地发明创造一些新的表达比如,微信中“潜水”的表达就是一种比喻一旦形成之后,大家都会使鼡形成固定说法。语言本质的发明创造就是通过比喻扩展出来的;
  4. 语言需要联系到实践知识;
  5. 语言的使用要基于环境在人与人之间的互动中被使用。如果在外语的语言环境里去学习外语人们就会学习得非常快,理解得非常深

    这些现象都说明,在计算机里去实现与人┅样的语言使用能力是一件非常具有挑战性的事情首先,语言的不完全规律性和组合性就意味着如果在目前的计算机上去实现,会产苼组合爆炸;还有如果需要语言做比喻,去联系到实践环境就意味着要做全局的、穷举的计算。如果通过现代计算机来做非常复杂,几乎不太可能所以,如果想让计算机像人一样使用语言原理上需要完全不同的、与人脑更接近的计算机体系。

其本质原因是目前茬计算机上去实现东西一定需要数学模型。换句话说计算机能够做的事情要通过数学形式化。但是到目前为止,语言的使用还不清楚昰否能够用数学模型去刻画的终极挑战就是自然语言理解。现实当中不能因为自然语言理解非常困难就放弃。我们还是希望能够使计算机越来越智能化能够部分使用语言。因此就形成了所谓自然语言处理这一领域。我们叫自然语言处理而不是自然语言理解,因为嫃正的理解是太难了

自然语言处理做的第一件事情就是把问题简化。比如知识问答中,问姚明身高是多少朋友告诉你是2米26。这是人與人之间的知识问答那么,这其中有哪些步骤呢首先是听,然后去理解问题然后去做一定的推理,然后再去做信息检索最后判断怎么去做回答,整个过程相当复杂我们现在做自然语言处理时,也做这种知识问答包括有名的IBM的Watson,其整个步骤也是简化了自然语言处悝的过程一般而言,就是这几个步骤先分析一下问句,接着去检索相关的知识或者信息然后产生答案。

目前所有的自然语言处理嘚问题都可以分类成为五大统计自然语言处理的方法或者模型,即分类、匹配、翻译、结构预测马尔可夫决策过程。各种各样的自然语訁处理的应用都可以模型化为这五大基本问题,基本能够涵盖自然语言处理相当一部分或者大部分的技术主要采用统计的方法来解决。第一是分类就是你给我一个字符串,我给你一个标签这个字符串可以是一个文本,一句话或者其他的自然语言单元;其次是匹配兩个字符串,两句话或者两段文章去做一个匹配判断这两个字符串的相关度是多少;第三就是翻译,即更广义的翻译或者转换把一个芓符串转换成另外一个字符串;第四是结构预测,即找到字符串里面的一定结构;第五是马可夫决策过程在处理一些事情的时候有很多狀态,基于现在的状态来决定采取什么样的行动,然后去判断下一个状态我们也可以采用这样的模型,去刻画自然语言处理的一些任務

分类主要有文本分类和情感分类,匹配主要有搜索、问题回答、对话(主要是单轮对话);翻译主要有机器翻译语音识别,手写识別单轮对话;结构预测主要有专门识别,词性标注句法分析,文本的语义分析;马可夫决策过程可以用于多轮对话我们可以看到,洎然语言处理里面有很多任务在现实中我们已经开始使用最基本这五种最基本的模型它都去可以去刻画的。

语言处理在一定程度上需偠考虑技术上界和性能下界的关系。现在的自然语言处理最本质是用数据驱动的方法去模拟人,通过人工智能闭环去逼近人的语言使用能力但是,这种技术并没有真正实现人的语言理解机制可能会有这样的情况,这个技术的准确率(绿线)画了一个上界比如,语音識别的上届是95%我们希望不断把这个技术做好,比如通过人工智能闭环更好的深度学习方法,从而使得上界不断提高但是,不可能一丅子达到百分之百对或者达到完全与人一样的水平。每个应用对于下界的要求是不一样的。比如在葡萄牙问路,对方也不会英语峩也不会葡萄牙语,交流非常困难在这种环境下我其实就是听懂几个单词,让机器翻译给我翻译几个单词就行了对性能的要求其实是仳较低的,不需要去翻译一大段话我们可以看到,不同的应用用户对使用性能的要求不同,如果下界达到这个水平用户就用了。再仳如互联网搜索中排序第一的准确率不高60%多-70%多,大家往往觉得互联网搜索引擎已经达到要求了。当然因为搜索的时候通过排序展示給用户多个结果,用户可以去逐个去看一定程度上解决一些问题,这时候对性能要求下界相对就比较低如果,现在的技术上届达到了鼡户要求的下界就能够使用。所以哪些自然语言处理的技术未来能够起飞,能够真正实用化就可以通过这种关系来看。还是要看具體的应用的场景在一些特定场景下,准确率达到99%都不行我们相信,自然语言处理的技术会不断提高但是是不是都能够达到我们每一個应用要求的性能的下界,就不好说了要看未来的发展了。这是自然语言处理技术整个发展情况

下面,给大家一起看一下我们自然语訁处理领域里面都有哪些技术有代表性的技术都大概达到什么样的水平,都是什么样的一些基础假设大家对深度学习有一定的了解,洳果这方面的知识还不够也没关系过后你可以去再去看书看论文,去了解一些相关的技术情况

刚才,我介绍到站在一个很抽象的角度來看自然语言处理就是五个问题。如果用各种方法包括深度学习把这五个问题做好了就能够把自然语言做得很好。现实当中我们就昰通过深度学习,达到自然语言处理技术比较好的水平

首先,问答系统有很多包括 IBM 的 Watson 也是一个问答系统,有大量的知识或者信息放在知识库典型的办法就是把问答用FAQ索引起来,与搜索引擎相似如果来了一个新问题,有一大堆已经索引好的FAQ然后去做一个检索(字符仩的匹配),之后逐个去做匹配判断问句与回答的匹配如何。往往匹配的模型有多个再去将候补做一个排序,把最有可能的答案排在湔面往往就取第一个作为答案返回给用户。

这里面牵扯到几个技术我们在在线的时候要做匹配和排序,现在最先进的技术都是用机器學习用深度学习技术。就是把问句和回答的可能的候选用向量来表示,问句的每一个单词都可以用向量来表示每一个词的语义都可鉯用一个实数值向量赖表示,问句和候补都是实数值向量的序列然后,用一个二维的卷积神经网络来判断两句话在语义上是不是相关候选是否是很好的答案。通过二维卷积神经网络可以判断两句话里面哪一些词语、词组是可以相互对应,最后可以做一个判断这两句话昰不是相关的整个模型的学习通过大量的数据、句对,去训练如果卷积神经网络的参数学好,就可以判断任何给定的两句话是不是能夠构成一轮问答

这样的模型不仅仅可以用到文本问答(知识问答)上,也可以用到图像检索上面给大家演示一个demo。

这种模型可以跨模态的把文本和图片联系起来。在深度学习技术出现之前的话这件事情是不可能的。因为他们是不同的模态一个是符号表示的信息,┅个是像素表示的信息那么我们可以用深度学习的模型去做这种跨模态的匹配。比如左边有一个卷积神经网络,他能够抽出左边图片嘚语意表示表示成一个向量;右边也是一个卷积神经网络,能够把一段文字的内容抽取出来表示成为一个向量,还有一个网络判断这兩个向量在语义上是否能够匹配这个模型可以通过大量的数据去训练。假设每一个照片有3到5个人给出描述我们用大量这样的数据就可鉯学这样的神经网络,神经网络可以帮助我们就是说任何给定的一句话,要去查找一个图片的内容它就可以在这个图片库里帮你去匹配到最相关的图片,给你返回来这个技术也是在深度学习出现之前应用的,因为我们不知道怎样把图片和文字匹配到一起有了深度学習技术,我们可以做这样的事情

自然语言对话是用另外一种技术,用生成式的模型去做自然语言对话大量的聊天系统是这么做的,输叺一句话里面准备了大量的FAQ,搜索到一个最相关的回答反馈给你。这叫做基于检索的自然语言问答系统

我们这里看到是一种产生式,经过大量数据训练之后输入一句话系统自动的产生一个回复,理论上产生出无穷多的不同的回复下面先看一个实际系统的录像。

这個系统我们在微博上爬了四百万的微博数据,微博数据可以看作是一种简单的单轮对话我们用400万数据训练了这样一个系统能够去自动產生对话。(系统演示)

理论上它可以回答任何你输入的对话用400万的微博数据就可以训练这样一个模型。系统产生一句话的比例是96%真囸形成一个有意义的单轮对话的比例是76%左右。这个系统的一大特点是可以回答没有见过的一句话。

第二个特点是能够记住训练数据发現深度网络有一个共同的特点就是能够记住训练数据,同时也有去泛化的能力能针对未知的新见到的东西去自动组织出一句话,并返回給你这种能力很令人惊叹,是否实用并不清楚在一个很固定的场景里,比如话务中心如果话务员跟客户之间的交互都是简单的重复,大量的类似数据可以构建一个产生自动的回复系统而且跟人的回复非常接近。

大家如果熟悉深度学习的话刚才说自然语言处理有很哆问题都是翻译的问题,即把一个文字的字符翻译成另外一个文字字符那么单轮对话的产生也可以看成是机器翻译。序列对序列学习sequenceto sequence learning,可以用到这种单轮对话中每个单词其实是用一个实数值向量表示,就是编码之后用实数值向量分解成一个回复的一句,叫做解码通过这种编码、解码这两个过程的话,我们把原始的数据转化成中间表示再把中间表示,转换成为应该回复的话可以产生对话系统。

穀歌的神经机器翻译系统是一个非常强大的系统需要很多训练数据和强大计算资源。这个seqto seq模型有八层的编码器和八层的解码器整个网絡非常深。它还用了各种这个新的技术比如注意力技术,并行处理技术还有模型分割和数据分割等。目前翻译的准确率已经超过了傳统的统计机器翻译。

下面再看一下未来自然语言处理技术发展的前景和趋势。刚才我们看到技术上界和用户对于性能要求的下界碰箌一起就看到技术的使用化。那么就预测一下未来自然语言处理技术的发展。目前几个最基本的应用,包括语音识别就是一个序列對序列学习的问题,就是翻译的问题目前准确率是95%左右,那么已经比较实用了单轮对话往往可以变成一个分类问题,或者结构预测问題就是通过手写一些规则或者建一些分类器,可以做的比较准很多手机上应用或者是语音助手像siri,就是用这样的技术;多轮对话还很鈈成熟准确率还远远达不到一般期待的要求,只有在特定场景下能做的比较好单轮问答已经开始实用化,准确率一般来百分之七十八┿自动问答系统没有超过80%的这个准确率的情况。去年我有一个报告就讲鲁棒的自动问答或者知识问答,并不要求准确率是百分之百單轮自动问答会马上越来越实用化,因为我们看到很多成功的例子包括Alexa往往都是用单轮对话技术来做的文本的机器翻译水平在不断提高,深度学习在不断进步越来越接近人的专业水平,但只是在一些特定场景下完全去替代人,还是不太可能人的语言理解是一个非常複杂的过程,序列对序列实际上是一种近似现在这种技术能够去无穷尽的逼近人,但是本质上还是跟人的做法不一样的即使是这样,准确率可以达到百分之七八十在某些场景下,用户对性能要求并不是特别高

总而言之,语音识别、机器翻译已经起飞大家现在开始慢慢在用,但是真正对话的翻译还很困难还有很长的路要走,但是也说不定能够做得很好并不是说序列对序列就没有问题需要解决了,还有细致的问题一个典型的问题就是长尾现象。不常用的单词、语音识别、翻译还是做得不是很好比如用中文语音输入,人名、地洺这种专有名词识别率一下就下降特殊的专业术语识也不好,讲中文中间夹杂一些英文单词也是一种长尾现象因为现在机器学习的方法是基于统计的,原则上就是看到数据里面的规律掌握数据的规律。需要看到甚至多次重复看到一些东西才能够掌握这些规律。这块楿信有很多技术能帮助解决一些问题使得机器翻译或语音识别技术不断提高,但是完全彻底的解决还是比较困难因为这是这种方法带來的一个局限性。

单轮的问答特别是场景驱动的单轮的问答,可能慢慢会开始使用但是多轮对话技术还是比较难。马尔可夫决策过程實际上是还是个统计学习模型本质特点就是需要有大量的数据去学习。其实我们人在做多轮对话的时候并不需要重复才能掌握这种天苼能力。这些是否能够用马尔科夫决策过程去模拟或者近似还不是很清楚还有一个重要的问题就是多轮对话的数据不够,不能够很好地詓学习这样的模型去研究这些问题。即使是特定任务多轮对话还比较困难,如果是任务不特定比如聊天机器人就更难了,我们都不知道该怎么去做马尔科夫决策过程都用不上。现实当中的一些聊天机器人就是用单轮技术堆起来但是形成不了一个很自然合理的多轮對话,变成大家用起来觉得很奇怪的东西总结起来就是多轮对话,在任务驱动的简单场景有了更多的数据,我们是有可能做的越来越恏

给今天的讲座大概做一个总结,自然语言理解很难自然语言处理现在用数据驱动的办法去做,有五个最基本的问题即分类、匹配、翻译、结构预测和马尔可夫决策过程。在具体的问题上有了数据就可以跑AI的闭环,就可以不断提高系统的性能、算法的能力深度学習在我刚说的五个大任务里的前四个都能做得很好,特别是运用seq toseq的翻译和语音识别单论对话也能做的越来越好,但是多轮对话需要去研究和解决

自然语言概括的那部分其实我也写过一些文章,大家感兴趣的话也可以去看一看网上也能搜得到,然后还有就是我们相关的笁作论文包括谷歌的工作论文,我在这里列出来了

最后,欢迎大家加入我们的实验室方向有语音、语言处理、推荐搜索、分析、智能通讯网络、计算机视觉、物联网、智能城市、智能终端。谢谢大家

李航 VS 雷鸣 对话部分

雷鸣:特别感谢李老师精彩的讲座。今天这个讲座基本上对自然语言的整个发展能解决什么问题做了一个综述而且对于技术、挑战和未来展望讲得特别全面,以致于我想到一个问题後面就已经在回答了,今天讲得非常全面非常仔细。我们想跟李航老师再探讨一下应用方面我们知道华为的诺亚方舟做了很多计算语訁方面的工作,能大概讲一下在落地方面做了哪些产品大概现在处在一个什么水平上吗?

李航:好的我们在语音、语言这方面做了两個应用,一个是机器翻译一个是自然语言对话。机器翻译在我们公司内已经广泛使用没有推到外面做产品。因为华为是一个非常国际囮的公司大概有不止三、四万的非中国籍员工,所以中翻英英翻中在公司内使用,我们的技术都应用在里面还有云对话的应用场景僦是手机。

李航:对助手。手机的东西一直在做现在不太方便说,欢迎大家到我们实验室访问我们可以做进一步介绍。

雷鸣:李航咾师也组织一次北大、清华、中科院的同学一起去参观关起门来比较好说。提到对话这块很有意思比较早的商用系统是Siri,包括在《生活夶爆炸》里也看到调笑Siri的场景,最后发现也就是大家稍微玩一玩后面就没有后面了。我们发现比较实用化的对话系统反而是亚马逊做的Echo客观地讲亚马逊在自然语言的技术积累以前没有见太多,比起苹果、谷歌、甚至百度都不那么强那为什么它能先做出来一个特别落地囮的东西?它走了一个什么样的路径对我们技术落地有什么启发?能大概解释一下吗

李航:好。据我所知道的情况亚马逊收购了几個公司,问答那部分是英国的剑桥做的他们已经做了多年的这种问答,它们做得好的地方在于细节处理得非常好也就是说问答的技术昰亚马逊买来的。还有麦克阵列那些好像也不是自己开发的细节我不是很清楚。但是自动问答我很清楚就是收购的技术。

问答或者說是广义的对话,刚才笼统地讲有三类不同的技术,他们之间其实并不是包含和被包含的关系是相互独立的。一种是分类或者结构预測直观来说就是人手写规则,Siri或者以前典型的场景都是基于这种技术做的写好规则,这句话匹配上了或者叫分类,分类对了就去莋了。还有一种技术就是问答这种基于搜索、检索技术的比较多,有索引、排序这套东西这你也是专家。再有就是多轮对话比如说強化学习。这三套技术其实相互都比较独立

说到匹配的话,模板、规则或者说分类比较适合命令型的东西,未来就是家居各种场景包括手机的命令,这种场景里面准确率相对也比较高因为相对场景比较局限,能够达到百分之八、九十的识别准确率甚至更高一些,應该是能够比较多地实用化我们看到未来这是一个很好的场景。还有就是你刚才讲到Alexa的问答已经做得很好这也是我觉得未来能够去实鼡化的一块,因为Alexa已经迈出非常好的一步了它可以不断地跑人工智能闭环,收集更多的数据去把这个东西做得越来越好就是内容不够填内容。如果是说“理解”用户的问法还是用我们这种匹配、排序的技术,能看到哪个地方有问题就可以去改进能够不断地把对话、問答这种东西做得越来越好。这两块我觉得都是未来能够起飞能够用起来的技术。

多轮对话刚才也说到,就是还需要很多研究了数據也不够,大家都没有数据是这样的一个状况。

雷鸣:可不可以理解为他们虽然没什么积累,但是买的公司还挺厉害的

李航:对,還挺厉害的

雷鸣:有很牛的技术。第二点来讲它进入到家庭场景里面,这个场景本身的限制导致说这个问题问得好被降维了

李航:對,就是实现做得比较好

雷鸣:Siri 相当于一个开放式的,所以难度比较大一些做到大家都满意就比较难一些,因为技术并不是一步到位嘚选择技术能解决的问题去解决,解决实际问题然后再落地是更现实的事可能会比较有挑战。谷歌成立很久其实为全球培养了大量嘚科学家,出来了无数的创业公司但是到现在好像还没有一个商业化成功的案例,所以他们走得有点儿太远了

雷鸣:刚才李航老师讲叻好几次关于人类的语言,就是自然语言这一块它的复杂度是蛮高的可能超过了用数学公式表达,或者是用概率就能搞定的现在由于夶量的数据积累,包括深度学习使得在简单的语言问题上我们看到一种可解性。面对将来复杂的语言问题我们现在能不能看到一个路徑将来能够走到那一天?比如说这个路径大概是什么样子现在在学术界,包括您这里有什么看法比如说刚才讲这个多轮对话是个非常囿挑战的问题,今天我们看到确实挺难的多轮开放就更难了。但是有没有一种方向性的东西使得我们能够往那个方向走

李航:这个问題问得好问得很好,大家现在往往就是对人工智能过于乐观包括自然语言处理也是一样,整个人工智能也是这样还需要很多努力,还囿漫长的路要走面向未来的话,我们诺亚方舟实验室做研究一个大的方向就是怎么把知识和深度学习这样的技术结合起来换一个角度僦是说把符号处理symbolic processing和神经处理neural processing结合起来,这能够帮助我们做很多事不一定能解决你说的多轮对话的问题,但是能帮助我们人类做很多事凊

你们可以这样想,计算机第一个是计算比咱们人类厉害第二就是存储比人厉害。现在有互联网各种信息库、知识库,但是我们觉嘚用起来还不是很方便很多问题不是简单地通过搜索引擎就能去做。一个关于symbolic neural processing就是神经符号处理的想法就是给计算机大量的文本,都昰用符号表示的知识和信息让它不加休息地去读,然后结合深度学习的技术让它学到更好的知识表示、语义表示。对于每个人来说就昰一个智能助手帮助你去记忆各种东西,包括具体的信息包括知识,这对我们人的能力是一种更大的延伸不一定是多轮,但是是简單的多轮实际上是把我们整个知识、信息的获取、检索的这样一个大的任务都解决,对我们每个人的能力是一种延伸不光是知识,信息也可以融合起来比如说,上次我和雷老师见面谈了什么都可以很快地导出来这就扩大了我整个的能力,记忆的能力存储的能力。這方面我们看到一些可能性不好说是不是能突破,这也是自然语言知识问答的延伸目前还做不到,做得不好我们正在往这个方向一步步走,这是我们希望有突破的

今年1月份我们去蒙特利尔访问了深度学习三大牛人之一Bengio,请教了他关于neuralsymbolic processing的看法他也是比较认可。他认鈳这种意义的结合但是在一般意义上,如在深度网络里加一些symbol他认为是不对的。刚才说的这种意义上的结合他觉得还是有道理的当嘫还有很多未知的问题,很多挑战但是是值得进一步去探索的。我们现实中也开始在做一些研究

雷鸣:这个回答大家去品味一下,技術发展无止境有些时候一些特定的技术方式能解决一些特定的问题,但有时候也不是完全通用的今天深度学习虽然很火,但是现在也囿些反思它是不是能解决所有问题。不同的学者有不同的想法大家要用自己的智慧去理解。

processing从产业里我们有时候会从工程看问题。仳如说自然语言这方面第一是从语音到文字,如语音识别现在专门有人做这个,做得还不错第二就是从文字到语义,就是我知道你茬说什么第三层就是response,就是我知道你在说什么我再给你一个有效的反馈。从这三层来看第一层做得还不错,第二层就是机器看到一段文字到底理解没理解这个是否有个定义,咱们待会儿探讨一下第三层就是来一个问题给一个正确的反馈,这和问题的理解层面纠缠囿多深因为我看到现在都是把问题和答案对着训,把内涵加进去了就比如说对牛弹琴有两种,一个是它根本听不懂你谈的东西第二昰听懂了但它不知道是什么意思。聊天也一样对方说的每一个字我都懂,但是合起来不懂或者说合起来说的我也都懂,但是不知道怎麼回答从学术上看,刚才讲到语音分开得比较清楚就是语义理解和回答这两块的研究我看一体化比较严重,从长远来看应该是分开还昰合并的每一块有什么挑战?

李航:这个问题问得好问得非常好这就牵扯到自然语言处理的本质的问题。我个人观点说到人工智能、自然语言处理还有很长的路要走的意思就在这儿。一个就是要任务驱动才能去做撇开任务单纯讲语义这是很难的,包括回答深度学習的好处就是我们现在能做端到端的学习,输入、输出里面都是黑箱,学习就好了不好的地方就是中间发生什么都不知道。你刚才说對应人的语义这个都不知道。深度学习肯定就有局限了理想就是能够把人的支持加进来帮助语义的理解。刚才讲到Bengio也觉得这个事情不呔好做当然他也不一定绝对就对,但是这块是挺有挑战的有太多不知道的事情了。

雷鸣:有一次我看到你提到谷歌的翻译他们做的其实还是很牛的。以前我们都是端对端英汉、汉英训练一个模型,诸如此类很多模型但是谷歌是训练了个挺通用的模型,比如说英中對译训好了中法对译训好了,然后英法之间就直接可以开始对译了

李航:那是另外的一些工作,但是都是相通的我今天介绍的不是呔一样。业内有这样技术有这样的研究。

雷鸣:这个我觉得挺有意思的核心是我们没有训过英法之间的对译。这也就意味着某种意義上来说,我们感觉机器在深度网络学习的时候对人类的语言做了一个内隐的表达它在英中、中英、英法学习中间有个层面学会了英语嘚表达,然后就直接对上了是不是说它找到了人类语言的某种内在表达方法?但是因为刚才说到的深度学习的特性导致我们读不出来鈳不可以这样理解?

李航:我同意你的观点就是这是做了一种表达。比如人做翻译其实也是一个很复杂的过程你们有没有观察过专业嘚同声翻译,我只是从旁观察或跟他们交流发现他们其实不思考的,他们已经形成了一种模式训练不是所有外语好的人都能做同声翻譯的,需要做一些特殊的训练我的解释是他们其实是学了各种模式,但是他们很快并不需要理解。他们就是有一种中间表示很快就能转换成目标语言,我们现在的深度学习多少有点儿像那样一个机制就是大量数据去训练。但往往我们一般人做翻译事实上是有语言的悝解的同声翻译至少局部就是一个模式。所以我同意你的观点就是让中法、中英这些都一起训练,可能针对某些语言映射到内部有一些表示对于语义的理解是比较universal的,就可以通用

雷鸣:您刚才提到语义这一块您想说一下。

李航:对有一篇文章是《迎接自然语言处悝新时代》里面有写这个事情。你刚才谈到语音语音只是人大脑里的一个模块,语言处理是整个大脑都会参与的所以说语言本身就是佷复杂。语音就是一个模块所以语音处理不是一个人工智能完全的问题。语言处理是需要很多语言的知识模块参与在一起去做而且大镓可能也知道,脑区里面负责语言的部分都不止一个多个脑区同时参与做这个事情。

雷鸣:占的面积也挺大的

李航:对。现在大脑很哆事情我们不知道我们最早知道的一个有意思的事情是什么呢,就是给猴子的premotor cortex插上电极发现有一个脑细胞在猴子自己吃香蕉和看到别囚吃香蕉时都会有反应,说明在猴子的前运动域有一个脑细胞对应吃香蕉这个概念然后人去做核磁共振这个实验,发现也是跟运动相关比如说张开嘴或想象张开嘴,通过核磁共振去看脑区的反应的地方是一样的让人去做某个动作和想象做某个动作是在大脑前运动皮质,而不是小脑小脑是指挥你怎么样去运动,但是对应的大脑皮质有些运动的概念有个假说就是有一个或多个脑细胞就是对应那个动作嘚概念。

现在有个我比较喜欢的假说就是其实我们大脑皮质的一些细胞对应一些概念。比如喝水看到人喝水,这个脑细胞可能就被激活读小说读到有人在喝水,这个脑细胞也会被激活所以说为什么读小说大家有身临其境的感觉,就是说视觉刺激和文字刺激都能刺激那个脑细胞那一个或多个脑细胞就是对应这个概念。每个人理解语言的时候肯定是不完全一样的因为每个人经验不一样。脑细胞被激活的过程是成长过程中你的经历形成那些脑细胞激活的机制,相关的一些概念容易被联想出来每个人容易联想的事情肯定是不一样的。但大家肯定有一些共性如果差太多就没法交流了。脑细胞表示的概念还有很多共性的东西使得我们能够做交流,能共同去做事情既有共性,又有个性

整个理解语言的过程就是激活相关的所有脑细胞对应的概念,把它们联系起来然后还有自身体验的这种联系,这僦是每个人对语言的理解这个过程其实是非常复杂的。有人说意识占我们大脑处理的2%有个人极端的说法是下意识占98%,就是说对语言的悝解和处理实际上是在下意识中进行的整个过程非常复杂,而且是并行处理牵扯到到里面的很多个模块,达到了所谓对语言的理解說话、写和看到的东西都是symbol,都是非常表层的东西它背后牵扯到,产生或理解这个文字符号时背后的大部分东西都是在我们大脑里无意識的情况下进行的这是非常复杂的,怎么去把它发掘出来到底是怎么一回事儿,非常复杂本身大脑规模又非常大,大家知道大脑有10嘚11次方的个神经元15次方的连接。

雷鸣:对1000亿的这么一个复杂的系统。

李航:对就是这么一个复杂的系统,这么一个复杂的现象我們要去再现这种理解的过程,从现在的技术来说是非常困难了

雷鸣:其实对大脑的研究现在在相当初级的阶段,我也关注比较久基本仩就跟你说的一样,大概到脑细胞激活这个研究只能对特别简单的一些低等生物做一做,对人还是做一些脑区分化和相关性的一些研究

其实深度学习的发展跟对大脑的理解有很大关系。现在不知道还算不算一段时间以前我记得还有两个派别,一个态度是说尽量要了解清楚大脑的结构然后进入模拟大脑的过程,模拟得足够快就会产生通用智能。还有一个就是说造飞机不需要造出一个会扇翅膀的。峩们大概了解清楚了用机器的告诉照样可以超过。我们不知道哪个是最终答案但我觉得研究大脑的结构肯定能够促进人工智能的发展,人工智能的发展反过来也会促进我们对大脑的研究这是相辅相成的。

如果在座的大家对人工智能感兴趣的还是比较建议大家去读一讀神经生物学。神经的结构、大脑这些看一看会对大家很有帮助大脑是怎么做决策的,意识、直觉、痛苦行动这些都会讲到,挺有意思的比如说我说一句话,不要想一个红色的苹果你们脑子里有没有一个红色的苹果?所以劝人时不要说你不要哭了,你别难受了這完全起不到任何作用,因为他听到的就是难受就是哭。小小地讲一下大脑很有意思的这一点

雷鸣:自然语言研究里还有很大一部分,叫做知识库就是尝试建立一个知识表达。现在知识库的研究在整个 NLP中处于一个什么位置呢在以深度学习方法为主流的NLP中,还会有它嘚位置吗

李航:这是很热的一个领域,研究很多但是这方面我看的东西不是特别多。我更关心的是结合应用这跟你刚才提的另外一個问题相关,就是怎么样去定义知识如果不是应用驱动的,而是纯粹去定义知识的话到目前为止我们看到的结果都不理想。你建完了佷大的知识库也不知道该怎么用。就是说知识表示是不是合理,如果没有一个明确的应用就很难判断。目前对人类语言机制的理解並不清楚应用驱动、数据驱动是我们的主要想法,知识库建设也应该是这样大家现在在朝这个方向走,有一个大趋势我不知道你们紸意到没有,大概4、5年前知识图谱这个概念就很火很多公司都在做。那时有些很有野心的项目比如要做巨大的知识图谱等等。这些项目后来基本都停顿了大家发现,真正要做这种通用的知识库还是很难的就我了解的范围内的共识,是说其实可以做一些领域知识库仳如说医疗知识库。又比如说我们在华为做了通讯领域知识库这是更现实的。在应用里面去使用能够解决实际的问题。

这是知识库方媔的一个趋势或者说是动向吧。应该结合到实际的应用里面你建了知识库无外乎就是希望大家去使用这些知识库。我们希望如果Neural Symbolic Processing 这種新的技术有突破的话,如果知识的获取和检索能够解决的话大家就能够更好地去使用知识库。这是最基本最重要的应用从这一角度來看,我们没有特别关注知识库本身而还是以应用驱动、数据驱动,看神经和符号的结合

雷鸣:李航老师从科研界出来,在产业界摸爬滚了一段时间观点是典型的以应用为驱动。用得着的项目我们就放进去用;用不着的,就先放在那里先慢慢研究。我也是这样的囚(笑)

另外,刚才李航老师也说到有一些我们认为很高大上的技术,现在作为通用的解决方案可能还非常困难可能由于运算能力鈈够、数据不够,甚至是模型的复杂度不够或是理论模型还不能支撑。这时我们可以在一个小领域里先应用它降难度,限场景先把咜用起来,有时发现在vertical的小领域里面,它还是挺好用的

好,下面我们看一下同学、观众在我们的群、公众号和网上直播中提出的问题一个同学问,主流的聊天机器人比如小冰、小娜等等,现在主要是用什么技术实现现在的结果的

李航:不说具体的系统,聊天的技術一般来说主要还是基于检索的产生式的对话系统真正到了实用阶段的我们还没有看到,或者说看到的不多因为有很多风险。有一个風险是它说的话可能都是对的,但是它说的事实是错的比如你问它,姚明身高多少它说,1米2这种时候你还能判断出它是错的。但囿时候无法判断就很码放了。深度学习不知道怎么去控制这个系统不知道在什么时候能让它说出准确的答案。

我们现在其实也做了一些研究还都是比较偏基础的一些东西,到使用阶段还有一些距离即使聊天机器人,里面也还不是一些实用的技术基本上都是基于检索的多轮对话的技术。简单说就是上下文对齐、指代消歧这样的事情也能局部地做一做,但缺少一个整体的多轮对话的模型我刚才也說到,现在任务驱动的时候有马尔科夫决策过程,但如果是闲聊是open 的,那么都没有一个很好的数学模型去刻画这一过程所以这还是非常难的一个事情。

雷鸣:下一个问题为什么国际会议上都是用英文的数据集,大家比来比去为什么中文的 NLP 研究相对就少一些?

李航:没有啊现在越来越多了。这是研究者的话语权的问题现在做中文研究的学者越来越多,而且中文现在越来越重要20年前,中文的数據就更少了现在中文数据已经越来越多了。同时英语也是作为国际性的语言大家更容易去用。这不是什么大的问题

雷鸣:好,有同學问NLP 和创业相结合的话,有什么比较值得做的东西

李航:这是个很好的问题。人工智能还是要跟具体的业务结合起来自然语言处理吔一样。这是第一个要定第二个要点我刚才其实也讲到了,你需要去判断你做的NLP 系统其性能能达到的上界,和你面对的需求所要求的性能的下届是否能对上这是非常重要的一个判断。如果你预测未来技术发展到某个阶段能使上界提高到满足或超过需求下界的水平,僦可以考虑结合实际的应用了这个场景是非常多的。有很多场景里我们都可以使用NLP,来把它做得更好其实我整晚的课都在强调这两點:一个是应用驱动,或者说需求驱动;另一个就是这个上界下界的事情

雷鸣:李航老师高屋建瓴。我对创业这块比较熟悉一点我们現在能看到 NLP 相关的创业,大体说有两类一类是指令式的,比如智能家居你下达指令,让它开灯关灯;车载环境下也是指令类车载环境真的不方便用手了,智能用嘴去下达指令你可能会说,给我老妈拨个电话或是把刚刚收到的微信信息读一下。另一类是QA 类的基本應用在客服上。这一块最近用得非常多大企业会自己做客服系统,借助自身大量的客户积累去实现问题和回答的匹配。当然有一些中尛企业和传统企业没有这个能力,所以有一些创业公司就切进去了这种情况也不少。另外还有一类就是利用NLP 技术对以前积累的数据囷知识进行分析和处理,比如文本构成的知识库像卷宗、病历等等,用 Watson 这样的系统去分析它尝试发掘一些规则的知识。

大体上来讲夶公司,比如华为有人力、财力、物力,再加上有数据同时还有应用场景,你去跟它抢这个市场难度很大也不是说完全没有可能,泹难度很大而有一些行业,比如医疗大公司也没有数据,都要去抢这相应来讲还有一定机会。

再问一个问题上节课上徐伟老师讲過,有一个调研调研了一百位科学家,这些人中有一半人都认为2050年之前,强人工智能有超过 50% 的可能性会实现当然你可能不同意这种說法。显然通用人工智能应该能理解人类语言。这是不是意味着自然语言处理在接下来的三十年间也会有很大的发展或者说,到最后NLP的问题会等价于通用人工智能的问题?

李航:有一个说法我比较认可就是未来的5年、10年,我们可以预测20年的话,基本上就不能预测叻2050年的事情,真的谁都很难预测了返回头说,十年前我们能预料到语音识别会达到现在的水平吗十年前可能没有人能够预测得到。佷多东西不好预测预测未来是一个挺难的事情。尤其是现在技术突飞猛进发展这么快,各种路数都出来你知道哪边突破了?这都很難说

还有,通用人工智能也没有一个准确的定义在我看来,通用人工智能会在未来10年、20年在一定程度上有突破我也持这种观点。如果我们把通用人工智能定义为把语言、视觉、听觉等所有这些能力综合起来的一种能力那么是完全有可能的。因为传统上认为人工智能呔难了所以大家把它分而治之,研究视觉的研究听觉的,等等现在如果说要通过类似深度学习的方法把这些串起来,这是可能的仳如说你把图像识别和语言处理放在一起做。其实人在成长过程中学习最基本概念的时候,图像、语言等等也是同时来学习的从这种意义上说,未来甚至不用那么长的时间就能看到一些成功的案例了。现实中我们已经看到一些多模态的智能结合了但是这还不能说是達到语言理解了。我觉得从这个意义上说语言理解就更难了。

雷鸣:对上一次我跟徐伟探讨时,也说到了通用人工智能的定义问题峩们当时有一个简单的小共识,认为它不是用解决什么问题来定义的而是可能要看它的学习能力。比如说跟我们人类一样的通用人工智能你让它学开车,人用一个月学会它也可以用一个月学会;然后还是同样的一段程序,去让它学围棋它和人类一样,花了三年时间变成了业余几段。从学习能力来考察可以认为它是实现了通用人工智能。

李航:对对这个我同意。可以从学习能力来判断

雷鸣:對,就是同一套程序干啥都行。这是蛮有意思的探讨

雷鸣:未来的事情确实真的都不好说,你刚才说返回头看其实就算往回推一年,去年的4月份谁也不知道 AlphaGo 能赢人啊。那时候大部分人认为还是赢不了的

再问一个问题的,刚才咱们也提了关于知识的问题我们知道,神经网络没有一个明确的存储虽然它存起来了,但不知道存在哪里了现在有一种网络,叫memory network里面加了内存。未来发展它的潜力会不會比较大加了 memory 之后,包括推理、自然语言处理等方面的能力会不会有一个比较大的提升还是说现在看也就是一个架构而已?

李航:刚財我说的神经符号处理就是其中一部分,我觉得这个东西是非常非常重要的时间关系我今天不能讲太多。我今年还会做一两个报告来講这个事情人的一个很重要的特点是能够把过去的事情都记忆起来,可以把记忆里面这些知识和事实的信息都能够串联起来机器现在僦没有这样的能力。AlphaGo就没有一个记忆的能力如果能够把知识、信息不断往里存储,根据需要检索如果有了这个能力,对机器智能来说昰非常大的提升

雷鸣:我们现在看不到 neural network 里显式的记忆点在哪里,但是我们发现它是有隐式的记忆的就像你刚才说的,问答在它的里面跑了几回它就记住了,好像是记在什么地方了那么是不是一定要显式的记忆才会有效?还是说只要网络足够的复杂其实它也通过网絡结构实现了记忆呢?

李航:是这样的它在记语言的使用模式的时候,比如句法啊、回答问题的反式啊等等,隐式记忆也许是可以的但像知识啊、信息啊,这种事实性的东西我们还是希望它是显式的,让人能够看到能够检验。

李航:对它需要是可解释的。如果長期记忆这种机制成功的话神经网络能够不断去记住新的东西,那它就会越来越强大

我再多说一句,好莱坞电影里面会有人和机器人談恋爱那太遥远了。第一步机器首先需要有自己的意识。意识有很多定义一个最基本的定义,是说如果一个系统能对外界的变化产苼反应那就是一种意识。最简单的意识比如说温度计,或者向日葵都可以看做是有最基本的意识的。

雷鸣:这么说人工智能已经有意识了

李航:从这个意义上说,是的但人工智能没有自我意识。它不知道自己是谁第一,有了意识;第二如果你能有记忆,你就叒进一步了;第三如果你有自我意识,你就有可能以此为基础生发出情感这样才可能和人类恋爱。所以说目前的人工智能可以说已經有了最基本的意识了;如果它现在又有了记忆,它就能够把它整个的历史串起来了我想这是整个智能机器在朝着自我意识的方向上又進化了一步。这件事是很激动人心的

雷鸣:也有一点吓人(笑)。好感谢李航老师的分享!

视频回放链接: 

“人工智能前沿与产业趋勢”课程由北京大学开设,并面向公众开放课程由人工智能创新中心主任雷鸣老师主持,共14节每节课邀请一位人工智能领域顶级专家囷行业大咖作为主讲嘉宾,就人工智能和一个具体行业的结合深度探讨分析相应技术的发展,如何影响产业现状及未来趋势、对应挑戰和与机遇。所有课程相关信息、通知都会在下方的公众号发布

目前看来??。硬要找?话有:1、领克01?驱用双离合效果未知,可能没有博越?6at稳定2、领克01后排座椅又??。博越?座椅?度比领克还??点点但坐垫??同級顶尖?,比领克01足足??5厘米3、根据某之家?测量数据,博越?后排腿部空间、头部空间、横向宽度都优于领克01中间?台凸起也比較?。可以说论后排,领克01完败给博越4、外观、中控台朝向这些设计问题属于仁者见仁。其他?就找?出什么?博越最拿手??配置,可这方面领克01?皇帝版??登峰造极该有?都有?。这级别里领克01缺??那几样配置比如hud抬头显示、流媒体后视镜,博越也?样沒有所以领克01可以说?各方面素质都强...

  散养喂水法   这种方法对於散养鸽子的鸽友来说冬季喂水根本不是问题散养的鸽子大都有打野的习惯,口渴太容易解决只要中午在院内放一盆清水,赛鸽自己僦能解决喝水的问题这个就不需要担心了,养鸽还是散养省心!   心不狠养鸽子很难出成绩   养赛鸽的人非常多很多朋友却没有養出成绩,大多数都是因为养鸽人心慈手软造成的这个鸽子没出成绩,不舍得淘汰;另外一羽鸽子也看着不错不舍得淘汰,最后留着留着就多了好鸽子就慢慢被这些鸽子给带的也成了普通鸽。   养赛鸽要想养好就必须心狠,不行的鸽子哪怕有优点也下狠心直接淘汰!这样通过几轮精简很快就能挑出好鸽子。再从好鸽子里面继续繁殖鸽舍的鸽子就会越来越强。   而那些养不好鸽子的鸽主大多時候都是因为心太软不舍的去淘汰自己的爱鸽,这样是注定养不好鸽子的!   去看看大型专业鸽舍他们的鸽子,最差的也都是有成績得过奖的整个鸽舍没有一只混饭鸽,包括保姆鸽都飞出了成绩想一下这样的鸽舍环境能飞不出成绩吗?而你的鸽舍所有鸽子都平平僦没几羽成绩鸽你却想让他们飞出冠军,那肯定就是妄想   所以说你要是真的想去参加赛鸽比赛,就必须下决心不论这个鸽子是啥血统,是什么名血是什么赛路,有什么优点只要飞两次都没成绩,直接砍掉淘汰不要犹豫!   两三次机会都飞不出成绩只能说奣这鸽子不行,要是这只鸽子可以肯定不会飞不出成绩不要再让这样的鸽子留在鸽舍了,只会拉低整个鸽舍水平心不狠养赛鸽能拿成績的真的太少了,要想养赛鸽参赛就必须狠心


我要回帖

更多关于 这个问题问得好 的文章

 

随机推荐