人工阅读和机器阅读有什么区别?

2022年6月27日,来自复旦大学计算机科学技术学院的“立德战队”和华为泊松实验室(Huawei Poisson Lab)组成的联合研究团队提出的C2FM with F1 Smoothing模型在HotpotQA榜单上荣居榜首,综合F1指标达到76.69。HotpotQA是由卡内基梅隆大学、斯坦福大学、蒙特利尔大学的研究团队提出的多步推理机器阅读理解评测,需要模型在多个相关文档上进行推理获取答案,自2018年发布以来吸引了微软、华盛顿大学、日本京都大学、IBM研究院、约克大学、上海交通大学、南京大学、京东AI研究院等众多国内外高校和研究机构的参与。

▲ HotpotQA排行榜(干扰项赛道)榜单(截至2022年7月10日)

较于传统的问答数据集只需从单篇文章中获取答案片段,多步推理问答数据集需要模型从多篇文章中推理搜寻答案,HotpotQA还要求模型筛选出构建推理链条所需的佐证语句,因此具有更高的挑战性。HotpotQA包含干扰项赛道和全维基赛道,本次参与的是干扰项赛道,该赛道对于文本的阅读理解和推理能力提出了更高的要求,同时也是竞争最为激烈的赛道。下图是验证集中的一个样例,对于问题“在电影《亲吻与诉说》中扮演Corliss Archer的女性担任过什么政府职务?”,模型首先要从10篇文章中检索到《亲吻与诉说》和《秀兰·邓波儿》两篇相关文章,接着从《亲吻与诉说》中获取到由秀兰·邓波儿饰演Corliss Archer,之后从《秀兰·邓波儿》获取到秀兰·邓波儿担任过礼宾处处长,最终推理得到答案“礼宾处处长”。

本次登顶的模型名为C2FM with F1 Smoothing,由检索模块和阅读模块两部分构成,检索模块采用粗筛到精挑(Coarse-to-Fine)的构建方式,首先粗粒度的筛选出3篇相关的文档,之后将文档两两组合进行细致化的挑选,通过建立文档与文档之间的交互,获取关联信息,显著提升了检索模块的性能。阅读模块采用多任务学习(Multi-Task Learning)的方式,同时学习答案片段的选取以及佐证语句的判断,提出了F1 Smoothing方法优化答案片段选取的学习过程,避免模型对所选结果过分自信,进一步提升模型在答案片段选取任务上的表现。

机器阅读理解作为自然语言处理的重要领域,还有很多值得我们探索和研究的问题。参与这次比赛的“立德战队”成员汪燠欣和印张悦来自复旦大学计算机学院自然语言处理实验室,由邱锡鹏教授指导,并得到了华为泊松实验室的大力支持。

“立德AI战队”由复旦大学计算机学院人工智能方向发起成立,并以人工智能方向创始人吴立德教授的名字命名,旨在探索新型的AI人才培养方式,鼓励学生积极参与国内外高水平AI比赛,以赛代练,培养学生的AI基础素养和解决实际问题的研究能力。战队成员主要来自于复旦大学对AI领域感兴趣的本科生,并辅以经验丰富的研究生和教师参与指导。未来,战队希望招募更多对AI技术和落地应用感兴趣的同学,培养AI行业亟需的高水平创新型人才。

1. 阅读下面的文章,完成问题

    伊凡·叶果罗维奇·克拉斯努兴,一个第四流的报纸文章作家,夜深回到家,皱紧眉头,神色严肃,不知怎的,显得心事重重。

他在他的房间里闲走一阵,然后停住脚,揪乱头发,用莱阿替斯准备为妹妹报仇的那种口气说:“一个人已经精疲力尽,精神劳累,心里又郁积着愁闷,可是对不起,你得坐下来写东西!这就叫生活!一个作家明明心情忧郁,偏偏要强颜欢笑给读者凑趣;或者明明心里畅快,却不得不按照编辑部的命令大流眼泪。他灵魂里的这种痛苦的矛盾,为什么就没有人来描写一下?”他一面说,一面挥着拳头,转动眼珠……然后他走进寝室去,叫醒他妻子。

    “娜嘉,”他说,“我要坐下来写文章了……劳驾,别让人家来搅扰我。要是孩子哭喊,或厨娘打鼾,我就写不下去了……还有,替我烧点茶……再煎块肉排什么的……你知道,没有茶喝,我写不下去……只有茶,才能给我写作的精力。”

    他回到自己的房间,脱掉上衣,坎肩儿,靴子。他脱得很慢,然后,现出委屈的神情,在写字台旁边坐下。他把身子往圈椅的椅背上一靠,闭上眼睛,考虑他已经想出来的题材。他听见他妻子穿着拖鞋提哩踏拉地走动,劈出刨花来烧茶炊。不久茶炊的滚沸声和煎肉的咝咝声,传到他这儿来。他妻子仍旧在劈刨花,还弄得火炉的门和风箱哗啦哗啦的响。

    忽然间,伊凡猛一扭动,睁大惊吓的眼睛,嗅空气。“天呐!炉子冒烟啦!这个讨厌的女人存心要毒死我!”他嘟哝着,皱起脸来做出一脸的苦相。

                 ”他跑进厨房,大闹一通。过后不久,等到他妻子战战兢兢地踮起脚尖,给他送来一杯茶,他跟先前一样坐在安乐椅上,闭着眼睛,专心想他的文章。他没动弹,拿两个手指头轻轻叩着他的脑门子,假装没觉得他妻子走过来……他的脸现出委屈的神气。

    在下笔写题目以前,他按太阳穴,他扭动,他把腿从椅子底下抽出来,仿佛腿痛似的;要不然就懒洋洋地闭上眼睛,仿佛一只躺在沙发上的猫一样。末了,他勉勉强强往墨水瓶那边伸出手去,脸上的表情就跟他在签署死刑执行令似的,他这才写下了题目……

    “妈,给我点水喝!”他听见他儿子的声音。

    “嘘!”母亲说。“爸爸在写文章呐!嘘!”

    爸爸写得飞快,飞快,既不涂改,也不停顿,几乎来不及翻篇。摆放在书桌上的那些名作家的半身像似乎在想:“嘿!老兄,你可真行啊!”

    忽然,伊凡挺直腰,放下笔,听……他听见一种匀称单调的低语……那是尼古拉,隔壁房间的房客,在念祷告。

    “我说呀!”伊凡叫道。“劳驾,您不能小声祷告吗?您妨碍我写作啦!”

    写满了五页,伊凡伸个懒腰,瞧一瞧表。“天,已经三点钟啦,”他叨唠着。“别人全睡着了,我呢……唯独我非工作不可!”昏昏沉沉,筋疲力尽,他的头往一边偏倒,他上寝室去叫醒他妻子,用有气无力的声调说:“娜嘉,再给我烧点茶吧!我……觉着浑身没劲了。”

    他写到四点钟才罢手,要不是文章已经写完,真会一口气写到六点钟。他就这样远远地避开别人的窥探,在自己的小窝里对那些不得不受他支配的人称王称霸。这个暴君在这儿,在家里,跟我们在编辑部里常见到的那个低声下气、沉默寡言、毫无才华的小人物相比,是何等的不同!

    “我累极了,恐怕反倒会睡不着觉了……”他一面上床,一面说。“我们的工作,这种倒楣的、没好处的苦工,弄得人的灵魂比肉体还要疲乏……我不如吃点澳化钾的好……天知道,要不是为这一家子人,我早就丢掉这差使了……按编辑部的命令写文章真是要命!”

    他睡到中午十二点钟或一点钟,睡得又酣畅又踏实。

    ……啊!要是他是名作家,或成了名作家,要是他做了编辑,哪怕是副编辑呢,那他会睡得多么舒服,他会做什么样的梦,他会怎样伸懒腰啊!

    “他写了整整一夜!”他妻子脸上现出惊吓的表情,低声说。

    谁也不敢说话,不敢走动,不敢弄出一点声音来。他的睡眠是一种神圣的事,谁要是侵犯它,那个罪人就会为自己的过失大吃苦头!

    “嘘!”这个声音在这所房子里飘荡。“嘘!”

(选自《契诃夫小说》,安徽文艺出版社。有删改。)

【注释】①莱阿替斯:莎士比亚的作品《哈姆雷特》中的人物。②澳化钾:一种镇静剂。

【摘要】:针对现有命名实体识别方法主要考虑单个句子内的上下文信息,很少考虑文档级上下文影响的问题,文中提出基于机器阅读理解的中文命名实体识别方法,利用阅读理解思想,充分挖掘文档级的上下文特征,支撑实体识别.首先,针对每类实体,将实体识别任务转化为问答任务,构建问题、文本及实体答案三元组.然后,将三元组信息通过双向Transformer编码器进行预训练,再通过卷积神经网络捕捉文档级文本上下文信息.最后通过二进制分类器实现实体答案预测.在MSRA、人民日报公开数据集和自建数据集上的命名实体识别对比实验表明,文中方法性能较优,阅读理解思想对实体识别具有较好的作用.

支持CAJ、PDF文件格式,仅支持PDF格式


向晓雯,史晓东,曾华琳;[J];计算机应用;2005年10期
刘杰;;[J];太原师范学院学报(自然科学版);2009年01期
杨杭州;刘凯;颜志军;李军莲;孙海霞;;[J];信息系统学报;2017年02期
依力达尔·依明;;[J];电脑知识与技术;2020年08期
刘卫平;张豹;陈伟荣;张诚;陈渊;潘仁前;;[J];指挥信息系统与技术;2020年02期
祖木然提古丽·库尔班;艾山·吾买尔;;[J];现代计算机;2019年14期
朱颢东;杨立志;丁温雪;冯嘉美;;[J];湖北民族学院学报(自然科学版);2017年01期
包敏娜;斯·劳格劳;;[J];中央民族大学学报(哲学社会科学版);2017年03期
罗芳;熊前兴;肖敏;;[J];武汉理工大学学报(信息与管理工程版);2011年06期
金明;杨欢欢;单广荣;;[J];西北民族大学学报(自然科学版);2010年03期
彭春艳;张晖;包玲玉;陈昌平;;[J];计算机工程;2009年22期
中国重要会议论文全文数据库
冯元勇;孙乐;张大鲲;李文波;;[A];第三届全国信息检索与内容安全学术会议论文集[C];2007年
李治国;周俏丽;;[A];第三届学生计算语言学研讨会论文集[C];2006年
陈禹;史晓东;向晓雯;张润延;;[A];内容计算的研究与应用前沿——第九届全国计算语言学学术会议论文集[C];2007年
付瑞吉;车万翔;刘挺;;[A];黑龙江省计算机学会2009年学术交流年会论文集[C];2010年
刘非凡;赵军;吕碧波;于浩;夏迎炬;;[A];全国第八届计算语言学联合学术会议(JSCL-2005)论文集[C];2005年
史树敏;王志强;周浪;冯冲;黄河燕;;[A];第三届学生计算语言学研讨会论文集[C];2006年
庞薇;徐波;;[A];第四届全国学生计算语言学研讨会会议论文集[C];2008年
朱佳晖;张文峰;刘卫平;张超;陈渊;;[A];第六届中国指挥控制大会论文集(上册)[C];2018年
丁晟春;刘逶迤;熊霞;梅健;;[A];第四届全国信息检索与内容安全学术会议论文集(上)[C];2008年
潘华山;严馨;余正涛;郭剑毅;;[A];第26届中国控制与决策会议论文集[C];2014年
中国博士学位论文全文数据库
付瑞吉;[D];哈尔滨工业大学;2014年
豆增发;[D];西安电子科技大学;2013年
中国硕士学位论文全文数据库
崔向阳;[D];哈尔滨理工大学;2012年
薛天竹;[D];哈尔滨工业大学;2017年
张佳宝;[D];国防科学技术大学;2010年

我要回帖

更多关于 什么是交互式阅读 的文章

 

随机推荐