版权声明:本文为博主原创文章,未经博主允许不得转载。 /u/article/details/
针对 CNN/Daily Mail 语料中不能使用外部知识,可能存在的指代消解错误等问题,探究一下几个问题:
本文的神经网络基于 Attentive Reader,但是又有所改进,见下图。
以实体为中心的分类器 利用 LambdaMART 构建一个传统分类器,选取人工选定的八个特征,探究哪些特征更加有用。
经过试验,对于基于特征的分类器来说:n-gram 和实体出现频率这两个特征最重要。具体结果见下表
然后从 CNN 开发集中随机挑选 100 个样本,人工分析,结果如下
其中第 5、6 两种是不能够处理的类别,也就是噪声,可以看出在样本中只有 75% 可以处理。然后对每一类都做具体分析,结果如下
因此,神经网络相比于传统方法,在 paraphrase 和 partial clue 两类问题上有很好的提升。