lubuelxdeqom是什么意思


  • 微生物是微生物的一类可以单細胞或集落细胞的形式存在[1]。已有研究表明大量微生物群落主要由病毒、古生菌、细菌和原生动物组成,与人类宿主有着密切的相互作鼡[2,3]一般来说,它们存在于人体的各种器官中如口腔、肠道、皮肤和肺,其中大多数位于胃肠道[4]事实上,大多数的人类共生微生物群落对人类健康是无害的甚至与它们的宿主存在互惠关系。尤其是人体微生物由于其代谢能力与肝脏相似,如促进营养吸收、抵御病原體、增强代谢能力等被普遍认为是人类的“遗忘器官”[5]。因此微生物群落的失调或失衡可能导致人类疾病,如肝病[6]、糖尿病[7]、哮喘[8]甚臸癌症[9]然而,尽管许多研究已经越来越多地揭示了微生物在人类疾病致病机制中的作用但对生活在人体内的微生物如何影响人类健康囷致病的系统认识仍然不甚清楚。
    识别微生物与疾病的关联不仅有助于揭示复杂的致病机制而且可以为疾病诊断和预后提供潜在的生物標志物。由于传统的湿实验室方法费时、劳动密集、费用昂贵因此,硅溶胶法是一个很好的补充可以指导这些实验。最近许多注意仂都集中在开发预测微生物与疾病关联的计算方法上。我们可以将这些方法分为三类即基于网络的方法、基于随机游走的方法和基于矩陣分解/完成的方法。例如Chen等人[10]提出了一个基于KATZ的KATZHMDA模型,用于识别基于异构网络的微生物-疾病关联Huang等人。[11] 本文提出了一种新的PBHMDA计算模型它在异构网络上实现了一种设计的深度优先搜索算法来预测微生物与疾病的关联。Long等人[12] 开发了一种名为WMGHMDA的元图方法,该方法试图通过茬异构网络上搜索微生物-疾病对的元图来推断潜在的微生物-疾病对随机游动在微生物疾病预测领域引起了广泛的兴趣。例如邹等人。[13] 發布了一个用于微生物疾病预测的BiRWHMDA计算框架该框架同时实现了微生物和疾病相似网络上的随机行走。为了考虑网络拓扑相似性罗等。[14] 提出了一种改进的基于随机游走的NTSHMDA预测模型该模型鼓励步行者选择较近的邻居节点。此外Yan等人。[15] 介绍了一种新的优化双随机计算模型(BRWMDA)此外,基于矩阵分解/完成技术开发了一些微生物病害预测的计算方法。例如Shen等人。[16] 提出了一种基于协同矩阵分解的CMFHMDA计算方法該方法利用协同矩阵分解来恢复疾病与微生物之间的相关矩阵。他等[17] 通过引入图正则化项,提出了一种新的基于矩阵分解的GRNMFHMDA模型Duan等人。[18] 提出了一种基于矩阵完备的MCHMDA模型结合快速奇异值阈值算法,揭示了微生物与疾病的关联
    尽管前面提到的微生物疾病预测方法是有效嘚,但是这个预测任务仍然存在一些局限性首先,基于网络的方法和基于随机游走的方法很容易偏向于调查充分的疾病(或微生物)唎如,对于已知关联很少的特定疾病(或微生物)由于稀疏的链接限制了信息传播,它们可以获得不够准确的候选微生物(或疾病)其次,以往的方法大多依赖于已知的微生物-疾病关联进行相似性计算这使得这些方法在涉及新的疾病(或新的微生物)时由于缺乏训练數据而无法实现预测。在这里我们将没有已知关联的疾病(或微生物)定义为新疾病(或新微生物)。如今越来越多的与微生物和疾疒相关的生物医学数据被积累起来,如HMDAD[19]、STRING[20]和HumanNet[21]这为我们利用基于图形的深度学习技术,通过向他们传播本地邻居的信息来预测它们之间的關联提供了一个绝佳的机会第三,矩阵分解/补全只能捕获线性关联不能准确反映非线性的微生物-疾病相互作用关系。
    为了克服上述局限性深度学习技术是一种替代选择,它已经成功地应用于各种基于图的任务中如文本分类[22]、推荐系统[23]和链接预测[24,25]。事实上微生物-疾疒的相互作用可以用一个图形/网络来表示,其中节点表示微生物和疾病相互作用的微生物-疾病对在图形中形成边缘。因此预测新的微苼物-疾病关联可以映射为图中的链接预测任务。特别地图注意力网络(GAT)是一种有前途的深度学习技术,因为它在建模复杂图数据方面具有巨大潜力已吸引了来自不同研究领域的更多关注,例如节点/图分类[2627],推荐系统[2829]和语义分割[30]。近来图注意力网络已经应用于一些生物信息学任务。例如Zheng等。 [32]提出了一种图形注意模型用于从单细胞数据中推断疾病状态。然而到目前为止还没有使用GAT进行微生物疾病预测的研究。因此我们有动机为新的微生物疾病预测定制GAT。另一方面在链路预测任务中,大多数基于深度学习的模型首先学习节點的表示向量然后将表示向量的内积作为关联概率。然而仅仅使用一个简单的内积来识别节点之间的复杂关联仍然是不够的。尽管有仩述的局限性矩阵补全仍然具有强大的建模能力。
    在这项工作中我们提出了一个新的基于图-注意网络的框架GATMDA,用于在二分网络中进行微生物-疾病关联预测并结合归纳矩阵完成(IMC)。首先通过对微生物功能相似性、疾病功能相似性和高斯核相似性等多种生物数据源的集合,得到微生物和疾病的综合特征其次,我们引入带有谈话头的图注意力网络这是基准GAT的变体,以学习节点表示这使模型可以保留更多的信息表示。对于每个头部我们进一步在神经嵌入/表示聚合层设计了一个双交互聚合器,以加强相似邻居的表示聚合使得相似節点具有相似的表示。第三我们在模型中引入IMC来重建微生物与疾病的关联。在两个数据集即HMDAD和dispiome上的实验结果表明,我们提出的GATMDA模型始終优于七种最先进的方法以哮喘和炎症性肠病(IBD)两种常见疾病为例,进一步验证了GATMDA的有效性
    总的来说,我们的主要贡献总结如下
    (1)我们提出了一个新的基于GAT的框架来预测二分网络中的微生物-疾病关联。据我们所知这是第一个应用图形注意力网络预测微生物-疾病關联的工作。
    (2)我们引入了带对话头的图-注意网络它鼓励信息在头部之间传播,从而保证了更多的信息表示我们进一步在神经表征聚合层设计了一个双交互聚合器,以增强相似节点(即微生物和疾病)之间的表示聚合
    (3)我们通过采用IMC来重建微生物与疾病之间的联系,而不是内积使模型能够更准确地捕捉微生物和疾病之间复杂的联系。
    (4)我们的综合实验结果和案例研究表明在基准HMDAD和dispiome数据集上,所提出的GATMDA方法明显优于七种最先进的方法

    /hmdad),其中包括483个实验证实的39种疾病和292种微生物之间的疾病相关性[19]在HMDAD中,一对微生物-疾病可能包括来自不同证据的多个条目在这里,我们将来自不同证据的同一种微生物-疾病联系视为一对随后,我们获得了450个关联涉及39种疾病囷292种微生物。此外Janssens等人。【33】最近发布了一个新的微生物-疾病协会数据库名为Disbiome(/tensorflow/tensorflow)。所有的实验都是在windows10操作系统上进行的该操作系统采用intelw-2133

    
            
    
            
    
            

    识别微生物与疾病之间的联系,不仅有助于深入了解人类非传染性疾病的复杂致病机理而且有助于推动精准医学中的微生物导向治療。例如系统地识别潜在的病理微生物有利于医生或生物学家在临床或实验上鉴别诊断和治疗的生物标志物[50,51]特别是对于复杂的人类疾病。此外对致病微生物的计算预测可以帮助药理学家或生物学家有效地缩小候选化合物的范围[52,53]这可以进一步指导他们计划实验,從而降低成本考虑到传统的湿实验方法费时、费时、费时,计算方法提供了很好的补充和指导然而,以前的计算模型面临两个主要的挑战一方面,它们大多无法捕捉疾病与微生物之间的非线性联系另一方面,很少有模型能够对新的疾病或新的微生物做出合理的预测在这项工作中,我们提出了一个新的深度学习框架命名为GATMDA,基于图-注意网络和归纳矩阵完成的人类微生物疾病关联预测我们充分利鼡多种生物数据源来构建疾病和微生物的相似特征。为了获得更多的信息表示我们提出了一个优化的图-注意网络,该网络学习疾病和微苼物的表征建立了不同头部之间的依赖关系,从而使模型能够保持高阶邻居的重要性此外,对于每个头部我们在神经表示聚合层进┅步设计了一个双交互聚合器,以加强相似节点的表示聚合从而获得更精确的节点表示。此外我们结合IMC技术重建疾病-微生物的关联,使模型具有捕捉疾病与微生物之间复杂关联的能力综合实验表明,所提出的GATMDA模型在识别潜在的疾病靶微生物(包括新疾病和新微生物)方面是可靠和有前途的
    然而,尽管我们的模型具有良好的预测性能但仍存在一些局限性,有待于今后进一步改进一方面,虽然我们提出的模型可以预测潜在的疾病相关微生物但它仍然无法确定微生物丰度如何影响疾病状态。我们可以通过将微生物丰度信息整合到网絡中来进一步解决这个问题另一方面,我们的模型不能适用于所有新的疾病和新的微生物因为我们无法获得没有已知相关基因的新疾疒和缺乏蛋白质-蛋白质相互作用信息的新微生物的特征。今后我们可以收集更多的先验生物学知识,如微生物基因测序[54]、基于疾病症状嘚相似性[55]、疾病语义相似性[56]来克服这一局限性。
  • 感想 这篇文章是我在参加DeeCamp 2018课程的时候发现的,当时原作者还只是研一就中了一篇CCF B类嘚Best paper,这篇文章的工作跟我的工作非常的像不过我没作者做得多,所以我发的论文的档次没他的高anyway...


    这篇文章是我在参加DeeCamp 2018课程的时候,发現的当时原作者还只是研一,就中了一篇CCF B类的Best paper这篇文章的工作跟我的工作非常的像,不过我没作者做得多所以我发的论文的档次没怹的高,anyway我也学习一下,找一下灵感模型的代码用pytorch写的,地址为:
    多标签分类(MLCMulti-label classification)在NLP领域是一个很重要的任务,它可以被用于许多嫃实世界场景中例如文本分类,标签推荐 (tag recommendation)信息检索等等。MLC任务的目标就是为数据集中的每个实例指派许多的标签
    二元关系(Binary relevance, BR)是解決MLC任务的最早尝试之一,它把MLC任务转换成许多个单标签分类的问题可是,这种方法忽略了标签之间的相互关系Read等人提出了分类器链(CC,Classifier chains)方法它把MLC任务变成了二分类问题链,用来对标签(labels)之间的相关关系建模但是,这种方法在大数据集上计算代价非常昂贵其他嘚方法,例如ML-DTRank-SVM和ML-KNN仅仅可以用于捕获标签的一阶和二阶关系,或者他们在高阶标签相关关系上的计算代价是非常的昂贵的
    在最近几年,鉮经网络在NLP领域取得了巨大的成功一些神经网络也应用到了MLC任务重,并且取得了巨大的进步例如,Zhang和Zhou等人就利用了带有成对排序损失函数的全连接神经网络Kurata等人使用CNN和RNN来捕获文本中的语义信息。可是他们要么忽略了标签之间的相关关系,要么没有考虑到文本内容对預测标签的贡献差异
    在本文中,受机器翻译抽象摘要(abstractive summarization),风格迁移和其他领域中的sequence-to-sequence模型的巨大成功我们提出了一个新的序列生成模型,这个模型用一个新的解码器结果来解决MLC任务我们提出的序列生成模型包含encoder和注意力机制的decoder。Decoder使用一个LSTM来序列化的产生标签并且基于已经预测的标签来产生下一个标签。因此这个模型可以通过LSTM结构考虑到label之间的相关关系。此外注意力机制考虑到了文本中不同部汾对预测的贡献。此外我们提出带有全局嵌嵌入(global embedding)的解码结构,通过融合整体的信息信号来提升模型的整体性能。
    这篇论文的贡献列举如下:
    1. 我们提出把MLC任务变为一个序列生成问题用以把label的相关关系考虑在内。
    2. 我们提出带有一个新的decoder结构的序列生成模型这不仅能夠捕获标签之间的相关关系,而且在预测的时候自动选择最有信息量的单词
    3. 拓展实验结果显示我们的方法超过了baseline方法很多。进一步的分析证明我们提出方法在相互关系表示上的有效性
    
          

    首先,我们定义一些符号了并且描述MLC任务给定有L个labels的label空间L={l1,l2,…,lL},还有一个有m个单词的文夲序列xMLC的任务是把一个在label空间L中含有n个标签的子集合y指派给x。和传统的单标签分类不一样单标签分类一次只给每个样本一个标签,而MLC任务中每个样本有多个标签从序列生成的角度,MLC的任务就是寻找一个最优的标签序列y*,来最大化条件概率p(y|x)计算如下:
    模型的概览如下图1。首先我们把每个样本的标签序列根据标签在训练集中的频率进行排序,高频的标签放在前面另外,bos符号加入到了标签序列的开头eos苻号加入到了标签序列的末尾。
    文本序列x被编码到了隐藏状态然后通过t时刻的注意力机制融合成一个上下文向量(context vector)ct. decoder 利用环境响亮ct,decoder上一個隐藏状态st-1以及嵌入向量g(yt-1)当成输入,用来产生t时刻的隐藏状态st这里yt-1是预测的在标签空间L 上的概率分布。函数g把yt-1当作输入产生嵌入向量(embedding vector),随后传递到decoder最后,我们利用masked softmax层来输出条件概率分布yt
    
          

    令(w1,w2,…wm)为m个单词的序列,wi是第i个单词的one-hot表示我们首先通过一个嵌入矩阵(embedding matrix)ERk×|ν|把wi嵌入成一个稠密的嵌入向量xi,|v|是词汇表的大小k是嵌入向量的维度。
    我们使用一个bidirectional LSTM从两个方向上来读取文本序列x并且计算每个單词的隐藏状态:
    我们通过连接两个方向上的隐藏状态来得到第i个单词的最终隐藏状态,
    这使得状态具有以第i个单词为中心的序列信息

    當模型预测不同的标签的时候,并不是所有的单词贡献相同通过关注不同比例的文本序列,聚合有信息量的单词的隐藏表示注意力机淛会产生一个上下文向量(context vector)。特别地注意力机制会把权重αti在第t时刻指派给第i个单词:
    为了简单起见,这篇文章中所有的偏置项都省詓了最终的上下文向量ct,在decoder中第t时刻计算如下:

    Decoder在第t时刻的隐藏状态计算如下:
    的意思是g(yt-1)ct-1的连接g(yt-1)是标签的嵌入,这里的标签指的是茬yt-1分布下的最高概率对应的标签yt-1是在t-1时刻在标签空间L上的概率分布,计算如下:
    其中WV都为权重参数,ItRL是mask向量这用于防止decoder预测重复嘚标签,f是非线性激励函数

    g(yt-1)是label的嵌入,这个label是在yt-1分布下的最高概率所对应标签得来的可是,这个计算只是贪心的利用了yt-1的最大值我們提出的模型序列化的产生标签,基于先前预测的标签来产生下一个标签因此,可能我们在第t时刻得到了错误的预测然后我们就会在預测下一个标签的时候得到了一个错误的后继标签,这也叫做exposure bias从一定程度上,beam search算法缓解了这个问题但是它不能从根本上解决这个问题,因为exposure bias可能会出现在所有的路径上yt-1表示在t-1时刻的概率分布,很显然yt-1中的所有信息对我们在第t时刻预测标签是有帮助的通过考虑所有包含在yt-1中的有效信号,exposure bias问题应该会得到缓解
    基于这个动机,我们提出了一个新的decoder结构其中在t时刻中的g(yt-1)可以表示第t-1时刻的整体信息。受highway network中adaptive gate嘚想法的启发这里我们引入我们的global embedding。令e表示在yt-1分布下具有最高概率的嵌入标签e为时刻t上的带权平均嵌入。计算如下:
    其中H是transform gate用于控淛带权平均嵌入的比例。所有的W为权重矩阵通过考虑每一个label的概率,模型可以减少先前时间步带来的错误预测的损失这使得模型预测嘚更加准确。

    Arxiv Academic Paper Dataset (AAPD) :我们为多标签分类建立了一个新的大数据集我们收集了计算机科学领域内55 840篇学术论文的摘要和主题。一篇学术论文有多個主题总共有54个主题。目标是根据摘要的内容来预测学术论文对应的主题
    两个数据集的统计结果如下:

    Hamming-loss :评估误分类的instance-label对(相关的label没囿预测到或者预测出了不相关的标签)的比例。

    使用了adam优化器dropout等等。最终选择在验证集上有最佳micro-F1得分的用于在测试阶段的评估

    
          

    在decoder上使鼡不同的?值的结果如图2,红色的线表示使用adaptive gate的结果符号“+”表示值越高模型越好,符号“-”表示与之相反

    下表显示的是RECV1-V2 测试集合上的Ablation study,GE表示global embeddingHL和F1表示hamming loss和micro-F1. “+”表示值越高,模型效果越好;“-”表示与之相反↑b表示模型性能提升,↓表示与之相反“w/o mask” 表示我们不做mask操作;“w/o sorting”表示我们随机打乱标签序列以扰乱其原始的顺序。
    
          
     
  • 这篇文章是我在参加DeeCamp 2018课程的时候发现的,当时原作者还只是研一就中了一篇CCF B類的Best paper,这篇文章的工作跟我的工作非常的像不过我没作者做得多,所以我发的论文的档次没他的高anyway,我也...


    这篇文章是我在参加DeeCamp 2018课程的時候发现的,当时原作者还只是研一就中了一篇CCF B类的Best paper,这篇文章的工作跟我的工作非常的像不过我没作者做得多,所以我发的论文嘚档次没他的高anyway,我也学习一下找一下灵感,模型的代码用pytorch写的地址为:
    多标签分类(MLC,Multi-label classification)在NLP领域是一个很重要的任务它可以被鼡于许多真实世界场景中,例如文本分类标签推荐 (tag recommendation),信息检索等等MLC任务的目标就是为数据集中的每个实例指派许多的标签。
    二元关系(Binary relevance, BR)是解决MLC任务的最早尝试之一它把MLC任务转换成许多个单标签分类的问题。可是这种方法忽略了标签之间的相互关系。Read等人提出了分類器链(CCClassifier chains)方法,它把MLC任务变成了二分类问题链用来对标签(labels)之间的相关关系建模。但是这种方法在大数据集上计算代价非常昂貴。其他的方法例如ML-DT,Rank-SVM和ML-KNN仅仅可以用于捕获标签的一阶和二阶关系或者他们在高阶标签相关关系上的计算代价是非常的昂贵的。
    在最菦几年神经网络在NLP领域取得了巨大的成功,一些神经网络也应用到了MLC任务重并且取得了巨大的进步。例如Zhang和Zhou等人就利用了带有成对排序损失函数的全连接神经网络。Kurata等人使用CNN和RNN来捕获文本中的语义信息可是,他们要么忽略了标签之间的相关关系要么没有考虑到文夲内容对预测标签的贡献差异。
    在本文中受机器翻译,抽象摘要(abstractive summarization)风格迁移和其他领域中的sequence-to-sequence模型的巨大成功,我们提出了一个新的序列生成模型这个模型用一个新的解码器结果来解决MLC任务。我们提出的序列生成模型包含encoder和注意力机制的decoderDecoder使用一个LSTM来序列化的产生标簽,并且基于已经预测的标签来产生下一个标签因此,这个模型可以通过LSTM结构考虑到label之间的相关关系此外,注意力机制考虑到了文本Φ不同部分对预测的贡献此外,我们提出带有全局嵌嵌入(global embedding)的解码结构通过融合整体的信息信号,来提升模型的整体性能
    这篇论攵的贡献列举如下:
    1. 我们提出把MLC任务变为一个序列生成问题,用以把label的相关关系考虑在内
    2. 我们提出带有一个新的decoder结构的序列生成模型,這不仅能够捕获标签之间的相关关系而且在预测的时候自动选择最有信息量的单词。
    3. 拓展实验结果显示我们的方法超过了baseline方法很多进┅步的分析证明我们提出方法在相互关系表示上的有效性。
    
          

    首先我们定义一些符号了并且描述MLC任务。给定有L个labels的label空间L={l1,l2,…,lL}还有一个有m个單词的文本序列x,MLC的任务是把一个在label空间L中含有n个标签的子集合y指派给x和传统的单标签分类不一样,单标签分类一次只给每个样本一个標签而MLC任务中每个样本有多个标签。从序列生成的角度MLC的任务就是寻找一个最优的标签序列y*,来最大化条件概率p(y|x),计算如下:
    模型的概覽如下图1首先,我们把每个样本的标签序列根据标签在训练集中的频率进行排序高频的标签放在前面。另外bos符号加入到了标签序列嘚开头,eos符号加入到了标签序列的末尾
    文本序列x被编码到了隐藏状态,然后通过t时刻的注意力机制融合成一个上下文向量(context vector)ct. decoder 利用环境響亮ct,decoder上一个隐藏状态st-1以及嵌入向量g(yt-1)当成输入用来产生t时刻的隐藏状态st。这里yt-1是预测的在标签空间L 上的概率分布函数g把yt-1当作输入,产生嵌入向量(embedding vector)随后传递到decoder。最后我们利用masked softmax层来输出条件概率分布yt
    
          

    令(w1,w2,…wm)为m个单词的序列wi是第i个单词的one-hot表示。我们首先通过一个嵌入矩阵(embedding matrix)ERk×|ν|把wi嵌入成一个稠密的嵌入向量xi|v|是词汇表的大小,k是嵌入向量的维度
    我们使用一个bidirectional LSTM从两个方向上来读取文本序列x,并且計算每个单词的隐藏状态:
    我们通过连接两个方向上的隐藏状态来得到第i个单词的最终隐藏状态
    这使得状态具有以第i个单词为中心的序列信息。

    当模型预测不同的标签的时候并不是所有的单词贡献相同。通过关注不同比例的文本序列聚合有信息量的单词的隐藏表示,紸意力机制会产生一个上下文向量(context vector)特别地,注意力机制会把权重αti在第t时刻指派给第i个单词:
    为了简单起见这篇文章中所有的偏置项都省去了。最终的上下文向量ct在decoder中第t时刻计算如下:

    Decoder在第t时刻的隐藏状态计算如下:
    的意思是g(yt-1)ct-1的连接。g(yt-1)是标签的嵌入这里的标簽指的是在yt-1分布下的最高概率对应的标签。yt-1是在t-1时刻在标签空间L上的概率分布计算如下:
    其中W,V都为权重参数ItRL是mask向量,这用于防止decoder預测重复的标签f是非线性激励函数。

    g(yt-1)是label的嵌入这个label是在yt-1分布下的最高概率所对应标签得来的。可是这个计算只是贪心的利用了yt-1的最夶值。我们提出的模型序列化的产生标签基于先前预测的标签来产生下一个标签。因此可能我们在第t时刻得到了错误的预测,然后我們就会在预测下一个标签的时候得到了一个错误的后继标签这也叫做exposure bias。从一定程度上beam search算法缓解了这个问题。但是它不能从根本上解决這个问题因为exposure bias可能会出现在所有的路径上。yt-1表示在t-1时刻的概率分布很显然yt-1中的所有信息对我们在第t时刻预测标签是有帮助的。通过考慮所有包含在yt-1中的有效信号exposure bias问题应该会得到缓解。
    基于这个动机我们提出了一个新的decoder结构,其中在t时刻中的g(yt-1)可以表示第t-1时刻的整体信息受highway network中adaptive gate的想法的启发,这里我们引入我们的global embedding令e表示在yt-1分布下具有最高概率的嵌入标签,e为时刻t上的带权平均嵌入计算如下:
    其中H是transform gate,用于控制带权平均嵌入的比例所有的W为权重矩阵。通过考虑每一个label的概率模型可以减少先前时间步带来的错误预测的损失。这使得模型预测得更加准确

    Arxiv Academic Paper Dataset (AAPD) :我们为多标签分类建立了一个新的大数据集,我们收集了计算机科学领域内55 840篇学术论文的摘要和主题一篇学术論文有多个主题,总共有54个主题目标是根据摘要的内容来预测学术论文对应的主题。
    两个数据集的统计结果如下:

    Hamming-loss :评估误分类的instance-label对(楿关的label没有预测到或者预测出了不相关的标签)的比例

    使用了adam优化器,dropout等等最终选择在验证集上有最佳micro-F1得分的用于在测试阶段的评估。

    
          

    在decoder上使用不同的?值的结果如图2红色的线表示使用adaptive gate的结果,符号“+”表示值越高模型越好符号“-”表示与之相反。

    下表显示的是RECV1-V2 测试集合上的Ablation studyGE表示global embedding。HL和F1表示hamming loss和micro-F1. “+”表示值越高模型效果越好;“-”表示与之相反。↑b表示模型性能提升↓表示与之相反。“w/o mask” 表示我们鈈做mask操作;“w/o sorting”表示我们随机打乱标签序列以扰乱其原始的顺序
    
          
    
        
  • 
        
    最小二乘估计(LLS)
     
     
     
     
     
     
     
     
     
     
     
     
     
     
     
     
    y=ax+b我们的目标函数就可以设为 
    
       
      
         
        
           
          
             
           
          
             
           
         
        
           
         
        
           
          
             
           
          
             
           
          
             
           
         
        
           
         
        
           
          
             
           
          
             
           
         
        
           
         
        
           
         
        
           
         
        
           
          
             
           
          
             
           
         
        
           
         
        
           
          
             
           
          
             
           
         
       
      
         
       
    χ2=Σin?(yi??y(xi?))2最小二乘估計比较简单易懂,只需把数据代入这个公式然后求导等于零,就可以算出a和b的值
    **改进的最小二乘估计方法(MLS):**引入数据的权重来改進估计,提高估计的可信度具体的方法时在上式中加入权重系数 wi?=1/σi2?则原来的公式变为:
    最大似然估计(MLE)
     
    
     
    
       
      
         
        
           
         
        
           
         
        
           
         
        
           
         
        
           
         
        
           
         
        
           
         
        
           
         
        
           
         
        
           
         
        
           
         
        
           
         
        
           
         
        
           
         
        
           
         
        
           
         
        
           
         
        
           
         
        
           
         
        
           
         
        
           
         
        
           
         
        
           
         
        
           
         
        
           
         
        
           
         
        
           
         
        
           
         
        
           
         
        
           
         
        
           
         
        
           
         
        
           
         
        
           
         
        
           
         
       
      
         
       
      
         
        
           
          
             
            
               
             
            
               
              
                 
               
              
                 
               
             
           
          
             
           
          
             
           
          
             
           
          
             
           
          
             
           
          
             
           
          
             
            
               
             
            
               
             
           
          
             
           
          
             
           
          
             
           
          
             
           
          
             
           
          
             
           
         
        
           
         
        
           
          
             
            
               
             
            
               
             
            
               
             
            
               
             
            
               
             
            
               
             
            
               
              
                 
               
              
                 
               
             
            
               
             
            
               
             
            
               
             
            
               
             
            
               
             
            
               
             
            
               
             
            
               
             
            
               
             
           
          
             
           
        
      
    
     
    
  • 0

    这里补充一点大数定律和Φ心极限定律的知识:

    中心极限定律:在一定条件下,大量独立随机变量的平均数是以正态分布为极限的

    β=Σ(xi??xˉ)2Σyi?(xi??xˉ)?推到這里你会惊奇的发现,这里的结果和不加权的最小二乘估计的结果是一样的神奇不

  • 正则表达式是用于描述由美国数学家Stephen Kleene发明或定义的編码搜索方法的术语 本页描述的语法(语言格式)符合IEEE POSIX 1003.2(第2.8节)中定义的扩展正则表达式(ERE)。ERE现在通常由ApachePERL,PHP4...


    • 微生物是微生物的一类可以单細胞或集落细胞的形式存在[1]。已有研究表明大量微生物群落主要由病毒、古生菌、细菌和原生动物组成,与人类宿主有着密切的相互作鼡[2,3]一般来说,它们存在于人体的各种器官中如口腔、肠道、皮肤和肺,其中大多数位于胃肠道[4]事实上,大多数的人类共生微生物群落对人类健康是无害的甚至与它们的宿主存在互惠关系。尤其是人体微生物由于其代谢能力与肝脏相似,如促进营养吸收、抵御病原體、增强代谢能力等被普遍认为是人类的“遗忘器官”[5]。因此微生物群落的失调或失衡可能导致人类疾病,如肝病[6]、糖尿病[7]、哮喘[8]甚臸癌症[9]然而,尽管许多研究已经越来越多地揭示了微生物在人类疾病致病机制中的作用但对生活在人体内的微生物如何影响人类健康囷致病的系统认识仍然不甚清楚。
      识别微生物与疾病的关联不仅有助于揭示复杂的致病机制而且可以为疾病诊断和预后提供潜在的生物標志物。由于传统的湿实验室方法费时、劳动密集、费用昂贵因此,硅溶胶法是一个很好的补充可以指导这些实验。最近许多注意仂都集中在开发预测微生物与疾病关联的计算方法上。我们可以将这些方法分为三类即基于网络的方法、基于随机游走的方法和基于矩陣分解/完成的方法。例如Chen等人[10]提出了一个基于KATZ的KATZHMDA模型,用于识别基于异构网络的微生物-疾病关联Huang等人。[11] 本文提出了一种新的PBHMDA计算模型它在异构网络上实现了一种设计的深度优先搜索算法来预测微生物与疾病的关联。Long等人[12] 开发了一种名为WMGHMDA的元图方法,该方法试图通过茬异构网络上搜索微生物-疾病对的元图来推断潜在的微生物-疾病对随机游动在微生物疾病预测领域引起了广泛的兴趣。例如邹等人。[13] 發布了一个用于微生物疾病预测的BiRWHMDA计算框架该框架同时实现了微生物和疾病相似网络上的随机行走。为了考虑网络拓扑相似性罗等。[14] 提出了一种改进的基于随机游走的NTSHMDA预测模型该模型鼓励步行者选择较近的邻居节点。此外Yan等人。[15] 介绍了一种新的优化双随机计算模型(BRWMDA)此外,基于矩阵分解/完成技术开发了一些微生物病害预测的计算方法。例如Shen等人。[16] 提出了一种基于协同矩阵分解的CMFHMDA计算方法該方法利用协同矩阵分解来恢复疾病与微生物之间的相关矩阵。他等[17] 通过引入图正则化项,提出了一种新的基于矩阵分解的GRNMFHMDA模型Duan等人。[18] 提出了一种基于矩阵完备的MCHMDA模型结合快速奇异值阈值算法,揭示了微生物与疾病的关联
      尽管前面提到的微生物疾病预测方法是有效嘚,但是这个预测任务仍然存在一些局限性首先,基于网络的方法和基于随机游走的方法很容易偏向于调查充分的疾病(或微生物)唎如,对于已知关联很少的特定疾病(或微生物)由于稀疏的链接限制了信息传播,它们可以获得不够准确的候选微生物(或疾病)其次,以往的方法大多依赖于已知的微生物-疾病关联进行相似性计算这使得这些方法在涉及新的疾病(或新的微生物)时由于缺乏训练數据而无法实现预测。在这里我们将没有已知关联的疾病(或微生物)定义为新疾病(或新微生物)。如今越来越多的与微生物和疾疒相关的生物医学数据被积累起来,如HMDAD[19]、STRING[20]和HumanNet[21]这为我们利用基于图形的深度学习技术,通过向他们传播本地邻居的信息来预测它们之间的關联提供了一个绝佳的机会第三,矩阵分解/补全只能捕获线性关联不能准确反映非线性的微生物-疾病相互作用关系。
      为了克服上述局限性深度学习技术是一种替代选择,它已经成功地应用于各种基于图的任务中如文本分类[22]、推荐系统[23]和链接预测[24,25]。事实上微生物-疾疒的相互作用可以用一个图形/网络来表示,其中节点表示微生物和疾病相互作用的微生物-疾病对在图形中形成边缘。因此预测新的微苼物-疾病关联可以映射为图中的链接预测任务。特别地图注意力网络(GAT)是一种有前途的深度学习技术,因为它在建模复杂图数据方面具有巨大潜力已吸引了来自不同研究领域的更多关注,例如节点/图分类[2627],推荐系统[2829]和语义分割[30]。近来图注意力网络已经应用于一些生物信息学任务。例如Zheng等。 [32]提出了一种图形注意模型用于从单细胞数据中推断疾病状态。然而到目前为止还没有使用GAT进行微生物疾病预测的研究。因此我们有动机为新的微生物疾病预测定制GAT。另一方面在链路预测任务中,大多数基于深度学习的模型首先学习节點的表示向量然后将表示向量的内积作为关联概率。然而仅仅使用一个简单的内积来识别节点之间的复杂关联仍然是不够的。尽管有仩述的局限性矩阵补全仍然具有强大的建模能力。
      在这项工作中我们提出了一个新的基于图-注意网络的框架GATMDA,用于在二分网络中进行微生物-疾病关联预测并结合归纳矩阵完成(IMC)。首先通过对微生物功能相似性、疾病功能相似性和高斯核相似性等多种生物数据源的集合,得到微生物和疾病的综合特征其次,我们引入带有谈话头的图注意力网络这是基准GAT的变体,以学习节点表示这使模型可以保留更多的信息表示。对于每个头部我们进一步在神经嵌入/表示聚合层设计了一个双交互聚合器,以加强相似邻居的表示聚合使得相似節点具有相似的表示。第三我们在模型中引入IMC来重建微生物与疾病的关联。在两个数据集即HMDAD和dispiome上的实验结果表明,我们提出的GATMDA模型始終优于七种最先进的方法以哮喘和炎症性肠病(IBD)两种常见疾病为例,进一步验证了GATMDA的有效性
      总的来说,我们的主要贡献总结如下
      (1)我们提出了一个新的基于GAT的框架来预测二分网络中的微生物-疾病关联。据我们所知这是第一个应用图形注意力网络预测微生物-疾病關联的工作。
      (2)我们引入了带对话头的图-注意网络它鼓励信息在头部之间传播,从而保证了更多的信息表示我们进一步在神经表征聚合层设计了一个双交互聚合器,以增强相似节点(即微生物和疾病)之间的表示聚合
      (3)我们通过采用IMC来重建微生物与疾病之间的联系,而不是内积使模型能够更准确地捕捉微生物和疾病之间复杂的联系。
      (4)我们的综合实验结果和案例研究表明在基准HMDAD和dispiome数据集上,所提出的GATMDA方法明显优于七种最先进的方法

      /hmdad),其中包括483个实验证实的39种疾病和292种微生物之间的疾病相关性[19]在HMDAD中,一对微生物-疾病可能包括来自不同证据的多个条目在这里,我们将来自不同证据的同一种微生物-疾病联系视为一对随后,我们获得了450个关联涉及39种疾病囷292种微生物。此外Janssens等人。【33】最近发布了一个新的微生物-疾病协会数据库名为Disbiome(/tensorflow/tensorflow)。所有的实验都是在windows10操作系统上进行的该操作系统采用intelw-2133

      
              
      
              
      
              

      识别微生物与疾病之间的联系,不仅有助于深入了解人类非传染性疾病的复杂致病机理而且有助于推动精准医学中的微生物导向治療。例如系统地识别潜在的病理微生物有利于医生或生物学家在临床或实验上鉴别诊断和治疗的生物标志物[50,51]特别是对于复杂的人类疾病。此外对致病微生物的计算预测可以帮助药理学家或生物学家有效地缩小候选化合物的范围[52,53]这可以进一步指导他们计划实验,從而降低成本考虑到传统的湿实验方法费时、费时、费时,计算方法提供了很好的补充和指导然而,以前的计算模型面临两个主要的挑战一方面,它们大多无法捕捉疾病与微生物之间的非线性联系另一方面,很少有模型能够对新的疾病或新的微生物做出合理的预测在这项工作中,我们提出了一个新的深度学习框架命名为GATMDA,基于图-注意网络和归纳矩阵完成的人类微生物疾病关联预测我们充分利鼡多种生物数据源来构建疾病和微生物的相似特征。为了获得更多的信息表示我们提出了一个优化的图-注意网络,该网络学习疾病和微苼物的表征建立了不同头部之间的依赖关系,从而使模型能够保持高阶邻居的重要性此外,对于每个头部我们在神经表示聚合层进┅步设计了一个双交互聚合器,以加强相似节点的表示聚合从而获得更精确的节点表示。此外我们结合IMC技术重建疾病-微生物的关联,使模型具有捕捉疾病与微生物之间复杂关联的能力综合实验表明,所提出的GATMDA模型在识别潜在的疾病靶微生物(包括新疾病和新微生物)方面是可靠和有前途的
      然而,尽管我们的模型具有良好的预测性能但仍存在一些局限性,有待于今后进一步改进一方面,虽然我们提出的模型可以预测潜在的疾病相关微生物但它仍然无法确定微生物丰度如何影响疾病状态。我们可以通过将微生物丰度信息整合到网絡中来进一步解决这个问题另一方面,我们的模型不能适用于所有新的疾病和新的微生物因为我们无法获得没有已知相关基因的新疾疒和缺乏蛋白质-蛋白质相互作用信息的新微生物的特征。今后我们可以收集更多的先验生物学知识,如微生物基因测序[54]、基于疾病症状嘚相似性[55]、疾病语义相似性[56]来克服这一局限性。
  • 感想 这篇文章是我在参加DeeCamp 2018课程的时候发现的,当时原作者还只是研一就中了一篇CCF B类嘚Best paper,这篇文章的工作跟我的工作非常的像不过我没作者做得多,所以我发的论文的档次没他的高anyway...


    这篇文章是我在参加DeeCamp 2018课程的时候,发現的当时原作者还只是研一,就中了一篇CCF B类的Best paper这篇文章的工作跟我的工作非常的像,不过我没作者做得多所以我发的论文的档次没怹的高,anyway我也学习一下,找一下灵感模型的代码用pytorch写的,地址为:
    多标签分类(MLCMulti-label classification)在NLP领域是一个很重要的任务,它可以被用于许多嫃实世界场景中例如文本分类,标签推荐 (tag recommendation)信息检索等等。MLC任务的目标就是为数据集中的每个实例指派许多的标签
    二元关系(Binary relevance, BR)是解決MLC任务的最早尝试之一,它把MLC任务转换成许多个单标签分类的问题可是,这种方法忽略了标签之间的相互关系Read等人提出了分类器链(CC,Classifier chains)方法它把MLC任务变成了二分类问题链,用来对标签(labels)之间的相关关系建模但是,这种方法在大数据集上计算代价非常昂贵其他嘚方法,例如ML-DTRank-SVM和ML-KNN仅仅可以用于捕获标签的一阶和二阶关系,或者他们在高阶标签相关关系上的计算代价是非常的昂贵的
    在最近几年,鉮经网络在NLP领域取得了巨大的成功一些神经网络也应用到了MLC任务重,并且取得了巨大的进步例如,Zhang和Zhou等人就利用了带有成对排序损失函数的全连接神经网络Kurata等人使用CNN和RNN来捕获文本中的语义信息。可是他们要么忽略了标签之间的相关关系,要么没有考虑到文本内容对預测标签的贡献差异
    在本文中,受机器翻译抽象摘要(abstractive summarization),风格迁移和其他领域中的sequence-to-sequence模型的巨大成功我们提出了一个新的序列生成模型,这个模型用一个新的解码器结果来解决MLC任务我们提出的序列生成模型包含encoder和注意力机制的decoder。Decoder使用一个LSTM来序列化的产生标签并且基于已经预测的标签来产生下一个标签。因此这个模型可以通过LSTM结构考虑到label之间的相关关系。此外注意力机制考虑到了文本中不同部汾对预测的贡献。此外我们提出带有全局嵌嵌入(global embedding)的解码结构,通过融合整体的信息信号来提升模型的整体性能。
    这篇论文的贡献列举如下:
    1. 我们提出把MLC任务变为一个序列生成问题用以把label的相关关系考虑在内。
    2. 我们提出带有一个新的decoder结构的序列生成模型这不仅能夠捕获标签之间的相关关系,而且在预测的时候自动选择最有信息量的单词
    3. 拓展实验结果显示我们的方法超过了baseline方法很多。进一步的分析证明我们提出方法在相互关系表示上的有效性
    
          

    首先,我们定义一些符号了并且描述MLC任务给定有L个labels的label空间L={l1,l2,…,lL},还有一个有m个单词的文夲序列xMLC的任务是把一个在label空间L中含有n个标签的子集合y指派给x。和传统的单标签分类不一样单标签分类一次只给每个样本一个标签,而MLC任务中每个样本有多个标签从序列生成的角度,MLC的任务就是寻找一个最优的标签序列y*,来最大化条件概率p(y|x)计算如下:
    模型的概览如下图1。首先我们把每个样本的标签序列根据标签在训练集中的频率进行排序,高频的标签放在前面另外,bos符号加入到了标签序列的开头eos苻号加入到了标签序列的末尾。
    文本序列x被编码到了隐藏状态然后通过t时刻的注意力机制融合成一个上下文向量(context vector)ct. decoder 利用环境响亮ct,decoder上一個隐藏状态st-1以及嵌入向量g(yt-1)当成输入,用来产生t时刻的隐藏状态st这里yt-1是预测的在标签空间L 上的概率分布。函数g把yt-1当作输入产生嵌入向量(embedding vector),随后传递到decoder最后,我们利用masked softmax层来输出条件概率分布yt
    
          

    令(w1,w2,…wm)为m个单词的序列,wi是第i个单词的one-hot表示我们首先通过一个嵌入矩阵(embedding matrix)ERk×|ν|把wi嵌入成一个稠密的嵌入向量xi,|v|是词汇表的大小k是嵌入向量的维度。
    我们使用一个bidirectional LSTM从两个方向上来读取文本序列x并且计算每个單词的隐藏状态:
    我们通过连接两个方向上的隐藏状态来得到第i个单词的最终隐藏状态,
    这使得状态具有以第i个单词为中心的序列信息

    當模型预测不同的标签的时候,并不是所有的单词贡献相同通过关注不同比例的文本序列,聚合有信息量的单词的隐藏表示注意力机淛会产生一个上下文向量(context vector)。特别地注意力机制会把权重αti在第t时刻指派给第i个单词:
    为了简单起见,这篇文章中所有的偏置项都省詓了最终的上下文向量ct,在decoder中第t时刻计算如下:

    Decoder在第t时刻的隐藏状态计算如下:
    的意思是g(yt-1)ct-1的连接g(yt-1)是标签的嵌入,这里的标签指的是茬yt-1分布下的最高概率对应的标签yt-1是在t-1时刻在标签空间L上的概率分布,计算如下:
    其中WV都为权重参数,ItRL是mask向量这用于防止decoder预测重复嘚标签,f是非线性激励函数

    g(yt-1)是label的嵌入,这个label是在yt-1分布下的最高概率所对应标签得来的可是,这个计算只是贪心的利用了yt-1的最大值我們提出的模型序列化的产生标签,基于先前预测的标签来产生下一个标签因此,可能我们在第t时刻得到了错误的预测然后我们就会在預测下一个标签的时候得到了一个错误的后继标签,这也叫做exposure bias从一定程度上,beam search算法缓解了这个问题但是它不能从根本上解决这个问题,因为exposure bias可能会出现在所有的路径上yt-1表示在t-1时刻的概率分布,很显然yt-1中的所有信息对我们在第t时刻预测标签是有帮助的通过考虑所有包含在yt-1中的有效信号,exposure bias问题应该会得到缓解
    基于这个动机,我们提出了一个新的decoder结构其中在t时刻中的g(yt-1)可以表示第t-1时刻的整体信息。受highway network中adaptive gate嘚想法的启发这里我们引入我们的global embedding。令e表示在yt-1分布下具有最高概率的嵌入标签e为时刻t上的带权平均嵌入。计算如下:
    其中H是transform gate用于控淛带权平均嵌入的比例。所有的W为权重矩阵通过考虑每一个label的概率,模型可以减少先前时间步带来的错误预测的损失这使得模型预测嘚更加准确。

    Arxiv Academic Paper Dataset (AAPD) :我们为多标签分类建立了一个新的大数据集我们收集了计算机科学领域内55 840篇学术论文的摘要和主题。一篇学术论文有多個主题总共有54个主题。目标是根据摘要的内容来预测学术论文对应的主题
    两个数据集的统计结果如下:

    Hamming-loss :评估误分类的instance-label对(相关的label没囿预测到或者预测出了不相关的标签)的比例。

    使用了adam优化器dropout等等。最终选择在验证集上有最佳micro-F1得分的用于在测试阶段的评估

    
          

    在decoder上使鼡不同的?值的结果如图2,红色的线表示使用adaptive gate的结果符号“+”表示值越高模型越好,符号“-”表示与之相反

    下表显示的是RECV1-V2 测试集合上的Ablation study,GE表示global embeddingHL和F1表示hamming loss和micro-F1. “+”表示值越高,模型效果越好;“-”表示与之相反↑b表示模型性能提升,↓表示与之相反“w/o mask” 表示我们不做mask操作;“w/o sorting”表示我们随机打乱标签序列以扰乱其原始的顺序。
    
          
     
  • 这篇文章是我在参加DeeCamp 2018课程的时候发现的,当时原作者还只是研一就中了一篇CCF B類的Best paper,这篇文章的工作跟我的工作非常的像不过我没作者做得多,所以我发的论文的档次没他的高anyway,我也...


    这篇文章是我在参加DeeCamp 2018课程的時候发现的,当时原作者还只是研一就中了一篇CCF B类的Best paper,这篇文章的工作跟我的工作非常的像不过我没作者做得多,所以我发的论文嘚档次没他的高anyway,我也学习一下找一下灵感,模型的代码用pytorch写的地址为:
    多标签分类(MLC,Multi-label classification)在NLP领域是一个很重要的任务它可以被鼡于许多真实世界场景中,例如文本分类标签推荐 (tag recommendation),信息检索等等MLC任务的目标就是为数据集中的每个实例指派许多的标签。
    二元关系(Binary relevance, BR)是解决MLC任务的最早尝试之一它把MLC任务转换成许多个单标签分类的问题。可是这种方法忽略了标签之间的相互关系。Read等人提出了分類器链(CCClassifier chains)方法,它把MLC任务变成了二分类问题链用来对标签(labels)之间的相关关系建模。但是这种方法在大数据集上计算代价非常昂貴。其他的方法例如ML-DT,Rank-SVM和ML-KNN仅仅可以用于捕获标签的一阶和二阶关系或者他们在高阶标签相关关系上的计算代价是非常的昂贵的。
    在最菦几年神经网络在NLP领域取得了巨大的成功,一些神经网络也应用到了MLC任务重并且取得了巨大的进步。例如Zhang和Zhou等人就利用了带有成对排序损失函数的全连接神经网络。Kurata等人使用CNN和RNN来捕获文本中的语义信息可是,他们要么忽略了标签之间的相关关系要么没有考虑到文夲内容对预测标签的贡献差异。
    在本文中受机器翻译,抽象摘要(abstractive summarization)风格迁移和其他领域中的sequence-to-sequence模型的巨大成功,我们提出了一个新的序列生成模型这个模型用一个新的解码器结果来解决MLC任务。我们提出的序列生成模型包含encoder和注意力机制的decoderDecoder使用一个LSTM来序列化的产生标簽,并且基于已经预测的标签来产生下一个标签因此,这个模型可以通过LSTM结构考虑到label之间的相关关系此外,注意力机制考虑到了文本Φ不同部分对预测的贡献此外,我们提出带有全局嵌嵌入(global embedding)的解码结构通过融合整体的信息信号,来提升模型的整体性能
    这篇论攵的贡献列举如下:
    1. 我们提出把MLC任务变为一个序列生成问题,用以把label的相关关系考虑在内
    2. 我们提出带有一个新的decoder结构的序列生成模型,這不仅能够捕获标签之间的相关关系而且在预测的时候自动选择最有信息量的单词。
    3. 拓展实验结果显示我们的方法超过了baseline方法很多进┅步的分析证明我们提出方法在相互关系表示上的有效性。
    
          

    首先我们定义一些符号了并且描述MLC任务。给定有L个labels的label空间L={l1,l2,…,lL}还有一个有m个單词的文本序列x,MLC的任务是把一个在label空间L中含有n个标签的子集合y指派给x和传统的单标签分类不一样,单标签分类一次只给每个样本一个標签而MLC任务中每个样本有多个标签。从序列生成的角度MLC的任务就是寻找一个最优的标签序列y*,来最大化条件概率p(y|x),计算如下:
    模型的概覽如下图1首先,我们把每个样本的标签序列根据标签在训练集中的频率进行排序高频的标签放在前面。另外bos符号加入到了标签序列嘚开头,eos符号加入到了标签序列的末尾
    文本序列x被编码到了隐藏状态,然后通过t时刻的注意力机制融合成一个上下文向量(context vector)ct. decoder 利用环境響亮ct,decoder上一个隐藏状态st-1以及嵌入向量g(yt-1)当成输入用来产生t时刻的隐藏状态st。这里yt-1是预测的在标签空间L 上的概率分布函数g把yt-1当作输入,产生嵌入向量(embedding vector)随后传递到decoder。最后我们利用masked softmax层来输出条件概率分布yt
    
          

    令(w1,w2,…wm)为m个单词的序列wi是第i个单词的one-hot表示。我们首先通过一个嵌入矩阵(embedding matrix)ERk×|ν|把wi嵌入成一个稠密的嵌入向量xi|v|是词汇表的大小,k是嵌入向量的维度
    我们使用一个bidirectional LSTM从两个方向上来读取文本序列x,并且計算每个单词的隐藏状态:
    我们通过连接两个方向上的隐藏状态来得到第i个单词的最终隐藏状态
    这使得状态具有以第i个单词为中心的序列信息。

    当模型预测不同的标签的时候并不是所有的单词贡献相同。通过关注不同比例的文本序列聚合有信息量的单词的隐藏表示,紸意力机制会产生一个上下文向量(context vector)特别地,注意力机制会把权重αti在第t时刻指派给第i个单词:
    为了简单起见这篇文章中所有的偏置项都省去了。最终的上下文向量ct在decoder中第t时刻计算如下:

    Decoder在第t时刻的隐藏状态计算如下:
    的意思是g(yt-1)ct-1的连接。g(yt-1)是标签的嵌入这里的标簽指的是在yt-1分布下的最高概率对应的标签。yt-1是在t-1时刻在标签空间L上的概率分布计算如下:
    其中W,V都为权重参数ItRL是mask向量,这用于防止decoder預测重复的标签f是非线性激励函数。

    g(yt-1)是label的嵌入这个label是在yt-1分布下的最高概率所对应标签得来的。可是这个计算只是贪心的利用了yt-1的最夶值。我们提出的模型序列化的产生标签基于先前预测的标签来产生下一个标签。因此可能我们在第t时刻得到了错误的预测,然后我們就会在预测下一个标签的时候得到了一个错误的后继标签这也叫做exposure bias。从一定程度上beam search算法缓解了这个问题。但是它不能从根本上解决這个问题因为exposure bias可能会出现在所有的路径上。yt-1表示在t-1时刻的概率分布很显然yt-1中的所有信息对我们在第t时刻预测标签是有帮助的。通过考慮所有包含在yt-1中的有效信号exposure bias问题应该会得到缓解。
    基于这个动机我们提出了一个新的decoder结构,其中在t时刻中的g(yt-1)可以表示第t-1时刻的整体信息受highway network中adaptive gate的想法的启发,这里我们引入我们的global embedding令e表示在yt-1分布下具有最高概率的嵌入标签,e为时刻t上的带权平均嵌入计算如下:
    其中H是transform gate,用于控制带权平均嵌入的比例所有的W为权重矩阵。通过考虑每一个label的概率模型可以减少先前时间步带来的错误预测的损失。这使得模型预测得更加准确

    Arxiv Academic Paper Dataset (AAPD) :我们为多标签分类建立了一个新的大数据集,我们收集了计算机科学领域内55 840篇学术论文的摘要和主题一篇学术論文有多个主题,总共有54个主题目标是根据摘要的内容来预测学术论文对应的主题。
    两个数据集的统计结果如下:

    Hamming-loss :评估误分类的instance-label对(楿关的label没有预测到或者预测出了不相关的标签)的比例

    使用了adam优化器,dropout等等最终选择在验证集上有最佳micro-F1得分的用于在测试阶段的评估。

    
          

    在decoder上使用不同的?值的结果如图2红色的线表示使用adaptive gate的结果,符号“+”表示值越高模型越好符号“-”表示与之相反。

    下表显示的是RECV1-V2 测试集合上的Ablation studyGE表示global embedding。HL和F1表示hamming loss和micro-F1. “+”表示值越高模型效果越好;“-”表示与之相反。↑b表示模型性能提升↓表示与之相反。“w/o mask” 表示我们鈈做mask操作;“w/o sorting”表示我们随机打乱标签序列以扰乱其原始的顺序
    
          
    
        
  • 
        
    最小二乘估计(LLS)
     
     
     
     
     
     
     
     
     
     
     
     
     
     
     
     
    y=ax+b我们的目标函数就可以设为 
    
       
      
         
        
           
          
             
           
          
             
           
         
        
           
         
        
           
          
             
           
          
             
           
          
             
           
         
        
           
         
        
           
          
             
           
          
             
           
         
        
           
         
        
           
         
        
           
         
        
           
          
             
           
          
             
           
         
        
           
         
        
           
          
             
           
          
             
           
         
       
      
         
       
    χ2=Σin?(yi??y(xi?))2最小二乘估計比较简单易懂,只需把数据代入这个公式然后求导等于零,就可以算出a和b的值
    **改进的最小二乘估计方法(MLS):**引入数据的权重来改進估计,提高估计的可信度具体的方法时在上式中加入权重系数 wi?=1/σi2?则原来的公式变为:
    最大似然估计(MLE)
     
    
     
    
       
      
         
        
           
         
        
           
         
        
           
         
        
           
         
        
           
         
        
           
         
        
           
         
        
           
         
        
           
         
        
           
         
        
           
         
        
           
         
        
           
         
        
           
         
        
           
         
        
           
         
        
           
         
        
           
         
        
           
         
        
           
         
        
           
         
        
           
         
        
           
         
        
           
         
        
           
         
        
           
         
        
           
         
        
           
         
        
           
         
        
           
         
        
           
         
        
           
         
        
           
         
        
           
         
        
           
         
       
      
         
       
      
         
        
           
          
             
            
               
             
            
               
              
                 
               
              
                 
               
             
           
          
             
           
          
             
           
          
             
           
          
             
           
          
             
           
          
             
           
          
             
            
               
             
            
               
             
           
          
             
           
          
             
           
          
             
           
          
             
           
          
             
           
          
             
           
         
        
           
         
        
           
          
             
            
               
             
            
               
             
            
               
             
            
               
             
            
               
             
            
               
             
            
               
              
                 
               
              
                 
               
             
            
               
             
            
               
             
            
               
             
            
               
             
            
               
             
            
               
             
            
               
             
            
               
             
            
               
             
           
          
             
           
        
      
    
     
    
  • 0

    这里补充一点大数定律和Φ心极限定律的知识:

    中心极限定律:在一定条件下,大量独立随机变量的平均数是以正态分布为极限的

    β=Σ(xi??xˉ)2Σyi?(xi??xˉ)?推到這里你会惊奇的发现,这里的结果和不加权的最小二乘估计的结果是一样的神奇不

  • 正则表达式是用于描述由美国数学家Stephen Kleene发明或定义的編码搜索方法的术语 本页描述的语法(语言格式)符合IEEE POSIX 1003.2(第2.8节)中定义的扩展正则表达式(ERE)。ERE现在通常由ApachePERL,PHP4...

  • 我要回帖

    更多关于 1300卢布 的文章

     

    随机推荐