自我学习,监督学习,半监督学习和迁移学习的区别

区分监督学习,无监督学习和半监督学习
这个问题可以回答得很简单:是否有监督(supervised),就看输入数据是否有标签(label)。输入数据有标签,则为有监督学习,没标签则为无监督学习。
但根据知乎惯例,答案还是要继续扩展的。
首先看什么是学习(learning)?一个成语就可概括:举一反三。此处以高考为例,高考的题目在上考场前我们未必做过,但在高中三年我们做过很多很多题目,懂解题方法,因此考场上面对陌生问题也可以算出答案。机器学习的思路也类似:我们能不能利用一些训练数据(已经做过的题),使机器能够利用它们(解题方法)分析未知数据(高考的题目)?
最简单也最普遍的一类机器学习算法就是分类(classification)。对于分类,输入的训练数据有特征(feature),有标签(label)。所谓的学习,其本质就是找到特征和标签间的关系(mapping)。这样当有特征而无标签的未知数据输入时,我们就可以通过已有的关系得到未知数据标签。
在上述的分类过程中,如果所有训练数据都有标签,则为有监督学习(supervised
learning)。如果数据没有标签,显然就是无监督学习(unsupervised
learning)了,也即聚类(clustering)。
(但有监督学习并非全是分类,还有回归(regression),此处不细说。(哇擦,贵圈太乱,逼着我用了这么多括号))
目前分类算法的效果普遍还是不错的(研究者们每天都在outperform其他人……),相对来讲,聚类算法就有些惨不忍睹了。(聚类:这不是我的错嘤嘤嘤嘤└(T_T;)┘)确实,无监督学习本身的特点使其难以得到如分类一样近乎完美的结果。这也正如我们在高中做题,答案(标签)是非常重要的,假设两个完全相同的人进入高中,一个正常学习,另一人做的所有题目都没有答案,那么想必第一个人高考会发挥更好,第二个人会发疯。
这时各位可能要问,既然分类如此之好,聚类如此之不靠谱(分类&( ̄︶ ̄)/,聚类└(T_T;)┘),那为何我们还可以容忍聚类的存在?因为在实际应用中,标签的获取常常需要极大的人工工作量,有时甚至非常困难。例如在自然语言处理(NLP)中,Penn
Chinese Treebank在2年里只完成了4000句话的标签……
这时有人可能会想,难道有监督学习和无监督学习就是非黑即白的关系吗?有没有灰呢?Good
idea。灰是存在的。二者的中间带就是半监督学习(semi-supervised
learning)。对于半监督学习,其训练数据的一部分是有标签的,另一部分没有标签,而没标签数据的数量常常极大于有标签数据数量(这也是符合现实情况的)。隐藏在半监督学习下的基本规律在于:数据的分布必然不是完全随机的,通过一些有标签数据的局部特征,以及更多没标签数据的整体分布,就可以得到可以接受甚至是非常好的分类结果。(此处大量忽略细节( ̄ε ̄;))
因此,learning家族的整体构造是这样的:
有监督学习(分类,回归)
半监督学习(分类,回归),transductive
learning(不懂怎么翻译,直推式学习?)(分类,回归)
半监督聚类(有标签数据的标签不是确定的,类似于:肯定不是xxx,很可能是yyy)
无监督学习(聚类)
参考文献:
[1] 各种教材
[2] Semi-Supervised Learning
Tutorial,&&
转自知乎:/question/
已投稿到:
以上网友发言只代表其个人观点,不代表新浪网的观点或立场。From Ufldl
如果已经有一个足够强大的机器学习算法,为了获得更好的性能,最靠谱的方法之一是给这个算法以更多的数据。机器学习界甚至有个说法:“有时候胜出者并非有最好的算法,而是有更多的数据。”
人们总是可以尝试获取更多的已标注数据,但是这样做成本往往很高。例如研究人员已经花了相当的精力在使用类似 AMT(Amazon Mechanical Turk) 这样的工具上,以期获取更大的训练数据集。相比大量研究人员通过手工方式构建特征,用众包的方式让多人手工标数据是一个进步,但是我们可以做得更好。具体的说,如果算法能够从未标注数据中学习,那么我们就可以轻易地获取大量无标注数据,并从中学习。自学习和无监督特征学习就是这种的算法。尽管一个单一的未标注样本蕴含的信息比一个已标注的样本要少,但是如果能获取大量无标注数据(比如从互联网上下载随机的、无标注的图像、音频剪辑或者是文本),并且算法能够有效的利用它们,那么相比大规模的手工构建特征和标数据,算法将会取得更好的性能。
在自学习和无监督特征学习问题上,可以给算法以大量的未标注数据,学习出较好的特征描述。在尝试解决一个具体的分类问题时,可以基于这些学习出的特征描述和任意的(可能比较少的)已标注数据,使用有监督学习方法完成分类。
在一些拥有大量未标注数据和少量的已标注数据的场景中,上述思想可能是最有效的。即使在只有已标注数据的情况下(这时我们通常忽略训练数据的类标号进行特征学习),以上想法也能得到很好的结果。
我们已经了解到如何使用一个自编码器(autoencoder)从无标注数据中学习特征。具体来说,假定有一个无标注的训练数据集 (下标
代表“不带类标”)。现在用它们训练一个稀疏自编码器(可能需要首先对这些数据做白化或其它适当的预处理)。
利用训练得到的模型参数 ,给定任意的输入数据 ,可以计算隐藏单元的激活量(activations) 。如前所述,相比原始输入
来说, 可能是一个更好的特征描述。下图的神经网络描述了特征(激活量 )的计算。
这实际上就是之前得到的稀疏自编码器,在这里去掉了最后一层。
假定有大小为
的已标注训练集 (下标
表示“带类标”),我们可以为输入数据找到更好的特征描述。例如,可以将
输入到稀疏自编码器,得到隐藏单元激活量 。接下来,可以直接使用
来代替原始数据
(“替代表示”,Replacement Representation)。也可以合二为一,使用新的向量
来代替原始数据
(“级联表示”,Concatenation Representation)。
经过变换后,训练集就变成 或者是(取决于使用
还是将二者合并)。在实践中,将
合并通常表现的更好。但是考虑到内存和计算的成本,也可以使用替换操作。
最终,可以训练出一个有监督学习算法(例如 svm, logistic regression 等),得到一个判别函数对
值进行预测。预测过程如下:给定一个测试样本 ,重复之前的过程,将其送入稀疏自编码器,得到 。然后将
)送入分类器中,得到预测值。
在特征学习阶段,我们从未标注训练集
中学习,这一过程中可能计算了各种数据预处理参数。例如计算数据均值并且对数据做均值标准化(mean normalization);或者对原始数据做主成分分析(PCA),然后将原始数据表示为
(又或者使用 PCA 白化或 ZCA 白化)。这样的话,有必要将这些参数保存起来,并且在后面的训练和测试阶段使用同样的参数,以保证数据进入稀疏自编码神经网络之前经过了同样的变换。例如,如果对未标注数据集进行PCA预处理,就必须将得到的矩阵
保存起来,并且应用到有标注训练集和测试集上;而不能使用有标注训练集重新估计出一个不同的矩阵
(也不能重新计算均值并做均值标准化),否则的话可能得到一个完全不一致的数据预处理操作,导致进入自编码器的数据分布迥异于训练自编码器时的数据分布。
有两种常见的无监督特征学习方式,区别在于你有什么样的未标注数据。自学习(self-taught learning) 是其中更为一般的、更强大的学习方式,它不要求未标注数据
和已标注数据
来自同样的分布。另外一种带限制性的方式也被称为半监督学习,它要求 和 服从同样的分布。下面通过例子解释二者的区别。
假定有一个计算机视觉方面的任务,目标是区分汽车和摩托车图像;也即训练样本里面要么是汽车的图像,要么是摩托车的图像。哪里可以获取大量的未标注数据呢?最简单的方式可能是从互联网上下载一些随机的图像数据集,在这些数据上训练出一个稀疏自编码器,从中得到有用的特征。这个例子里,未标注数据完全来自于一个和已标注数据不同的分布(未标注数据集中,或许其中一些图像包含汽车或者摩托车,但是不是所有的图像都如此)。这种情形被称为自学习。
相反,如果有大量的未标注图像数据,要么是汽车图像,要么是摩托车图像,仅仅是缺失了类标号(没有标注每张图片到底是汽车还是摩托车)。也可以用这些未标注数据来学习特征。这种方式,即要求未标注样本和带标注样本服从相同的分布,有时候被称为半监督学习。在实践中,常常无法找到满足这种要求的未标注数据(到哪里找到一个每张图像不是汽车就是摩托车,只是丢失了类标号的图像数据库?)因此,自学习在无标注数据集的特征学习中应用更广。
自我学习/自学习 self-taught learning
无监督特征学习 unsupervised feature learning
自编码器 autoencoder
白化 whitening
激活量 activation
稀疏自编码器 sparse autoencoder
半监督学习 semi-supervised learning
张灵(),晓风(xiaofeng.zhb@),王文中()
自我学习 |
Language&:
Personal tools
This page was last modified on 8 April 2013, at 05:35.
This page has been accessed 50,564 times.您所在位置: &
&nbsp&&nbsp&nbsp&&nbsp
基于半监督的SVM迁移学习开题PPT.ppt 15页
本文档一共被下载:
次 ,您可全文免费在线阅读后下载本文档。
下载提示
1.本站不保证该用户上传的文档完整性,不预览、不比对内容而直接下载产生的反悔问题本站不予受理。
2.该文档所得收入(下载+内容+预览三)归上传者、原创者。
3.登录后可充值,立即自动返金币,充值渠道很便利
需要金币:350 &&
基于半监督的SVM迁移学习开题PPT
你可能关注的文档:
··········
··········
CompanyLogoLOGO论文题目:基于SVM的半监督迁移学习的算法研究 姓  名:***年  级:专  业:指导教师:硕士研究生开题报告开题内容1算法的提出及研究意义2国内外同类技术研究现状3研究内容与研究方法4技术路线5算法简易描述硕士研究生开题报告我们生活在大量数据日积月累的年代。每天,来自网络、商业、社会、科学和工程、医学以及我们日常生活的方方面面的数兆兆字节或数千兆兆字节的数据注入我们的计算机网络、万维网和各种数据存储设备。世界范围的商业活动产生了巨大的数据集,包括销售事务、股票交易记录、产品描述、促销、公司利润和业绩以及顾客反馈。科学和工程实践持续不断地从遥感、过程测量、科学实验、系统实施、工程观测和环境监测中产生多达数千兆兆字节的数据。数据的爆炸式增长、广泛可用和巨大数量使得我们的时代成为真正的数据时代。而将数据转换成有价值的信息的其中一个重要的步骤是分类。分类可以从内容丰富、蕴含大量信息的数据库中提取描述重要信息的数据类,从而作出智能的商务决策,其应用非常广泛。然而针对不同类型的数据,分类的方法却有很多,如贝叶斯分类,支持向量机(SVM)分类,C4.5等。SVM是机器学习中的重要算法,近年来也得到了广阔的发展,特别是在生物信息、文本分类等领域中。而基本的SVM算法是有监督的的学习算法,它是基于统计学习理论的原理性方法。其主要思想是:建立一个最优决策超平面,使得该平面两侧距平面最近的两类样本之间的距离最大化。从而1算法的提出及研究意义硕士研究生开题报告1.1算法的提出对分类问题提供良好的泛化能力,所采用的数据往往都需要满足一定条件。然而在传统的SVM分类方法中,大部分都是有监督的,即用带标签的数据来训练分类模型,并且只局限于目标数据域。然而,收集带标签的实例是非常困难且要耗费巨大的,不带标签的数据却是相当巨大,很容易获取。如果只有少量的带标签的数据和大量未标记的数据可用,那么半监督学习在一定程度上便能弥补因训练数据不足而导致过拟化的分类误区。很多机器学习的方法,无论是传统的机器学习还是半监督学习问题,都是建立在一个共同假设:测试数据与训练数据属于统一数据分布与同一特征空间。一旦数据分布有差异,很多学习方法便无法表现的很好。重新标记大量数据,这样的代价是昂贵的。基于这个局限,我们便引入了迁移学习,目的是从其他相关辅助数据域中迁移知识去帮助目标域中解决学习任务。因此,迁移学习的出现使的这些问题可以迎刃而解。迁移学习(TransferLearning)的目标是将从一个环境中学习的知识用来帮助新环境中的学习任务。如QiangYang等人迁移学习对于文本挖掘的应用。迁移学习不但解决了训练数据匮乏的问题,而且在某种程度上可能充分的利用了数据的价值。于是我们提出了基于SVM的半监督迁移学习的算法。硕士研究生开题报告首先,相对于传统SVM算法,基于SVM的半监督迁移学习算法很好的利用相关领域数据大量带标签的数据来帮助我们目标领域数据的分类万挖掘,在某种程度上既提高了SVM分类器的准确率,又节约了大量的人力物力去标记样本来满足分类器训练的要求。在Web领域方面,还能充分利用过时的数据来帮助新形成的领域进行分析。避免了数据的浪费。其次,结合半监督学习与迁移学习的算法是现今比较缺乏的研究方向,迁移学习方法理论上可以使得很多传统的分类器的准确率得到进一步的提升,因而迁移学习的研究可以扩展到其他比较经典的数据挖掘算法中,来提高数据分析的准确率。硕士研究生开题报告1.2研究意义2国内外研究现状及分析硕士研究生开题报告近几年来,基于SVM分类算法的扩展越来越受到研究者的关注,随着相关研究的不断深入,与其他学习方法结合的SVM算法应运而生。目前,人们在基于SVM算法与各种学习技术相结合,提出了不同类型的基于SVM分类方法,以解决不同的实际问题。其方法也陆续被提了出来,像自训练半监督SVM算法、局部化SVM优化方法以及跨域SVM算法方法等。目前迁移学习技术的发展势头强劲,不乏大量迁移学习分类的算法,如TrAdaboost、CDSVM已证实了这一点。究其原因主要是迁移学习在现实中有着广泛的应用前景,如文本分类、Web挖掘、社交网络分析、生物信息学等。SVM算法的难点在于优化SVM分类器目标函数找到支持向量来构建最优超平面。V.Vapnik提出了基本的SVM分类网络,利用带标签数据进行有监督的训练分类器,最终得到最优分类超平面。由于训练数据与测试数据的分布不一致,训练得到的分类器可能效果不怎么好。硕士研究生开题报告传统的SVM是有监督的学习方法。由于半监督学习方法的流行,于是半监督SVM的研究也被提出。如C.G.YuanqingLi、HuiqiLi和ZhengyangChin提出了半监督SVM算法,便很好的利用了测试集的未标记数据与带标签的训练数
正在加载中,请稍后...温馨提示!由于新浪微博认证机制调整,您的新浪微博帐号绑定已过期,请重新绑定!&&|&&
LOFTER精选
网易考拉推荐
用微信&&“扫一扫”
将文章分享到朋友圈。
用易信&&“扫一扫”
将文章分享到朋友圈。
阅读(2654)|
用微信&&“扫一扫”
将文章分享到朋友圈。
用易信&&“扫一扫”
将文章分享到朋友圈。
历史上的今天
loftPermalink:'',
id:'fks_',
blogTitle:'半监督学习几种方法',
blogAbstract:'&\r\n半监督学习的算法分为如下几大类:\r\n1.Self-training algorithm(自训练算法)\r\n这个是最早提出的一种研究半监督学习的算法,也是一种最简单的半监督学习算法.\r\n2.Multi-view algorithm(多视角算法)\r\n一般多用于可以进行自然特征分裂的数据集中.考虑特殊情况(每个数据点表征两个特征):每一个数据点看成是两个特征的集合,然后利用协同训练(Co-training alg',
blogTag:'',
blogUrl:'blog/static/',
isPublished:1,
istop:false,
modifyTime:9,
publishTime:8,
permalink:'blog/static/',
commentCount:0,
mainCommentCount:0,
recommendCount:0,
bsrk:-100,
publisherId:0,
recomBlogHome:false,
currentRecomBlog:false,
attachmentsFileIds:[],
groupInfo:{},
friendstatus:'none',
followstatus:'unFollow',
pubSucc:'',
visitorProvince:'',
visitorCity:'',
visitorNewUser:false,
postAddInfo:{},
mset:'000',
remindgoodnightblog:false,
isBlackVisitor:false,
isShowYodaoAd:false,
hostIntro:'',
hmcon:'1',
selfRecomBlogCount:'0',
lofter_single:''
{list a as x}
{if x.moveFrom=='wap'}
{elseif x.moveFrom=='iphone'}
{elseif x.moveFrom=='android'}
{elseif x.moveFrom=='mobile'}
${a.selfIntro|escape}{if great260}${suplement}{/if}
{list a as x}
推荐过这篇日志的人:
{list a as x}
{if !!b&&b.length>0}
他们还推荐了:
{list b as y}
转载记录:
{list d as x}
{list a as x}
{list a as x}
{list a as x}
{list a as x}
{if x_index>4}{break}{/if}
${fn2(x.publishTime,'yyyy-MM-dd HH:mm:ss')}
{list a as x}
{if !!(blogDetail.preBlogPermalink)}
{if !!(blogDetail.nextBlogPermalink)}
{list a as x}
{if defined('newslist')&&newslist.length>0}
{list newslist as x}
{if x_index>7}{break}{/if}
{list a as x}
{var first_option =}
{list x.voteDetailList as voteToOption}
{if voteToOption==1}
{if first_option==false},{/if}&&“${b[voteToOption_index]}”&&
{if (x.role!="-1") },“我是${c[x.role]}”&&{/if}
&&&&&&&&${fn1(x.voteTime)}
{if x.userName==''}{/if}
网易公司版权所有&&
{list x.l as y}
{if defined('wl')}
{list wl as x}{/list}医学会议频道
MedSci梅斯医学APP下载
2017自然科学基金查询与分析系统(基础查询版)
支持模糊智能搜索,多关键词组合
NSFC基金分析链接: &&&&
&& &&&& && &&
项目名称面向文本分类的迁移学习和半监督学习方法研究
批准金额57 万元
所属类别面上项目
针对文本分类技术面临的标注瓶颈、数据同分布假设不成立等突出问题,本项目拟进一步深化和拓展面向文本分类的迁移学习和半监督学习方法研究工作,主要包括:研究基于近邻分类一致性的实例迁移新方法,提出TranCo-training分类模型;融合迁移学习与半监督学习方法,从基分类器的正确性与差异性的角度,进行基于实例的知识迁移,增强分类模型的泛化能力和学习能力;在基于投票分歧维护样本权重的新策略与基于置信度的实例迁移基础上,提出新的TranSemiBoost分类模型;通过比较已有分类器在测试样本附近的分类边界与测试数据聚类决策边界一致性,提出基于图模型的关联知识迁移学习方法;以交叉领域的共享特征词所隐含的主题类别为纽带,建立联合概率分布模型,提出基于特征的迁移学习方法。该项研究对于促进机器学习与文本分类技术的发展有重要意义,所获得的研究成果对于机器学习和数据挖掘的其它研究也有较大的参考价值和借鉴作用。
结题摘要文本分类技术是机器学习、数据挖掘、网络挖掘、自然语言处理等领域的研究热点,但是面临着标注训练样本匮乏、数据同分布假设不成立等突出问题。本项目重点面向文本分类的半监督学习、迁移学习和集成学习等方法研究方面进行了深入研究,提出了多种新颖方法,主要包括研究决策树、贝叶斯、粒子群分类等算法的改进方法;研究半监督学习方法,提出基于TEF_WA技术的TV-SC和TV-DC新方法、利用互信息、CHI统计量构建特征独立模型和特征子集划分方法、提出了基于特征独立模型的SC-PMID新的分类算法;研究集成学习方法,提出了基于投票熵维护样本权重的新策略,提出了新的BoostVE分类模型,提升朴素贝叶斯分类器的泛化能力;深入研究迁移学习方法,提出了基于近邻一致性度量实例迁移能力的计算新方法、提出了TranCo-training分类新模型、融合Boosting技术提出了基于预测一致性的领域适应模型;融合半监督学习和集成学习方法,从增加基分类器之间的差异性角度,提出了一种基于置信度重取样的SemiBoost-CR分类新模型。未标注样本的聚类结果、主题的正确提取和摘要,对迁移学习与半监督学习算法有很大影响,本项目对聚类学习和文本摘要进行了深入研究,提出了若干种新方法,主要包括基于形态学的单词-文档谱聚类方法、基于模糊-调和均值的单词-文档谱聚类方法;自适应主题融合的多文档自动摘要算法,以及主题敏感的多文档自动摘要算法。本项目研究的算法不仅可以应用于文本分类,还可拓展到图像分类领域,因此在图像特征提取、图像分割等方面开展了研究,提出了若干新方法。本项目研制实现了一个中英文文本分类系统,集成了所提出的各种分类算法,具有很好的实用价值。本项目的研究对于促进机器学习与文本分类技术的发展有重要意义,所获得的研究成果对于机器学习和数据挖掘的其它研究也有较大的参考价值和借鉴作用。
ClinicalTrials
关注Medsci
声明:MedSci(梅斯医学)登载此文出于传递更多信息之目的,并不意味着赞同其观点或证实其描述。文章内容仅供专业医生参考,具体诊断和治疗请咨询专科医生。
MedSci备案号
扫码领取IF曲线
IF连续增长的期刊

我要回帖

 

随机推荐