lasso岭回归 lassombda系数取多少

查看: 1809|回复: 14
地里有没有会lasso算法的大神? 求介绍学习资源
精华主题学分
高级农民, 积分 2886, 距离下一级还需 2114 积分
在线时间 小时
购买链接:
注册一亩三分地论坛,查看更多干货!
才可以下载或查看,没有帐号?
感觉网上讲lasso算法的东西好少啊 看了一些 都没有涉及到lasso
毕业设计老师给了一篇文章看 但是感觉光看这一篇远远不够 如果有什么公开课里的哪一节专门讲到能系统学习一下就好了
正在看JHU和大S的R语言和machine learning的课程 但都没有发现相关的内容
谢谢各位啦
精华主题学分
在线时间 小时
这门课有一章讲sparse model...跟这个算是有点关系吧
不过是l0范数的
精华主题学分
在线时间 小时
prof tibshirani的那篇文章先看一看,有个大致了解。
之后lasso有很多的extension,针对不同的研究方向,都有不少的文章。
对于某些研究方向,r/matlab等都有针对lasso的package,可以直接调来用。
精华主题学分
在线时间 小时
prof tibshirani的那篇文章先看一看,有个大致了解。 鏉ユ簮涓浜.涓夊垎鍦拌鍧.
之后lasso有很多的extension,针对不同的研究方向, .... 鐣欏鐢宠璁哄潧-涓浜╀笁鍒嗗湴
我看的就是这篇文章 现在看了一半. from: /bbs
因为我之前没有学过machine learning 里面好多推导和讲3维的部分都不是很理解
之后要用lasso做回归模型的话 有没有相关的文章或者R的tutorials呢
精华主题学分
在线时间 小时
我的理解是Lasso就和ridge regression一样就是限制了loading的norm,ridge regression是sum of square, 所以是个圆形(或者多维下的圆),所以最后只是减小了每个Loading的大小,Lasso是算的绝对值的和,所以是个正方形(多维下),如果这样限制的话最后的optimal solution会在正方形(立方体...)的角上,所以很多loading会是0,所以做到了model selection。
精华主题学分
在线时间 小时
我的理解是Lasso就和ridge regression一样就是限制了loading的norm,ridge regression是sum of square, 所 ...
那椭圆的轮廓是什么意思?
我表示文章里的好多公式看不懂...
每个字都认识就是不知道他们在说啥
精华主题学分
在线时间 小时
那椭圆的轮廓是什么意思?
我表示文章里的好多公式看不懂...
每个字都认识就是不知道他们在说啥
我猜是在这个curve上那个likelihood或者是residual sum of square是常数吧
精华主题学分
在线时间 小时
. Waral 鍗氬鏈夋洿澶氭枃绔,
我猜是在这个curve上那个likelihood或者是residual sum of square是常数吧
那这个椭圆和lasso的正方形的角还有ridge regression的圆相邻 说明了什么啊 有什么意义
精华主题学分
在线时间 小时
那这个椭圆和lasso的正方形的角还有ridge regression的圆相邻 说明了什么啊 有什么意义
椭圆是函数的等高线,正方形对应的是受限条件,即绝对值的几何表达,当二者相交时,表示原函数在受限条件下取得最优值。
精华主题学分
在线时间 小时
学习了。。第一次知道lasso原来是算法。。
. Waral 鍗氬鏈夋洿澶氭枃绔,
以为就是个l1 penalty的model...
精华主题学分
在线时间 小时
学习了。。第一次知道lasso原来是算法。。
-google 1point3acres
以为就是个l1 penalty的model...
见笑了...我比较无知.鏈枃鍘熷垱鑷1point3acres璁哄潧
我现在觉得就是在ols加上了一个限制条件 我也不知道它是不是算一种算法或是一种模型
哪里说错了的话就当给大神们乐一乐~
精华主题学分
在线时间 小时
椭圆是函数的等高线,正方形对应的是受限条件,即绝对值的几何表达,当二者相交时,表示原函数在受限条件 ...
看到了有一个lasso的代码 用到了coordinate descent和软阈值
R的glmnet package也是用的一样的算法吗
精华主题学分
在线时间 小时
. 鍥磋鎴戜滑@1point 3 acres
见笑了...我比较无知. 1point 3acres 璁哄潧
我现在觉得就是在ols加上了一个限制条件 我也不知道它是不是算一种算法或是一种模 ...
精华主题学分
在线时间 小时
http://statweb.stanford.edu/~owen/courses/305/Rudyregularization.pdf
ridge regression的regularization可以看作是另一个least square
那如果是l1 penalty, 这一项要怎么求导呢 是不是要用到软阈值.鐣欏璁哄潧-涓浜-涓夊垎鍦
有一点我不太明白 正常的OLS是这样-&(t(X)%*%X)^(-1)%*%(t(X)%*%y), .鐣欏璁哄潧-涓浜-涓夊垎鍦
为什么用到软阈值分子就变成这样了呢-&(t(X)%*%X)^(-1)%*%softThresholding(t(y-yhat)%*%X,n*lambda)
具体不太懂为什么是t(y-yhat)%*%X
精华主题学分
在线时间 小时
回归的本质是最优化问题,在高维的情况下,推倒过程涉及到vector和matrix的微积分,我估计楼主看不懂的公式应该是跟这个有关吧?可以参考matrix cookbook这本书,了解一下相关内容,这样子对于理解数学的推导过程有帮助。
<form method="post" autocomplete="off" id="fastpostform" action="forum.php?mod=post&action=reply&fid=41&tid=125887&extra=&replysubmit=yes&infloat=yes&handlekey=fastpost"
onSubmit="
// TODO Howard 11/3/2015
var sbtn = $('fastpostsubmit');
sbtn.disabled =
sbtn.innerHTML = ' 回复发表中... ';
sbtn.setAttribute('background', sbtn.style.background);
sbtn.setAttribute('bordercolor', sbtn.style.borderColor);
sbtn.style.background = '#C7C7C7';
sbtn.style.borderColor = '#8B8B8B';
var form =
// --product--
var isValid = fastpostvalidate(form, null, 0);
if(!isValid) reoverBtn();
return isV
// --product--
// --testing--
//setTimeout(function() {
// var isValid = fastpostvalidate(form, null, 0);
// if(!isValid) reoverBtn();
//}, 2000);
// --testing--
您需要登录后才可以回帖
回帖并转播
回帖后跳转到最后一页
Instant搜索更强大,不扣积分,内容组织的更好更整洁!目前仍在beta版本,努力完善中!
一亩三分地推荐 /5
地主Warald亲手做你的申请,针对你的背景和目标,考虑申请、学习、就业、移民等系列问题,制定申请策略。
“offer”指全额奖学金,免学费全免+每月工资,Berkeley, CMU, JHU, UIUC, Gatech, UMich, UCLA, Columbia,欢迎观赏。
电子工程、计算机、统计、金数金工、化工等, Stanford, Berkeley, CMU, Cornell, Yale, Columbia, Chicago, Duke, UPenn, UIUC, Brown, UMich, JHU等
有留学、申请、找工、职业规划上的难题?先上论坛提问!
论坛考古也帮不上忙,发帖得到的回答仍然不够?电话找Warald来解答!
WARALD新书上市啦:《你不知道的美国留学》清华大学出版社,各大电商发售
Powered by用glmnet包实施套索算法(LASSO) - 推酷
用glmnet包实施套索算法(LASSO)
当我们使用数据训练分类器的时候,很重要的一点就是要在过度拟合与拟合不足之间达成一个平衡。防止过度拟合的一种方法就是对模型的复杂度进行约束。模型中用到解释变量的个数是模型复杂度的一种体现。控制解释变量个数有很多方法,例如
变量选择(feature selection)
,即用filter或wrapper方法提取解释变量的最佳子集。或是进行
变量提取(feature structure)
,即将原始变量进行某种映射或转换,如主成分方法和因子分析。变量选择的方法是比较“硬”的方法,变量要么进入模型,要么不进入模型,只有0-1两种选择。但也有“软”的方法,也就是
Regularization
类方法,例如
岭回归(Ridge Regression)
套索方法(LASSO:least absolute shrinkage and selection operator)
这两种方法的共同点在于,将解释变量的系数加入到Cost Function中,并对其进行最小化,本质上是对过多的参数实施了惩罚。而两种方法的区别在于惩罚函数不同。但这种微小的区别却使LASSO有很多优良的特质(可以同时选择和缩减参数)。下面的公式就是在线性模型中两种方法所对应的目标函数:
公式中的lambda是重要的设置参数,它控制了惩罚的严厉程度,如果设置得过大,那么最后的模型参数均将趋于0,形成拟合不足。如果设置得过小,又会形成拟合过度。所以lambda的取值一般需要通过交叉检验来确定。
在R语言中可以使用
来实施套索算法。我们采用的数据集是Machine Learning公开课中第七课的
。先来看看这个样本数据的散点图。下图显示有两个类别等待我们来区分。显然其决策边界是非线性的,所以如果要用
Logistic Regression
来作分类器的话,解释变量需要是多项式形式。但这里存在一个问题,我们应该用几阶的多项式呢?如果阶数过高,模型变量过多,会存在过度拟合,而反之阶数过少,又会存在拟合不足。所以这里我们用LASSO方法来建立Logistic回归分类器。
分析步骤如下:
根据算例要求,先生成有六阶多项式的自变量,这样一共有28个自变量;
用glmnet包中的cv.glmnet函数建模,该函数自带交叉检验功能;
根据上面的结果绘制CV图如下,从中选择最佳lambda值。
函数利用交叉检验,分别用不同的lambda值来观察模型误差。上图横轴是lambda值的对数,纵轴是模型误差。从上面的图可以看到,最佳的lambda取值就是在红色曲线的最低点处,对应着变量个数是11个。它右侧的另一条虚线是在其一倍SE内的更简洁的模型(变量个数为9)。由于这两个lambda对应的模型误差变化不大,而我们更偏好于简洁的模型,选择对应的lambda值为0.025。
在使用cv.glmnet函数选择lambda值之后,我们没有必要去运行glmnet函数,直接从结果中就可以提取最终模型(9个变量)并获得参数系数。为了利于比较我们还提取了原始模型(28个变量)的参数系数。
最后我们要在原来的散点图上画出两条决策边界,一条是根据LASSO方法得到的9变量模型,下图中紫色曲线即是它决策边界,决策边界比较平滑,具备很好的泛化能力。另一条是28个变量的原始模型。&蓝色曲线即是它的决策边界,它为了拟合个别样本,显得凸凹不平。
如果你的数据变异较大,那么在做LASSO之前最好进行数据标准化处理。LASSO的进一步扩展是和岭回归相结合,形成Elastic Net方法。glmnet包也可以实施这种算法。
参考资料:
《The Elements of Statistical Learning》
《Machine Learning for Hackers》
已发表评论数()
请填写推刊名
描述不能大于100个字符!
权限设置: 公开
仅自己可见
正文不准确
标题不准确
排版有问题
主题不准确
没有分页内容
图片无法显示
视频无法显示
与原文不一致  尽管有些内容还是不懂,先截取的摘录。
1.变量选择问题:从普通线性回归到lasso
  使用最小二乘法拟合的普通线性回归是数据建模的基本方法。其建模要点在于误差项一般要求独立同分布(常假定为正态)零均值。t检验用来检验拟合的模型系数的显著性,F检验用来检验模型的显著性(方差分析)。如果正态性不成立,t检验和F检验就没有意义。
  对较复杂的数据建模(比如文本分类,图像去噪或者基因组研究)的时候,普通线性回归会有一些问题:(1)预测精度的问题 如果响应变量和预测变量之间有比较明显的线性关系,最小二乘回归会有很小的偏倚,特别是如果观测数量n远大于预测变量p时,最小二乘回归也会有较小的方差。但是如果n和p比较接近,则容易产生过拟合;如果n&p,最小二乘回归得不到有意义的结果。(2)模型解释能力的问题 包括在一个多元线性回归模型里的很多变量可能是和响应变量无关的;也有可能产生多重共线性的现象:即多个预测变量之间明显相关。这些情况都会增加模型的复杂程度,削弱模型的解释能力。这时候需要进行变量选择(特征选择)。
  针对OLS的问题,在变量选择方面有三种扩展的方法:
(1)子集选择 这是传统的方法,包括逐步回归和最优子集法等,对可能的部分子集拟合线性模型,利用判别准则 (如AIC,BIC,Cp,调整R2 等)决定最优的模型。
(2)收缩方法(shrinkage method) 收缩方法又称为正则化(regularization)。主要是岭回归(ridge regression)和lasso回归。通过对最小二乘估计加入罚约束,使某些系数的估计为0。
(3)维数缩减 主成分回归(PCR)和偏最小二乘回归(PLS)的方法。把p个预测变量投影到m维空间(m&p),利用投影得到的不相关的组合建立线性模型。  
2.正则化:岭回归、lasso回归
(1)岭回归最小二乘估计是最小化残差平方和(RSS):
岭回归在最小化RSS的计算里加入了一个收缩惩罚项(正则化的l2范数)
这个惩罚项中lambda大于等于0,是个调整参数。各个待估系数越小则惩罚项越小,因此惩罚项的加入有利于缩减待估参数接近于0。重点在于lambda的确定,可以使用交叉验证或者Cp准则。岭回归优于最小二乘回归的原因在于方差-偏倚选择。随着lambda的增大,模型方差减小而偏倚(轻微的)增加。岭回归的一个缺点:在建模时,同时引入p个预测变量,罚约束项可以收缩这些预测变量的待估系数接近0,但并非恰好是0(除非lambda为无穷大)。这个缺点对于模型精度影响不大,但给模型的解释造成了困难。这个缺点可以由lasso来克服。(所以岭回归虽然减少了模型的复杂度,并没有真正解决变量选择的问题)(2)lassolasso是一种相对较新的方法,参考[1],[2]。关于lasso的发展和一些思想介绍可以参考网上很有名气的一篇文章《统计学习那些事》。lasso是在RSS最小化的计算中加入一个l1范数作为罚约束:
l1范数的好处是当lambda充分大时可以把某些待估系数精确地收缩到0。关于岭回归和lasso,在[3]里有一张图可以直观的比较([3]的第三章是个关于本文主题特别好的参考):
关于岭回归和lasso当然也可以把它们看做一个以RSS为目标函数,以惩罚项为约束的优化问题。
原文参考:
机器学习中的范数规则化之(一)L0、L1与L2范数:http://blog.csdn.net/zouxy09/article/details/
关于LASSO:http://cos.name/2011/12/stories-about-statistical-learning/
关于岭回归:/zhangchaoyang/articles/2802806.html
l1 相比于 l2 为什么容易获得稀疏解?:/question//answer/
阅读(...) 评论()&#xe621; 上传我的文档
&#xe602; 下载
&#xe60c; 收藏
该文档贡献者很忙,什么也没留下。
&#xe602; 下载此文档
正在努力加载中...
基于lasso的两级变量选择方法
下载积分:2588
内容提示:基于lasso的两级变量选择方法
文档格式:PDF|
浏览次数:210|
上传日期: 18:35:26|
文档星级:&#xe60b;&#xe60b;&#xe60b;&#xe612;&#xe612;
该用户还上传了这些文档
基于lasso的两级变量选择方法
官方公共微信

我要回帖

更多关于 岭回归 lasso 的文章

 

随机推荐