35万的数据做逻辑excel回归分析p值 还能看P值吗

苹果/安卓/wp
积分 2976, 距离下一级还需 624 积分
权限: 自定义头衔, 签名中使用图片, 隐身, 设置帖子权限, 设置回复可见
道具: 彩虹炫, 涂鸦板, 雷达卡, 热点灯, 金钱卡, 显身卡, 匿名卡, 抢沙发, 提升卡, 沉默卡下一级可获得
道具: 千斤顶
购买后可立即获得
权限: 隐身
道具: 金钱卡, 彩虹炫, 雷达卡, 热点灯, 涂鸦板
开心签到天数: 21 天连续签到: 1 天[LV.4]偶尔看看III
& && &&&数据集是信用评价模型的经典数据集,german credit,
& && &&&根据训练数据并应用逻辑回归得到初步结果后,学生想根据最大似然估计的结果写成方程,进而用测验数据来
& && &&&看看模型的预测能力如何。
& && && &目前卡壳的问题是:有分类变量进入模型,且是多层次分类变量,比如借款用途(purpose)一项就有8个levels,
& && && &在这种情况下,具体的方程如何写出?
& && && &最大似然估计结果在附件呈上。谢谢各位大神~
载入中......
18:26:24 上传
逻辑回归的结果
详见HLM程序。会给你算出和给出方程,难点在于你得主观判断各变量在不同层次中是否显著。这个需要理论,而不是数据。
发表于10楼
不要叫我大牛。
1. 首先这个跟在CLASS语句里选的参数化方法有关。 常用的有 effect, param, ref 三种。其中GLM方法的哑变量个数跟其水平数是相同的,另外两个哑变量的个数是水平数减1。
具体区别可参见:.cn/s/blog_fskx.html
2. 默认是effect方法,哑变量的个数是水平数减1。
方程跟普通回归方程形式相同,你自己注意标识下哑变量。
太长了,我只以c_account为例:如 ...
详见HLM程序。会给你算出和给出方程,难点在于你得主观判断各变量在不同层次中是否显著。这个需要理论,而不是数据。
chenkellyfly 发表于
详见HLM程序。会给你算出和给出方程,难点在于你得主观判断各变量在不同层次中是否显著。这个需要理论,而不 ...谢谢您的回答
我对您的建议理解是:对进入模型的数据,还有根据现实的、实际的意义来判断。
例如:在贷款用途purpose中,有的level的p值为0.01,有的level的p值为0.5,如何取舍?
另外,您指的HLM程序是 proc logistic 语句中的一类option选项么?
HLM是单独一款软件
chenkellyfly 发表于
HLM是单独一款软件学习了!
在SAS中如何解决上述问题呢?
谢谢您的耐心解答。
继续顶,谢谢各位,
肯请webgu大牛出现,
结果都有了在 analysis of maximum likelihood estimate里面,请教如何根据结果写成具体的模型,尤其是有多个哑变量的分类变量。
肯请webgu大牛出现,
结果都有了在 analysis of maximum likelihood estimate里面,请教如何根据结果写成具体的模型,尤其是有多个哑变量的分类变量。
本帖最后由 webgu 于
09:15 编辑
不要叫我大牛。
1. 首先这个跟在CLASS语句里选的参数化方法有关。 常用的有 effect, param, ref 三种。其中GLM方法的哑变量个数跟其水平数是相同的,另外两个哑变量的个数是水平数减1。
具体区别可参见:
2. 默认是effect方法,哑变量的个数是水平数减1。
&&方程跟普通回归方程形式相同,你自己注意标识下哑变量。
& &太长了,我只以c_account为例:如果不是GLM参数化方法的,c_account应该有四个水平,三个哑变量。
& & y=-3.9477 + 2.2091*c_account1 +1.8281*c_account2+0.9594*c_account3。
&&多个协变量时,把其它协变量的哑变量加在后面即可,是类似的。
1. SAS 微信:StatsThinking
2. SAS QQ群:
初级学术勋章
初级学术勋章
初级热心勋章
初级热心勋章
初级信用勋章
初级信用勋章
中级学术勋章
中级学术勋章
中级热心勋章
中级热心勋章
中级信用勋章
中级信用勋章
无限扩大经管职场人脉圈!每天抽选10位免费名额,现在就扫& 论坛VIP& 贵宾会员& 可免费加入
&nbsp&nbsp|
&nbsp&nbsp|
&nbsp&nbsp|
&nbsp&nbsp|
&nbsp&nbsp|
&nbsp&nbsp|
如有投资本站或合作意向,请联系(010-);
邮箱:service@pinggu.org
投诉或不良信息处理:(010-)
京ICP证090565号
论坛法律顾问:王进律师数据挖掘资料,点击底部&阅读原文&,手慢无梯度下降法(Gradient Descent)是优化问题中一种常用的手段,一般用于凸函数问题(或者可以转换为凸函数的问题)的求解,而逻辑回归问题就可以转换为一个凸函数问题,我们可以使用梯度下降来获得一个较优值(不保证全局最优)。一、什么是逻辑回归首先让我们了解一下线性回归(参考)的输入为单个数据xi,返回的结果是xi的具体分类yj,比如预测男女,输入的是一个人的参数,输出是具体的男或者女。逻辑回归的输入与线性回归相同,但输出为该数据xi属于某个分类yj的概率,即:P(yj|xi)。二、模型函数和其他机器学习算法一样,我们首先要定义我们的模型,然后训练出其参数。假设我们有数据$x{i},则其属于分类y{j}的概率为:P(y_{j}x{i}) = wx{i}$,既然我们求的是概率,那么我们就要求其范围应该在0到1之间,所以我们需要对该概率公式做一些变换。构造模型函数的方法有很多种,由于后面我们需要把损失函数确定为凸函数,所以我们使用概率为来构造(其他形式课参考李航老师的《统计学习方法》)。现在我们假设有一个参数w,能够可以满足以下公式:p(y=1|x)1-p(y=1|x)=expwx对于该式我们进行进一步的变换,可以得到:p(y=1|x)=expwx1+expwx=11+exp-wx设η(t)=11+exp-t,我们知道η(t)的图像如下图所示:即满足了0到1的需求,那么我们的概率公式就可以写成:P(y=1|x)=η(wx)P(y=0|x)=1-η(wx)这里需要特别注意的是,我们使用$p(y=1x)而不是p(y=0x)作为\eta (wx)$,是因为一般数据的标签为1的是正例(或归一化之后接近1)。我们要求解的目标就是w参数,那么如何求呢?三、优化问题我们现在有了概率模型,为了求得最优的w,我们需要把求解w的问题转换为最优化问题。既然已经有了$P(y=1x)和P(y=0x)$,那么我们要做的就是让所有训练样本的概率最大化即可,即所有正样本的全概率加上所有负样本的全概率:L(w)=n?iP(y=1|x)<span class="MJXp-mtext" s
数据挖掘DW(datadw)
 文章为作者独立观点,不代表大不六文章网立场
datadw数据资源帝,致力于源源不断的资料提供。涵盖数据分析/数据挖掘,机器学习,R/Python编程,算法原理与案例,大数据,分享专家经验或观点,能为你解决数据研究相关学习、工作问题!热门文章最新文章datadw数据资源帝,致力于源源不断的资料提供。涵盖数据分析/数据挖掘,机器学习,R/Python编程,算法原理与案例,大数据,分享专家经验或观点,能为你解决数据研究相关学习、工作问题!&&&&违法和不良信息举报电话:183-
举报邮箱:Copyright(C)2017 大不六文章网132048人阅读
机器学习(2)
什么是逻辑回归?
Logistic回归与多重线性回归实际上有很多相同之处,最大的区别就在于它们的因变量不同,其他的基本都差不多。正是因为如此,这两种回归可以归于同一个家族,即广义线性模型(generalizedlinear model)。
这一家族中的模型形式基本上都差不多,不同的就是因变量不同。
如果是连续的,就是多重线性回归;如果是二项分布,就是Logistic回归;如果是Poisson分布,就是Poisson回归;如果是负二项分布,就是负二项回归。
Logistic回归的因变量可以是二分类的,也可以是多分类的,但是二分类的更为常用,也更加容易解释。所以实际中最常用的就是二分类的Logistic回归。
Logistic回归的主要用途:
寻找危险因素:寻找某一疾病的危险因素等;预测:根据模型,预测在不同的自变量情况下,发生某病或某种情况的概率有多大;判别:实际上跟预测有些类&#20284;,也是根据模型,判断某人属于某病或属于某种情况的概率有多大,也就是看一下这个人有多大的可能性是属于某病。
Logistic回归主要在流行病学中应用较多,比较常用的情形是探索某疾病的危险因素,根据危险因素预测某疾病发生的概率,等等。例如,想探讨胃癌发生的危险因素,可以选择两组人群,一组是胃癌组,一组是非胃癌组,两组人群肯定有不同的体征和生活方式等。这里的因变量就是是否胃癌,即“是”或“否”,自变量就可以包括很多了,例如年龄、性别、饮食习惯、幽门螺杆菌感染等。自变量既可以是连续的,也可以是分类的。
Regression问题的常规步骤为:
寻找h函数(即hypothesis);构造J函数(损失函数);想办法使得J函数最小并求得回归参数(θ)
构造预测函数h
Logistic回归虽然名字里带“回归”,但是它实际上是一种分类方法,主要用于两分类问题(即输出只有两种,分别代表两个类别),所以利用了Logistic函数(或称为Sigmoid函数),函数形式为:
Sigmoid 函数在有个很漂亮的“S”形,如下图所示(引自维基百科):
下面左图是一个线性的决策边界,右图是非线性的决策边界。
对于线性边界的情况,边界形式如下:
构造预测函数为:
函数的&#20540;有特殊的含义,它表示结果取1的概率,因此对于输入x分类结果为类别1和类别0的概率分别为:
构造损失函数J
Cost函数和J函数如下,它们是基于最大&#20284;然估计推导得到的。
下面详细说明推导的过程:
(1)式综合起来可以写成:
取&#20284;然函数为:
对数&#20284;然函数为:
最大&#20284;然估计就是求使取最大&#20540;时的θ,其实这里可以使用梯度上升法求解,求得的θ就是要求的最佳参数。但是,在Andrew Ng的课程中将取为下式,即:
因为乘了一个负的系数-1/m,所以取最小&#20540;时的θ为要求的最佳参数。
梯度下降法求的最小&#20540;
θ更新过程:
θ更新过程可以写成:
向量化Vectorization
Vectorization是使用矩阵计算来代替for循环,以简化计算过程,提高效率。
如上式,Σ(...)是一个求和的过程,显然需要一个for语句循环m次,所以根本没有完全的实现vectorization。
下面介绍向量化的过程:
约定训练数据的矩阵形式如下,x的每一行为一条训练样本,而每一列为不同的特称取&#20540;:
g(A)的参数A为一列向量,所以实现g函数时要支持列向量作为参数,并返回列向量。由上式可知可由一次计算求得。
θ更新过程可以改为:
综上所述,Vectorization后θ更新的步骤如下:
(3)求&。
正则化Regularization
过拟合问题
对于线性回归或逻辑回归的损失函数构成的模型,可能会有些权重很大,有些权重很小,导致过拟合(就是过分拟合了训练数据),使得模型的复杂度提高,泛化能力较差(对未知数据的预测能力)。
下面左图即为欠拟合,中图为合适的拟合,右图为过拟合。
问题的主因
过拟合问题往往源自过多的特征。
1)减少特征数量(减少特征会失去一些信息,即使特征选的很好)
可用人工选择要保留的特征;模型选择算法;
2)正则化(特征较多时比较有效)
保留所有特征,但减少θ的大小
正则化方法
正则化是结构风险最小化策略的实现,是在经验风险上加一个正则化项或惩罚项。正则化项一般是模型复杂度的单调递增函数,模型越复杂,正则化项就越大。
从房价预测问题开始,这次采用的是多项式回归。左图是适当拟合,右图是过拟合。
直观来看,如果我们想解决这个例子中的过拟合问题,最好能将的影响消除,也就是让。假设我们对进行惩罚,并且令其很小,一个简单的办法就是给原有的Cost函数加上两个略大惩罚项,例如:
这样在最小化Cost函数的时候,。
正则项可以取不同的形式,在回归问题中取平方损失,就是参数的L2范数,也可以取L1范数。取平方损失时,模型的损失函数变为:
lambda是正则项系数:
如果它的&#20540;很大,说明对模型的复杂度惩罚大,对拟合数据的损失惩罚小,这样它就不会过分拟合数据,在训练数据上的偏差较大,在未知数据上的方差较小,但是可能出现欠拟合的现象;如果它的&#20540;很小,说明比较注重对训练数据的拟合,在训练数据上的偏差会小,但是可能会导致过拟合。
正则化后的梯度下降算法θ的更新变为:
正则化后的线性回归的Normal Equation的公式为:
其他优化算法
Conjugate gradient method(共轭梯度法)Quasi-Newton method(拟牛顿法)BFGS methodL-BFGS(Limited-memory BFGS)
后二者由拟牛顿法引申出来,与梯度下降算法相比,这些算法的优点是:
第一,不需要手动的选择步长;第二,通常比梯度下降算法快;
但是缺点是更复杂。
多类分类问题
对于多类分类问题,可以将其看做成二类分类问题:保留其中的一类,剩下的作为另一类。
对于每一个类 i 训练一个逻辑回归模型的分类器,并且预测y = i时的概率;对于一个新的输入变量x, 分别对每一个类进行预测,取概率最大的那个类作为分类结果:
参考知识库
* 以上用户言论只代表其个人观点,不代表CSDN网站的观点或立场
访问:165158次
排名:千里之外
原创:18篇
评论:32条
(1)(1)(1)(3)(2)(4)(6)本站为您推荐的文章
您可能感兴趣的文章
数据分析师视频
CDA大数据分析就业班答辩
电商大数据分析-第二组
CDA数据分析师学员
CDA数据分析师周边
Copyright & ,
All Rights Reserved. CDA数据分析师 版权所有 京ICP备号-9 & & & & &逻辑回归是回归模型,其中响应变量(因变量)具有明确的值,如:True/False或0/1。 它实际测量二元响应作为响应变量,是基于与预测变量有关它的数学方程的值的概率。
逻辑回归一般的数学公式是:
y = 1/(1+e^-(a+b1x1+b2x2+b3x3+...))
以下是所使用的参数的说明:
y&是响应变量。
x&是预测变量。
a&和&b&是数字常量系数。
用于创建回归模型的功能是 glm()函数。
glm()函数在逻辑回归的基本语法是:
glm(formula,data,family)
以下是所使用的参数的说明:
formula&是呈现所述变量之间的关系的标志。
data&在数据集给出这些变量的值.
family&为R对象以指定模型的细节。它的值是二项分布逻辑回归。
在内置的数据集“mtcars”描述了他们不同的发动机规格的不同型号汽车。在“mtcars”数据集,传输模式(自动或手动)由列点它是一个二进制值描述(0或1)。我们可以创建列“am”和另外3列之间的逻辑回归模型- 马力(hp),重量(wt)和缸(cyl)。
# Select some columns form mtcars.
input &- mtcars[,c("am","cyl","hp","wt")]
print(head(input))
当我们上面的代码执行时,它产生以下结果:
6 110 2.620
Mazda RX4 Wag
6 110 2.875
Datsun 710
Hornet 4 Drive
6 110 3.215
Hornet Sportabout
8 175 3.440
6 105 3.460
建立回归模型
我们用 glm()函数来创建回归模型,并得到了汇总分析。
input &- mtcars[,c("am","cyl","hp","wt")]
am.data = glm(formula=am ~ cyl + hp + wt ,
data=input,
family=binomial)
print(summary(am.data))
当我们上面的代码执行时,它产生以下结果:
glm(formula = am ~ cyl + hp + wt, family = binomial, data = input)
Deviance Residuals:
Coefficients:
Estimate Std. Error z value Pr(&|z|)
(Intercept) 19.70288
Signif. codes:
0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
(Dispersion parameter for binomial family taken to be 1)
Null deviance: 43.2297
degrees of freedom
Residual deviance:
degrees of freedom
AIC: 17.841
Number of Fisher Scoring iterations: 8
在汇总中的最后一列的 p值大于0.05为变量"cyl" 和 "hp",我们认为它们是微不足道地促进变量“am”的值。只有重量(wt)在影响这个回归模型“am”的值。
本站代码下载:

我要回帖

更多关于 逻辑回归 p值 的文章

 

随机推荐