35万的数据做逻辑excel回归分析p值还能看P值吗

科学教育 | 学习帮助 | 出国/留学 | 工程技术科学 | 教育/科学 | 英语听力 | 梦幻西游电脑版 | 视频会议 | 口臭 | 暗黑破坏神3（游戏） | 面相 | 赛尔号 | linux | 山西省 | Xbox One | 思修 | 易经 | solidworks | 钢铁雄心4 | 休闲游戏 | 魔兽争霸3混乱之治 | 显卡 | 武汉大学 | 塞尔达传说（游戏） | 校服 | 剑侠情缘网络版叁 | 脱发 | 日本文化 | 数学建模 | 二次元 | 部落冲突（游戏） | 肖战 | 街机游戏 | 拳皇 | 马鞍山市 | 扑克 | 完美世界（游戏） | 三国志（游戏） | 热血传奇（游戏） | 意大利 | 跆拳道 | 东莞市 | 糖尿病 | 古琴 | 三国 | 电视节目 | 百度 | qq音乐 | 配音 | 电视 | 任天堂 | 科幻小说 | 虚拟专用服务器 | QQ游戏 | 大熊猫 | 微电影 | Android | 竞技游戏 | 动画制作 | QQ炫舞 | 电源 | 日语 | 魔兽争霸3冰封王座 | 产业 | ios开发 | 百度云 | 动画电影 | nba篮球 | 羽生结弦 | iOS应用 | galgame | 电吉他 | 平板电脑 | 周星驰（人物） | 离婚 | 后宫·甄嬛传（书籍） | 牙科 | 游戏开发 | 网络直播 | ios游戏 | 电子邮件 | SNH48 | 民国 | 美容 | 舰队 Collection | 心理 | Mac | 羽毛球技术 | 互联网公司 | 大学生兼职 | 烘焙 | 诸葛亮 | 跑跑卡丁车 | 武侠小说 | 微博 | 骨折 | 掌上游戏机 | 玉米 | 中国足球 | 电脑配置 | 洛奇英雄传 | 硬盘 | 张璐 | akb48 | 炉石传说 | 韩国 | 蓄电池 | QQ空间 | 房贷 | 麦克风 | 相声演员 | 抑郁 | 天下2（游戏） | 农业科学 | 神话 | 农历 | 中国足球协会超级联赛（CSL） | 流星花园 | 易烊千玺 | 火影忍者 | 日语歌曲 | 巴西 | 红酒 | 化疗 | 占地 | 网络小说 | 香烟 | 传奇世界 | 名字 | 日本电影 | 表演 | 西藏自治区 | 英雄传说：闪之轨迹（游戏） | 足球彩票 | 摩尔庄园 | 中国工商银行 | 游戏手柄 | 陈奕迅 | 联赛 | 天体物理学 | 英格兰足球超级联赛 | 超级机器人大战 | 命令与征服：红色警戒2（游戏） | 郭富城 | 一级方程式赛车（f1） | Adobe Photoshop | 英文歌曲 | 玄幻小说 | 猫和老鼠 | 杨凡 | 书籍改编电影 | 俄罗斯 | 网络赚钱 | 罗玉凤 | 刺客信条2 | 角色扮演 | 食物 | 药物 | 杨洋（演员） | 信息安全 | 胡歌（演员） | 张子枫 | 古典音乐 | 时尚 | 大片 | 电脑游戏 | 签证 | 徐佳莹 | 耽美 | 游戏攻略 | 音乐剧 | 前女友 | 男性 | 肠胃 | 刺客信条起源 | 剧场版 | 国际足联世界杯 | 彩虹六号（游戏） | 赵丽颖（演员） | 天体生物学 | 战神（游戏） | 吉他学习 | 飞机 | 三菱商事 | 关节炎 | 斗鱼直播 | 发电 | 张继科 | 华语流行音乐 | 搏击项目 | 主题曲 | 李信 | 刘德华（演员） | 即时战略游戏（RTS） | 欧阳娜娜 | 网址导航 | 海贼王 | 山地车 | 豆瓣电影 | 广场舞 |

你的位置：网站首页 >> 频道首页 >>编程语言 >>35万的数据做逻辑excel回归分析p值还能看P值吗

35万的数据做逻辑excel回归分析p值还能看P值吗

来源：蜘蛛抓取(WebSpider) 时间：2017-04-06 09:39 标签：逻辑回归 p值

苹果/安卓/wp
积分 2976, 距离下一级还需 624 积分
权限: 自定义头衔, 签名中使用图片, 隐身, 设置帖子权限, 设置回复可见
道具: 彩虹炫, 涂鸦板, 雷达卡, 热点灯, 金钱卡, 显身卡, 匿名卡, 抢沙发, 提升卡, 沉默卡下一级可获得
道具: 千斤顶
购买后可立即获得
权限: 隐身
道具: 金钱卡, 彩虹炫, 雷达卡, 热点灯, 涂鸦板
开心签到天数: 21 天连续签到: 1 天[LV.4]偶尔看看III
& && &&&数据集是信用评价模型的经典数据集，german credit，
& && &&&根据训练数据并应用逻辑回归得到初步结果后，学生想根据最大似然估计的结果写成方程，进而用测验数据来
& && &&&看看模型的预测能力如何。
& && && &目前卡壳的问题是：有分类变量进入模型，且是多层次分类变量，比如借款用途（purpose）一项就有8个levels，
& && && &在这种情况下，具体的方程如何写出？
& && && &最大似然估计结果在附件呈上。谢谢各位大神~
载入中......
18:26:24 上传
逻辑回归的结果
详见HLM程序。会给你算出和给出方程，难点在于你得主观判断各变量在不同层次中是否显著。这个需要理论，而不是数据。
发表于10楼
不要叫我大牛。
1. 首先这个跟在CLASS语句里选的参数化方法有关。常用的有 effect, param, ref 三种。其中GLM方法的哑变量个数跟其水平数是相同的，另外两个哑变量的个数是水平数减1。
具体区别可参见：.cn/s/blog_fskx.html
2. 默认是effect方法，哑变量的个数是水平数减1。
方程跟普通回归方程形式相同，你自己注意标识下哑变量。
太长了，我只以c_account为例：如 ...
详见HLM程序。会给你算出和给出方程，难点在于你得主观判断各变量在不同层次中是否显著。这个需要理论，而不是数据。
chenkellyfly 发表于
详见HLM程序。会给你算出和给出方程，难点在于你得主观判断各变量在不同层次中是否显著。这个需要理论，而不 ...谢谢您的回答
我对您的建议理解是：对进入模型的数据，还有根据现实的、实际的意义来判断。
例如：在贷款用途purpose中，有的level的p值为0.01，有的level的p值为0.5，如何取舍？
另外，您指的HLM程序是 proc logistic 语句中的一类option选项么？
HLM是单独一款软件
chenkellyfly 发表于
HLM是单独一款软件学习了！
在SAS中如何解决上述问题呢？
谢谢您的耐心解答。
继续顶，谢谢各位，
肯请webgu大牛出现，
结果都有了在 analysis of maximum likelihood estimate里面，请教如何根据结果写成具体的模型，尤其是有多个哑变量的分类变量。
肯请webgu大牛出现，
结果都有了在 analysis of maximum likelihood estimate里面，请教如何根据结果写成具体的模型，尤其是有多个哑变量的分类变量。
本帖最后由 webgu 于
09:15 编辑
不要叫我大牛。
1. 首先这个跟在CLASS语句里选的参数化方法有关。常用的有 effect, param, ref 三种。其中GLM方法的哑变量个数跟其水平数是相同的，另外两个哑变量的个数是水平数减1。
具体区别可参见：
2. 默认是effect方法，哑变量的个数是水平数减1。
&&方程跟普通回归方程形式相同，你自己注意标识下哑变量。
& &太长了，我只以c_account为例：如果不是GLM参数化方法的，c_account应该有四个水平，三个哑变量。
& & y=-3.9477 + 2.2091*c_account1 +1.8281*c_account2+0.9594*c_account3。
&&多个协变量时，把其它协变量的哑变量加在后面即可，是类似的。
1. SAS 微信：StatsThinking
2. SAS QQ群：
初级学术勋章
初级学术勋章
初级热心勋章
初级热心勋章
初级信用勋章
初级信用勋章
中级学术勋章
中级学术勋章
中级热心勋章
中级热心勋章
中级信用勋章
中级信用勋章
无限扩大经管职场人脉圈！每天抽选10位免费名额，现在就扫& 论坛VIP& 贵宾会员& 可免费加入
&nbsp&nbsp|
&nbsp&nbsp|
&nbsp&nbsp|
&nbsp&nbsp|
&nbsp&nbsp|
&nbsp&nbsp|
如有投资本站或合作意向，请联系（010-）；
邮箱：service@pinggu.org
投诉或不良信息处理：（010-）
京ICP证090565号
论坛法律顾问：王进律师数据挖掘资料，点击底部&阅读原文&，手慢无梯度下降法(Gradient Descent)是优化问题中一种常用的手段，一般用于凸函数问题（或者可以转换为凸函数的问题）的求解，而逻辑回归问题就可以转换为一个凸函数问题，我们可以使用梯度下降来获得一个较优值（不保证全局最优）。一、什么是逻辑回归首先让我们了解一下线性回归（参考）的输入为单个数据xi，返回的结果是xi的具体分类yj，比如预测男女，输入的是一个人的参数，输出是具体的男或者女。逻辑回归的输入与线性回归相同，但输出为该数据xi属于某个分类yj的概率，即：P(yj|xi)。二、模型函数和其他机器学习算法一样，我们首先要定义我们的模型，然后训练出其参数。假设我们有数据$x{i}，则其属于分类y{j}的概率为:P(y_{j}x{i}) = wx{i}$，既然我们求的是概率，那么我们就要求其范围应该在0到1之间，所以我们需要对该概率公式做一些变换。构造模型函数的方法有很多种，由于后面我们需要把损失函数确定为凸函数，所以我们使用概率为来构造（其他形式课参考李航老师的《统计学习方法》）。现在我们假设有一个参数w，能够可以满足以下公式：p(y=1|x)1-p(y=1|x)=expwx对于该式我们进行进一步的变换，可以得到：p(y=1|x)=expwx1+expwx=11+exp-wx设η(t)=11+exp-t，我们知道η(t)的图像如下图所示：即满足了0到1的需求，那么我们的概率公式就可以写成：P(y=1|x)=η(wx)P(y=0|x)=1-η(wx)这里需要特别注意的是，我们使用$p(y=1x)而不是p(y=0x)作为\eta (wx)$，是因为一般数据的标签为1的是正例（或归一化之后接近1）。我们要求解的目标就是w参数，那么如何求呢？三、优化问题我们现在有了概率模型，为了求得最优的w，我们需要把求解w的问题转换为最优化问题。既然已经有了$P(y=1x)和P(y=0x)$，那么我们要做的就是让所有训练样本的概率最大化即可，即所有正样本的全概率加上所有负样本的全概率：L(w)=n?iP(y=1|x)<span class="MJXp-mtext" s
数据挖掘DW(datadw)
　文章为作者独立观点，不代表大不六文章网立场
datadw数据资源帝，致力于源源不断的资料提供。涵盖数据分析/数据挖掘，机器学习，R/Python编程，算法原理与案例，大数据，分享专家经验或观点，能为你解决数据研究相关学习、工作问题！热门文章最新文章datadw数据资源帝，致力于源源不断的资料提供。涵盖数据分析/数据挖掘，机器学习，R/Python编程，算法原理与案例，大数据，分享专家经验或观点，能为你解决数据研究相关学习、工作问题！&&&&违法和不良信息举报电话：183-
举报邮箱：Copyright(C)2017 大不六文章网132048人阅读
机器学习（2）
什么是逻辑回归？
Logistic回归与多重线性回归实际上有很多相同之处，最大的区别就在于它们的因变量不同，其他的基本都差不多。正是因为如此，这两种回归可以归于同一个家族，即广义线性模型（generalizedlinear model）。
这一家族中的模型形式基本上都差不多，不同的就是因变量不同。
如果是连续的，就是多重线性回归；如果是二项分布，就是Logistic回归；如果是Poisson分布，就是Poisson回归；如果是负二项分布，就是负二项回归。
Logistic回归的因变量可以是二分类的，也可以是多分类的，但是二分类的更为常用，也更加容易解释。所以实际中最常用的就是二分类的Logistic回归。
Logistic回归的主要用途：
寻找危险因素：寻找某一疾病的危险因素等；预测：根据模型，预测在不同的自变量情况下，发生某病或某种情况的概率有多大；判别：实际上跟预测有些类似，也是根据模型，判断某人属于某病或属于某种情况的概率有多大，也就是看一下这个人有多大的可能性是属于某病。
Logistic回归主要在流行病学中应用较多，比较常用的情形是探索某疾病的危险因素，根据危险因素预测某疾病发生的概率，等等。例如，想探讨胃癌发生的危险因素，可以选择两组人群，一组是胃癌组，一组是非胃癌组，两组人群肯定有不同的体征和生活方式等。这里的因变量就是是否胃癌，即“是”或“否”，自变量就可以包括很多了，例如年龄、性别、饮食习惯、幽门螺杆菌感染等。自变量既可以是连续的，也可以是分类的。
Regression问题的常规步骤为：
寻找h函数（即hypothesis）；构造J函数（损失函数）；想办法使得J函数最小并求得回归参数（θ）
构造预测函数h
Logistic回归虽然名字里带“回归”，但是它实际上是一种分类方法，主要用于两分类问题（即输出只有两种，分别代表两个类别），所以利用了Logistic函数（或称为Sigmoid函数），函数形式为：
Sigmoid 函数在有个很漂亮的“S”形，如下图所示（引自维基百科）：
下面左图是一个线性的决策边界，右图是非线性的决策边界。
对于线性边界的情况，边界形式如下：
构造预测函数为：
函数的值有特殊的含义，它表示结果取1的概率，因此对于输入x分类结果为类别1和类别0的概率分别为：
构造损失函数J
Cost函数和J函数如下，它们是基于最大似然估计推导得到的。
下面详细说明推导的过程：
（1）式综合起来可以写成：
取似然函数为：
对数似然函数为：
最大似然估计就是求使取最大值时的θ，其实这里可以使用梯度上升法求解，求得的θ就是要求的最佳参数。但是，在Andrew Ng的课程中将取为下式，即：
因为乘了一个负的系数-1/m，所以取最小值时的θ为要求的最佳参数。
梯度下降法求的最小值
θ更新过程：
θ更新过程可以写成：
向量化Vectorization
Vectorization是使用矩阵计算来代替for循环，以简化计算过程，提高效率。
如上式，Σ(...)是一个求和的过程，显然需要一个for语句循环m次，所以根本没有完全的实现vectorization。
下面介绍向量化的过程：
约定训练数据的矩阵形式如下，x的每一行为一条训练样本，而每一列为不同的特称取值：
g(A)的参数A为一列向量，所以实现g函数时要支持列向量作为参数，并返回列向量。由上式可知可由一次计算求得。
θ更新过程可以改为：
综上所述，Vectorization后θ更新的步骤如下：
（3）求&。
正则化Regularization
过拟合问题
对于线性回归或逻辑回归的损失函数构成的模型，可能会有些权重很大，有些权重很小，导致过拟合（就是过分拟合了训练数据），使得模型的复杂度提高，泛化能力较差（对未知数据的预测能力）。
下面左图即为欠拟合，中图为合适的拟合，右图为过拟合。
问题的主因
过拟合问题往往源自过多的特征。
1）减少特征数量（减少特征会失去一些信息，即使特征选的很好）
可用人工选择要保留的特征；模型选择算法；
2）正则化（特征较多时比较有效）
保留所有特征，但减少θ的大小
正则化方法
正则化是结构风险最小化策略的实现，是在经验风险上加一个正则化项或惩罚项。正则化项一般是模型复杂度的单调递增函数，模型越复杂，正则化项就越大。
从房价预测问题开始，这次采用的是多项式回归。左图是适当拟合，右图是过拟合。
直观来看，如果我们想解决这个例子中的过拟合问题，最好能将的影响消除，也就是让。假设我们对进行惩罚，并且令其很小，一个简单的办法就是给原有的Cost函数加上两个略大惩罚项，例如：
这样在最小化Cost函数的时候，。
正则项可以取不同的形式，在回归问题中取平方损失，就是参数的L2范数，也可以取L1范数。取平方损失时，模型的损失函数变为：
lambda是正则项系数：
如果它的值很大，说明对模型的复杂度惩罚大，对拟合数据的损失惩罚小，这样它就不会过分拟合数据，在训练数据上的偏差较大，在未知数据上的方差较小，但是可能出现欠拟合的现象；如果它的值很小，说明比较注重对训练数据的拟合，在训练数据上的偏差会小，但是可能会导致过拟合。
正则化后的梯度下降算法θ的更新变为：
正则化后的线性回归的Normal Equation的公式为：
其他优化算法
Conjugate gradient method(共轭梯度法)Quasi-Newton method(拟牛顿法)BFGS methodL-BFGS(Limited-memory BFGS)
后二者由拟牛顿法引申出来，与梯度下降算法相比，这些算法的优点是：
第一，不需要手动的选择步长；第二，通常比梯度下降算法快；
但是缺点是更复杂。
多类分类问题
对于多类分类问题，可以将其看做成二类分类问题：保留其中的一类，剩下的作为另一类。
对于每一个类 i 训练一个逻辑回归模型的分类器，并且预测y = i时的概率；对于一个新的输入变量x, 分别对每一个类进行预测，取概率最大的那个类作为分类结果：
参考知识库
* 以上用户言论只代表其个人观点，不代表CSDN网站的观点或立场
访问：165158次
排名：千里之外
原创：18篇
评论：32条
(1)(1)(1)(3)(2)(4)(6)本站为您推荐的文章
您可能感兴趣的文章
数据分析师视频
CDA大数据分析就业班答辩
电商大数据分析-第二组
CDA数据分析师学员
CDA数据分析师周边
Copyright & ,
All Rights Reserved. CDA数据分析师版权所有京ICP备号-9 & & & & &逻辑回归是回归模型，其中响应变量(因变量)具有明确的值，如：True/False或0/1。它实际测量二元响应作为响应变量，是基于与预测变量有关它的数学方程的值的概率。
逻辑回归一般的数学公式是：
y = 1/(1+e^-(a+b1x1+b2x2+b3x3+...))
以下是所使用的参数的说明：
y&是响应变量。
x&是预测变量。
a&和&b&是数字常量系数。
用于创建回归模型的功能是 glm()函数。
glm()函数在逻辑回归的基本语法是：
glm(formula,data,family)
以下是所使用的参数的说明：
formula&是呈现所述变量之间的关系的标志。
data&在数据集给出这些变量的值.
family&为R对象以指定模型的细节。它的值是二项分布逻辑回归。
在内置的数据集“mtcars”描述了他们不同的发动机规格的不同型号汽车。在“mtcars”数据集，传输模式（自动或手动）由列点它是一个二进制值描述（0或1）。我们可以创建列“am”和另外3列之间的逻辑回归模型- 马力(hp)，重量(wt)和缸(cyl)。
# Select some columns form mtcars.
input &- mtcars[,c("am","cyl","hp","wt")]
print(head(input))
当我们上面的代码执行时，它产生以下结果：
6 110 2.620
Mazda RX4 Wag
6 110 2.875
Datsun 710
Hornet 4 Drive
6 110 3.215
Hornet Sportabout
8 175 3.440
6 105 3.460
建立回归模型
我们用 glm()函数来创建回归模型，并得到了汇总分析。
input &- mtcars[,c("am","cyl","hp","wt")]
am.data = glm(formula=am ~ cyl + hp + wt ,
data=input,
family=binomial)
print(summary(am.data))
当我们上面的代码执行时，它产生以下结果：
glm(formula = am ~ cyl + hp + wt, family = binomial, data = input)
Deviance Residuals:
Coefficients:
Estimate Std. Error z value Pr(&|z|)
(Intercept) 19.70288
Signif. codes:
0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
(Dispersion parameter for binomial family taken to be 1)
Null deviance: 43.2297
degrees of freedom
Residual deviance:
degrees of freedom
AIC: 17.841
Number of Fisher Scoring iterations: 8
在汇总中的最后一列的 p值大于0.05为变量"cyl" 和 "hp"，我们认为它们是微不足道地促进变量“am”的值。只有重量（wt）在影响这个回归模型“am”的值。
本站代码下载：

35万的数据做逻辑excel回归分析p值还能看P值吗

我要回帖

更多关于逻辑回归 p值的文章

随机推荐

35万的数据做逻辑excel回归分析p值 还能看P值吗

我要回帖

更多关于 逻辑回归 p值 的文章

随机推荐

35万的数据做逻辑excel回归分析p值还能看P值吗

更多关于逻辑回归 p值的文章