将逻辑excel回归方程程应用于一个新的观测得到的结果是什么?

科学教育 | 学习帮助 | 出国/留学 | 工程技术科学 | 教育/科学 | 英语听力 | 梦幻西游电脑版 | 视频会议 | 口臭 | 暗黑破坏神3（游戏） | 面相 | 赛尔号 | linux | 山西省 | Xbox One | 思修 | 易经 | solidworks | 钢铁雄心4 | 休闲游戏 | 魔兽争霸3混乱之治 | 显卡 | 武汉大学 | 塞尔达传说（游戏） | 校服 | 剑侠情缘网络版叁 | 脱发 | 日本文化 | 数学建模 | 二次元 | 部落冲突（游戏） | 肖战 | 街机游戏 | 拳皇 | 马鞍山市 | 扑克 | 完美世界（游戏） | 三国志（游戏） | 热血传奇（游戏） | 意大利 | 跆拳道 | 东莞市 | 糖尿病 | 古琴 | 三国 | 电视节目 | 百度 | qq音乐 | 配音 | 电视 | 任天堂 | 科幻小说 | 虚拟专用服务器 | QQ游戏 | 大熊猫 | 微电影 | Android | 竞技游戏 | 动画制作 | QQ炫舞 | 电源 | 日语 | 魔兽争霸3冰封王座 | 产业 | ios开发 | 百度云 | 动画电影 | nba篮球 | 羽生结弦 | iOS应用 | galgame | 电吉他 | 平板电脑 | 周星驰（人物） | 离婚 | 后宫·甄嬛传（书籍） | 牙科 | 游戏开发 | 网络直播 | ios游戏 | 电子邮件 | SNH48 | 民国 | 美容 | 舰队 Collection | 心理 | Mac | 羽毛球技术 | 互联网公司 | 大学生兼职 | 烘焙 | 诸葛亮 | 跑跑卡丁车 | 武侠小说 | 微博 | 骨折 | 掌上游戏机 | 玉米 | 中国足球 | 电脑配置 | 洛奇英雄传 | 硬盘 | 张璐 | akb48 | 炉石传说 | 韩国 | 蓄电池 | QQ空间 | 房贷 | 麦克风 | 相声演员 | 抑郁 | 天下2（游戏） | 农业科学 | 神话 | 农历 | 中国足球协会超级联赛（CSL） | 流星花园 | 易烊千玺 | 火影忍者 | 日语歌曲 | 巴西 | 红酒 | 化疗 | 占地 | 网络小说 | 香烟 | 传奇世界 | 名字 | 日本电影 | 表演 | 西藏自治区 | 英雄传说：闪之轨迹（游戏） | 足球彩票 | 摩尔庄园 | 中国工商银行 | 游戏手柄 | 陈奕迅 | 联赛 | 天体物理学 | 英格兰足球超级联赛 | 超级机器人大战 | 命令与征服：红色警戒2（游戏） | 郭富城 | 一级方程式赛车（f1） | Adobe Photoshop | 英文歌曲 | 玄幻小说 | 猫和老鼠 | 杨凡 | 书籍改编电影 | 俄罗斯 | 网络赚钱 | 罗玉凤 | 刺客信条2 | 角色扮演 | 食物 | 药物 | 杨洋（演员） | 信息安全 | 胡歌（演员） | 张子枫 | 古典音乐 | 时尚 | 大片 | 电脑游戏 | 签证 | 徐佳莹 | 耽美 | 游戏攻略 | 音乐剧 | 前女友 | 男性 | 肠胃 | 刺客信条起源 | 剧场版 | 国际足联世界杯 | 彩虹六号（游戏） | 赵丽颖（演员） | 天体生物学 | 战神（游戏） | 吉他学习 | 飞机 | 三菱商事 | 关节炎 | 斗鱼直播 | 发电 | 张继科 | 华语流行音乐 | 搏击项目 | 主题曲 | 李信 | 刘德华（演员） | 即时战略游戏（RTS） | 欧阳娜娜 | 网址导航 | 海贼王 | 山地车 | 豆瓣电影 | 广场舞 |

你的位置：网站首页 >> 频道首页 >>理工学科 >>将逻辑excel回归方程程应用于一个新的观测得到的结果是什么?

将逻辑excel回归方程程应用于一个新的观测得到的结果是什么?

来源：蜘蛛抓取(WebSpider) 时间：2018-03-22 11:29 标签：毒力回归方程怎么得到

 上传我的文档
 下载
 收藏
粉丝量：34
该文档贡献者很忙，什么也没留下。
 下载此文档
应用回归分析,第9章课后习题参考答案
下载积分：1800
内容提示：应用回归分析,第9章课后习题参考答案
文档格式：DOC|
浏览次数：134|
上传日期： 12:43:28|
文档星级：
全文阅读已结束，如果下载本文需要使用
 1800 积分
下载此文档
该用户还上传了这些文档
应用回归分析,第9章课后习题参考答案
关注微信公众号豆丁微信公众号
君，已阅读到文档的结尾了呢~~
应用回归分析
扫扫二维码，随身浏览文档
手机或平板扫扫即可继续访问
应用回归分析
举报该文档为侵权文档。
举报该文档含有违规或不良信息。
反馈该文档无法正常浏览。
举报该文档为重复文档。
推荐理由：
将文档分享至：
分享完整地址
文档地址：
粘贴到BBS或博客
flash地址：
支持嵌入FLASH地址的网站使用
html代码：
&embed src='http://www.docin.com/DocinViewer--144.swf' width='100%' height='600' type=application/x-shockwave-flash ALLOWFULLSCREEN='true' ALLOWSCRIPTACCESS='always'&&/embed&
450px*300px480px*400px650px*490px
支持嵌入HTML代码的网站使用
您的内容已经提交成功
您所提交的内容需要审核后才能发布，请您等待！
3秒自动关闭窗口逻辑回归 vs 决策树 vs 支持向量机（II）
发表于 06:53|
来源Edvancer|
作者Lalit Sachan
摘要：本文讨论了如何在逻辑回归、决策树和SVM之间做出最佳选择。结论：首先应该选择逻辑回归，然后试试决策树（随机森林）是否可以大幅度提升模型性能；特征的数量和观测样本特别多、资源和时间充足时，可使用SVM。
本文是该系列的第二篇，第一篇参见：
在这篇文章，我们将讨论如何在逻辑回归、决策树和SVM之间做出最佳选择。其实
已经给出了很好的回答，不过在这里再补充一些。下面将继续深入讨论这个主题。事实上，这三个算法在其设计之初就赋予了一定的内部特性，我们将其分析透彻的主要目的在于：当你面临商业问题时，这些算法的特性可以让你在选择这些算法时得到一些灵感。
首先，我们来分析下逻辑回归（Logistic&Regression）,它是解决工业规模问题最流行的算法，尽管与其他技术相比，其在效率和算法实现的易用性方面并不出众。
逻辑回归非常便利并且很有用的一点就是，它输出的结果并不是一个离散值或者确切的类别。相反，你得到的是一个与每个观测样本相关的概率列表。你可以使用不同的标准和常用的性能指标来分析这个概率分数，并得到一个阈值，然后使用最符合你业务问题的方式进行分类输出。在金融行业，这种技术普遍应用于记分卡中，对于同一个模型，你可以调整你的阈值【临界值】来得到不同的分类结果。很少有其它算法使用这种分数作为直接结果。相反，它们的输出是严谨的直接分类结果。同时，逻辑回归在时间和内存需求上相当高效。它可以应用于分布式数据，并且还有在线算法实现，用较少的资源处理大型数据。
除此之外，逻辑回归算法对于数据中小噪声的鲁棒性很好，并且不会受到轻微的多重共线性的特别影响。严重的多重共线性则可以使用逻辑回归结合L2正则化来解决，不过如果要得到一个简约模型，L2正则化并不是最好的选择，因为它建立的模型涵盖了全部的特征。
当你的特征数目很大并且还丢失了大部分数据时，逻辑回归就会表现得力不从心。同时，太多的类别变量对逻辑回归来说也是一个问题。逻辑回归的另一个争议点是它使用整个数据来得到它的概率分数。虽然这并不是一个问题，但是当你尝试画一条分离曲线的时候，逻辑回归可能会认为那些位于分数两端“明显的”数据点不应该被关注。有些人可能认为，在理想情况下，逻辑回归应该依赖这些边界点。同时，如果某些特征是非线性的，那么你必须依靠转换，然而当你特征空间的维数增加时，这也会变成另一个难题。所以，对于逻辑回归，我们根据讨论的内容总结了一些突出的优点和缺点。
逻辑回归的优点：
便利的观测样本概率分数；&
已有工具的高效实现；
对逻辑回归而言，多重共线性并不是问题，它可以结合L2正则化来解决；
逻辑回归广泛的应用于工业问题上（这一点很重要）。
逻辑回归的缺点：
当特征空间很大时，逻辑回归的性能不是很好；不能很好地处理大量多类特征或变量；对于非线性特征，需要进行转换；依赖于全部的数据（个人觉得这并不是一个很严重的缺点）。
下面让我们来讨论下决策树和支持向量机。
决策树固有的特性是它对单向变换或非线性特征并不关心[这不同于预测器当中的非线性相关性&，因为它们简单地在特征空间中插入矩形[或是（超）长方体]，这些形状可以适应任何单调变换。当决策树被设计用来处理预测器的离散数据或是类别时，任何数量的分类变量对决策树来说都不是真正的问题。使用决策树训练得到的模型相当直观，在业务上也非常容易解释。决策树并不是以概率分数作为直接结果，但是你可以使用类概率反过来分配给终端节点。这也就让我们看到了与决策树相关的最大问题，即它们属于高度偏见型模型。你可以在训练集上构建决策树模型，而且其在训练集上的结果可能优于其它算法，但你的测试集最终会证明它是一个差的预测器。你必须对树进行剪枝，同时结合交叉验证才能得到一个没有过拟合的决策树模型。
随机森林在很大程度上克服了过拟合这一缺陷，其本身并没有什么特别之处，但它却是决策树一个非常优秀的扩展。随机森林同时也剥夺了商业规则的易解释性，因为现在你有上千棵这样的树，而且它们使用的多数投票规则会使得模型变得更加复杂。同时，决策树变量之间也存在相互作用，如果你的大多数变量之间没有相互作用关系或者非常弱，那么会使得结果非常低效。此外，这种设计也使得它们更不易受多重共线性的影响。
决策树总结如下：
决策树的优点：
直观的决策规则
可以处理非线性特征
考虑了变量之间的相互作用
决策树的缺点：
训练集上的效果高度优于测试集，即过拟合[随机森林克服了此缺点]没有将排名分数作为直接结果
现在来讨论下支持向量机（SVM,&Support&Vector&Machine）。支持向量机的特点是它依靠边界样本来建立需要的分离曲线。正如我们
，它可以处理非线性决策边界。对边界的依赖，也使得它们有能力处理缺失数据中“明显的”样本实例。支持向量机能够处理大的特征空间，也因此成为文本分析中最受欢迎的算法之一，由于文本数据几乎总是产生大量的特征，所以在这种情况下逻辑回归并不是一个非常好的选择。
对于一个行外人来说，SVM的结果并不像决策树那样直观。同时使用非线性核，使得支持向量机在大型数据上的训练非常耗时。总之：
SVM的优点：
能够处理大型特征空间
能够处理非线性特征之间的相互作用
无需依赖整个数据
SVM的缺点：
当观测样本很多时，效率并不是很高
有时候很难找到一个合适的核函数
为此，我试着编写一个简单的工作流，决定应该何时选择这三种算法，流程如下：
首当其冲应该选择的就是逻辑回归，如果它的效果不怎么样，那么可以将它的结果作为基准来参考；
然后试试决策树（随机森林）是否可以大幅度提升模型性能。即使你并没有把它当做最终模型，你也可以使用随机森林来移除噪声变量；如果特征的数量和观测样本特别多，那么当资源和时间充足时，使用SVM不失为一种选择。
最后，大家请记住，在任何时候好的数据总要胜过任何一个算法。时常思考下，看看是否可以使用你的领域知识来设计一个好的特征。在使用创建的特征做实验时，可以尝试下各种不同的想法。此外，你还可以尝试下多种模型的组合。这些我们将在下回讨论，所以，整装待发吧！
原文地址：
（译者/刘帝伟审校/赵屹华
责编/周建丁&&原创、翻译投稿请联系：，微信号：jianding_zhou）译者简介：刘帝伟，中南大学软件学院在读研究生，关注机器学习、数据挖掘及生物信息领域。
90+位讲师，16大分论坛，Databricks公司联合创始人、Apache Spark首席架构师辛湜，Hadoop、HBase和Thrift项目的PMC成员和Committer、Kudu的发明人Todd Lipcon等海外专家将亲临，票价折扣即将结束，。
推荐阅读相关主题：
CSDN官方微信
扫描二维码,向CSDN吐槽
微信号：CSDNnews
相关热门文章您还没有登录，快捷通道只有在登录后才能使用。还没有帐号？赶紧
1共10页10) ? 10 :
location='https://bbs.aliyun.com/detail/327880.html?page='+page+'';}">10) ? 10 :
location='https://bbs.aliyun.com/detail/327880.html?page='+page+'';">Go
逻辑回归算法的原理及实现(LR)
在线时间29小时
问题导读：1、什么是逻辑回归算法？2、如何理解一元、多元逻辑归回？3、如何使用逻辑归回模型解决问题？37816_bf4c_17.jpg (49.44 KB, 下载次数: 3)下载附件保存到相册 09:42 上传回归分析用来描述自变量x和因变量Y之间的关系，或者说自变量X对因变量Y的影响程度，并对因变量Y进行预测。其中因变量是我们希望获得的结果，自变量是影响结果的潜在因素，自变量可以有一个，也可以有多个。一个自变量的叫做一元回归分析，超过一个自变量的叫做多元回归分析。下面是一组广告费用和曝光次数的数据，费用和曝光次数一一对应。其中曝光次数是我们希望知道的结果，费用是影响曝光次数的因素，我们将费用设置为自变量X，将曝光次数设置为因变量Y，通过一元线性回归方程和判定系数可以发现费用(X)对曝光次数(Y)的影响。一元回归原始数据表.png (6.76 KB, 下载次数: 3)下载附件保存到相册 09:43 上传以下为一元回归线性方式，其中y是因变量，X是自变量，我们只需求出截距b0和斜率b1就可以获得费用和曝光次数之间的关系，并对曝光次数进行预测。这里我们使用最小二乘法来计算截距b0和斜率b1。最小二乘法通过最小化误差的平方和寻找数据的最佳函数匹配。一元回归.png (5.07 KB, 下载次数: 3)下载附件保存到相册 09:43 上传下表中是使用最小二乘法计算回归方程的一些必要的计算过程。在表中最左侧的两列分别为自变量X和因变量Y，我们首先计算出自变量和因变量的均值，然后计算每一个观测值与均值的差，以及用于计算回归方程斜率b1所需的数据。最小二乘法.png (26.19 KB, 下载次数: 3)下载附件保存到相册 09:44 上传根据表中的数据按公式计算出了回归方程的斜率b1，计算过程如下。斜率表示了自变量和因变量间的关系，斜率为正表示自变量和因变量正相关，斜率为负表示自变量和因变量负相关，斜率为0表示自变量和因变量不相关。b1公式1.png (14.1 KB, 下载次数: 3)下载附件保存到相册 09:44 上传求得斜率b1后，按下面的公式可以求出Y轴的截距b0。b0公式1.png (4.8 KB, 下载次数: 3)下载附件保存到相册 09:45 上传将斜率b1和截距b0代入到回归方程中，通过这个方程我们可以获得自变量和因变量的关系，费用每增加1元，曝光次数会增长7437次。以下为回归方程和图示。一元回归代入.png (10.76 KB, 下载次数: 4)下载附件保存到相册 09:45 上传费用与曝光次数1-.png (152.42 KB, 下载次数: 3)下载附件保存到相册 09:46 上传在回归方程的图示中，还有一个R平方，这个值叫做判定系数，用来衡量回归方程是否很好的拟合了样本的数据。判定系数在0-1之间，值越大说明拟合的越好，换句话说就是自变量对因变量的解释度越高。判定系数的计算公式为SST=SSR+SSE，其中SST是总平方和，SSR是回归平方和，SSE是误差平方和。下表为计算判定系数所需三个指标的一些必要的计算过程。R平方-.png (251.26 KB, 下载次数: 3)下载附件保存到相册 09:46 上传根据前面求得的回归平方和(SSR)和总平方和(SST)求得判定系数为0.94344。R平方公式1.png (6.94 KB, 下载次数: 3)下载附件保存到相册 09:47 上传以上为回归方程的计算过程，在根据费用预测曝光数量的场景下，我们可以通过回归方程在已知费用的情况下计算出曝光数量。逻辑回归与回归方程相比在线性回归的基础上增加了一个逻辑函数。例如通过用户的属性和特征来判断用户最终是否会进行购买。其中购买的概率是因变量Y，用户的属性和特征是自变量X。Y值越大说明用户购买的概率越大。这里我们使用事件发生的可能性（odds）来表示购买与未购买的比值。inodds1-1024x63.png (10.25 KB, 下载次数: 3)下载附件保存到相册 09:47 上传使用E作为购买事件，P(E)是购买的概率，P(E’)是未购买的概率，Odds(E)是事件E(购买)发生的可能性。odds.png (14 KB, 下载次数: 3)下载附件保存到相册 09:48 上传Odds是一个从0到无穷的数字，Odds的值越大，表明事件发生的可能性越大。下面我们要将Odds转化为0-1之间的概率函数。首先对Odds取自然对数，得到logit方程，logit是一个范围在负无穷到正无穷的值。logit1-.png (61.54 KB, 下载次数: 3)下载附件保存到相册 09:49 上传基于上面的logit方程，获得以下公式：logit2-1024x58.png (39.67 KB, 下载次数: 3)下载附件保存到相册 09:49 上传其中使用π替换了公式中的P(E),π=P(E)。根据指数函数和对数规则获得以下公式：odds1.png (16.06 KB, 下载次数: 3)下载附件保存到相册 09:53 上传并最终获得逻辑回归方程：逻辑回归公式-.png (54.19 KB, 下载次数: 3)下载附件保存到相册 09:54 上传下面根据逻辑回归方程来计算用户购买的概率，下表是用户注册天数和是否购买的数据，其中注册天数是自变量X，是否购买是自变量Y。我们将购买标记为1，将未购买标记为0。接下来我们将在Excel中通过8个步骤计算出逻辑回归方程的斜率和截距。并通过方程预测新用户是否会购买。一元逻辑回归数据.png (2.82 KB, 下载次数: 3)下载附件保存到相册 09:54 上传第一步，使用Excel的排序功能对原始数据按因变量Y进行排序，将已购买和未购买的数据分开，使得数据特征更加明显。第二步，按照Logit方程预设斜率b1和截距b0的值，这里我们将两个值都预设为0.1。后续再通过Excel求最优解。第三步，按照logit方程，使用之前预设的斜率和截距值计算出L值。step1.png (23.56 KB, 下载次数: 3)下载附件保存到相册 09:55 上传第四步，将L值取自然对数，第五步，计算P(X)的值，P(X)为事件发生的可能性(Odds)。具体的计算步骤和过程见下图。step2.png (30.38 KB, 下载次数: 3)下载附件保存到相册 09:55 上传第六步，计算每个值的对数似然函数估计值（Log-Likelihood）。方法和过程见下图。第七步，将对数似然函数值进行汇总。step3-.png (169.89 KB, 下载次数: 4)下载附件保存到相册 09:56 上传第八步，使用Excel的规划求解功能，计算最大对数似然函数值。方法和过程见下图。设置汇总的对数似然函数值LL为最大化的目标，预设的斜率b1和截距b0是可变单元格，取消”使无约束变量为非负数”的选项。进行求解。规划求解.png (50.85 KB, 下载次数: 3)下载附件保存到相册 09:56 上传Excel将自动求出逻辑回归方程中斜率和截距的最优解，结果如下图所示。step4-.png (165.75 KB, 下载次数: 3)下载附件保存到相册 09:56 上传求得逻辑回归方程的斜率和截距以后，我们可以将值代入方程，获得一个注册天数与购买概率的预测模型，通过这个模型我们可以对不同注册天数(X)用户的购买概率(Y)进行预测。以下为计算过程。step5.png (19.07 KB, 下载次数: 3)下载附件保存到相册 09:57 上传第一步，输入自变量注册天数(X)的值，这里我们输入50天。第二步，将输入的X值，以及斜率和截距套入Logit方程，求出L值。第三步，对L值取自然对数。第四步，求时间发生可能性P(X)的概率值。注册天数为50天的用户购买的概率约为17.60%。我们将所有注册天数的值代入到购买概率预测模型中，获得了一条注册天数对购买概率影响的曲线。从曲线中可以发现，注册天数在较低和较高天数的用户购买概率较为平稳。中间天数用户的购买概率变化较大。注册天数对购买概率的影响-.png (191.28 KB, 下载次数: 3)下载附件保存到相册 09:57 上传我们继续在上面的计算结果中增加新的自变量“年龄”。以下是原始数据的截图。现在有年龄和注册天数两个自变量和一个因变量。多元逻辑回归数据.png (3.98 KB, 下载次数: 3)下载附件保存到相册 09:58 上传依照前面的方法计算斜率和截距的最优解，并获得逻辑回归方程，将不同的年龄和注册天数代入到方程中，获得了用户年龄和注册天数对购买的预测模型。我们通过Excel的三维图表来绘制年龄和注册天数对购买概率的影响。年龄和注册天数对购买概率的影响-.png (488.29 KB, 下载次数: 3)下载附件保存到相册 09:58 上传从图中可以看出，购买概率随着注册天数的增加而增长，并且在相同的注册天数下，年龄较小的用户购买概率相对较高。来源：蓝鲸网站分析博客
弹性可伸缩的计算服务，助您降低 IT 成本，提升运维效率
稳定可靠、可弹性伸缩的在线数据库服务，全球最受欢迎的开源数据库之一
在线时间小时
我有的句子都读不通顺。。。
1共10页10) ? 10 :
location='https://bbs.aliyun.com/detail/327880.html?page='+page+'';}">10) ? 10 :
location='https://bbs.aliyun.com/detail/327880.html?page='+page+'';">Go
访问内容超出本站范围，不能确定是否安全
限100 字节
批量上传需要先选择文件，再选择上传
您目前还是游客，请
验证问题: 57 - 0 = ?
&回复后跳转到最后一页
开发者论坛为你提供“逻辑回归算法的原理及实现(LR)”的内容，论坛中还有更多关于
的内容供你使用，该内容是网友上传，与开发者论坛无关，如果需要删除请联系zixun-group@service.aliyun.com，工作人员会在5个工作日内回复您。关于逻辑回归，你必须要知道的3件事 | R语千寻
在结束了基本的背景介绍和描述分析后（参见逻辑回归的逻辑在哪？），接下来我们就需要对客户信息进行科学严谨的分析啦。下面我们进入正题，今天讲述关于逻辑回归你必须要知道的3件事：为什么？是什么？怎么做？
为什么使用逻辑回归？
根据目前手中的信息，我们的数据的因变量为客户是否离网（0或1），而自变量则是通话以及上网的数据。这时候就出现问题了，这数据那么多，但最终因变量的结果却只有0和1两种情况，这是否可谓“大道至简”（手动傲娇脸）。在这样的情况下，我们为什么不使用线性回归来分析呢？自然是因为线性回归会和现有数据产生不可调和的矛盾喽，请看下式：
这个方程是典型的线性回归的式子，但神奇的事情发生了，此时等式的左边是离散型的，而等式的右边却是连续型的！由于这个奇葩的式子，回归直线和因变量二者的取值望穿秋水也几乎永远不可能相等。
在逻辑回归中，我们如何处理这种不可调和的矛盾呢？实际上，在逻辑回归中，我们是对Y=1的概率（也就是P（Y=1））建模。现在这个概率肯定就是个连续的啦，上面那个等式里一大难题解决了！虽然现在退而求了“其次”，我们如何再“进回去”，将这个概率和之前因变量的0-1扯上关系呢？这时候我们就可以根据自身需要设定一个阈值，当新的因变量根据自变量计算出的结果大于这个阈值时，我们认为它取1，反之则认为它取0，这不就有关系啦，这种解决问题的思路也就是逻辑回归的思想。
正式介绍：逻辑回归是什么
逻辑回归是解决分类问题的一种分类模型，在实际生活中，最常用的就是二分类的逻辑回归。既然我们要计算某条观测的概率，那我们用于计算的函数值域就要取[0,1]呀，下面这个函数就满足了我们的要求：
这个函数叫做sigmoid函数，也称作Logistic函数，它的函数图像就如下图所示：
接下来我们将自变量的线性组合（）代入到函数中，就变成了下面式子的样子：
现在这个函数将自变量的线性组合映射到了[0,1]之间。那么也就很容易给出逻辑回归的建模方式了：。你可能发现，实际上，这个函数也没啥了不起的，不过就是值域在0~1之间的连续函数而已，满足这样的函数千千万。你说的很对，除此之外还有其他的函数形式（比如随机变量的分布函数），感兴趣的同学可以了解一下Probit回归等其他形式的回归。在实际过程中，由于Logistic函数具有很好的解析性质，久而久之，也就成为我们的建模首选了。进一步我们能够得到与的比值为：
等式左边的值称为“发生比”（Odds），它的取值范围是从0到∞，值接近0的时候说明分子很大而分母很小，即它取1的概率要远远高于取0的概率；同样，值接近无穷时则说明取0的概率要远远高于取1的概率。接下来再对两边取对数，就得到了下面的式子：
此时等式的左边我们称之为对数发生比或分对数（Log Odds）。上述变换也称为logit变换。可以看出，现在得到的这个等式的右边非常像线性回归方程。在我们可以得知其分类概率的情况下，我们就可以按照最小二乘法，估计出模型的各个参数值，这个逻辑回归方程也就大功告成啦！
这做法听起来很完美，可惜那只是我们的一厢情愿……因为我们有个最严重的问题：其实我们并不知道取不同数据的可能性啊！那这种时候我们要怎么估计呢？看来只有动点真格的了，我们要祭出统计学估计方式的一大杀器：极大似然估计！如果这个名词对你来说还比较陌生，那么你可以参考一下经典的统计学教材关于具体原理的介绍。
怎么得到极大似然估计呢？我们首先需要计算逻辑回归模型中Yi的概率分布：
那么所有Yi的联合分布函数，即似然函数为：
好了，通过最大化以上似然函数，我们就能够得到“最大似然估计”了。再多说一句，怎么最大化上面这个似然函数呢？一般来说，我们常常对上述连乘形式取对数，得到对数似然函数并进行优化：
由于对数变换是单调的，因此最大化这个对数似然函数也就是最大化上面的似然函数。虽然上述函数的最优值没有显示解，但使用一些经典的优化方法（如牛顿迭代法），我们就能够得到最大似然估计了。
一行R代码搞定逻辑回归
说了这么多，但其实在R语言中，逻辑回归建模也就是一句话的事儿。我们最常用的是广义线性回归语句glm()：
glm(formula, family, data,…)
与lm()不同之处就在于参数family，这个参数的作用在于定义一个族以及连接函数，使用该连接函数将因变量的期望与自变量联系起来。广义线性回归包含各种各样的回归形式，除了逻辑回归之外，还有泊松回归等等，他们对应不同的family的取值。对于逻辑回归来，我们使用family=binomial(link=logit)，表示引用了二项分布族binomial中的logit连接函数。
根据逻辑回归的原理，我们可以得到回归系数、p值等。模型做出来了，我们也就需要对这个模型进行解读，分析这些回归系数的数字背后的东西。那么我们应该如何解读回归系数呢？
我们先从线性模型说起。在线性模型中，保持其他变量不变时，的值表示X1值每增加一个单位时的变化量；而在逻辑回归模型中，结合我们之前所提到的发生比，可以看出，X1每增加一个单位，对数发生比（Log Odds）的变化为。根据逻辑回归的表达式，此时p(X)与之间不再是线性关系，p(X)的变化量还会受到X1当时取值的影响。一般来说，我们更加关心回归系数的符号：当取正值时，p(X)会随X1增加而增加；当取负值时，p(X)会随X1增加而减少。
接下来我们以第一项“tenure”——在网时长为例，具体为大家讲如何分析逻辑回归中的系数：首先看在网时长变量的p值为6.52×10-8，非常小，这说明自变量对因变量有显著影响（在99%的置信水平下）。直观上说，这个变量的回归系数-0.30973也就是有意义的，也就是说，在其他因素不变时，在网时长每增加一个单位，客户是否流失的对数发生比就减小0.30973；抛开具体在网时长数值，我们将该回归系数解读为：控制其他因素不变，在网时长小的人会比在网时长数值大的人更容易成为流失客户。
鉴于这些自变量的回归系数都是负的，那我们可以将整个回归模型解读为：在控制其他因素不变时，在网时长、当月话费、通话人数、人均通话时长、通话时长分布、花费变化率以及通话人数变化率小的用户更容易成为流失客户。我们发现，这里的结果和描述分析得出的结果是比较一致的。同时逻辑回归的结果给了我们对于回归关系更为精确的刻画和度量。
看完这部分的内容，相信小伙伴们对逻辑回归的原理和结果解读有了一定的认识啦，那么我们应该如何根据逻辑回归的结果进行预测和评价呢？预知测评几何，请听下回分解！
本文第一作者是来自人民大学统计学院，同时也是人才计划第一期毕业的优秀成员李宇轩（土豆）同学。另外，特别感谢水妈提出的宝贵修改意见！
注：本文涉及的代码、数据等文件将会在狗熊会正式出版的R语千寻图书中提供，敬请期待！
查看【R语千寻】专栏往期精彩文章，在微信平台输入“r”即可。
视频only！
责任编辑：
声明：本文由入驻搜狐号的作者撰写，除搜狐官方账号外，观点仅代表作者本人，不代表搜狐立场。
今日搜狐热点

将逻辑excel回归方程程应用于一个新的观测得到的结果是什么?

我要回帖

更多关于毒力回归方程怎么得到的文章

随机推荐

将逻辑excel回归方程程应用于一个新的观测得到的结果是什么?

我要回帖

更多关于 毒力回归方程怎么得到 的文章

随机推荐

更多关于毒力回归方程怎么得到的文章