spss modeler使用教程感觉没多少人用

科学教育 | 学习帮助 | 出国/留学 | 工程技术科学 | 教育/科学 | 英语听力 | 梦幻西游电脑版 | 视频会议 | 口臭 | 暗黑破坏神3（游戏） | 面相 | 赛尔号 | linux | 山西省 | Xbox One | 思修 | 易经 | solidworks | 钢铁雄心4 | 休闲游戏 | 魔兽争霸3混乱之治 | 显卡 | 武汉大学 | 塞尔达传说（游戏） | 校服 | 剑侠情缘网络版叁 | 脱发 | 日本文化 | 数学建模 | 二次元 | 部落冲突（游戏） | 肖战 | 街机游戏 | 拳皇 | 马鞍山市 | 扑克 | 完美世界（游戏） | 三国志（游戏） | 热血传奇（游戏） | 意大利 | 跆拳道 | 东莞市 | 糖尿病 | 古琴 | 三国 | 电视节目 | 百度 | qq音乐 | 配音 | 电视 | 任天堂 | 科幻小说 | 虚拟专用服务器 | QQ游戏 | 大熊猫 | 微电影 | Android | 竞技游戏 | 动画制作 | QQ炫舞 | 电源 | 日语 | 魔兽争霸3冰封王座 | 产业 | ios开发 | 百度云 | 动画电影 | nba篮球 | 羽生结弦 | iOS应用 | galgame | 电吉他 | 平板电脑 | 周星驰（人物） | 离婚 | 后宫·甄嬛传（书籍） | 牙科 | 游戏开发 | 网络直播 | ios游戏 | 电子邮件 | SNH48 | 民国 | 美容 | 舰队 Collection | 心理 | Mac | 羽毛球技术 | 互联网公司 | 大学生兼职 | 烘焙 | 诸葛亮 | 跑跑卡丁车 | 武侠小说 | 微博 | 骨折 | 掌上游戏机 | 玉米 | 中国足球 | 电脑配置 | 洛奇英雄传 | 硬盘 | 张璐 | akb48 | 炉石传说 | 韩国 | 蓄电池 | QQ空间 | 房贷 | 麦克风 | 相声演员 | 抑郁 | 天下2（游戏） | 农业科学 | 神话 | 农历 | 中国足球协会超级联赛（CSL） | 流星花园 | 易烊千玺 | 火影忍者 | 日语歌曲 | 巴西 | 红酒 | 化疗 | 占地 | 网络小说 | 香烟 | 传奇世界 | 名字 | 日本电影 | 表演 | 西藏自治区 | 英雄传说：闪之轨迹（游戏） | 足球彩票 | 摩尔庄园 | 中国工商银行 | 游戏手柄 | 陈奕迅 | 联赛 | 天体物理学 | 英格兰足球超级联赛 | 超级机器人大战 | 命令与征服：红色警戒2（游戏） | 郭富城 | 一级方程式赛车（f1） | Adobe Photoshop | 英文歌曲 | 玄幻小说 | 猫和老鼠 | 杨凡 | 书籍改编电影 | 俄罗斯 | 网络赚钱 | 罗玉凤 | 刺客信条2 | 角色扮演 | 食物 | 药物 | 杨洋（演员） | 信息安全 | 胡歌（演员） | 张子枫 | 古典音乐 | 时尚 | 大片 | 电脑游戏 | 签证 | 徐佳莹 | 耽美 | 游戏攻略 | 音乐剧 | 前女友 | 男性 | 肠胃 | 刺客信条起源 | 剧场版 | 国际足联世界杯 | 彩虹六号（游戏） | 赵丽颖（演员） | 天体生物学 | 战神（游戏） | 吉他学习 | 飞机 | 三菱商事 | 关节炎 | 斗鱼直播 | 发电 | 张继科 | 华语流行音乐 | 搏击项目 | 主题曲 | 李信 | 刘德华（演员） | 即时战略游戏（RTS） | 欧阳娜娜 | 网址导航 | 海贼王 | 山地车 | 豆瓣电影 | 广场舞 |

你的位置：网站首页 >> 频道首页 >>软件 >>spss modeler使用教程感觉没多少人用

spss modeler使用教程感觉没多少人用

来源：蜘蛛抓取(WebSpider) 时间：2017-10-06 05:43 标签： spss modeler 18 破解

使用 IBM SPSS Modeler 进行数据挖掘之数据理解
在数据挖掘项目中，数据理解常常不被重视。但其实数据理解在整个数据挖掘项目中扮演着非常重要的角色，可以说是整个项目的基石。在计算机领域有一句话，“Garbage in，garbage out.” 意思就是说，如果你的输入数据没有经过科学的预处理，你所得到的结果必将是错误的。通过数据理解，我们可以理解数据的特性和不足，进而对数据进行预处理，使得将来得到的模型更加稳定和精确。其次通过理解数据项之间的关系，我们可以为建模时输入数据项和模型的选择提供重要的信息。
首先，我们需要了解 CRISP-DM 模型，从而了解数据理解在数据挖掘工作的位置和作用。接着我们利用一个例子，分三个章节来介绍如何利用 Modeler 来理解和处理原始数据中的缺失值，异常值和各个数据项之间的内在关系。
CRISP-DM 模型
数据挖掘是一项复杂的工程，为了让整个项目便于控制和管理，我们必须遵从一定的标准流程。而 CRISP-DM 模型就是数据挖掘业界比较流行的一种模型。
图 1. CRISP-DM 模型图
CRISP-DM，即跨行业数据挖掘标准流程，这是一种业界认可的用于指导数据挖掘工作的方法。作为一种方法，它包含工程中各个典型阶段的说明、每个阶段所包含的任务以及这些任务之间的关系的说明；作为一种流程模型，CRISP-DM 概述了数据挖掘的生命周期。图 1 展示了 CRISP-DM 中定义的数据挖掘生命周期中的六个阶段。
商业理解：了解进行数据挖掘的业务原因和数据挖掘的目标数据理解：深入了解可用于挖掘的数据数据准备：对待挖掘数据进行合并，汇总，排序，样本选取等操作建立模型：根据前期准备的数据选取合适的模型模型评估：使用在商业理解阶段设立的业务成功标准对模型进行评估结果部署：使用挖掘后的结果提升业务的过程
下面，我们以某超市的市场推广活动为例，从商业理解开始，一起来学习如何利用 Modeler 的强大功能来进行数据理解。
商业理解：现状：
某超市新增加了体育服饰用品营业部。开业一段时间，由于体育服饰用品地处二楼，很多顾客还不知道，营业额没有达到预期。
商业目标：
经理决定进行一次促销活动，具体活动是向会员中的部分用户邮寄打折优惠卡。考虑到优惠卡制作费用，邮寄费用，经理希望能够向那些最有购买潜力的客户邮寄优惠卡。使这些潜在用户了解本超市的体育品牌和刺激他们进行消费。
活动计划：
首先调取自体育用品部营业来的所有销售记录，得到购买体育用品的会员记录，建立模型，对本超市所有会员进行预测，对那些最有可能购买体育用品且尚未购买的客户邮寄优惠卡。以刺激这些潜在客户的消费。
验证条件：
产生潜在客户名单信息后，随机抽取 100 名进行电话调查，表示愿意接受优惠券并且表示会来消费的顾客比例高于 70%.
经理将这个任务交给小王来负责，小王首先对超市内现有的数据进行分析：
会员基本信息：会员申请会员卡时登记的信息，其中包含了会员年龄，职业，学历，电话，工作，收入，住址等信息。消费信息：会员消费的明细记录。
了解了现有数据后，小王发现有以下问题：
会员基本信息是会员提供的，里边有很多值是缺失的，有的看起来是错误的。而消费信息由于是每次消费后电脑生成，信息是完整的，但是信息却很庞杂，不利于分析。可用的数据项非常多，到底用哪些数据项来进行数据预测呢？
这几个问题都是数据理解需要解决的问题，下边我们就来看一下如何利用 Modeler 来帮助我们进行数据理解：
使用 Modeler 进行缺失值分析什么是缺失值？
缺失值就是指数据文件中的某些数据项是未知的值。几乎所有的商业数据挖掘中，都要遇到缺失值的问题，有可能是数据采集中的失误，有可能客户不愿意提供某些信息，面对这样的数据，我们该如何是好 ? 使用这样的数据可能会对我们后期的建模产生不可预料的影响。如果丢弃，这些数据中可能包含着宝贵的信息。下边我们就来看一下如何利用 Modeler 来进行缺失值分析：
缺失值示例
第一步我们需要利用 Modeler 来确定数据文件中缺失值的类型和数量。然后才能做进一步的处理。
首先我们看一下我们例子中需要用到的数据：
图 2. 缺失值分析示例数据
从上图中我们可以看到编号有些记录的值是缺失的。
接下来我们打开 Modeler，新建 Stream，拖入一个“可变文件”节点到工作区。双击节点。选择示例数据文件作为输入。然后我们点击“可变文件”节点的预览按钮。得到结果如图：
图 3. 原始数据预览图
从预览图里我们可以看出记录 002 的年龄为 null，性别为空 , 这两个值都可以被 Modeler 自动识别为缺失值。这是 Modeler 针对不同类型的数据做了不同的处理。这里年龄被 Modeler 识别为整数类型，性别被识别为字符串类型。另外我们发现 005 的电话号码依然为“无”，并没有做任何替换。着我们这个示例里电话号码“无”是一个语义上的缺失值，在很多数据文件中都可能含有这样的信息，那么在 Modeler 里怎么定义这样的缺失值呢？这个我们稍后会做介绍。
利用“数据审核”节点审核数据
“数据审核”节点可以提供给我们很多有用的信息，其中就包括数据缺失值信息。下边，我们就将“数据审核”节点加入到我们的 stream 中来，连接“可变文件”节点和“数据审核”节点，运行 Stream，我们可以得到下图
图 4. 数据审核结果图
从上图中我们可以看到很多有用的信息，数据的分布图形，数据的类型，统计值等，在这里我们要关注的是最后一列有效数据，这里我们发现年龄，性别，学历，月收入的有效值都不是 30，这说明 “数据审核”节点已经成功的帮我们识别出了这两列的缺失值。同时我们可以发现电话这一项的有效数据仍然是 30.
下边我们就来看看如何在 Modeler 中定义缺失值。
缺失值定义
双击“可变文件”节点，选择类型页。如下图：
图 5. “可变文件”节点类型页
在类型页里我们发现有一列名为“缺失”，我们在电话这一列我们点击缺失这以空白项。
图 6. 指定缺失值
我们选择指定…，会打开一个新的页面：
图 7. 配置电话缺失值
如上图，我们选择“定义空白”，添加一个缺失值为“无”。然后点击确定，关闭窗口。
接着我们再来运行数据审核，得到如下结果：
图 8. 数据审核结果图
这次我们可以发现电话这一项的有效数据变成了 29. 说明我们定义的缺失值成功了。
然后我们选择“数据审核”节点的质量页，如下图 :
图 9. 数据质量结果图
从上图中可以看出完整的字段为 37.5%，完整的记录为 83.33%，这时我们可以决定如何处理缺失值，如果我们完整的字段占的比例很高，那么我们一般应该过滤掉包含缺失值的字段然后进行建模。另一种情况，如果完整记录所占比例较高那么我们应该删除那些含有缺失值的记录然后进行建模。
Modeler 考虑到这两种情况，提供了非常实用的功能来帮助我们进行数据的筛选。我们打开数据审核结果，选择质量页面，单击工具条上的生成按钮，里边可以选择生成列的过滤节点，或者值的选择节点。生成的节点可以帮助我们自动过滤含有缺失值的行或者列。
上面所说的对缺失值的处理是删除含有缺失值的列或者行，还有一种办法是我们可以对缺失值进行填充，比如我们可以用缺失值所在列的平均值，随机值来进行填充，或者我们对该列进行建模预测，来达到填充缺失值的目的。
使用 Modeler 进行异常值分析什么是异常值
异常值就是数据文件中那些和其它值相比有明显不同的值，它们可以通过观察数据分布来确定。
在具体考虑异常值时，我们需要注意异常值的类型，一般分为两种，一种是可枚举类型，比如超市里的商品名，商品名不可能有异常值。假如我们利用会员购买的商品来预测他会不会购买体育用品，因为商品很多，使得购买相同商品的用户数量很少，所建模型就会很不稳定。这时我们应该对商品进行抽象，比如抽象为水果，零食，日用品，蔬菜，化妆品等，用这样的数据进行预测，就会使模型可靠性提升。利用 Modeler 里的“分布”节点可以对这种可枚举类型的数据进行分组。
图 10. 001 用户消费记录
假如我们有上表这样的数据，我们如何将商品进行抽象分组呢？首先我们建立一个 stream，用“可变文件节点”来读取数据。然后连接一个“分布”节点。运行分布节点，得到下图。
图 11. 分布节点运行结果
比如我们可以选择梨，苹果，然后右键选择“组”，建立一个水果组。类似的建立一个化妆品组。然后我们可以选择“生成”菜单，让 Modeler 自动帮我们生成一个分组节点。这样，我们就可以用水果，化妆品这样的具有一定抽象意义的值来代替原来具体的值。
另一种类型就是连续型数据，比如用户收入，用户年龄等。对于连续型数据，运行数据审核节点，在质量页面我们就可以查看离群值和极值。默认情况下，Modeler 是根据平均值的标准差来确定离群值和极值的。在运行“数据审核”结果页面我们也可以设置离群值和极值的处理方法
图 12. 处理异常值的设置
选择工具条里的生成按键，选择离群值和极值超节点。这时，Modeler 会帮我们自动生成一个过滤离群值和极值的超节点。我们连接“可变文件”节点和这个超节点，Modeler 就会帮我们按照我们期望的处理方式来处理离群值和极值。
还有一种异常值是需要多个列组合才能看出来。比如某顾客每个月在超市消费额都在 1000 以上，但是他的会员信息显示他的月收入为 1000 元，这条记录就可以被识别为异常值。需要进一步分析。同样 Modeler 也提供了相应的功能来帮助我们识别这样的联合分布的异常值。
图 13. 用户收入消费表
从上边的数据中，我们很难发现哪条数据有异常，下边我们就用 Modeler 里的“图”节点来帮助我们分析数据。
我们将“可变文件”节点的数据文件指向示例数据，添加一个“图”节点，并双击“图”节点，如图：
图 14. 设置图节点
运行图节点。
图 15. “图”节点结果
这是我们能明显看到左上角的一个异常值，鼠标移动到这个点上，我们可以看到这个点所代表的详细信息。
使用 Modeler 观察数据项之间联系
对于数据挖掘来说在进行真正的建模之前，通过观察数据项之间的关系，特别是输入数据项和目标数据项之间的关系，是非常有意义的，它能快速的让我们对数据之间的关系有个大概了解，精简一些不必要的数据项，提高建模速度和稳定性。
下边我们就以超市调查结果来看，其中已经将会员消费记录整合成水果，蔬菜，日常用品，零食等，这些列的数字代表此项消费在该会员所有消费中所占的百分比。最后一列表示用户是否对体育用品优惠活动感兴趣。
图 16. 用户意向表
同样我们新建一个 Stream，加入一个“可变文件”节点，修改文件路径到示例数据，然后，我们连接一个“均值”节点。双击“均值”节点，进入编辑：
图 17. 均值节点
我们选择接受为分组字段，年龄，月收入，水果，蔬菜，日常用品，零食为测试字段。
然后，我们运行“均值”节点，得到下表：
图 18. 均值节点结果
从统计数据来看，可以决定用户是否对体育用品感兴趣的重要因素为水果，日常用品，年龄，蔬菜。而零食和月收入对预测影响较小。
通过本文的描述，你应该对数据理解所要做的工作，以及如何利用 Modeler 来帮助你完成相关工作有了一定的了解。本文所涉及的 Node 只是 Modeler 中可用于数据理解相关 Node 的一部分。另外在 Modeler 中，通过 Node 之间灵活多变的组合，可以完成更复杂的任务。这些就留给读者自己去探索吧。
“”（developerWorks 中国，2011 年 3 月）,介绍了如何使用 Modeler 去应用他们已有的数据挖掘知识进行建模。在
，获取更多的 Information Management 产品相关的技术文章、在线教程、多媒体课程等技术资源。随时关注 developerWorks
和，包括各种 IBM 产品和 IT 行业主题。以最适合您的方式：下载产品试用版、在线试用产品、在云环境中使用产品，或者在
中花几小时。
添加或订阅评论，请先或。
有新评论时提醒我
static.content.url=/developerworks/js/artrating/SITE_ID=10Zone=Information ManagementArticleID=835068ArticleTitle=使用 IBM SPSS Modeler 进行数据挖掘之数据理解publish-date=贝叶斯网络概率表怎么看？我是用SpssMODELER做出来的、但是概率表不会看？ - 知乎4被浏览667分享邀请回答0添加评论分享收藏感谢收起苹果/安卓/wp
积分 2577, 距离下一级还需 1023 积分
权限: 自定义头衔, 签名中使用图片, 隐身, 设置帖子权限, 设置回复可见
道具: 彩虹炫, 涂鸦板, 雷达卡, 热点灯, 金钱卡, 显身卡, 匿名卡, 抢沙发, 提升卡, 沉默卡下一级可获得
道具: 千斤顶
购买后可立即获得
权限: 隐身
道具: 金钱卡, 彩虹炫, 雷达卡, 热点灯, 涂鸦板
开心签到天数: 34 天连续签到: 1 天[LV.5]常住居民I
本帖最后由 Frank233 于
13:49 编辑
IBM SPSS Modeler 新手使用入门（1）初次上手
模型是一组规则、公式或方程式，可以用它们根据一组输入或变量来预测输出。例如，一家财务机构可根据对过往申请人的已知信息，使用模型预测贷款申请人可能存在优良还是不良风险。预测结果是预测性分析的中心目标，了解建模过程是使用 SPSS Modeler 的关键。
图 10. 简单的决策树模型
10:32:31 上传
本示例使用 CHAID（卡方自动交互效应检测）模型，通过一系列决策规则对记录进行分类（并预测用户响应），例如：
如果收入 = 中等
则 -&“优良”
本示例旨在介绍使用 SPSS Modeler 进行数据挖掘的基本流程，其中大部分概念可广泛应用于 SPSS Modeler 中的其他建模类型。
无论要了解哪种模型，均需要首先了解进入该模型的数据。此示例中的数据包含有关银行客户的信息。其中使用了下列字段：
表 2. 数据字段字段名描述 Credit_rating 信用评价：0= 不良，1= 优良，9= 丢失值年龄客户年龄收入收入水平：1= 低，2= 中，3= 高 Credit_cards 持有的信用卡数量：1= 少于五张，2= 五张或更多教育教育程度：1= 高中，2= 大学 Car_loans 贷款的汽车数量：1= 没有或一辆，2= 超过两辆银行可维护银行贷款客户的历史信息，包括客户是正常还贷（信用评价 = 优良）还是在拖欠贷款（信用评价 = 不良）。银行希望使用现有的数据建立一个模型，允许他们预测未来贷款申请人拖欠贷款的可能性。使用决策树模型，您可分析这两组客户的特征，并预测不良客户拖欠贷款的可能性。
本示例使用了名为 modelingintro.str的流，数据文件是 tree_credit.sav。（与示例一起使用的数据文件和样本流安装在产品安装目录下的 Demos 文件夹中。）
我们来看一下流：
从主菜单中选择下列选项：文件 & 打开流单击“打开”对话框的工具栏上的金色模型块图标，然后选择 Demos 文件夹。见图示。双击 streams 文件夹。双击名为 modelingintro.str的文件。
图 11.&&“打开”对话框
10:33:14 上传
在本例中，我们使用 CHAID 建模节点。CHAID，或卡方自动交互效应检测，是一种通过使用称作卡方统计量的特定统计类型识别决策树中的最优分割来构建决策树的分类方法。
要构建流以创建模型，至少需要三个元素：
从外部源读取数据的源节点，在本示例中为 IBM SPSS Statistics 数据文件。指定字段属性的类型节点，字段属性包括测量级别（字段包含的数据类型）以及每个字段在建模过程中的角色是目标还是输入等。在运行流时生成模型块的建模节点。
该流中还包含表节点和分析节点，当创建模型块并将其添加到流以后，可使用这两个节点查看评分结果以评估模型。
图 12. 流 modelingintro.str
10:33:44 上传
Statistics 文件源节点从 tree_credit.sav 数据文件读取 SPSS Statistics 格式数据，该文件安装在 Demos 文件夹中。（名为 $CLEO_DEMOS 的特殊变量用于引用安装目录位于 Demos 目录下的文件。这样，无论当前的安装文件夹或版本是什么，均可以确保路径有效。如在本例中可以写作：$CLEO_DEMOS/tree_credit.sav，与图中全路径效果是一样的。）
图13.源节点
10:34:02 上传
类型节点指定每个字段的测量级别。测量级别是一种指示字段中数据类型的类别。我们的源数据文件使用三种不同的测量级别：
连续字段（Continuous，例如年龄字段）包含连续的数字值，而名义字段（Nominal，例如信用评价字段）有两个或多个不同值，如不良、优良或无信用历史。有序字段（Ordinal，例如收入水平字段）用于描述具有顺序固定的不同值的数据，在本例中为低、中和高。
对于每个字段，类型节点还指定角色，以指示每个字段在建模中扮演的部分。字段信用评价（Credit rating）指示指定的客户是否拖欠贷款，这是要预测的目标字段，将其角色设置为目标。对于其他字段，将角色设置为输入。输入字段也称为预测变量，即建模算法用来预测目标字段值的字段。
CHAID建模节点生成模型。在建模节点的字段选项卡中，已选中使用预定义角色，这意味着将使用在类型节点中指定的目标字段和输入字段。可以在此处更改字段角色，但在本例中不做任何更改。
图14.CHAID模型节点-字段页
10:36:08 上传
单击“构建选项”选项卡。
图 15. CHAID 模型节点 - 构建选项页 - 目标项
10:36:37 上传
此处包含的选项可以用于指定要构建的模型类型。由于我们想要一个全新的模型，因此使用默认选项构建新模型。我们还要求它为单个标准决策树模型，并且不使用任何增强，因此保留默认目标选项构建单个树。还可以选择启动交互会话对模型进行手动的微调，本示例只使用默认设置来生成模型。
对于此示例，我们希望保持树的结构简单，因此通过增加用于父节点和子节点的最小记录数限制树的增长。
在构建选项选项卡上，从左侧的导航器窗格选择停止规则。选择使用绝对值选项。将父分支中的最小记录数设置为 400。将子分支中的最小记录数设置为 200。
图 16. CHAID 模型节点 - 构建选项页 - 停止规则项
10:36:59 上传
我们可以使用所有其他默认选项，然后单击运行以创建模型。（或者，也可以右键单击该节点然后选择运行，或选择节点并从工具主菜单中选择运行。）
等一小段时间当流执行完成后，模型块将被添加到应用程序窗口右上角的模型选项板中，它还会被自动连接在流工作区中，并带有指向创建它的建模节点的链接。要查看模型的详细信息，右键单击模型块并选择浏览（在模型选项板上）或编辑（在工作区上）。
图 17. 包含模型块的流 modelingintro.str
10:37:36 上传
对于 CHAID 模型块，模型选项卡以规则集的形式显示详细信息，规则集实际上是可根据不同输入字段的值将各个记录分配给相应子节点的一组规则。
图 18. CHAID 模型块 - 模型页
10:37:56 上传
对于每个决策树终端节点 -- 意味着那些树节点没有再进一步拆分 -- 返回优良或不良的预测值。对于落在该节点内的记录，所有个案中的预测均由模式或最常见的响应决定。
在规则集的右侧，模型选项卡显示预测变量重要性图表，该图表显示评估模型时每个预测变量的相对重要性。通过这一点，我们看到收入水平 (Income level)在此个案中最显著，而其他唯一显著的因子是信用卡数量（Number of credit cards）。
图 19. CHAID 模型块 - 变量重要性
10:38:26 上传
模型块中的查看器选项卡以树的形式显示相同的模型，每个决策点上都有一个节点。可使用工具栏上的缩放控件放大特定节点，或缩小节点以查看更完整的树。
图 20. CHAID 模型块 - 查看器页
10:43:02 上传
查看树的上部分，第一个节点（节点 0）为我们提供数据集中所有记录的摘要。数据集中超过 40% 的个案分类为不良风险。这是相当高的比例，因此让我们看看树能否提示哪些因素起决定作用。我们可以看到第一个分割是根据收入水平产生的。收入水平位于低类别的记录被指定到节点 2，可以看到此类别包含贷款拖欠的百分比最高 --82%。因此我们认为此类别的客户都具有高风险。但是要注意的是，此类别中有 16% 客户实际上没有拖欠，因此说预测并非始终准确。事实上没有模型能够精确预测所有的结果，但好的模型能够根据可用数据预测出最接近的结果。
同样，如果我们查看高收入客户（节点 1），我们看到绝大部分 (89%) 是优良风险。但是在这个类别中 10 位客户也有 1 位会拖欠。还能继续精炼贷款标准以便将此处的风险最小化吗？我们继续看，接下来模型根据客户持有的信用卡数量，将这些客户分成两个子类别（节点 4 和节点 5）。对于高收入客户，如果我们只向那些信用卡少于 5 张的客户贷款，则可以将我们的成功率从 89% 提高到 97%-- 很明显是一个更满意的结果。
图 21. CHAID 模型块 - 高收入客户
10:43:27 上传
回过头来看看中等收入类别（节点 3）中的那些客户是什么情况呢？他们更加均匀地划分为优良和不良评价。子类别（节点 6 和 7）这次仍然能帮助我们。如果只向那些信用卡少于 5 张的中等收入客户贷款，可将优良评价的百分比从 58% 提高到 85%-- 显著的改进。
图 22. CHAID 模型块 - 中等收入客户
10:44:10 上传
至此，我们了解到输入此模型的每项记录都将被分配到一个特定节点，并且根据该节点最常见的结果分配在优良或不良中二选一的预测值。
为各个客户记录分配预测值的过程称为评分 (Scoring)。因为我们已经知道原始记录中每个客户的情况，通过对这些原始记录进行评分并与实际值相比较，可以评估该模型的准确度。让我们看看如何做到这一点。
要评估模型的准确度，需要对一些记录（这里我们用原始记录）进行评分，并将模型预测的结果与实际结果进行比较。
图 23. 包含输出的流 modelingintro.str
10:48:04 上传
要查看分数或预测值，请将表节点连接到模型块，双击表节点，然后单击运行。
可以从表中看到，模型创建了一个名为 $R-Credit rating 的字段，用来显示预测值。我们可以将这些值与原始信用评价字段进行比较。
图 24. CHAID 模型输出表格
10:49:20 上传
在 SPSS Modeler 中，在评分过程中生成的字段的名称基于目标字段，再加上标准前缀，例如 $R- 表示预测值，$RC- 表示置信度值。不同的模型类型使用不同的前缀集。置信度值（confidence value）是模型自己做的评估，尺度从 0.0 到 1.0，表示每个预测值的精确程度。
与预期的一样，预测值与大多数（并非全部）记录的实际值相匹配。原因是每个 CHAID 终端节点均包含混合值，而预期值与大部分结果相匹配，对于该节点中的其他结果，该预期值是错误的。（还记得节点 2 中 16% 的少部分低收入客户其实是没有拖欠的吗？）若要避免出现此情况，可继续将树分割为更小的分支，直到每个节点都不含混合值 (100%) 为止—即全部为优良或不良。但是，这样的模型会非常复杂，并且不易推广到其他数据集。
要查看具体有多少预测值正确，我们可通读表格，并数一数预测字段 $R-Credit rating的值匹配信用评价的值的记录数量。幸运的是，我们有更简单的方式 -- 使用分析节点，它将帮助我们自动进行此项操作：将模型块连接到分析节点，双击分析节点，然后单击运行。
分析表明，2464 个记录中有 1960 个记录（约 80%）的模型预测值与实际值相匹配。
图 25. CHAID 模型分析结果
10:50:27 上传
注意我们用来评分的记录和评估模型的记录是同一批数据。在真实情况中，可使用分区（partition）节点将数据分割为两个样本分别用于培训模型和评估模型。通过使用一个样本生成模型并使用另一个样本对模型进行检验，您可更有意义地评估将模型推广到其他数据集的情况。
这一阶段我们通过分析节点可以针对已知道其实际结果的记录来检验模型。下一阶段将介绍如何使用模型对我们不知道结果的记录进行评分。例如，当前不是银行客户但是可做为促销对象的人群。
对记录评分
现在，我们要查看如何对不同的记录集进行评分。这是进行建模的目标：研究已知道结果的记录，以找出模式可以让您预测未知结果记录的结果。
图 26. 包含评分数据的流 modelingintro.str
10:51:09 上传
我们可以更新 Statistics 文件源节点使它指向其他数据文件，也可以添加一个新的源节点，用它读取要评分的数据。无论采用哪种方式，新数据集必须包含建模所使用的所有输入字段（年龄、收入水平、教育等），但不包含目标字段信用评价。运行表节点即可得到结果，我们就不在这里执行了。
另外，也可以将模型块添加到包含输入字段的任何流中。无论数据源是文件还是数据库，只要字段名和类型与模型使用的相匹配，源类型都无关紧要。还可以将模型块保存为单独的文件、或将模型导出为 PMML 格式以用于其他支持此格式的应用程序，或将模型存储到 IBM SPSS Collaboration and Deployment Services 存储库中，这样可以在企业范围对模型进行部署、评分和管理。无论使用何种基础结构，模型自身都按相同的方式工作。
摘要本示例演示创建、评估模型以及对模型评分的基本步骤。
建模节点通过研究已知道结果的记录来建立模型，并创建模型块。也可称为训练模型。可将模型块添加到包含预期字段的任何流中，以对记录进行评分。通过对已知道结果的记录（如现有客户）进行评分，可以评估模型的运行情况。如果您对模型的运行情况感到满意，则可以对新数据（如准客户）进行评分，以预测他们的响应。用于训练或评估模型的数据可以称为分析数据或历史数据（analytical or historical data）；评分数据也可以称为业务数据（operational data ）。
IBM SPSS Modeler 新手使用入门（3）自动建模
张文彤老师SPSS Modeler数据挖掘实战案例培训2016年劳动节上海开讲！
支持楼主：、
购买后，论坛将把您花费的资金全部奖励给楼主，以表示您对TA发好贴的支持
载入中......
(24.84 KB)
10:47:41 上传
[url=http:
果断学习，大谢
&nbsp&nbsp|
&nbsp&nbsp|
&nbsp&nbsp|
&nbsp&nbsp|
&nbsp&nbsp|
&nbsp&nbsp|
如有投资本站或合作意向，请联系（010-）；
邮箱：service@pinggu.org
投诉或不良信息处理：（010-）
论坛法律顾问：王进律师

spss modeler使用教程感觉没多少人用

我要回帖

更多关于 spss modeler 18 破解的文章

随机推荐

spss modeler使用教程感觉没多少人用

我要回帖

更多关于 spss modeler 18 破解 的文章

随机推荐

更多关于 spss modeler 18 破解的文章