如何降低机器学习应用风险

2658人阅读
MachineLearning(21)
这一讲开始将是学习理论(Learning Theory)方面的内容.
Bias/variance trade-off(偏差-方差权衡)
回到线性回归问题,如图:
泛化误差(generalization error):可能出现的错误并不再已有的数据集中
上图中,左右两幅图的泛化误差都比较大.
左边是欠拟合(underfit)的,即使能够拟合很大一部分数据,但还是可能出现偏差(bias).
右边是过拟合(overfit)的, 在有限小数据,拟合程度是很好的,但是对于一个新的输入,很有可能会有很大的误差,这种称作模型有很大的方差(variance).
所以,经常要在偏差和方差中间做权衡,如果选择的模型太简单参数太少,可能会有很大的偏差(但是很小的方差),如果模型太复杂,参数太多又可能会有很大的方差(但很小的偏差). 上面给出的例子中中间的二次函数比左边的线性函数和右边的五次函数拟合得都好.
引理:(联合界,the union bound)假设A1,A2,…,Ak为k个不同的事件(可能独立也可能不独立).那么,
引理(Hoeffding不等式):假设Z1,…,Zm为m个独立同分布(iid,independent and identically distributed)的随机变量,服从于伯努利分布, 也就是说,并且为这些随机变量的期望,,那么有
为了简化阐述,考虑二元分类问题,在这讨论的都可以推广,包括回归和多元分类问题.
假设给定数据集,,样本是IID(独立同分布)的,对于猜想h,定义训练误差(trainning error,也叫做empirical risk和empirical error)为:
其实这就是错误分类的概率.
定义泛化误差为:,就是说给定一个新样本,h会分类错误的概率.
考虑线性分类,怎样找到一个合适的参数,一个方法就是最小化训练误差,然后选择 把这个过程称为经验风险最小化(ERM,empirical risk minimization),推出的猜想为
定义猜想类(Hypotheses class)为学习算法考虑到的所有分类器集合.
经验风险最小化现在可以考虑为在猜想类函数中最小化,也就是说学习算法在猜想类中选择一个猜想
考虑有限个猜想,由k个猜想组成,就是从输入映射到{0,1}的k个函数,经验风险最小化从这k个函数中选择一个使得训练误差是最小的.
训练误差可以写成
应用Heffding不等式得到
假设m很大,对于特定的猜想函数很大概率上训练误差接近泛化误差,但是我们需要证明对于所有的猜想类都是同时成立的,假设事件Ai为
已经有,使用联合边界定理,有
两边同时减1,得
也就是说在内,对于所有的猜想函数,至少有的概率对视一个可信的估计. 这称为一致收敛(uniform convergence)结果, 因为这是对所有都同时成立的边界.
基于上面的讨论,有三个数量,m,和出错的概率,给定其中两个就能够推出另外一个.
比如给定和某个,m需要多大来保证概率在之内,计算得到,这就告诉了我们为了保证一定的错误率需要多大的数据集.
样本复杂性(sample complexity):为了达到一定程度性能而需要的数据集数量.
同样的,我们可以固定m和,得到
把所有的这些放到一起得到一个定理:
&&相关文章推荐
* 以上用户言论只代表其个人观点,不代表CSDN网站的观点或立场
访问:306223次
积分:4827
积分:4827
排名:第6731名
原创:182篇
转载:11篇
评论:108条
(1)(4)(1)(1)(2)(12)(16)(1)(1)(2)(2)(3)(3)(12)(4)(3)(5)(2)(5)(6)(9)(2)(34)(1)(1)(5)(3)(8)(37)(5)(3)
(window.slotbydup = window.slotbydup || []).push({
id: '4740887',
container: s,
size: '250,250',
display: 'inlay-fix'基于机器学习的风险预测方法研究_图文_百度文库
两大类热门资源免费畅读
续费一年阅读会员,立省24元!
基于机器学习的风险预测方法研究
阅读已结束,下载文档到电脑
想免费下载本文?
定制HR最喜欢的简历
下载文档到电脑,方便使用
还剩1页未读,继续阅读
定制HR最喜欢的简历
你可能喜欢相关文章推荐
如何查看Hadoop运行过程中产生日志
/blog/2038...
说实话,上研究生这两个月来还是比较迷茫的。也许是因为我没考上理想的院校,学习都那么没激情了。尤其是最近看一个研三搞数据挖掘的师兄找工作的种种抱怨,突然有种大四毕业时,那种路在何方的感觉。。
直到有一天...
1、机器学习、大数据、深度学习、数据挖掘、统计、决策和风险分析、概率、模糊逻辑等有什么不同?
答:除了属于、具体目标和文化等,并没有什么本质的区别。它们都是概率的分支,对不确定性的理解和...
机器学习、大数据、深度学习、数据挖掘、统计、决策和风险分析、概率和模糊逻辑的常见问题解答
1、机器学习、大数据、深度学习、数据挖掘、统计、决策和风险分析、概率、模糊逻辑等有什么不同?
1、机器学习、大数据、深度学习、数据挖掘、统计、决策和风险分析、概率、模糊逻辑等有什么不同?
答:除了属于、具体目标和文化等,并没有什么本质的区别。它们都是概率的分支,对不确定性的理解和...
引言:我们可以通过实验测试来对机器学习的泛化误差进行评估并且做出选择,为此我们需要一个测试集来测试学习器对新样本的判别能力,通常假设测试样本从真实样本分布中独立同分布采样而得,但是需要注意的是,测试集...
他的最新文章
他的热门文章
您举报文章:
举报原因:
原文地址:
原因补充:
(最多只允许输入30个字)机器学习在金融领域的四大优势和五大应用
机器学习在金融领域的四大优势和五大应用
编译 | Rik R 藤子来源 |
没有人的生活可以脱离金融而独立存在, 虽然随着科技的发展,人们变得越来越聪明,但金融 是生活的基本必需品,因为每个人都需要钱来吃饭、旅行和买东西。目前已经形成了一个人与机器协同合作的金融市场,而人们正发明越来越多的方法来拖欠贷款、从其它账户偷钱、制造虚假信用评级等。今天,从审批贷款到资产管理,再到风险评估, 机器学习在金融生态系统的许多阶段都起着不可或缺的作用。然而,只有少数懂技术的专业人士真正明白机器学习是如何在人们的日常财务生活中发挥作用的。机器学习是什么?
机器学习是设计与应用算法的科学,构建算法可从数据中进行学习和预测。 机器学习的应用在今天已很普遍,
你可能每天不知不觉中使用了几十次。 机器学习也提供了大量的用例,比如自动驾驶汽车、产品推荐引擎、预测分析、语音识别等等。
数据科学家使用机器学习的主要目的是减少人类工作量,将
人类在阅读、理解、分析大数据上的时间花费减少到几秒钟。实施机器学习最常用的两种方法是监督学习和无监督学习。监督学习算法使用带标签的例子进行训练,输入数据对应的输出结果是预先可知的。而在无监督学习中,学习算法没有任何标签可使用,只能自己发现输入数据中的结构。金融业中的机器学习特色? 与机器相比,大脑容量对思维有一定的限制作用。人类最多只能同时集中处理 3-4 件事情,而机器的处理能力是人类的几千倍。除了速度,在金融领域的其他方面,机器也将比人类表现得更好。可靠性: 在处理财务问题时,建立个体信用评级系统是十分必要的。银行、投资公司、股票市场每天都要进行多达数十亿美元的交易。因此,我们必须信任处理此事的公司或个人。由于人性中可能存在的偏见和自私,有些人往往会在金钱交易过程中进行诈骗。为了解决这类问题,嵌入了机器学习的机器在处理请求时可以做到零腐败。速度: 我们都知道在股票市场进行股票交易非常困难。人们通常在历史数据、图表和公式中进行大量的分析,以预测股票的未来,还有些人仅仅是随机下注。所有这些行为听起来都十分忙乱且耗时。机器学习算法能够对成千上万个数据集进行精确的深入分析,并可以在短时间内给出简洁准确的预测,有助于减轻人们在大数据整理和分析方面的麻烦。安全: 此前,勒索软件 WannaCry 攻击了世界各地的计算机,这表明,我们仍然易受黑客和网络安全方面的威胁。机器学习则通过将数据分为三个以上的类别,建立模型,以此预测欺诈或异常情况。而手工审查成本高、耗时长、误报率高,并不适用于金融业。精度: 人们没有能力或不喜欢做重复单调的任务,这种重复劳动往往会产生许多错误,而机器可以在无限时地执行重复任务。机器学习算法会做数据分析的苦活,并在人类需要的情况下推荐新策略,还能够比人类更有效地检测到微妙的或非直觉的模式,从而识别出欺诈交易。此外,无监督机器学习模型可以不间断地分析和处理新数据,然后自动更新自身模型以反映最新趋势。如何在信用评分中应用机器学习? 即使银行极度谨慎并认真核实公司信誉,但跨国公司拖欠银行债务,在金融领域似乎依然是一个普遍的现象。
一些金融机构利用评分模型来降低信贷评估、发放和监督中的信贷风险。基于经典统计理论的信用评分模型得到了广泛应用。然而,当涉及到大量的数据输入时,这些模型的弹性表现较差。因此,经典统计分析中的一些假设就不能成立,这反过来又影响了预测的准确性。根据客户的国籍、职业、薪酬、经验、行业、信用记录等信息来确定客户的信用风险评分,甚至是在向客户提供任何服务之前就进行此类评定,这对银行来说至关重要,这是银行在提供信贷或其它金融产品之前一个重要的关键绩效指标(KPI)。引入一个可以立即为客户服务的中央集成的金融风险机制是目前面临的主要挑战。即使是现在,由于无法预测客户的风险评分,银行也无法立即通过贷款审批。机器学习则可以加快放贷过程,且能避免耗时而必要的尽调程序。回归算法可以确定客户的信用评分,这些算法使用统计过程来估计变量之间的关系,在预测和预报方面得到了广泛的应用,在机器学习领域的应用也得到了迅速的发展。这种方法的第一步是定义客户历史信用记录的可用性,然后选择目标人群,并确定基准来界定满意/不满意的表现。这部分将作为回归算法启动操作的基本数据集。下一步则是选择样本,选择标准如下:1. 确定公司系统中的可用变量2. 定义利息期和样本大小3. 验证数据的一致性和完整性所选的可能的零散信息也被称为人口统计学变量:性别、年龄、职业、公司、教育、婚姻状况等,一般推荐登记时长为 12-18 个月的客户样本。这段时间足以检查延迟付款和违约的情况,且能巩固优质客户的支付行为模型。通过变量选择、变量属性分组以及创建虚拟变量,则可以进行初步分析。使用列联表来计算与独立变量级别相关的相对风险(RR)指数,最后计算各个单一变量级别的优质客户与劣质客户之比。比例越大,该变量对未来业绩的预测作用就越大。而RR 通常介于 0 到 2 之间,0 代表极劣,2 代表极优。但是,分析过程不会使用类别为中性(Neutral)的样本,因为其优/劣程度相差不大。模型的建立包括对多元统计技术的选择。之后确定要使用的软件、选择独立变量并检验技术假设,一旦数据减少到聚类级别,则可以使用判别分析、逻辑回归和神经网络,判别分析和逻辑回归则采用不同方法的统计技术。除此之外,还要对所选软件进行有关实施与易用性分析的检查。最后,为了评估性能好坏,需要找出两个样本的 KS 检验。需要找出两个集群之间的差异,比如由各自的预测结果所界定的 优/劣 付款人,确定每个预测中的优/劣付款人分布之间的差异,而 KS 测试的值是该模块中差异最大的一个。由于从模型得到的最终结果通常介于 0-1,当结果小于 0.5 时,客户会被定义为劣质付款人;反之则为优良付款人。机器学习的其它优点 欺诈检测: 使用机器学习进行欺诈检测时,先收集历史数据并将数据分割成三个不同的部分,然后用训练集对机器学习模型进行训练,以预测欺诈概率。最后建立模型,预测数据集中的欺诈或异常情况。与传统检测相比,这种欺诈检测方法所用的时间更少。由于目前机器学习的应用量还很小,仍然处于成长期,所以它会在几年内进一步发展,从而检测出复杂的欺诈行为。股票市场预测: 买卖股票而成为亿万富翁是常有的事,但是,如果不了解股票运作方式和当前趋势,要想击败市场则非常困难。随着机器学习的使用,股票预测变得相当简单。这些机器学习算法会利用公司的历史数据,如资产负债表、损益表等,对它们进行分析,并找出关系到公司未来发展的有意义的迹象。此外,该算法还可以搜索有关该公司的新闻,并通过世界各地的消息源来了解市场对公司的看法。此外,通过自然语言处理技术,它可以通过浏览新闻频道和社交媒体的视频库来搜索更多有关该公司的数据。这项技术还在发展中,虽然目前还不够准确,但可以肯定的是,在不久的将来,它将能够作出非常准确的股市预测。
部(Treasury)
C 客户关系管理(CRM),现货交易(Spot Transactions):
客户关系管理(CRM)在小额银行业务中占有十分突出的地位,但在银行内部的财资空间却没什么作用。因为财资部有自己的产品群,如外汇、期权、掉期交易(Swaps)、远期交易(Forwards)以及更为重要的现货交易(Spots)。线上交易需要结合这些产品的复杂程度、客户风险、市场与经济行为以及信用记录信息,这对银行来说几乎是一个遥远的梦想。聊天机器人 - 私人财务助理: 聊天机器人可以担当财务顾问,成为个人财务指南, 跟踪开支, 提供从财产投资到新车消费方面的建议。财务机器人还可以把复杂的金融术语转换成通俗易懂的语言,更易于沟通。一家名为Kasisto 的公司的聊天机器人就能处理各种客户请求,
如客户通知、转账、支票存款、查询、常见问题解答与搜索、内容分发渠道、客户支持、优惠提醒等。通过长期记录用户的可扣除费用,还能提供潜在节流账单。 机器学习是一项比较新的技术, 鉴于数据敏感性、基础设施需求、业务模型灵活性等原因,机器学习的应用有其自身缺点,但它有助于解决很多问题,且优点大于缺点,因而受到了众多学者和行业专家的分析,可以肯定的是,该领域在未来必定会出现更多创新的应用。对世界各国来说,金融都很重要,机器学习技术比人类操作更为安全,能保护其免受威胁、改善其运营,是 金融业的最佳选择,也 有助于各国更快实现发展和繁荣 。 声明:本文由机器之能(微信公众号:almosthuman2017)出品,转载请查看要求,机器之能对于违规侵权者保有法律追诉权。
本文仅代表作者观点,不代表百度立场。系作者授权百家号发表,未经许可不得转载。
百家号 最近更新:
简介: 探索全球人工智能应用场景及商业化
作者最新文章相关文章推荐
经验风险与结构风险
分类: 机器学习
10:25 305人阅读 评论(0) 收藏 举报
经验风险结构风险ERMSRM
目录(?)[+]
置信风险与两个量有关,一是样本数量,显然给定的样本数量越大,我们的学习结果越有可能正确,此时置信风险越小;二是分类函数的VC维,显然VC维越大,推广能力越差,置信风险会变大。
VC置信范围(VC c...
当样本容量足够大的时候,经验风险最小化能保证有很好的学习效果,但样本数量小的时候,就会产生“过拟合”现象。因为参数太多,会导致我们的模型复杂度上升,容易过拟合(训练误差会很小),但训练误差小不是我们的...
本页博客基于对网上流传最广的斯坦福大学机器学习课程第九课的学习理解。别的课程笔记在网上已经有大批人做了,但是本课我在网上找了好久都没找到,只能自己做一个笔记以供大家简单学习记录。以下为我的课堂笔记:
2.2 VC维
12:37 范明/昝红英/牛常勇译 机械工业出版社 我要评论(0) 字号:T | T
综合评级:
统计机器学习包括三个部分:1.模型;2.策略;3.算法
其中模型表示的是所要学习的条件概率分布或者决策函数,模型的假设空间包含所有可能的决策函数。我们的目的就是从模型的...
Matlab实现
% 没有加入冲量项的随机梯度下降法实现
syms x y real
y(x) = x^2+2*x+10 ;
delta(x) = -diff(y(x)) ;
CSDN-MarkDown 之markdown语法详解1 MarkDown概述设计哲学MarkDown当初就是为了方便以纯文本写作而发明的,其设计宗旨是尽可能的易读、易写。其中易读的重要性高于其他,要...
本篇与前面不同,主要内容不是算法,而是机器学习的另一部分内容——学习理论。主要包括偏差/方差(Bias/variance)、经验风险最小化(Empirical Risk Minization,ERM)...
经验风险最小化这节课的内容全是算法,最终推导出了一个可供我们定性分析模型复杂度和所需最少训练样本数的关系的结论。
首先定义?? (h)\hat{\epsilon}(h)定义为m个样本的平均误差,又叫...
他的最新文章
他的热门文章
您举报文章:
举报原因:
原文地址:
原因补充:
(最多只允许输入30个字)

我要回帖

 

随机推荐