机器学习中的目标函数，损失函数，代价函数有什么区别

科学教育 | 学习帮助 | 出国/留学 | 工程技术科学 | 教育/科学 | 英语听力 | 梦幻西游电脑版 | 视频会议 | 口臭 | 暗黑破坏神3（游戏） | 面相 | 赛尔号 | linux | 山西省 | Xbox One | 思修 | 易经 | solidworks | 钢铁雄心4 | 休闲游戏 | 魔兽争霸3混乱之治 | 显卡 | 武汉大学 | 塞尔达传说（游戏） | 校服 | 剑侠情缘网络版叁 | 脱发 | 日本文化 | 数学建模 | 二次元 | 部落冲突（游戏） | 肖战 | 街机游戏 | 拳皇 | 马鞍山市 | 扑克 | 完美世界（游戏） | 三国志（游戏） | 热血传奇（游戏） | 意大利 | 跆拳道 | 东莞市 | 糖尿病 | 古琴 | 三国 | 电视节目 | 百度 | qq音乐 | 配音 | 电视 | 任天堂 | 科幻小说 | 虚拟专用服务器 | QQ游戏 | 大熊猫 | 微电影 | Android | 竞技游戏 | 动画制作 | QQ炫舞 | 电源 | 日语 | 魔兽争霸3冰封王座 | 产业 | ios开发 | 百度云 | 动画电影 | nba篮球 | 羽生结弦 | iOS应用 | galgame | 电吉他 | 平板电脑 | 周星驰（人物） | 离婚 | 后宫·甄嬛传（书籍） | 牙科 | 游戏开发 | 网络直播 | ios游戏 | 电子邮件 | SNH48 | 民国 | 美容 | 舰队 Collection | 心理 | Mac | 羽毛球技术 | 互联网公司 | 大学生兼职 | 烘焙 | 诸葛亮 | 跑跑卡丁车 | 武侠小说 | 微博 | 骨折 | 掌上游戏机 | 玉米 | 中国足球 | 电脑配置 | 洛奇英雄传 | 硬盘 | 张璐 | akb48 | 炉石传说 | 韩国 | 蓄电池 | QQ空间 | 房贷 | 麦克风 | 相声演员 | 抑郁 | 天下2（游戏） | 农业科学 | 神话 | 农历 | 中国足球协会超级联赛（CSL） | 流星花园 | 易烊千玺 | 火影忍者 | 日语歌曲 | 巴西 | 红酒 | 化疗 | 占地 | 网络小说 | 香烟 | 传奇世界 | 名字 | 日本电影 | 表演 | 西藏自治区 | 英雄传说：闪之轨迹（游戏） | 足球彩票 | 摩尔庄园 | 中国工商银行 | 游戏手柄 | 陈奕迅 | 联赛 | 天体物理学 | 英格兰足球超级联赛 | 超级机器人大战 | 命令与征服：红色警戒2（游戏） | 郭富城 | 一级方程式赛车（f1） | Adobe Photoshop | 英文歌曲 | 玄幻小说 | 猫和老鼠 | 杨凡 | 书籍改编电影 | 俄罗斯 | 网络赚钱 | 罗玉凤 | 刺客信条2 | 角色扮演 | 食物 | 药物 | 杨洋（演员） | 信息安全 | 胡歌（演员） | 张子枫 | 古典音乐 | 时尚 | 大片 | 电脑游戏 | 签证 | 徐佳莹 | 耽美 | 游戏攻略 | 音乐剧 | 前女友 | 男性 | 肠胃 | 刺客信条起源 | 剧场版 | 国际足联世界杯 | 彩虹六号（游戏） | 赵丽颖（演员） | 天体生物学 | 战神（游戏） | 吉他学习 | 飞机 | 三菱商事 | 关节炎 | 斗鱼直播 | 发电 | 张继科 | 华语流行音乐 | 搏击项目 | 主题曲 | 李信 | 刘德华（演员） | 即时战略游戏（RTS） | 欧阳娜娜 | 网址导航 | 海贼王 | 山地车 | 豆瓣电影 | 广场舞 |

你的位置：网站首页 >> 频道首页 >>学习 >>机器学习中的目标函数，损失函数，代价函数有什么区别

机器学习中的目标函数，损失函数，代价函数有什么区别

来源：蜘蛛抓取(WebSpider) 时间：2017-10-14 05:58 标签：

机器学习-逻辑回归-代价函数 - 陈国林 - CSDN博客
机器学习-逻辑回归-代价函数
1. 引言回到线性回归模型中，训练集和代价函数如下图如果我们还用J(θ)函数做为逻辑回归模型的代价函数，用H(x) = g(θ^T * x)，曲线如下图所示发现J(θ)的曲线图是&非凸函数&，存在多个局部最小值，不利于我们求解全局最小值因此，上述的代价函数对于逻辑回归是不可行的，我们需要其他形式的代价函数来保证逻辑回归的代价函数是凸函数。2. 代价函数这里我们先对线性回归模型中的代价函数J(θ)进行简单的改写用Cost(h(x), y) = 1/2(h(x) - y)^2 代替在这里我们选择对数似然损失函数做为逻辑回归模型的代价函数，Cost函数可以表示如下分析下这个代价函数(1). 当y=1的时候，Cost(h(x), y) = -log(h(x))。h(x)的值域0~1，-log(h(x))的曲线图，如下从图中可以看出h(x)的值趋近于1的时候，代价函数的值越小趋近于0，也就是说预测的值h(x)和训练集结果y=1越接近，预测错误的代价越来越接近于0，分类结果为1的概率为1当h(x)的值趋近于0的时候，代价函数的值无穷大，也就说预测的值h(x)和训练集结果y=1越相反，预测错误的代价越来越趋于无穷大，分类结果为1的概率为0(2). 当y=0的时候， Cost(h(x), y) = -log(1-h(x))。h(x)的值域0~1，-log(1-h(x))的曲线图，如下从图中可以看出h(x)的值趋近于1的时候，代价函数的值趋于无穷大，也就是说预测的值h(x)和训练集结果y=0越相反，预测错误的代价越来越趋于无穷大，分类结果为0的概率为1-h(x)等于0当h(x)的值趋近于0的时候，代价函数的值越小趋近于0，也就说预测的值h(x)和训练集结果y=0越接近，预测错误的代价越来越接近于0，分类结果为0的概率为1-h(x)等于1为了统一表示，可以把Cost(h(x), y)表达成统一的式子，根据前面J(θ)的定义，J(θ)等于特别说明:&1. 当y=1的时候，第二项(1-y)log(1-h(x))等于0&2. 当y=0的时候，ylog(h(x))等于0从上面2点可以看出，J(θ)表达式符合前面定义根据线性回归求代价函数的方法，可以用梯度下降算法求解参数θ从上图可以看出，θj更新和线性回归中梯度下降算法的θj更新一致，差别的是假设函数h(x)不同
我的热门文章博客访问： 1680875
博文数量： 446
博客积分： 7040
博客等级：少将
技术积分： 4132
注册时间：
范德萨发而为
IT168企业级官微
微信号：IT168qiye
系统架构师大会
微信号：SACC2013
分类：大数据
斯坦福大学机器学习第六课"逻辑回归“学习笔记，本次课程主要包括7部分：
1) Classification(分类)
2) Hypothesis Representation
3) Decision boundary(决策边界)
4) Cost function(代价函数，成本函数)
5) Simplified cost function and gradient descent(简化版代价函数及梯度下降算法)
6) Advanced optimization(其他优化算法)
7) Multi-class classification: One-vs-all(多类分类问题)
以下是每一部分的详细解读。
1) Classification(分类)
分类问题举例：
邮件：垃圾邮件/非垃圾邮件？
在线交易：是否欺诈（是/否）？
肿瘤：恶性/良性？
以上问题可以称之为二分类问题，可以用如下形式定义：
其中0称之为负例，1称之为正例。
对于多分类问题，可以如下定义因变量y：
y∈{0,1,2,3,...,n}
如果分类器用的是回归模型，并且已经训练好了一个模型，可以设置一个阈值：
如果hθ(x)≥0.5，则预测y=1,既y属于正例；
如果hθ(x)&0.5，则预测y=0,既y属于负例；
如果是线性回归模型，对于肿瘤这个二分类问题，图形表示如下：
但是对于二分类问题来说，线性回归模型的Hypothesis输出值hθ(x)可以大于1也可以小于0。
这个时候我们引出逻辑回归，逻辑回归的Hypothesis输出介于0与1之间，既:
0≤hθ(x)≤1
注: 以下引自李航博士《》1.8节关于分类问题的一点描述：
分类是监督学习的一个核心问题，在监督学习中，当输出变量Y取有限个离散值时，预测问题便成为分类问题。这时，输入变量X可以是离散的，也可以是连续的。监督学习从数据中学习一个分类模型或分类决策函数，称为分类器(classifier)。分类器对新的输入进行输出的预测(prediction)，称为分类(classification).
2) Hypothesis Representation
逻辑回归模型：
上一节谈到，我们需要将Hypothesis的输出界定在0和1之间，既：
0≤hθ(x)≤1
但是线性回归无法做到，这里我们引入一个函数g, 令逻辑回归的Hypothesis表示为：
hθ(x)=g(θTx)
这里g称为Sigmoid function或者Logistic function, 具体表达式为：
g(z)=11+e?z
&&&&&&&&&&&&
Sigmoid 函数在有个很漂亮的“S"形，如下图所示（引自维基百科）：
综合上述两式，我们得到逻辑回归模型的数学表达式：
hθ(x)=11+e?θTx
其中θ是参数。
Hypothesis输出的直观解释：
hθ(x)&= 对于给定的输入x，y=1时估计的概率
例如，对于肿瘤（恶性/良性），如果输入变量（特征）是肿瘤的大小：
这里Hypothesis表示的是”病人的肿瘤有70%的可能是恶性的“。
较正式的说法可以如下表示：
给定输入x，参数化的θ（参数空间）， y=1时的概率。
数学上可以如下表示：
hθ(x)=P(y=1|x;θ)
对于因变量y=0或1这样的二分类问题：
P(y=0|x;θ)+P(y=1|x;θ)=1
P(y=0|x;θ)=1?P(y=1|x;θ)
3) Decision boundary(决策边界)
如上节所述，逻辑回归模型可以如下表示：
假设给定的阈值是0.5，当hθ(x)≥0.5时， y = 1;
当hθ(x)&0.5时，y = 0;
再次回顾sigmoid function的图形，也就是g(z)的图形：
当g(z)≥0.5时,&z≥0;
对于hθ(x)=g(θTx)≥0.5, 则θTx≥0, 此时意味着预估y=1;
反之，当预测y = 0时，θTx&0;
我们可以认为θTx&= 0是一个决策边界，当它大于0或小于0时，逻辑回归模型分别预测不同的分类结果。例如，
hθ(x)=g(θ0+θ1x1+θ2x2)
θ0,θ1,θ2分别取-3, 1, 1,
则当?3+x1+x2≥0时, y = 1; 则x1+x2&=3是一个决策边界，图形表示如下：
上述只是一个线性的决策边界，当hθ(x)更复杂的时候，我们可以得到非线性的决策边界，例如：
这里当x21+x22≥1时，y=1，决策边界是一个圆形，如下图所示：
更复杂的例子，请参考官方PPT，这里就不再举例了。
4) Cost function(代价函数，成本函数)
逻辑回归概览：
逻辑回归是一种有监督的学习方法，因此有训练集：
对于这m个训练样本来说，每个样本都包含n+1个特征:
其中x∈Rn+1,&x0=1,y∈{0,1}.
Hypothesis可表示为:
hθ(x)=11+e?θTx&&
与线性回归相似，我们的问题是如何选择合适的参数θ?
Cost Function:
线性回归的Cost& Function定义为:
J(θ)=1m∑i=1m12(hθ(x(i))?y(i))2
这里可以把12(hθ(x(i))?y(i))2简写为Cost(hθ(x(i),y)，更简化的表达式为：
Cost(hθ(x),y)=12(hθ(x)?y)2
如果和线性回归相似，这里取&hθ(x)=11+e?θTx，会存在一个问题，也就是逻辑回归的Cost Function是“非凸”的，如下图所示：
我们知道，线性回归的Cost Function是凸函数，具有碗状的形状，而凸函数具有良好的性质：对于凸函数来说局部最小值点即为全局最小值点，因此只要能求得这类函数的一个最小值点，该点一定为全局最小值点。
因此，上述的Cost Function对于逻辑回归是不可行的，我们需要其他形式的Cost Function来保证逻辑回归的成本函数是凸函数。
这里补充一段李航博士《》里关于Cost Function或者损失函数(loss function)的说明，大家就可以理解Cost Function不限于一种方式，而是有多种方式可选，以下摘自书中的1.3.2小节:
监督学习问题是在假设空间F中选取模型f作为决策函数，对于给定的输入X，由f(X)给出相应的输出Y,这个输出的预测值f(X)与真实值Y可能一致也可能不一致，用一个损失函数(loss function)或代价函数(cost function)来度量预测错误的程度。损失函数是f(X)和Y的非负实值函数，记作L(Y, f(X)).
统计学习中常用的损失函数有以下几种：
(1) 0-1损失函数(0-1 loss function):
L(Y,f(X))={1,0,Y≠f(X)Y=f(X)
(2) 平方损失函数(quadratic loss function)
L(Y,f(X))=(Y?f(X))2
(3) 绝对损失函数(absolute loss function)
L(Y,f(X))=|Y?f(X)|
(4) 对数损失函数(logarithmic loss function) 或对数似然损失函数(log-likelihood loss function)
L(Y,P(Y|X))=?logP(Y|X)
损失函数越小，模型就越好。
逻辑回归的Cost Function:
基于上节的描述和补充，这里我们选择对数似然损失函数作为逻辑回归的Cost Function:
直观的来解释这个Cost Function，首先看当y=1的情况：
直观来看，如果y = 1,&hθ(x)=1，则Cost = 0，也就是预测的值和真实的值完全相等的时候Cost =0;
但是，当hθ(x)→0时,&Cost→∞
直观来看，由于预测的结果南辕北辙：
如果hθ(x)=0, 也就是预测P(y=1|x;θ)=0，也就是y=1的概率是0，但是实际上y = 1
因此对于这个学习算法给予一个很大的Cost的惩罚。
同理对于y=0的情况也适用：
5) Simplified cost function and gradient descent(简化版代价函数及梯度下降算法)
逻辑回归的Cost Function可以表示为：
由于y 只能等于0或1，所以可以将逻辑回归中的Cost function的两个公式合并，具体推导如下：
故逻辑回归的Cost function可简化为：
对于这个公式，这里稍微补充一点，注意中括号中的公式正是对逻辑回归进行最大似然估计中的最大似然函数，对于最大似然函数求最大值，从而得到参数(\theta\)的估计值。反过来，这里为了求一个合适的参数，需要最小化Cost function，也就是：
minθJ(θ)
而对于新的变量x来说，就是根据hθ(x)的公式输出结果：
与线性回归相似，这里我们采用梯度下降算法来学习参数θ，对于J(θ):
目标是最小化J(θ)，则梯度下降算法的如下：
对J(θ)求导后，梯度下降算法如下：
注意，这个算法和线性回归里的梯度下降算法几乎是一致的，除了hθ(x)的表示不同。
6) Advanced optimization(其他优化算法)
优化算法：
给定参数θ，我们可以写成代码来计算：
优化算法除了梯度下降算法外，还包括：
Conjugate gradient method(共轭梯度法)
Quasi-Newton method(拟牛顿法)
BFGS method
L-BFGS(Limited-memory BFGS)
后二者由拟牛顿法引申出来，与梯度下降算法相比，这些算法的优点是：
第一，不需要手动的选择步长；
第二，通常比梯度下降算法快；
但是缺点是更复杂-更复杂也是缺点吗？其实也算不上，关于这些优化算法，推荐有兴趣的同学看看52nlp上这个系列的文章：，作者是我的师兄，更深入的了解可以参考这篇文章中推荐的两本书：
用于解无约束优化算法的Quasi-Newton Method中的LBFGS算法到这里总算初步介绍完了，不过这里笔者要承认的是这篇文档省略了许多内容，包括算法收敛性的证明以及收敛速度证明等许多内容。因此读者若希望对这一块有一个更深入的认识可以参考以下两本书：
1) Numerical Methods for Unconstrained Optimization and Nonlinear Equations（J.E. Dennis Jr. Robert B. Schnabel）
2) Numerical Optimization（Jorge Nocedal Stephen J. Wright）
7) Multi-class classification: One-vs-all(多类分类问题)
多类分类问题举例：
电子邮件分类/标注：工作邮件，朋友邮件，家庭邮件，爱好邮件
医疗图表(medical diagrams): 没有生病，着凉，流感
天气：晴天，多云，雨，雪
二类分类问题如下图所示：
多类分类问题如下所示：
One-vs-all(one-vs-rest):
对于多类分类问题，可以将其看做成二类分类问题：保留其中的一类，剩下的作为另一类。例如，对于下面这个例子：
可以分别计算其中一类相对于其他类的概率：
总结-One-vs-all方法框架：
对于每一个类 i 训练一个逻辑回归模型的分类器h(i)θ(x)，并且预测 y = i时的概率；
对于一个新的输入变量x, 分别对每一个类进行预测，取概率最大的那个类作为分类结果：
李航博士《》
阅读(37444) | 评论(0) | 转发(1) |
相关热门文章
给主人留下些什么吧！~~
请登录后评论。判定边界(Decision Boundary)
上一次我们讨论了一个新的模型——逻辑回归模型(Logistic Regression)，在逻辑回归中，我们预测：
当h?大于等于0.5时，预测y=1当h?小于0.5时，预测y=0
根据上面的预测，我们绘制出一条S形函数，如下：
根据函数图像，我们知道，当
&z=0时，g(z)=0.5&z&0时，g(z)&0.5&z&0时，g(z)&0.5
以上，为我们预知的逻辑回归的部分内容。好，现在假设我们有一个模型：&并且参数?是向量：[-3 1 1]。那么当-3+x1+x2大于等于0，即x1+x2大于等于3时，模型将预测 y=1。
我们可以绘制出来x1+x2=3，这条线便是我们模型的分界线，也称之为判定边界(Decision Boundary)，将预测为1的区域和预测为0的区域分隔开。
假设我们的数据呈现出如下图的分布情况，那么我们的模型是什么样才能适合这些数据呢？
如上图，函数图像为一个圆，圆点在原点且半径为1，这样一条曲线来分隔开了 y=1 和 y=0 的区域，所以我们需要的是一个二次方特征：
假设参数为 [-1 &0 &0 &1 &1]，则我们得到的判定边界恰好是圆点在原点并且半径为1的圆形。
我们可以使用非常复杂的模型来适应非常复杂形状的判定边界。
逻辑回归模型的代价函数(Cost Function)
对于线性回归模型，我们定义的代价函数是所有模型误差的平方和。理论上讲，我们也可以沿用这个定义来对逻辑回归模型使用，但是问题在于，当我们将：
代入到这样定义的代价函数中时，我们得到的代价函数将会是一个非凸函数(Non-covex Function)。
这意味着，我们的代价函数将会有许多的局部最小值，这就会影响到梯度下降算法去找寻全局最小值。
因此，我们重新定义逻辑回归的代价函数为：
其中，Cost(h?(x(i), y(i))) 是我们定义的一个代价函数迭代形式，具体表示如下：
h?(x) 与 Cost(h?(x),y)之间的关系是如下图所示：
通过这样构建的Cost(h?(x), y)函数的特点是：
当实际的 y=1 且 h?=1 时，误差为0；当 &y=1 但 h? != 1时，误差随h?的变小而变大；
当实际的 y=0 且 h?=0 时，误差代价为0；当 y=0 但 h? != 0 时，误差随h?的变大而变大。
将构建的Cost(h?(x), y) 进行一个简化，可以得到如下简化公式：
这个简化其实是对上面Cost(h?(x), y) 的两种表达式的一次性结合。
将简化代入到代价函数，得到：
这便是逻辑回归模型的代价函数了。
在得到这样的一个代价函数之后，我们便可以使用梯度下降算法(Gradient Descent)来求得能够使代价函数最小的参数了。
梯度下降算法：
对此求导，得到：
*注：虽然得到的梯度下降算法，表面上看上去和线性回归的梯度下降算法一样，但是这里的h?(x) = g(?TX)与线性回归不同，所以实际上是不一样的。另外，在运行梯度下降算法之前，对特征进行特征缩放(Features Scaling)也是非常必要的。
一些梯度下降算法之外的选择：
除了梯度下降算法之外，还有一些常被用来使代价函数最小的算法，这些算法更加复杂和优秀，而且通常情况下，不需要人工选择学习速率，通常也比梯度下降算法更加快速。举一些例子：共轭梯度法(Conjugate Gradient)，局部优化法(Broyden
Fletcher Goldfarb Shann, BFGS)和有限内存局部优化法(LBFGS)。这些算法更加复杂也更加优秀，如果感兴趣我们可以以后再继续讨论。
在Matlab或Octave中，有一个最小值优化函数，fminunc。使用时，我们需要提供代价函数和每个参数的求导，这里给大家举一个例子：
function [ jVal, gradient ] = costFunction( theta )
%COSTFUNCTION Summary of this function goes here
Detailed explanation goes here
jVal = (theta(1)-5)^2 + (theta(2)-5)^2;
gradient = zeros(2,1);
gradient(1) = 2*(theta(1)-5);
gradient(2) = 2*(theta(2)-5);
options = optimset('GradObj', 'on', 'MaxIter', '100');
initialTheta = zeros(2,1);
[optTheta, functionVal, exitFlag] = fminunc(@costFunction, initialTheta, options);
*PS ：关于机器学习相关算法的Matlab或Octave代码，我上传到了我的coding.net项目中，有需要的童鞋可以联系我。
本文已收录于以下专栏：
相关文章推荐
MTCNN训练不收敛原因:
地址： /dlunion/mtcnn
我们的训练数据标签格式：
wider face:
pos/001.jpg  1 x1 ...
本次介绍一篇速度还不错的人脸检测文章：《2016 Joint Face Detection and Alignment using Multi-task Cascaded Convolutional ...
该MTCNN算法出自深圳先进技术研究院，乔宇老师组，是今年2016的ECCV。（至少我知道的今年已经一篇cvpr，一篇eccv了）。
理论基础：
在之前的博客中，描述过单变量线性回归(Linear Regression with One Variables)的模型，这次来分享一下多变量线性回归模型(Linear Regression
Stanford机器学习课程笔记——多变量线性回归模型
    
1. 多变量线性回归模型引入
    前面一篇中学习了单变量的线性回归模型，那么自然就会想到多变量线性回归模型，以及非线...
在之前的博客中，描述过单变量线性回归(Linear Regression with One Variables)的模型，这次来分享一下多变量线性回归模型(Linear
Regression wit...
逻辑回归之决策边界 logistic regression -- decision boundary
logistic回归虽然带着回归两字却和线性回归有很大的区别，在前几篇博客中完整的介绍了线性回...
本文转自：
http://blog.csdn.net/linkin1005/article/details/
首次听说SVM是在实验室的科研进展报告上听杨宝华老师提到过，当...
Logistic Regression逻辑回归（分类）：
0:Negative Class
1:Positive Class
二元分类问题讲起，虽然有回归二字，其实为分类算法，处理离散y值。
逻辑回归（代价函数，梯度下降） logistic regression--cost function and gradient descent
对于有m个样本的训练集 ,。在上篇介绍决策边界的时候...
他的最新文章
讲师：王哲涵
讲师：韦玮
您举报文章：
举报原因：
原文地址：
原因补充：
(最多只允许输入30个字)17096人阅读
机器学习（130）
1. 交叉熵理论
交叉熵与熵相对，如同协方差与方差。
熵考察的是单个的信息（分布）的期望：
H(p)=-∑i=1np(xi)logp(xi)
交叉熵考察的是两个的信息（分布）的期望：
H(p,q)=-∑i=1np(xi)logq(xi)
y = tf.placeholder(dtype=tf.float32, shape=[None, 10])
scores = tf.matmul(h, w) + b
probs = tf.nn.softmax(scores)
loss = -tf.reduce_sum(y*tf.log(probs))
2. 交叉熵代价函数
LH(x,z)=-∑k=1dxklogzk+(1-xk)log(1-zk)
x 表示原始信号，z 表示重构信号，以向量形式表示长度均为 d，又可轻易地将其改造为向量内积的形式。
3. 交叉熵与 KL 散度（也叫相对熵）
所谓相对，自然在两个随机变量之间。又称互熵，Kullback–Leibler divergence（K-L 散度）等。设 p(x) 和 q(x) 是 X 取值的两个概率分布，则 p 对 q 的相对熵为：
DKL(p||q)===∑i=1np(xi)logp(xi)q(xi)∑i=1np(xi)logp(xi)-∑i=1np(xi)logq(xi)-H(p)+H(p,q)
（在稀疏型自编码器损失函数的定义中，基于 KL 散度的惩罚项常常定义成如下的形式：
H(ρ||ρ^)=-∑j=1m[ρjlog(ρ^j)+(1-ρj)log(1-ρ^j)]
其中：ρ^=1k∑i=1khi（遍历的是层内的所有输出，∑mj=1 则是遍历所有的层））
4. 神经网络中的交叉熵代价函数
为神经网络引入交叉熵代价函数，是为了弥补 sigmoid 型函数的导数形式易发生饱和（saturate，梯度更新的较慢）的缺陷。
首先来看平方误差函数（squared-loss function），对于一个神经元（单输入单输出），定义其代价函数：
其中 a=σ(z),z=wx+b，然后根据对权值（w）和偏置（b）的偏导（为说明问题的需要，不妨将 x=1,y=0）：
?C?w=(a-y)σ′(z)x=aσ′(z)?C?b=(a-y)σ′(z)=aσ′(z)
根据偏导计算权值和偏置的更新：
w=w-η?C?w=w-ηaσ′(z)b=b-η?C?b=b-ηaσ′(z)
无论如何简化，sigmoid 型函数的导数形式 σ′(z) 始终阴魂不散，上文说了 σ′(z) 较容易达到饱和，这会严重降低参数更新的效率。
为了解决参数更新效率下降这一问题，我们使用交叉熵代价函数替换传统的平方误差函数。
对于多输入单输出的神经元结构而言，如下图所示：
我们将其损失函数定义为：
C=-1n∑xylna+(1-y)ln(1-a)
其中 a=σ(z),z=∑jwjxj+b
最终求导得：
?C?w=1n∑xxj(σ(z)-y)?C?b=1n∑x(σ(z)-y)
就避免了 σ′(z) 参与参数更新、影响更新效率的问题；
&&相关文章推荐
* 以上用户言论只代表其个人观点，不代表CSDN网站的观点或立场
访问：2557436次
积分：62587
积分：62587
排名：第36名
原创：3984篇
转载：37篇
评论：153条
文章：10篇
阅读：4869
阅读：6742
文章：15篇
阅读：29109
阅读：10916
文章：10篇
阅读：7185
文章：10篇
阅读：4254
(26)(41)(65)(110)(40)(101)(118)(190)(69)(66)(420)(251)(264)(85)(220)(264)(335)(291)(256)(314)(130)(135)(105)(97)(26)(3)
(window.slotbydup = window.slotbydup || []).push({
id: '4740881',
container: s,
size: '200,200',
display: 'inlay-fix'温馨提示！由于新浪微博认证机制调整，您的新浪微博帐号绑定已过期，请重新绑定！&&|&&
LOFTER精选
网易考拉推荐
用微信&&“扫一扫”
将文章分享到朋友圈。
用易信&&“扫一扫”
将文章分享到朋友圈。
本文转载自liaoxiangui
1.监督学习的概念存在一批样本数据，包括两个变量：面积和价格，如下图所示。现在给你一个面积，请预测对应的价格是多少？
首先定义几个符号
x输入变量组，是一个向量，x=
x可以包含多个变量。在本例中，x只包含两个变量：面积和房间数。n输入变量的数量y目标变量(x,y)样本总体m样本的数量第i个样本
&预测房价的问题在机器学习中称为监督学习，此类问题的特点是样本数据提供了目标变量的值。监督学习的基本思路如下图所示，首先通过学习算法获取一个函数h，。通过函数h即可预测任意面积的房价。如果目标变量y是一个连续的值，这类问题称为回归(regression)；如果是一个枚举值，称为分类(classification)。
图监督学习的原理图
2.线性回归和代价函数线性回归的基本思想
假设输入变量和目标变量成线性关系，如公式2.1。计算出θ后，即可以利用这个模型进行预测了。
代价函数的概念
代价函数(cost function)，又称为loss function。用来评估样本数据集上h(x)和y之间的误差。常用代价函数是平方差，见公式2.3。代价函数在计算θ的最优解起着非常重要的作用。
&公式2.3作为代价函数的理论依据
，假设服从正态分布，，且是独立同分布(IID)，
可以推导出：
通过公式2.6我们已经知道的的分布律，L(θ)是所有样本数据出现的概率。通过极大似然估计法思想：选取θ的值的原则使得样本数据出现的概率最高，即使得L(θ)最大。使得L(θ)最大等价于使得最大，最大等价于使得最小。所以，公式2.6作为成本函数是有数学依据的。
注：在公式2.7中，表示乘积的意思。
用微信&&“扫一扫”
将文章分享到朋友圈。
用易信&&“扫一扫”
将文章分享到朋友圈。
历史上的今天
loftPermalink:'',
id:'fks_',
blogTitle:'【转载】机器学习1：最小二乘作为代价函数的理论意义',
blogAbstract:'代价(cost)函数，又称为损失(loss)函数，是用来评估模型的预测值与真实值的不一致程度。本文通过使用极大似然估计法思想，证明了最小二乘作为代价函数是合理的。1.监督学习的概念存在一批样本数据，包括两个变量：面积和价格，如下图所示。现在给你一个面积，请预测对应的价格是多少？\n\n\t首先定义几个符号\n',
blogTag:'',
blogUrl:'blog/static/',
isPublished:1,
istop:false,
modifyTime:0,
publishTime:8,
permalink:'blog/static/',
commentCount:0,
mainCommentCount:0,
recommendCount:0,
bsrk:-100,
publisherId:0,
recomBlogHome:false,
currentRecomBlog:false,
attachmentsFileIds:[],
groupInfo:{},
friendstatus:'none',
followstatus:'unFollow',
pubSucc:'',
visitorProvince:'',
visitorCity:'',
visitorNewUser:false,
postAddInfo:{},
mset:'000',
remindgoodnightblog:false,
isBlackVisitor:false,
isShowYodaoAd:false,
hostIntro:'',
hmcon:'0',
selfRecomBlogCount:'0',
lofter_single:''
{list a as x}
{if x.moveFrom=='wap'}
{elseif x.moveFrom=='iphone'}
{elseif x.moveFrom=='android'}
{elseif x.moveFrom=='mobile'}
${a.selfIntro|escape}{if great260}${suplement}{/if}
{list a as x}
推荐过这篇日志的人：
{list a as x}
{if !!b&&b.length>0}
他们还推荐了：
{list b as y}
转载记录：
{list d as x}
{list a as x}
{list a as x}
{list a as x}
{list a as x}
{if x_index>4}{break}{/if}
${fn2(x.publishTime,'yyyy-MM-dd HH:mm:ss')}
{list a as x}
{if !!(blogDetail.preBlogPermalink)}
{if !!(blogDetail.nextBlogPermalink)}
{list a as x}
{if defined('newslist')&&newslist.length>0}
{list newslist as x}
{if x_index>7}{break}{/if}
{list a as x}
{var first_option =}
{list x.voteDetailList as voteToOption}
{if voteToOption==1}
{if first_option==false},{/if}&&“${b[voteToOption_index]}”&&
{if (x.role!="-1") },“我是${c[x.role]}”&&{/if}
&&&&&&&&${fn1(x.voteTime)}
{if x.userName==''}{/if}
网易公司版权所有&&
{list x.l as y}
{if defined('wl')}
{list wl as x}{/list}

机器学习中的目标函数，损失函数，代价函数有什么区别

我要回帖

随机推荐