深度学习算法中偏置b为什么不直接写入w中

科学教育 | 学习帮助 | 出国/留学 | 工程技术科学 | 教育/科学 | 英语听力 | 梦幻西游电脑版 | 视频会议 | 口臭 | 暗黑破坏神3（游戏） | 面相 | 赛尔号 | linux | 山西省 | Xbox One | 思修 | 易经 | solidworks | 钢铁雄心4 | 休闲游戏 | 魔兽争霸3混乱之治 | 显卡 | 武汉大学 | 塞尔达传说（游戏） | 校服 | 剑侠情缘网络版叁 | 脱发 | 日本文化 | 数学建模 | 二次元 | 部落冲突（游戏） | 肖战 | 街机游戏 | 拳皇 | 马鞍山市 | 扑克 | 完美世界（游戏） | 三国志（游戏） | 热血传奇（游戏） | 意大利 | 跆拳道 | 东莞市 | 糖尿病 | 古琴 | 三国 | 电视节目 | 百度 | qq音乐 | 配音 | 电视 | 任天堂 | 科幻小说 | 虚拟专用服务器 | QQ游戏 | 大熊猫 | 微电影 | Android | 竞技游戏 | 动画制作 | QQ炫舞 | 电源 | 日语 | 魔兽争霸3冰封王座 | 产业 | ios开发 | 百度云 | 动画电影 | nba篮球 | 羽生结弦 | iOS应用 | galgame | 电吉他 | 平板电脑 | 周星驰（人物） | 离婚 | 后宫·甄嬛传（书籍） | 牙科 | 游戏开发 | 网络直播 | ios游戏 | 电子邮件 | SNH48 | 民国 | 美容 | 舰队 Collection | 心理 | Mac | 羽毛球技术 | 互联网公司 | 大学生兼职 | 烘焙 | 诸葛亮 | 跑跑卡丁车 | 武侠小说 | 微博 | 骨折 | 掌上游戏机 | 玉米 | 中国足球 | 电脑配置 | 洛奇英雄传 | 硬盘 | 张璐 | akb48 | 炉石传说 | 韩国 | 蓄电池 | QQ空间 | 房贷 | 麦克风 | 相声演员 | 抑郁 | 天下2（游戏） | 农业科学 | 神话 | 农历 | 中国足球协会超级联赛（CSL） | 流星花园 | 易烊千玺 | 火影忍者 | 日语歌曲 | 巴西 | 红酒 | 化疗 | 占地 | 网络小说 | 香烟 | 传奇世界 | 名字 | 日本电影 | 表演 | 西藏自治区 | 英雄传说：闪之轨迹（游戏） | 足球彩票 | 摩尔庄园 | 中国工商银行 | 游戏手柄 | 陈奕迅 | 联赛 | 天体物理学 | 英格兰足球超级联赛 | 超级机器人大战 | 命令与征服：红色警戒2（游戏） | 郭富城 | 一级方程式赛车（f1） | Adobe Photoshop | 英文歌曲 | 玄幻小说 | 猫和老鼠 | 杨凡 | 书籍改编电影 | 俄罗斯 | 网络赚钱 | 罗玉凤 | 刺客信条2 | 角色扮演 | 食物 | 药物 | 杨洋（演员） | 信息安全 | 胡歌（演员） | 张子枫 | 古典音乐 | 时尚 | 大片 | 电脑游戏 | 签证 | 徐佳莹 | 耽美 | 游戏攻略 | 音乐剧 | 前女友 | 男性 | 肠胃 | 刺客信条起源 | 剧场版 | 国际足联世界杯 | 彩虹六号（游戏） | 赵丽颖（演员） | 天体生物学 | 战神（游戏） | 吉他学习 | 飞机 | 三菱商事 | 关节炎 | 斗鱼直播 | 发电 | 张继科 | 华语流行音乐 | 搏击项目 | 主题曲 | 李信 | 刘德华（演员） | 即时战略游戏（RTS） | 欧阳娜娜 | 网址导航 | 海贼王 | 山地车 | 豆瓣电影 | 广场舞 |

你的位置：网站首页 >> 频道首页 >>学习 >>深度学习算法中偏置b为什么不直接写入w中

深度学习算法中偏置b为什么不直接写入w中

来源：蜘蛛抓取(WebSpider) 时间：2017-10-28 06:29 标签：深度学习算法

神经网络中w,b参数的作用（为何需要偏置b的解释） - CSDN博客
神经网络中w,b参数的作用（为何需要偏置b的解释）
可视图讲解神经元w,b参数的作用
在我们接触神经网络过程中，很容易看到就是这样一个式子，g(wx+b)，其中w,x均为向量.比如下图所示：
加入激活函数为g(x)，我们就可以用公式g(w1x1+w2x2+b)(注：1,2均为下标，公众号很难打,下面所有的公式均是)来表示神经元的输出。
其中b为神经元的偏置.那么w,b这些参数的作用有没有最直观的感受呢？以及我当时学习的时候问师兄的，每个神经元为什么要加上偏置b,不加又有什么后果呢？
下面通过二维可视化图来直观说明一下它们的作用：
加入我们激活函数用的是sigmoid函数，它的图像如下：
我们很容易看到sigmoid函数的作用是将输入映射到一个(0,1)的输出范围
现在我们还是有一个简单的任务，需要将下面三角形和圆形进行分类：
利用上面神经元训练可以得到一个直线，去线性分开这些数据点.方程如下：
w1x1+w2x2+b=0，我们就可以得到下面这条类似的直线去线性分割好俩种不同类型的数据点.
那么这条边界找到了.而这个边界是w1x1+w2x2+b=0的方程，而w1x1+w2x2+b是作为激活函数sigmoid的输入处理.
激活函数将这个输入映射到(0,1)的范围内.那么可以增加一个维度来表示激活函数的输出.
我们认为g(x)&0.5就为正类（这里指圆形）,g(x)&0.5就为负类，这里指三角形类.得到的三维图如下：第三维z可以看成是一种类别！（比如圆形就是+1、三角形就是-1）
图来自：Hugo Larochelle课程ppt
那么就可以真正的可视化说明一下w.b等参数的作用在图中是怎么体现的~
我们从上图很容易得到，当我们将这个三维图进行投影的时候，就是我们上个用直线分割好俩类的平面图，三维图中的那个分割平面投影下来就是方程w1x1+w2x2+b=0.
右边输出为1的部分就是说w1x1+w2x2+b&0,导致激活函数输出&0.5，从而分为正类（&圆形类）,左边输出为-1的部分就是说w1x1+w2x2+b&0,导致激活函数输出&0.5，从而分为负类（&三角形类）
1& w参数的作用
其中w参数的作用，我们可以得到，是决定那个分割平面的方向所在.分割平面的投影就是直线w1x1+w2x2+b=0
我们解释如下，在二个输入中，可以得到w=[w1,w2],令方程w1x1+w2x2+b=0，那么该直线的斜率就是-w1/w2。随着w1,w2的变动，直线的方向也在改变，那么分割平面的方向也在改变~
2& b参数的作用
其中b参数的作用，是决定竖直平面沿着垂直于直线方向移动的距离，当b&0的时候，直线往左边移动，当b&0的时候，直线往右边移动.
我们通过例子解释如下：首先我们可以肯定是直线方向不变，因为我们没有动斜率的任何参数，只是改变b，要说明的就是为什么当b&0的时候，直线往左边移动，当b&0的时候，直线往右边移动.
假设我们有直线方程x1+x2-3=0,画出这个图像如下：
此时我们将b减小到0，图像变为如下：
我们从上面图像中很容易得到结论：
当b&0的时候，直线往左边移动，当b&0的时候，直线往右边移动.
有了b参数可视化作用之后，我们很容易解决我一开始的问题.每个神经元为什么要加上偏置b,不加又有什么后果呢？下面通过二维可视化图来直观说明一下它们的作用：
3& 每个神经元为什么要加上偏置
我先不说为什么一定要加入偏置b,就还是上面的分类问题，假如我现在的样本点是如下这种：
此时我们希望得到的线性方程分割线是下面这种，能够正确的将俩类进行分开：
到这个时候，我想我们已经明白了，如果没有偏置的话，我们所有的分割线都是经过原点的，但是现实问题并不会那么如我们所愿.都是能够是经过原点线性可分的。
原文来源：作者：忆臻
可视图讲解神经元w,b参数的作用
本文已收录于以下专栏：
相关文章推荐
在我们了解过神经网络的人中，都了解神经网络一个有很常见的训练方法，BP训练算法.通过BP算法，我们可以不断的训练网络，最终使得网络可以无限的逼近一种我们想要拟合的函数，最终训练好的网络它既能在训练集上...
本文主要记录我在学习神经网络过程中的心得笔记，参考UFLDL Tutorial和Coursera ML，共分为三个部分：Representation：神经网络的模型描述；Learning：神经网络的模...
之前简单的了解过cnn的简单的网络结构，但是对于其中的一些概念都不是很了解，但是最近学tensorflow看源码的时候真的很吃力，啥都看不懂，所以今天下午把cnn详细的看了一下，虽然最近很忙，还是要整...
1.2 池化层（Pooling）
用ReLU代替sigmoid
深度卷积网络
涉及问题：
1.每个图如何卷积：
  （1）一个图如何变成几个？
  （2）卷积核如何选择？
2.节点之间如何连接？
3.S2-C3如何进行分配？
卷积神经网络是一个多层的神经网络，每层由多个二维平面组成，而每个平面由多个独立神经元组成。
       图：卷积神经网络的概念示范：输入图像通过和三个可训练的滤波器和可加偏置进行卷积，滤波过程如图...
卷积层偏置值导数?E?blj=?E?zlj*?zlj?blj(1)\begin{align}\frac{\partial E}{\partial b_j^l}&=\frac{\partial E}{\...
一、BP神经网络的概念
    BP神经网络是一种多层的前馈神经网络，其主要的特点是：信号是前向传播的，而误差是反向传播的。具体来说，对于如下的只含一个隐层的神经网络模型：
(三层BP神经网络模型...
BP(back propagation)神经网络一种按照误差逆向传播算法训练的多层前馈神经网络，是目前应用最广泛的神经网络。
一、BP神经网络的概念
二、BP神经网络的
他的最新文章
讲师：吴岸城
您举报文章：
举报原因：
原文地址：
原因补充：
(最多只允许输入30个字)有一次，我和Vito（我的合伙人）聊起了当下热门的几种技术趋势。当谈及它们在未来可能的发展前景的时候，Vito说了下面的一段话：人工智能是个信息革命到蒸汽机规模之间的机会，相比之下虚拟现实应该是移动互联网级别的，而用户个性化服务应该是伴生规模的。如果人工智能技术带来的变革确实可以或许比拟工业革命的话，那么它势必会成就一代人，同时也淘汰掉一代人。而且，仔细想一想，其实人工智能离我们其实不遥远，甚至可以说已经入手下手深入到我们的一样平常生活中了。从iPhone里的Siri，到各大网站的内容推荐系统，再到图像识别和人脸识别技术的广泛应用，这些场景的背后都有这项技术在发挥作用。作为程序员，以机器学习和深度学习为代表的人工智能技术，与我们的关系则更加紧密。目下当今凡有些规模的互联网公司，基本都有专门研究算法的团队。在数据挖掘、Antispam、推荐系统和广告系统，以及其它一些领域，我们都多多少少会涉及到一些机器学习的技术。即使我们不亲自负责开发和维护这些技术，在工作中也难免会与之产生交集。说了这么多，我其实想强调的一点是：任何人都应该了解一点跟人工智能有关的技术，因为这是无法阻挡的大潮，是不可避免的未来趋势。而对于一位没有涉及到任何这方面技术的工程师来说，这项技术本身的独特性也绝对值得你花时间去了解。你一旦了解就会发现，这是一种全然不同的编程体式格局。本文就是这样的一篇科普文章，目的是向所有无接触过人工智能技术的程序员（甚至非技术人员），介绍人工智能领域最前沿的神经网络和深度学习方面的知识。也许，你看完之后，会像我第一次接触它们的时候一样，惊奇地感叹：这种编程体式格局简直是造物主留下的一个后门！竟然用如此简单的算法就可以实现出远远超越原本设计的智能！好了，蓄势完毕，相信目下当今你对于是不是愿意花时间读完剩下的内容，已经做出自己的决定了。实际上，这项科普的工作其实不轻松，因为这项技术涉及到不少数学知识。为了不阅读障碍，我会测验考试在描述的过程当中尽可能不引入复杂的数学公式，同时让讲解尽可能有趣。感知器要想理解深度学习，我们就必须先理解人工神经网络，因为神经网络是深度学习的根蒂根基。而要理解神经网络，我们就必须先理解它的基本组成单元――神经元(neuron)。感知器(perceptron)是一种早期的神经元结构，在上个世纪五六十年代就被提出来了[1]。目下当今它在神经网络中已很少被使用，但理解它有助于理清其它类型神经元的基本结构和设计思路。如上图所示，一个感知器的定义元素包括：有多个输入：x1, x2, x3, …, 它们只能是0或1。有一个输出：output. 只能是0或1。每一个输入对应一个权重值：w1, w2, w3, …, 它们可以是随意率性实数。有一个阈值：threshold. 可以是随意率性实数。输出output取决于各个输入的加权求和与阈值threshold的大小，即：如果w1x1 + w2x2 + w3x3 + … & threshold，则输出output=1，否则输出output=0。直观上理解，感知器相当于一个决议计划模型。输入透露表现进行决议计划时需要考虑的外在因素或条件，权重透露表现你对某个外在因素的重视程度，而阈值则透露表现你对于这个决议计划事件本身的喜好程度或接受程度。举一个例子：假设周末有一个同学聚会，目下当今你正在决议计划要不要去参加。你考虑的因素如下：如果那天天气好，那么你就更有意愿去参加。用x1=1透露表现天气好，x1=0透露表现天气不好。你对于天气这个因素的重视程度为w1=3。如果某个你讨厌的人也去参加聚会，那么你就兴趣索然，不太甘愿答应去了。用x2=1透露表现你讨厌的那小我私家去参加聚会，x2=0透露表现那小我私家不参加聚会。对应权重w2=-5，负值透露表现这个因素的出现会降低你去参加聚会的意愿。但如果你暗恋的一个女孩去参加聚会，那么你无论如何也是想去的。用x3=1透露表现那个女孩去参加聚会，x3=0透露表现她不参加聚会。这个女孩对于你太重要了，所以有一个很大的权重：w3=10。目下当今假设阈值threshold=2。我们根据前面的划定规矩去较量争论output，这个较量争论过程就相当于决议计划过程。如果output算出来等于1，那么你就去参加聚会，否则就不去。决议计划结果无非是下面几种：如果你暗恋的女孩去参加聚会，那么不管其它因素，你肯定就去了。因为权重w3实在太大了，不管另外的输入是多少，都会导致加权求和后超过threshold=2。你暗恋的那个女孩不去参加聚会，而你讨厌的那小我私家去参加聚会。这时候不管天气如何，你都不会去了。你暗恋的那个女孩和你讨厌的那小我私家都不去参加聚会。那么你去不去最终取决于天气怎样。对于一个给定的感知器来说，它的权重和阈值也是给定的，代表一种决议计划策略。因此，我们可以经由过程调整权重和阈值来改变这个策略。关于阈值threshold，这里需要指出的一点是，为了表达更方便，一样平常用它的相反数来表达：b=-threshold，这里的b被称为偏置（bias）。这样，前面较量争论输出的划定规矩就修改为：如果w1122+ … + b & 0，则输出output=1，否则输出output=0。再看一下下面这个感知器。权重w12=-2，而b=3。很明显，只有当x12=1的时候，output=0，因为(?2)*1+(?2)*1+3=?1，小于0。而其它输入的情况下，都是output=1。这实际上是一个“与非门”！在较量争论机科学中，与非门是所有门部件中比较特殊的一个，它可以经由过程组合的体式格局表达任何其它的门部件。这被称为与非门的普适性(Gate Universality)[2]。既然感知器可以或许经由过程设置恰当的权重和偏置参数，来表达一个与非门，那么理论上它也就可以表达随意率性其它的门部件。因此，只要创建足够多的感知器，那么它们便可以或许经由过程彼此连接从而组成一个较量争论机系统。但这似乎没有什么值得惊喜的，我们已经有现成的较量争论机了，这只不过是让事情复杂化了而已。训练和学习单个感知器能做的事情很有限。要做复杂的决议计划，我们可能需要将多个感知器连接起来。就像下面这个一样：这个由感知器组成的网络，包含5个输入，8个感知器。权重参数的数量，我们可以算一下：5*3+3*4+4*1=31。再加上8个偏置参数，这个网络总共有39个参数。这个图有一点需要说明的是：左边第一层的每一个感知器看起来似乎有4个输出，而不是1个。但这是个错觉。实际情况是每一个感知器的那唯一的一个输出分别连接到了下一层的各个感知器的输入上了。这种透露表现法是为了方便。输出端的多条连线只是透露表现连接关系，而不透露表现输出的个数。这个感知器网络还算是一个简单的网络，就已经有多达39个参数了。而实际中的网络可能会有上万个，甚至数十万个参数。如果手工一个一个地去设置装备摆设这些参数，恐怕这项任务永远也完成不了了。而神经网络最有特色的地方就在于这里。我们不是为网络指定所有参数，而是提供训练数据，让网络自己在训练中去学习，在学习过程当中为所有参数找到最恰当的值。如何训练呢？大体思路是这样：我们告诉网络当输入是某个值的时候，我们期望的输出是什么。这样的每一份训练数据，称为训练样本（training example）。这个过程相当于老师在教授教养生某个抽象的知识的时候，举一个具体例子。一样平常来说，我们举的例子越多，就越能表达那个抽象的知识。这在神经网络的训练中同样成立。我们可以向网络灌入不计其数个训练样本，然后网络就自动从这些样本中总结出那份隐藏在背后的抽象的知识。这份知识的体现，就在于网络的所有权重和偏置参数的取值。假设各个参数有一个初始值。当我们输入一个训练样本的时候，它会根据当前参数值较量争论出唯一的一个实际输出值。这个值可能跟我们期望的输出值不一样。想象一下，这时候候，我们可以试着调整某些参数的值，让实际输出值和期望输出值尽可能接近。当所有的训练样本输入完毕之后，网络参数也调整到了最佳值，这时候每一次的实际输出值和期望输出值已经无限接近。这样训练过程就结束了。假设在训练过程当中，网络已经对数万个样本可以或许给出正确（或接近正确）的回响反映了，那么再给它输入一个它没见过的数据，它也应该有很大概率给出我们预期的决议计划。这就是一个神经网络工作的原理。但这里还有一个问题。在训练过程当中，当实际输出值和期望输出值产生差异的时候，我们如何去调整各个参数呢？当然，在思考怎么做之前，我们应该先弄清楚：经由过程调整参数的体式格局获得期望的输出，这个方法可行吗？实际上，对于感知器网络来说，这个方法基本不可行。比如在上图有39个参数的感知器网络中，如果维持输入不变，我们改变某个参数的值，那么最终的输出基本完全不可预测。它或者从0变到1（或从1变到0），当然也可能维持不变。这个问题的关键在于：输入和输出都是二进制的，只能是0或者1。如果把整个网络看成一个函数（有输入，有输出），那么这个函数不是连气儿的。因此，为了让训练成为可能，我们需要一个输入和输出可以或许在实数上保持连气儿的神经网络。于是，这就出现了sigmoid神经元。sigmoid神经元sigmoid神经元(sigmoid neuron)是现代神经网络经常使用的基本结构（当然不是唯一的结构）。它与感知器的结构类似，但有两个重要的区别。第一，它的输入不再限制为0和1，而可以是随意率性0~1之间的实数。第二，它的输出也不再限制为0和1，而是将各个输入的加权求和再加上偏置参数，经过一个称为sigmoid函数的较量争论作为输出。具体来说，假设z=w1122σ(z) = 1/(1+e)σ(z)的函数曲线如下：可见，σ(z)是一个滑润圆滑、连气儿的函数。而且，它的输出也是0~1之间的实数，这个输出值可以直接作为下一层神经元的输入，保持在0~1之间。可以想象，在采用sigmoid神经元组装神经网络之后，网络的输入和输出都变为连气儿的了。也就是说，当我们对某个参数的值进行微小的改变的时候，它的输出也只是产生微小的改变。这样就使得逐步调整参数值的训练成为可能。这个思想如下图所示：一个经典的应用案例为了说明神经网络如何具体应用。这里我们引入一个经典的案例。这个例子来自Michael Nielsen的书《Neural Networks and Deep Learning》[3]，是利用神经网络对于手写体数字进行识别。当然，这个例子在历史上，很多研究人员也都做过测验考试。这里顺便说一句，Michael Nielsen 的这本书真的很赞，没见过哪一份资料能把神经网络和深度学习讲解得这么透彻。这本书简直称得上是神经网络的科普圣经，感兴趣的初学者一定要读一读。这个问题就是对类似下面这样的手写体数字进行识别，区分出它们具体是0到9哪个数字：这份手写体数据其实来源于一个公开的数据集，称为MNIST[4]。其中每一个数字，是一张28像素&28像素的曲直短长图片，每一个像素用一个灰度值透露表现。Michael Nielsen采用的神经网络结构如下：左侧第一列圆圈透露表现网络的784个输入（注意图中没有画出全部），对应一张图片的28&28=784个像素点。每一个像素的灰度值，在经过归一化处置惩罚之后，可以表达为0~1之间的数值，作为这里的输入。注意：这一列圆圈其实不是神经元（虽然看起来像），只是输入而已。中间一列称为隐藏层(hidden layer)，图中画出的是15个神经元节点。隐藏层上的每个节点都与每一个输入连接，也就是说输入层和隐藏层之间是全连接。这个神经网络只有一层隐藏层，属于浅层的神经网络(shallow neural networks)。而真实的深度神经网络(deep nerual networks)，则会有多层隐藏层。最右侧一列是输出层(output layer)，有10个神经元节点，分别代表识别结果是0,1,2,…,9。当然，受sigmoid函数σ(z)的限制，每一个输出也肯定是0~1之间的数。那我们得到一组输出值之后，我们到底认为识别结果是哪一个数字呢？我们可以根据哪一个输出的值最大，我们就认为识别结果就取那个数字。而在训练的时候，我们期望的输出形式是：正确的那个数字输出为1，其它输出为0。隐藏层和输出层之间也是全连接。我们可以算一下这个神经网络共有多少个参数。权重参数有784*15+15*10=11910个，偏置参数有15+10=25个，总共参数个数为：35个。对于这个神经网络的训练过程，就是要确定这11935个参数。训练的目标可以粗略归纳综合为：对于每个训练样本，我们期望的那个正确数字，对应的输出无限接近于1，而其它输出无限接近于0。先不说具体的学习方法（下一节会介绍），我们先说一下神经网络这种编程体式格局在这一具体问题上取得的结果。根据Michael Nielsen给出的实验结果，以上述网络结构为根蒂根基，在未经过调优的情况下，可以轻松达到95%的正确识别率。而核心代码只有74行！在采用了深度学习的思路和卷积网络(convolutional networks)之后，最终达到了99.67%的正确识别率。而针对MNIST数据集达到的历史最佳成绩是99.79%的识别率，是由Li Wan, Matthew Zeiler, Sixin Zhang, Yann LeCun, 和 Rob Fergus在2013年做出的。考虑到这个数据集里还有一些类似如下这样难以辨认的数字，这个结果是相当惊人的！它已经超越了真正人眼的识别了。在本文前面一节，我们已经对神经网络的训练过程进行了描述，但其中关键的一步还没有介绍，就是如何在这个过程当中一步步调整权重和偏置参数的值呢？要讲清楚这个问题，我们就必须引入梯度下降算法(gradient descent)。随机梯度下降在训练的过程当中，我们的神经网络需要有一个实际可行的学习算法，来逐步调整参数。要设计这样一个学习算法，我们首先要明确训练的目标。我们训练的最终目的，是让网络的实际输出与期望输出可以或许尽可能接近。我们需要找到一个表达式来对这种接近程度进行表征。这个表达式被称为代价函数(cost function)。一个比较常见的cost function如下所示：这是本文出现的最复杂的一个公式了。但不用恐惧，我们对它分析一下，只要能理解它的主旨就好：x透露表现一个训练样本，即网络的输入。其实一个x代表784个输入。y(x)透露表现当输入为x的时候，期望的输出值；而a透露表现当输入为x的时候，实际的输出值。y(x)和a都分别代表10个输出值（以数学上的向量来透露表现）。而它们的差的平方，就表征了实际输出值和期望输出值的接近程度。越接近，这个差值就越小。n是训练样本的数量。假设有5万个训练样本，那么n就是5万。因为是多次训练，所以要除以n对所有训练样本求平均值。C(w,b)的透露表现法，是把cost function看成是网络中所有权重w和偏置b的函数。为何这样看呢？进行训练的时候，输入x是固定的（训练样本），不会变。在认为输入不变的情况下，这个式子就能够看成是w和b的函数。那么，式子右边的w和b在哪呢？实际上，在a里面。y(x)也是固定值，但a是w和b的函数。总结来说，C(w,b)表征了网络的实际输出值和期望输出值的接近程度。越接近，C(w,b)的值就越小。因此，学习的过程就是想办法降低C(w,b)的过程。而不管C(w,b)的表达形式如何，它是w和b的函数，这就变成了一个求函数最小值的最优化问题。由于C(w,b)的形式比较复杂，参数也特别很是多，所以直接进行数学上的求解，特别很是困难。为了利用较量争论机算法解决这一问题，较量争论机科学家们提出了梯度下降算法(gradient descent)。这个算法本质上是在多维空间中沿着各个维度的切线贡献的标的目的，每次向下迈出微小的一步，从而最终抵达最小值。由于多维空间在视觉上无法体现，所以人们通常会退到三维空间进行类比。当C(w,b)只有两个参数的时候，它的函数图像可以在三维空间里呈现。如下所示：就好像一个小球在山谷的斜坡上向下不停地滚动，最终就有可能到达谷底。这个理解重新推广到多维空间内也基本成立。而由于训练样本的数量很大（上万，几十万，甚至更多），直接根据前面的C(w,b)进行较量争论，较量争论量会很大，导致学习过程很慢。于是就出现了随机梯度下降(stochastic gradient descent)算法，是对于梯度下降的一个近似。在这个算法中，每次学习不再针对所有的训练集，而是从训练集中随机选择一部分来较量争论C(w,b)，下一次学习再从剩下的训练集中随机选择一部分来较量争论，直到把整个训练集用光。然后再不断重复这一过程。深度学习深度神经网络（具有多个hidden layer）比浅层神经网络有更多结构上的优势，它有能力从多个层次上进行抽象。上图表达了在一个基于深度学习的图像识别过程当中，逐层抽象的过程：最下面的视觉输入层，接受图片的各个像素。第一层hidden layer，经由过程比较相邻元素的不同亮度，识别出图像的边界。第二层hidden layer，将边界组合，识别出图像的角和轮廓。第三层hidden layer，进一步抽象，将角和轮廓进行组合，识别出物体的组成部分。最终，输出层识别出具体的物体（是汽车、人，还是动物）。从上个世纪八九十年代入手下手，研究人员们不断测验考试将随机梯度下降算法应用于深度神经网络的训练，但却碰到了梯度消失(vanishing gradient)或梯度爆发(exploding gradient)的问题，导致学习过程异常缓慢，深度神经网络基本不可用。然而，从2006年入手下手，人们入手下手使用一些新的技术来训练深度网络，不断取得了突破。这些技术包括但不限于：采用卷积网络(convolutional networks)；Regularization (dropout)；Rectified linear units；利用GPU获得更强的较量争论能力；使用更好的cost function；……限于篇幅缘故原由，我们有机会下次再评论辩论这些技术细节。深度学习的优错误谬误根据本文前面的介绍，深度学习的优点不言而喻：这是一种全新的编程体式格局，它不需要我们直接为要解决的问题设较量争论法和编程，而是针对训练过程编程。网络在训练过程当中就可以自己学习到解决问题的正确方法，这使得我们可以用简单的算法来解决复杂的问题，而且在很多领域胜过了传统方法。而训练数据在这个过程发挥了更重要的作用：简单的算法加上复杂的数据，可能远胜于复杂的算法加上简单的数据。但这项技术的一些错误谬误我们也不能不警惕：深度网络往往包含大量的参数，这从哲学原则上不符合奥卡姆剃刀原则。通常人们要在调整这些参数上面花费巨大的精力；训练深度网络需要大量的较量争论力和较量争论时间；过拟合(Overfitting)问题始终伴随着神经网络的训练过程，学习过慢的问题始终困扰着人们；我们很难理解神经网络的工作体式格局，这容易让人们产生一种失控的恐惧，同时也对这项技术在一些重要场合的进一步应用制造了障碍。记得前一段时间在朋友圈流传甚广BetaCat的故事，讲的就是一小我私家工智能程序，经由过程自我学习，最终逐渐统治世界的故事。那么，目下当今的人工智能技术的发展，会导致这种情况发生吗？会导致强人工智能的出现吗？恐怕还不太可能。小我私家感觉，大概有两个重要因素：第一，目下当今的人工智能，它的自我学习还是限定在人们指定的体式格局，只能学习解决特定的问题，仍然不是通用的智能。第二，目下当今对于人工智能的训练过程，需要人们为其输入规整化的训练数据，系统的输入输出仍然对于数据的格式要求很严格。这也意味着，即使把人工智能程序连到网上，它也不克不及像BetaCat那样对于互联网上海量的非结构化数据进行学习。但是，本着实用的角度，这仍然是一种特别很是吸引人，而且很有前景的技术。前段时间，朋友圈里流传着另外一个故事：一个日本小伙（一名工程师）利用深度学习技术，测验考试为他母亲的农场设计了分选黄瓜的机器，大大减轻了他母亲在农忙时节的工作量。那么，同样作为工程师的你，是不是也想利用平生所学，为妈妈做一点事呢？（完）注：本文图片素材来源[3][5]。参考文献：注：数据分析网遵循行业规范，任何转载的稿件都会明确标注作者和来源，若标注有误或遗漏，请联系主编邮箱：

深度学习算法中偏置b为什么不直接写入w中

我要回帖

更多关于深度学习算法的文章

随机推荐

深度学习算法中偏置b为什么不直接写入w中

我要回帖

更多关于 深度学习算法 的文章

随机推荐

更多关于深度学习算法的文章