深度学习有多深

科学教育 | 学习帮助 | 出国/留学 | 工程技术科学 | 教育/科学 | 英语听力 | 梦幻西游电脑版 | 视频会议 | 口臭 | 暗黑破坏神3（游戏） | 面相 | 赛尔号 | linux | 山西省 | Xbox One | 思修 | 易经 | solidworks | 钢铁雄心4 | 休闲游戏 | 魔兽争霸3混乱之治 | 显卡 | 武汉大学 | 塞尔达传说（游戏） | 校服 | 剑侠情缘网络版叁 | 脱发 | 日本文化 | 数学建模 | 二次元 | 部落冲突（游戏） | 肖战 | 街机游戏 | 拳皇 | 马鞍山市 | 扑克 | 完美世界（游戏） | 三国志（游戏） | 热血传奇（游戏） | 意大利 | 跆拳道 | 东莞市 | 糖尿病 | 古琴 | 三国 | 电视节目 | 百度 | qq音乐 | 配音 | 电视 | 任天堂 | 科幻小说 | 虚拟专用服务器 | QQ游戏 | 大熊猫 | 微电影 | Android | 竞技游戏 | 动画制作 | QQ炫舞 | 电源 | 日语 | 魔兽争霸3冰封王座 | 产业 | ios开发 | 百度云 | 动画电影 | nba篮球 | 羽生结弦 | iOS应用 | galgame | 电吉他 | 平板电脑 | 周星驰（人物） | 离婚 | 后宫·甄嬛传（书籍） | 牙科 | 游戏开发 | 网络直播 | ios游戏 | 电子邮件 | SNH48 | 民国 | 美容 | 舰队 Collection | 心理 | Mac | 羽毛球技术 | 互联网公司 | 大学生兼职 | 烘焙 | 诸葛亮 | 跑跑卡丁车 | 武侠小说 | 微博 | 骨折 | 掌上游戏机 | 玉米 | 中国足球 | 电脑配置 | 洛奇英雄传 | 硬盘 | 张璐 | akb48 | 炉石传说 | 韩国 | 蓄电池 | QQ空间 | 房贷 | 麦克风 | 相声演员 | 抑郁 | 天下2（游戏） | 农业科学 | 神话 | 农历 | 中国足球协会超级联赛（CSL） | 流星花园 | 易烊千玺 | 火影忍者 | 日语歌曲 | 巴西 | 红酒 | 化疗 | 占地 | 网络小说 | 香烟 | 传奇世界 | 名字 | 日本电影 | 表演 | 西藏自治区 | 英雄传说：闪之轨迹（游戏） | 足球彩票 | 摩尔庄园 | 中国工商银行 | 游戏手柄 | 陈奕迅 | 联赛 | 天体物理学 | 英格兰足球超级联赛 | 超级机器人大战 | 命令与征服：红色警戒2（游戏） | 郭富城 | 一级方程式赛车（f1） | Adobe Photoshop | 英文歌曲 | 玄幻小说 | 猫和老鼠 | 杨凡 | 书籍改编电影 | 俄罗斯 | 网络赚钱 | 罗玉凤 | 刺客信条2 | 角色扮演 | 食物 | 药物 | 杨洋（演员） | 信息安全 | 胡歌（演员） | 张子枫 | 古典音乐 | 时尚 | 大片 | 电脑游戏 | 签证 | 徐佳莹 | 耽美 | 游戏攻略 | 音乐剧 | 前女友 | 男性 | 肠胃 | 刺客信条起源 | 剧场版 | 国际足联世界杯 | 彩虹六号（游戏） | 赵丽颖（演员） | 天体生物学 | 战神（游戏） | 吉他学习 | 飞机 | 三菱商事 | 关节炎 | 斗鱼直播 | 发电 | 张继科 | 华语流行音乐 | 搏击项目 | 主题曲 | 李信 | 刘德华（演员） | 即时战略游戏（RTS） | 欧阳娜娜 | 网址导航 | 海贼王 | 山地车 | 豆瓣电影 | 广场舞 |

你的位置：网站首页 >> 频道首页 >>学习 >>深度学习有多深

深度学习有多深

来源：蜘蛛抓取(WebSpider) 时间：2017-10-01 04:52 标签：

王川: 深度学习有多深? 学了究竟有几分? (一)
我的图书馆
王川: 深度学习有多深? 学了究竟有几分? (一)
&&&&&&&&(1)2016 年一月底，人工智能的研究领域，发生了两件大事.先是一月二十四号，ＭIT 的教授，人工智能研究的先驱者，Marvin Minsky 去世，享年８９岁.三天之后，谷歌在自然杂志上正式公开发表论文,宣布其以深度学习技术为基础的电脑程序 AlphaGo, 在2015年十月,连续五局击败欧洲冠军,职业二段樊辉. 这是第一次机器击败职业围棋选手. 距离97年IBM电脑击败国际象棋世界冠军,一晃近二十年了.极具讽刺意义的是, Minsky 教授,一直不看好深度学习的概念. 他曾在1969年出版了 Perceptron (感知器) 一书,指出了神经网络技术 (就是深度学习的前身)的局限性. 这本书直接导致了神经网络研究的将近二十年的长期低潮.神经网络研究的历史,是怎样的?深度学习有多深? 学了究竟有几分?&&&&&&&&(2)人工智能研究的方向之一, 是以所谓 '专家系统' 为代表的, 用大量 '如果-就' (If - Then) 规则定义的, 自上而下的思路.人工神经网络 ( Artifical Neural Network),标志着另外一种,自下而上的思路.神经网络没有一个严格的正式定义. 它的基本特点, 是试图模仿大脑的神经元之间传递,处理信息的模式.一个计算模型,要划分为神经网络,通常需要大量彼此连接的节点 (也称 '神经元'),并且具备两个特性:每个神经元, 通过某种特定的输出函数 (也叫激励函数 activation function),计算处理来自其它相邻神经元的加权输入值.神经元之间的信息传递的强度,用所谓加权值来定义,算法会不断自我学习,调整这个加权值.在此基础上,神经网络的计算模型, 依靠大量的数据来训练, 还需要:成本函数& (cost function)用来定量评估根据特定输入值, 计算出来的输出结果,离正确值有多远,结果有多靠谱.学习的算法 ( learning algorithm )这是根据成本函数的结果, 自学, 纠错, 最快地找到神经元之间最优化的加权值.用小明,小红和隔壁老王们都可以听懂的语言来解释, 神经网络算法的核心就是&&&&&&& 计算, 连接, 评估, 纠错, 疯狂培训随着神经网络研究的不断变迁,其计算特点 ,和传统的生物神经元的连接模型渐渐脱钩.但是它保留的精髓是: 非线性,分布式, 并行计算, 自适应, 自组织.&&&&&&&&(3)神经网络作为一个计算模型的理论,1943年最初由科学家 Warren McCulloch 和Walter Pitts 提出.康内尔大学教授 Frank Rosenblatt 1957年提出的'感知器' (Perceptron),是第一个用算法来精确定义神经网络, 第一个具有自组织自学习能力的数学模型,是日后许多新的神经网络模型的始祖.Rosenblatt 乐观地预测,感知器最终可以 '学习,做决定,翻译语言'. 感知器的技术,六十年代一度走红,美国海军曾出资支持这个技术的研究, 期望它 '以后可以自己走, 说话, 看, 读, 自我复制, 甚至拥有自我意识'.Rosenblatt 和 Minsky 实际上是间隔一级的高中校友.但是六十年代, 两个人在感知器的问题上,展开了长时间的激辩. Rosenblatt 认为感应器将无所不能, Minsky 则认为它应用有限.1969 年, Marvin Minsky 和 Seymour Papert 出版了新书: '感知器: 计算几何简介'.& 书中论证了感知器模型的两个关键问题:第一, 单层的神经网络无法解决不可线性分割的问题, 典型例子如异或门, XOR Circuit ( 通俗地说, 异或门就是: 两个输入如果是异性恋,输出为一. 两个输入如果是同性恋,输出为零 )第二, 更致命的问题是,当时的电脑完全没有能力完成神经网络模型所需要的超大的计算量.此后的十几年,以神经网络为基础的人工智能研究进入低潮,相关项目长期无法得到政府经费支持,这段时间被称为业界的核冬天.&Rosenblatt 自己则没有见证日后神经网络研究的复兴. 1971年他43岁生日时,不幸在海上开船时因为事故而丧生.(未完待续)-------------------------------------------------------------点击下面链接可以看到本公众号的说明和历史文章的链接在投资和事业发展的路上如何集思广益，举重若轻？欢迎加入王川的投资俱乐部，这是一个凝聚来自世界四大洲各行各业精英的高端社区，年费三千四百美元。有意入会者请和王川（微信号: 9935070) 直接联系。我和其他会员，会和你深度交流更多投资和商业的经验教训。作者简介：王川，投资人，中科大少年班校友，现居加州硅谷。个人微信号9935070,公众号 investguru ,新浪微博是“硅谷王川'，知乎专栏 '兵无常势', 财新网博客 wangchuan., 文章表达个人观点仅供参考，不构成对所述资产投资建议，投资有风险，入市须谨慎.
TA的最新馆藏
喜欢该文的人也喜欢王川: 深度学习有多深? (二十) - 多巴胺的诱惑 - 知乎专栏
{"debug":false,"apiRoot":"","paySDK":"/api/js","wechatConfigAPI":"/api/wechat/jssdkconfig","name":"production","instance":"column","tokens":{"X-XSRF-TOKEN":null,"X-UDID":null,"Authorization":"oauth c3cef7c66aa9e6a1e3160e20"}}
{"database":{"Post":{"":{"contributes":[{"sourceColumn":{"lastUpdated":,"description":"","permission":"COLUMN_PUBLIC","memberId":,"contributePermission":"COLUMN_PUBLIC","translatedCommentPermission":"all","canManage":true,"intro":"","urlToken":"wangchuan","id":4934,"imagePath":"01d591cd1cc028e331bd6f0.jpg","slug":"wangchuan","applyReason":"","name":"兵无常势","title":"兵无常势","url":"/wangchuan","commentPermission":"COLUMN_ALL_CAN_COMMENT","canPost":true,"created":,"state":"COLUMN_NORMAL","followers":7781,"avatar":{"id":"01d591cd1cc028e331bd6f0","template":"/{id}_{size}.jpg"},"activateAuthorRequested":false,"following":false,"imageUrl":"/01d591cd1cc028e331bd6f0_l.jpg","articlesCount":125},"state":"accepted","targetPost":{"titleImage":"","lastUpdated":,"imagePath":"","permission":"ARTICLE_PUBLIC","topics":[89794],"summary":"Hey There Delilah Plain White T's - Every Second Counts本文是的续篇. (1) 多巴胺,英文名 Dopamine, 是一种有机化合物, 学名 4-(2-Aminoethyl)benzene-1,2-diol, 4-(2-氨基乙基)-1,2-苯二酚, …","copyPermission":"ARTICLE_COPYABLE","translatedCommentPermission":"all","likes":0,"origAuthorId":0,"publishedTime":"T16:46:50+08:00","sourceUrl":"","urlToken":,"id":1118765,"withContent":false,"slug":,"bigTitleImage":false,"title":"王川: 深度学习有多深? (二十) - 多巴胺的诱惑","url":"/p/","commentPermission":"ARTICLE_ALL_CAN_COMMENT","snapshotUrl":"","created":,"comments":0,"columnId":4934,"content":"","parentId":0,"state":"ARTICLE_PUBLISHED","imageUrl":"","author":{"bio":"投资人","isFollowing":false,"hash":"4735cce127addcedcff409","uid":163200,"isOrg":false,"slug":"gui-gu-wang-chuan","isFollowed":false,"description":"中国科技大学少年班87级，罗切斯特大学材料学硕士，乔治亚理工学院计算机硕士。一百多篇原创财经科技内容的原创文章通过微信公众号 investguru 发布, 个人微信号 9935070，新浪微博 \"硅谷王川\". ","name":"硅谷王川","profileUrl":"/people/gui-gu-wang-chuan","avatar":{"id":"3bd5d54a457ea642eb2495c","template":"/{id}_{size}.jpg"},"isOrgWhiteList":false},"memberId":,"excerptTitle":"","voteType":"ARTICLE_VOTE_CLEAR"},"id":426855}],"title":"王川: 深度学习有多深? (二十) - 多巴胺的诱惑","author":"gui-gu-wang-chuan","content":"Hey There Delilah
Plain White T's - Every Second Counts本文是的续篇.
(1)多巴胺,英文名 Dopamine, 是一种有机化合物, 学名 4-(2-Aminoethyl)benzene-1,2-diol, 4-(2-氨基乙基)-1,2-苯二酚, 在大脑中它的作用是在神经元之间传递信号的介质.多巴胺作为神经介质 (neurotransmitter)的功能, 最早在1957年由瑞典化学家 Arvid Carlsson 发现, Carlsson 四十三年之后才因此发现获得诺贝尔奖.多巴胺对于人脑的运作至关重要. 在普通人的印象中,多巴胺的释放是和食物,烟酒,性快感或者毒品联系在一起的.当人们获得各种快乐的奖励时,大脑释放大量多巴胺,让人们沉迷而无法自拔.所以也有人称其多巴胺为\"快感化学物\" (pleasure chemical):快感/奖励, 导致多巴胺的释放.
(2)早在 1901 年, 俄国科学家巴普洛夫发现一个有趣的现象: 通常狗在被喂食之前,会流口水. 但如果在给狗喂食之前,先摇摇铃铛,训练几次后,狗只要听到铃响,还没有看到食物时,就会马上开始流口水.随着检测技术的提高, 科学家对多巴胺的机制有了新的理解.在一个实验中,科学家每次在老鼠吃东西之前,按响蜂鸣器. 训练几次后,只要一按蜂鸣器, 老鼠大脑的多巴胺浓度大增.真正吃到食物时,多巴胺的浓度又降下来了.类似的实验,在猴子身上也有相仿的结果.多巴胺的释放, 来自对于奖励的预期,而不是奖励本身.(如下图, 当奖励的信号 (signal) 出现时, 多巴胺大增,而真正获得奖励 reward 时,多巴胺的浓度已经降回来了.)
(3)剑桥大学的Wolfram Schultz 博士在进一步研究中,有了新的发现.对猴子大脑释放的多巴胺浓度的不断监测中,他发现如果猴子获得比预期更多的苹果汁,或者在没有预想到的时间喝到苹果汁,多巴胺分泌则大增.如果本来期待的苹果汁没有喝到,多巴胺的分泌大减.研究的结论是: 多巴胺的释放,取决于获得的奖励和预期之间的差值, Delta. 现实和预期的差别, 促成了多巴胺的释放, 这是学习和进步的源动力.快乐,来自超越预期的惊喜和它带来的多巴胺释放.但如果没有新的花样超越大脑的预期,多巴胺浓度下降,生活趋于平静,这就是人们常说的夫妻之间的\"七年之痒\".如果短暂的分别降低了未来的期望值,那么重逢之后的多巴胺排放,如滔滔江水,这就是所谓的 \"小别胜新婚\"了.关于多巴胺驱动大脑的机制,还有许多极为微妙复杂的细节, 此处暂不赘述.
(4)时间差分学习 (Temporal Difference Learning, 下面简称为 TD学习) 思想的雏型, 上世纪五十年代就被不同的学者提出.它的核心思想, 就是在每个时间点通过计算现实和预期的差值,来微调价值函数值. 这和大脑多巴胺释放的机制,不谋而合.它和蒙特-卡洛(MC)模拟的区别在于, MC 模拟要在一个轮回之后,再更新各个节点的价值函数. 而 TD 是在每个时间点, 根据观察到的结果不断评估,微调.打个简单的比方,如果把\"过河\"作为一个要解决的问题, 动态规划的解决办法,就是耗费大量时间测算河水的深浅,河里的石头大小,分布,然后计算最优的过河方案. 它的缺点是耗时过长, 很可能方案算出来的时候,你的孙子都已经出生了.MC 模拟,就好比派一大群志愿者强行渡河,有些人在渡河中会摔跤甚至淹死,但经过大量先烈前赴后继的实验后,也可以找到最佳方案.而TD 算法,就是\"摸着石头过河\".当现实和预期存在差别时,有的人选择破口大骂,有的人选择视而不见/掩耳盗铃.而有的人则使用 TD 算法,根据这个差值, 实时的更新自己的世界观和策略. 使用 TD 算法的人,将会有更大的概率,在生存竞争中传递自己的基因.TD 算法真正名声大噪, 要到 1992年, 在一个古老游戏上的应用.(未完待续)==============================点击下面链接获得本公众号的介绍在投资和事业发展的路上如何集思广益，举重若轻？欢迎加入王川的俱乐部，这是一个凝聚来自世界四大洲各行各业精英的高端收费社区.有意入会者请和王川（微信号: 9935070) 直接联系。作者简介：王川，投资人，中科大少年班校友，现居加州硅谷。个人微信号9935070,公众号 investguru ,新浪微博“硅谷王川\"，知乎专栏 \"兵无常势\". 文章表达个人观点仅供参考，不构成对所述资产投资建议，投资有风险，入市须谨慎.&王川自选集& 第一卷电子书，现可在百度云盘上免费下载，订阅本公众号后,在公众号菜单右下角点击\"电子书\", 即可获得下载指令. 总共收录我过去一年五十多篇原创的财经科技评论文章，近三百页，欢迎下载传阅！)","updated":"T08:46:50.000Z","canComment":false,"commentPermission":"anyone","commentCount":0,"collapsedCount":0,"likeCount":13,"state":"published","isLiked":false,"slug":"","isTitleImageFullScreen":false,"rating":"none","titleImage":"","links":{"comments":"/api/posts//comments"},"reviewers":[],"topics":[{"url":"/topic/","id":"","name":"深度学习（Deep Learning）"}],"adminClosedComment":false,"titleImageSize":{"width":0,"height":0},"href":"/api/posts/","excerptTitle":"","column":{"slug":"wangchuan","name":"兵无常势"},"tipjarState":"inactivated","annotationAction":[],"sourceUrl":"","pageCommentsCount":0,"hasPublishingDraft":false,"snapshotUrl":"","publishedTime":"T16:46:50+08:00","url":"/p/","lastestLikers":[{"bio":"我可能是个智障","isFollowing":false,"hash":"299b6fff18a137035fad24e04a00f97e","uid":854000,"isOrg":false,"slug":"zhong-xing-yue-80","isFollowed":false,"description":"\"You only live once\"","name":"rito","profileUrl":"/people/zhong-xing-yue-80","avatar":{"id":"v2-cfdd62a4a119ed3c8c2c38f4bfc3f9f5","template":"/{id}_{size}.jpg"},"isOrgWhiteList":false},{"bio":"智能量化对冲技术/潜水员","isFollowing":false,"hash":"f2aabeff3ede0e67db8f9","uid":136000,"isOrg":false,"slug":"mxlke-jiao-min-fen","isFollowed":false,"description":"","name":"mxl科教民粉","profileUrl":"/people/mxlke-jiao-min-fen","avatar":{"id":"da8e974dc","template":"/{id}_{size}.jpg"},"isOrgWhiteList":false},{"bio":"工业管理者","isFollowing":false,"hash":"6bb00e22cfd7f49766c87e","uid":20,"isOrg":false,"slug":"Yusong_Di","isFollowed":false,"description":"Stay out of your comfort zone","name":"eualidysal","profileUrl":"/people/Yusong_Di","avatar":{"id":"304ad8e1f8fd39e3f0a8beb","template":"/{id}_{size}.jpg"},"isOrgWhiteList":false},{"bio":null,"isFollowing":false,"hash":"2a39c7104ffe9c54c245bc005e313d4b","uid":16,"isOrg":false,"slug":"vitor-chen-55","isFollowed":false,"description":"","name":"Vitor Chen","profileUrl":"/people/vitor-chen-55","avatar":{"id":"da8e974dc","template":"/{id}_{size}.jpg"},"isOrgWhiteList":false},{"bio":"失去梦想变成大鸡腿","isFollowing":false,"hash":"68ae99d774ebbb429b40baa","uid":04,"isOrg":false,"slug":"li-he-48","isFollowed":false,"description":"","name":"李鹤","profileUrl":"/people/li-he-48","avatar":{"id":"v2-ee7cf29b63ce45bfc8b90c","template":"/{id}_{size}.jpg"},"isOrgWhiteList":false}],"summary":"Hey There Delilah Plain White T's - Every Second Counts本文是的续篇. (1) 多巴胺,英文名 Dopamine, 是一种有机化合物, 学名 4-(2-Aminoethyl)benzene-1,2-diol, 4-(2-氨基乙基)-1,2-苯二酚, …","reviewingCommentsCount":0,"meta":{"previous":{"isTitleImageFullScreen":false,"rating":"none","titleImage":"","links":{"comments":"/api/posts//comments"},"topics":[{"url":"/topic/","id":"","name":"深度学习（Deep Learning）"}],"adminClosedComment":false,"href":"/api/posts/","excerptTitle":"","author":{"bio":"投资人","isFollowing":false,"hash":"4735cce127addcedcff409","uid":163200,"isOrg":false,"slug":"gui-gu-wang-chuan","isFollowed":false,"description":"中国科技大学少年班87级，罗切斯特大学材料学硕士，乔治亚理工学院计算机硕士。一百多篇原创财经科技内容的原创文章通过微信公众号 investguru 发布, 个人微信号 9935070，新浪微博 \"硅谷王川\". ","name":"硅谷王川","profileUrl":"/people/gui-gu-wang-chuan","avatar":{"id":"3bd5d54a457ea642eb2495c","template":"/{id}_{size}.jpg"},"isOrgWhiteList":false},"column":{"slug":"wangchuan","name":"兵无常势"},"content":"本文是的续篇.
(1)动态规划理论的核心, 用以 Richard Bellman 老师名字命名的贝尔曼方程 (Bellman Equation)表示.贝尔曼方程的核心, 就是:用大白话说, 就是目前状态的最大价值 = 最大化［眼前的回报 + ｛未来的最大价值，贴现到现在｝］而动态规划要解决的问题，无非就是求解方程里的最优价值函数 V(x) 而已．使用贪婪算法的人们，只专注＂眼前的回报＂，而忽略了\"对未来最大价值贴现到现在＂的认真计算.社会上对部分大学生贴上的标签，\"精致的利己主义者\"，实际上应当看成是\"努力求解贝尔曼方程的人们\". 没有损害他人利益的\"利己和精致\", 不仅无可厚非, 更须理直气壮. 但求解最优价值函数, 真正做到精致，那可不是喝几碗心灵鸡汤就可以达到的, 谈何容易！
(2)动态规划在实际操作上,最大的挑战就是所谓 \"维度的诅咒\" (Curse of Dimensionality),就是随着变量的增加,问题的复杂度和计算量的需求,指数倍地增长.\"维度的诅咒\", 主要包含了三个维度:一, 状态空间 (state space): 举个简单的例子, 医院的血液库管理中, 主要有八个不同类别的血型 (A+, A-, B+, B-, AB+, AB-, O+, O-), 而这些血液的存量数量从 0, 1, 到 M不等. 那么这个状态空间就有 M^8 种可能.二, 结果空间 (outcome space): 还是以血液库的管理为例, 每周都有不同数量的不同血型的血液,被捐献或者输出.三, 行为空间 (action space: ): 不同血型之间, 谁可以给谁输血,有几十种可能性.再加上血液库里每个血型的不同存量数目,行为空间之广阔,让人头大.再回到子女教育的例子,状态空间,结果空间和行为空间更是浩瀚无垠:小孩送到那个重点托儿所? 重点小学? 重点中学? 要参加哪些才艺培训班和竞赛? 哪个班的老师名声最好? 要给哪些老师塞多少红包? 孩子的表现是否可以在朋友面前满足我的虚荣心?大学学什么专业? 毕业后是工作,出国还是读研究生? 是考公务员还是去民企,国企? 哪个职业钱多事少离家近?如何让小孩娶(嫁)得最好? 孩子的对象是否门当户对, 能赚钱,又听话孝顺? 孩子什么时候再生孩子?...
(3)如果计算量太大,无法精致,那么退而求其次,我们就寻求\"近似精致\".一个近似精致的解决思路,是所谓\"蒙特卡洛模拟\" (Monte-Carlo Simulation).MC 模拟优化的核心, 分两个部分:第一是计算模拟. 当没有简单的理论模型,维度的诅咒无法逾越时,取而代之的是用计算机随机产生的参数,对可能的路径发展进行大规模模拟计算. 大量模拟之后,在各个状态节点,根据其模拟的平均值, 计算出一个接近理论值的预期价值函数.第二是通用策略迭代 (Generalized Policy Iteration), 根据模拟出来的价值函数,使用贪婪算法修正各个状态的策略,也就是说,修正后的策略在每一步的选择,都是根据模拟的价值函数,寻求下一步的眼前利益最大化.
再根据调整的策略,回到第一步, 重新模拟,更新价值函数.两个步骤不断循环,渐进提高,直到接近最优值.(如下图, V 代表价值函数, Pai 代表策略) 关于 \"通用策略迭代\", 一个生活中的例子是,八十年代的宣传是\"学好数理化,走遍天下都不怕\",所以数理专业是当时大学生短期利益最大化的最优选择. 但数学物理毕业生大多很难找到好工作,读 MBA 才可以有最高的薪水,许多人又纷纷跑去读 MBA. 拿到 MBA, 到大公司工作几年后,遇上金融危机,没攒什么钱又可能被解雇了. 过了几年再发现,有些刚毕业就去开公司的小毛孩,身价已经估值过亿.于是再改头换面,加入新的创业大潮.
(4)MC 模拟的一个优点是,无须建模,完全根据实际经验来学习,容易上手.毛主席曾说:“一些老粗能办大事。成吉思汗，是一个不识字的老粗。刘邦，也不认识几个字，是老粗。朱元璋也不认识字，是个放牛的。… ** 没念过书, ** 也没有念过书，** 念过高小, 结论是老粗打败黄埔生。”这里的老粗,就像大量 MC模拟后的生成的实用性强的算法,没有生硬的理论培训,就在枪林弹雨中不断被淘汰,被选择,被教育. 而黄埔生则是被\"维度的诅咒\"束缚的动态规划的理论.但 MC 模拟算法的一个不足是, 学习和提高 (根据价值函数,更新策略) 是要在一个模拟的轮回, 岁月蹉跎之后才可以发生,而不能够实时进行.在残酷的生存竞争中,需要的是,一种更快的, 根据反馈来实时调整策略的能力.这个算法的改进,启发来自于人脑多巴胺 (Dopamine)释放的机制.(未完待续)==============================点击下面链接获得本公众号的介绍在投资和事业发展的路上如何集思广益，举重若轻？欢迎加入王川的俱乐部，这是一个凝聚来自世界四大洲各行各业精英的高端收费社区.有意入会者请和王川（微信号: 9935070) 直接联系。作者简介：王川，投资人，中科大少年班校友，现居加州硅谷。个人微信号9935070,公众号 investguru ,新浪微博“硅谷王川\"，知乎专栏 \"兵无常势\". 文章表达个人观点仅供参考，不构成对所述资产投资建议，投资有风险，入市须谨慎.&王川自选集& 第一卷电子书，现可在百度云盘上免费下载，订阅本公众号后,在公众号菜单右下角点击\"电子书\", 即可获得下载指令. 总共收录我过去一年五十多篇原创的财经科技评论文章，近三百页，欢迎下载传阅！)","state":"published","sourceUrl":"","pageCommentsCount":0,"canComment":false,"snapshotUrl":"","slug":,"publishedTime":"T16:46:29+08:00","url":"/p/","title":"王川: 深度学习有多深? (十九) -- 维度的诅咒和蒙特-卡洛模拟","summary":"本文是的续篇. (1) 动态规划理论的核心, 用以 Richard Bellman 老师名字命名的贝尔曼方程 (Bellman Equation)表示. 贝尔曼方程的核心, 就是: 用大白话说, 就是目前状态的最大价值 = 最大化［ …","reviewingCommentsCount":0,"meta":{"previous":null,"next":null},"commentPermission":"anyone","commentsCount":2,"likesCount":22},"next":{"isTitleImageFullScreen":false,"rating":"none","titleImage":"","links":{"comments":"/api/posts//comments"},"topics":[{"url":"/topic/","id":"","name":"深度学习（Deep Learning）"}],"adminClosedComment":false,"href":"/api/posts/","excerptTitle":"","author":{"bio":"投资人","isFollowing":false,"hash":"4735cce127addcedcff409","uid":163200,"isOrg":false,"slug":"gui-gu-wang-chuan","isFollowed":false,"description":"中国科技大学少年班87级，罗切斯特大学材料学硕士，乔治亚理工学院计算机硕士。一百多篇原创财经科技内容的原创文章通过微信公众号 investguru 发布, 个人微信号 9935070，新浪微博 \"硅谷王川\". ","name":"硅谷王川","profileUrl":"/people/gui-gu-wang-chuan","avatar":{"id":"3bd5d54a457ea642eb2495c","template":"/{id}_{size}.jpg"},"isOrgWhiteList":false},"column":{"slug":"wangchuan","name":"兵无常势"},"content":"Beating Heart
Ellie Goulding - RMF FM Muzyka Najlepsza Pod Sloncem 2014
(配乐来自2014年科幻电影 “Divergent”）本文是的续篇。
(1)在用神经网络计算拟合最优价值函数 (最大利益）的实践中，最大的挑战，就是神经网络的参数无法收敛到最优值，无法求解. 换句话说，神经网络的参数变得发散 (Divergent).传统的‘发散思维’一词，指某人思维活跃有想象力. 但是神经网络的参数发散，在这里就对应于大脑无所适从，精神错乱了。这个问题的第一个原因是, 增强学习在和环境互动的过程中, 获得的数据都是高度相关的连续数列。当神经网络依靠这些数据来优化时，存在严重的样本偏差。打个比方，当一个交易员短暂的成长过程中，恰好遇到牛市，那么他的世界观就是”涨，涨，涨“，逢跌就买入，英文又称 \"Buy the f**king dip\".如果碰巧他的成长过程遇到美国上世纪三十年代的长达十几年的经济大萧条，那么他的世界观就是 \"经济衰退随时可能发生，任何成长的新生事物都是泡沫\",
捂着现金不敢冒任何风险.
(2)这个问题的第二个原因，在于神经网络对于价值函数的估算值极为敏感。如果价值函数值出现波动，会直接影响到在和环境互动，学习的过程中收集到的新的数据样本，进而影响神经网络参数的巨大波动而无法收敛.比如一个机器人在探索环境，学习的过程中，如果价值函数值的改变，告诉他去探索左边的环境，那么他很长时间内收集到的数据都是左边的环境的信息，而无法自拔。如果因为波动，它又到右边去了，那么他学习的数据很长时间又是右边的环境的信息。依靠这样的实验数据培训的神经网络，参数出现错乱的大幅波动和发散，也就不足为奇了.打个比方，没有任何投资经验的小白，他的学习思路，一般主要是看周围别的人是如何成功的。旁人的成功经验，就好比来自价值函数的信号。听说有人炒期货成功，就一头扎进去学期货。损失惨重之后，听说有人炒股很厉害，又跑去学做股票。这种策略的本质缺陷，是对周围环境和机会，对前人的好的和坏的经验，缺乏一个整体的，全面的, 系统的理解和学习.这种现象，用现代语言说，就是，“读过很多书，走过很多路，还是过不好这一生”.
(3)发散问题的第三个原因，在于价值函数值的范围，事前很难有正确的估计.如果在学习中突然获得了远大于历史值的回报或者损失，使用反向传播算法的神经网络会出现所谓的 \"梯度爆炸问题\" (exploding gradient problem), 求解无法收敛.生活中少数人遇到极度悲伤或者惊喜的事情，而导致精神失常，本质上就是这种“梯度爆炸问题”的后果.神经网络用于增强学习，在1992年双陆棋的突破之后，很长时间无法有新的进展。P 派观点长期占上风，好派一直在艰难的探索中.怎么办？如何让神经网络不再发散？著名思想家郭德纲老师，很早就高瞻远瞩地指出了正确的道路，“（活得明白）不需要时间，需要经历。三岁经历一件事就明白了，活到九十五还没经历这个事他也明白不了。 \"解决的办法，就是”经历回放“
(experience replay)==============================点击下面链接获得本公众号的介绍在投资和事业发展的路上如何集思广益，举重若轻？欢迎加入王川的俱乐部，这是一个凝聚来自世界四大洲各行各业精英的高端收费社区.有意入会者请和王川（微信号: 9935070) 直接联系。作者简介：王川，投资人，中科大少年班校友，现居加州硅谷。个人微信号9935070,公众号 investguru ,新浪微博“硅谷王川\"，知乎专栏 \"兵无常势\". 文章表达个人观点仅供参考，不构成对所述资产投资建议，投资有风险，入市须谨慎.&王川自选集& 第一卷电子书，现可在百度云盘上免费下载，订阅本公众号后,在公众号菜单右下角点击\"电子书\", 即可获得下载指令. 总共收录我过去一年五十多篇原创的财经科技评论文章，近三百页，欢迎下载传阅！)","state":"published","sourceUrl":"","pageCommentsCount":0,"canComment":false,"snapshotUrl":"","slug":,"publishedTime":"T16:53:28+08:00","url":"/p/","title":"王川：深度学习有多深？（二十二）发散的大脑","summary":"Beating Heart Ellie Goulding - RMF FM Muzyka Najlepsza Pod Sloncem 2014 (配乐来自2014年科幻电影 “Divergent”）本文是的续篇。 (1) 在用神经网络计算拟合最优价值函数 (最大利益）的实践中，最…","reviewingCommentsCount":0,"meta":{"previous":null,"next":null},"commentPermission":"anyone","commentsCount":2,"likesCount":9}},"annotationDetail":null,"commentsCount":0,"likesCount":13,"FULLINFO":true}},"User":{"gui-gu-wang-chuan":{"isFollowed":false,"name":"硅谷王川","headline":"中国科技大学少年班87级，罗切斯特大学材料学硕士，乔治亚理工学院计算机硕士。一百多篇原创财经科技内容的原创文章通过微信公众号 investguru 发布, 个人微信号 9935070，新浪微博 \"硅谷王川\". ","avatarUrl":"/3bd5d54a457ea642eb2495c_s.jpg","isFollowing":false,"type":"people","slug":"gui-gu-wang-chuan","bio":"投资人","hash":"4735cce127addcedcff409","uid":163200,"isOrg":false,"description":"中国科技大学少年班87级，罗切斯特大学材料学硕士，乔治亚理工学院计算机硕士。一百多篇原创财经科技内容的原创文章通过微信公众号 investguru 发布, 个人微信号 9935070，新浪微博 \"硅谷王川\". ","profileUrl":"/people/gui-gu-wang-chuan","avatar":{"id":"3bd5d54a457ea642eb2495c","template":"/{id}_{size}.jpg"},"isOrgWhiteList":false,"badge":{"identity":null,"bestAnswerer":null}}},"Comment":{},"favlists":{}},"me":{},"global":{"experimentFeatures":{"ge3":"ge3_9","ge2":"ge2_1","nwebStickySidebar":"sticky","nwebAnswerRecommendLive":"newVersion","newMore":"new","sendZaMonitor":"true","liveReviewBuyBar":"live_review_buy_bar_2","liveStore":"ls_a2_b2_c1_f2","homeUi2":"default","answerRelatedReadings":"qa_recommend_by_algo_related_with_article","qrcodeLogin":"qrcode","newBuyBar":"liveoldbuy","newMobileColumnAppheader":"new_header","zcmLighting":"zcm","favAct":"default","appStoreRateDialog":"close","mobileQaPageProxyHeifetz":"m_qa_page_nweb","iOSNewestVersion":"4.2.0","default":"None","wechatShareModal":"wechat_share_modal_show","qaStickySidebar":"sticky_sidebar","androidProfilePanel":"panel_b"}},"columns":{"next":{},"wangchuan":{"following":false,"canManage":false,"href":"/api/columns/wangchuan","name":"兵无常势","creator":{"slug":"gui-gu-wang-chuan"},"url":"/wangchuan","slug":"wangchuan","avatar":{"id":"01d591cd1cc028e331bd6f0","template":"/{id}_{size}.jpg"}}},"columnPosts":{},"columnSettings":{"colomnAuthor":[],"uploadAvatarDetails":"","contributeRequests":[],"contributeRequestsTotalCount":0,"inviteAuthor":""},"postComments":{},"postReviewComments":{"comments":[],"newComments":[],"hasMore":true},"favlistsByUser":{},"favlistRelations":{},"promotions":{},"switches":{"couldAddVideo":false},"draft":{"titleImage":"","titleImageSize":{},"isTitleImageFullScreen":false,"canTitleImageFullScreen":false,"title":"","titleImageUploading":false,"error":"","content":"","draftLoading":false,"globalLoading":false,"pendingVideo":{"resource":null,"error":null}},"drafts":{"draftsList":[],"next":{}},"config":{"userNotBindPhoneTipString":{}},"recommendPosts":{"articleRecommendations":[],"columnRecommendations":[]},"env":{"edition":{},"isAppView":false,"appViewConfig":{"content_padding_top":128,"content_padding_bottom":56,"content_padding_left":16,"content_padding_right":16,"title_font_size":22,"body_font_size":16,"is_dark_theme":false,"can_auto_load_image":true,"app_info":"OS=iOS"},"isApp":false},"sys":{},"message":{"newCount":0},"pushNotification":{"newCount":0}}

深度学习有多深

我要回帖

随机推荐