深度学习在路径规划上有哪些应用

科学教育 | 学习帮助 | 出国/留学 | 工程技术科学 | 教育/科学 | 英语听力 | 梦幻西游电脑版 | 视频会议 | 口臭 | 暗黑破坏神3（游戏） | 面相 | 赛尔号 | linux | 山西省 | Xbox One | 思修 | 易经 | solidworks | 钢铁雄心4 | 休闲游戏 | 魔兽争霸3混乱之治 | 显卡 | 武汉大学 | 塞尔达传说（游戏） | 校服 | 剑侠情缘网络版叁 | 脱发 | 日本文化 | 数学建模 | 二次元 | 部落冲突（游戏） | 肖战 | 街机游戏 | 拳皇 | 马鞍山市 | 扑克 | 完美世界（游戏） | 三国志（游戏） | 热血传奇（游戏） | 意大利 | 跆拳道 | 东莞市 | 糖尿病 | 古琴 | 三国 | 电视节目 | 百度 | qq音乐 | 配音 | 电视 | 任天堂 | 科幻小说 | 虚拟专用服务器 | QQ游戏 | 大熊猫 | 微电影 | Android | 竞技游戏 | 动画制作 | QQ炫舞 | 电源 | 日语 | 魔兽争霸3冰封王座 | 产业 | ios开发 | 百度云 | 动画电影 | nba篮球 | 羽生结弦 | iOS应用 | galgame | 电吉他 | 平板电脑 | 周星驰（人物） | 离婚 | 后宫·甄嬛传（书籍） | 牙科 | 游戏开发 | 网络直播 | ios游戏 | 电子邮件 | SNH48 | 民国 | 美容 | 舰队 Collection | 心理 | Mac | 羽毛球技术 | 互联网公司 | 大学生兼职 | 烘焙 | 诸葛亮 | 跑跑卡丁车 | 武侠小说 | 微博 | 骨折 | 掌上游戏机 | 玉米 | 中国足球 | 电脑配置 | 洛奇英雄传 | 硬盘 | 张璐 | akb48 | 炉石传说 | 韩国 | 蓄电池 | QQ空间 | 房贷 | 麦克风 | 相声演员 | 抑郁 | 天下2（游戏） | 农业科学 | 神话 | 农历 | 中国足球协会超级联赛（CSL） | 流星花园 | 易烊千玺 | 火影忍者 | 日语歌曲 | 巴西 | 红酒 | 化疗 | 占地 | 网络小说 | 香烟 | 传奇世界 | 名字 | 日本电影 | 表演 | 西藏自治区 | 英雄传说：闪之轨迹（游戏） | 足球彩票 | 摩尔庄园 | 中国工商银行 | 游戏手柄 | 陈奕迅 | 联赛 | 天体物理学 | 英格兰足球超级联赛 | 超级机器人大战 | 命令与征服：红色警戒2（游戏） | 郭富城 | 一级方程式赛车（f1） | Adobe Photoshop | 英文歌曲 | 玄幻小说 | 猫和老鼠 | 杨凡 | 书籍改编电影 | 俄罗斯 | 网络赚钱 | 罗玉凤 | 刺客信条2 | 角色扮演 | 食物 | 药物 | 杨洋（演员） | 信息安全 | 胡歌（演员） | 张子枫 | 古典音乐 | 时尚 | 大片 | 电脑游戏 | 签证 | 徐佳莹 | 耽美 | 游戏攻略 | 音乐剧 | 前女友 | 男性 | 肠胃 | 刺客信条起源 | 剧场版 | 国际足联世界杯 | 彩虹六号（游戏） | 赵丽颖（演员） | 天体生物学 | 战神（游戏） | 吉他学习 | 飞机 | 三菱商事 | 关节炎 | 斗鱼直播 | 发电 | 张继科 | 华语流行音乐 | 搏击项目 | 主题曲 | 李信 | 刘德华（演员） | 即时战略游戏（RTS） | 欧阳娜娜 | 网址导航 | 海贼王 | 山地车 | 豆瓣电影 | 广场舞 |

你的位置：网站首页 >> 频道首页 >>学习 >>深度学习在路径规划上有哪些应用

深度学习在路径规划上有哪些应用

来源：蜘蛛抓取(WebSpider) 时间：2017-07-24 10:12 标签：

深度学习在路径规划上有哪些应用？ - 知乎782被浏览31611分享邀请回答87 条评论分享收藏感谢收起&p&探讨深度学习应用于路径规划的思路兼谈它的困难。&/p&&p&运动规划以前的想法比如A*和visual servoing，本身是一个通过建模在静态模型上的静态算法。数据结构与算法——CNN在视觉上成功应用的深层原因还是它对数据进行了稀疏表示，而Deep Reinforcement Learning要改良的是算法，不是数据。这也就是“深度学习的路径规划”目前的困难所在。&/p&&p&算法以及算法定义的空间并没有什么数据稀疏性可言，Deep RL学习出来的value function也好，policy也好，往往不得不对连续的状态空间进行离散化。经典RL一直面临一个高维状态空间因为采样密度而爆炸的困难。Deep RL也没有解决这个问题。大数据长时间的学习，终于学到了牛顿定律，形而上的角度来看这种方式是有问题的。&/p&&p&在用Deep RL做运动规划的领军人物是 &a href=&///?target=https%3A//people.eecs.berkeley.edu/%7Epabbeel/& class=& wrap external& target=&_blank& rel=&nofollow noreferrer&&Pieter Abbeel&i class=&icon-external&&&/i&&/a& 和 &a href=&///?target=https%3A//people.eecs.berkeley.edu/%7Esvlevine/& class=& wrap external& target=&_blank& rel=&nofollow noreferrer&&Sergey Levine&i class=&icon-external&&&/i&&/a& （当然，规划的主要是机械臂）。我听过Abbeel的讲座，极有趣的想法，但是实现都是toy example，视频都是16x的（打比方），Abbeel的顶会文章极多，但是都不太深入，有点灌水的意思。说明这方面工作还有很长的路要走。&/p&&p&总之我依稀感觉到，让深度视觉成功的稀疏性并不能复制到运动规划这里，运动规划的算法本质是对数据中规律的抽象而不是数据表达，不是一个universal approximation的问题。如果问题本身没有稀疏性的话，用deep learning跟brute force有什么区别呢？拙见抛砖引玉。&/p&
探讨深度学习应用于路径规划的思路兼谈它的困难。运动规划以前的想法比如A*和visual servoing，本身是一个通过建模在静态模型上的静态算法。数据结构与算法——CNN在视觉上成功应用的深层原因还是它对数据进行了稀疏表示，而Deep Reinforcement Learning要…
&p&分享一篇论文：Value Iteration Networks（&a href=&///?target=https%3A//arxiv.org/abs/& class=& wrap external& target=&_blank& rel=&nofollow noreferrer&&[] Value Iteration Networks&i class=&icon-external&&&/i&&/a&）。这篇文章发在了16年nips上。大致思路就是把2d navigation的问题转化成一个MDP问题来求解。我觉得比较新颖的地方是巧妙的运用CNN框架里面的max pooling来实现强化学习里面value iteration算法，从而用训练CNN的方法来实现强化学习的目的。&/p&&p&不过个人感觉强化学习用在路径规划里面都有种强行套模型的感觉，没看出比传统的路径规划的优势体现在何处。这一点欢迎大家来讨论&/p&
分享一篇论文：Value Iteration Networks（）。这篇文章发在了16年nips上。大致思路就是把2d navigation的问题转化成一个MDP问题来求解。我觉得比较新颖的地方是巧妙的运用CNN框架里面的max pooling来实现强化学习里…
&p&机器人小白的一点浅见，目前路径规划中使用深度学习的工作还比较少。&/p&&p&这个问题和自己所做的research有关，也和一部分的人讨论过，包括一些做深度学习和路径规划的大牛。两个领域的大牛们看法都比较一致，深度学习工具在路径规划（至少是传统路径规划）上帮助不大。&/p&&p&深度学习说到底仍然是一种机器学习框架，在某问题中使用深度学习的大前提仍然是将问题描述为机器学习问题，supervised learning或者unsupervised learning，并需要提供相应的数据集以共训练。而目前路径规划问题更多的被转化为搜索或者能量优化问题来解决，所以在路径规划中使用机器学习的工作都较少，或者机器学习并没有被使用在解决路径规划的核心问题上。&/p&&p&相对于传统机器学习，深度学习最大的特点是能够自行学习特征（feature），不依赖于人类设计的特征，也就是深度学习能够学习较好的系统的representation。这对于一些机器学习问题非常重要，例如计算机视觉中的物体识别，人类设计的feature与representation远逊于深度学习所能学习到的。但是在路径规划问题中，无论是轨迹还是环境（二维或三维）的representation均是非常明确地，比如occupency grid。所以在路径规划问题中深度学习的优势进一步不明确。&/p&&p&当然以上的讨论仅仅限于狭义的路径规划（motion planning）领域。从更广的机器人领域来看，机器人架构并不是被仅仅限于传统的感知-规划-执行（sense-plan-act）。目前很多的工作都在尝试端到端（end-to-end）架构，也就是跳过传统的规划，直接有输入确定输出（sense-act）。这方面的工作更多是通过增强学习来实现。这方面的工作非常多，包括最有名的Berkeley的Peter Abbeel和Sergey Levine组等等等。使用end-to-end架构可以通过学习来直接使用图像输入控制机器人，避免了复杂的三维重建与感知（SLAM问题）与路径规划问题。可以说如果end-to-end最终被工程界证实可行的话，三维感知与路径规划问题就变得没有意义，某种程度上也算是被解决了吧。。。。（到时候就失业了。。。）&/p&&p&目前看到声称使用深度学习的motion planning工作的仅有一篇：&a href=&///?target=https%3A//arxiv.org/pdf/.pdf& class=& external& target=&_blank& rel=&nofollow noreferrer&&&span class=&invisible&&https://&/span&&span class=&visible&&arxiv.org/pdf/&/span&&span class=&invisible&&0.pdf&/span&&span class=&ellipsis&&&/span&&i class=&icon-external&&&/i&&/a&&/p&&br&&img src=&/v2-c43f8cdc764fb02ca75adfb_b.png& data-rawwidth=&1057& data-rawheight=&780& class=&origin_image zh-lightbox-thumb& width=&1057& data-original=&/v2-c43f8cdc764fb02ca75adfb_r.png&&&p&从网络结构中我们也可以看到也是end-to-end的方式，其实并不是传统的路径规划。&/p&&p&机器人小白的浅见，尤其机器学习方面一窍不通，大佬们轻拍~&/p&
机器人小白的一点浅见，目前路径规划中使用深度学习的工作还比较少。这个问题和自己所做的research有关，也和一部分的人讨论过，包括一些做深度学习和路径规划的大牛。两个领域的大牛们看法都比较一致，深度学习工具在路径规划（至少是传统路径规划）上帮助…
&p&终于来了个自己研究方向的题目~&/p&&p&PS：路径规划（Path Planning）与运动规划（Motion Planning）在数学上是同一个问题，所以我在文中就直接混用了。&/p&&br&&p&首先，我们要先明确路径规划/运动规划的&b&定义&/b&：&/p&&img src=&/v2-45a26a05dea78e6892dd0_b.png& data-rawwidth=&1059& data-rawheight=&178& class=&origin_image zh-lightbox-thumb& width=&1059& data-original=&/v2-45a26a05dea78e6892dd0_r.png&&&p&简单地说，就是给定环境、机器人模型，指定规划目标（如无碰撞到达目的点），自动计算出机器人的运动路径（可以是一序列离散状态，也可以是运动策略）。&/p&&p&当然，传统的运动规划方法可以看我之前发过的两篇文章（&a href=&///?target=https%3A//mp./s%3F__biz%3DMzA5MDE2MjQ0OQ%3D%3D%26mid%3D%26idx%3D1%26sn%3Df937dd6aa91344fed689baf51dc821ab%23rd& class=& wrap external& target=&_blank& rel=&nofollow noreferrer&&运动规划 | 简介篇&i class=&icon-external&&&/i&&/a&，&a href=&///?target=https%3A//mp./s%3F__biz%3DMzA5MDE2MjQ0OQ%3D%3D%26mid%3D%26idx%3D1%26sn%3D21e1a64a2a47c865cb73c381c3f10001%26chksm%3D8be53b84bc92b292e841e7cb15edefff9eac%23rd& class=& wrap external& target=&_blank& rel=&nofollow noreferrer&&运动规划 | 视频篇&i class=&icon-external&&&/i&&/a&），这里就不展开了。所以，如 &a class=&member_mention& href=&///people/1ddf4aa7f75c& data-hash=&1ddf4aa7f75c& data-hovercard=&p$b$1ddf4aa7f75c&&@Pickles Husky&/a& 所说，如果想将机器学习直接塞到现有的运动规划，似乎并不是一个好方法。于是，只能想办法发明新的运动规划框架了。&/p&&br&&p&第一种，当然就是&b&监督学习&/b&（Supervised Learning ）的形式了。&/p&&p&这个其实很简单，Andrew Ng 的机器学习公开课（&a href=&///?target=https%3A///watch%3Fv%3D_2zt4yVCkGk& class=& external& target=&_blank& rel=&nofollow noreferrer&&&span class=&invisible&&https://www.&/span&&span class=&visible&&/watch?&/span&&span class=&invisible&&v=_2zt4yVCkGk&/span&&span class=&ellipsis&&&/span&&i class=&icon-external&&&/i&&/a& ）里就提到了这样的一个例子&/p&&img src=&/v2-6c6db5bb45fa91651dab7_b.png& data-rawwidth=&1249& data-rawheight=&936& class=&origin_image zh-lightbox-thumb& width=&1249& data-original=&/v2-6c6db5bb45fa91651dab7_r.png&&&p&如上图所示，无人车通过输入前方图像，在人类驾驶员的标记动作下训练一段时间后，即可实现汽车的自主驾驶。&/p&&p&当然，上面这个例子的还是很简单的，所能应对的应用场景也极其有限；深度学习出来后，当然也有人做了类似的工作（前面的答主也有提到过这篇文章）：&/p&&blockquote&Pfeiffer, Mark, et al. &From Perception to Decision: A Data-driven Approach to End-to-end Motion Planning for Autonomous Ground Robots.& &i&arXiv preprint arXiv:&/i& (2016). &/blockquote&&img src=&/v2-ccf3b4ce3eab7e5fff0b_b.png& data-rawwidth=&1882& data-rawheight=&594& class=&origin_image zh-lightbox-thumb& width=&1882& data-original=&/v2-ccf3b4ce3eab7e5fff0b_r.png&&&p&这篇文章的意思大概就是利用 CNN 解析激光信息，然后利用 A* 算法作为标记信息，进行监督学习。所以，这篇论文的工作其实跟前面那个自动驾驶的例子没什么太大区别。&/p&&p&目前看来，用监督学习的框架做运动规划，在环境变化不大的情况下，有可能实现；但是这种方法强烈依赖于标记算法（平面还好，有A*；高维机械臂的话，没什么好的『最优』算法），而且对环境变化的泛化能力比较弱。&/p&&br&&p&第二种框架就是&b&强化学习&/b&（Reinforcement Learning）了。这里我就先不详细展开强化学习的内容了，有兴趣的可以先去刷一遍 Sutton 的书：&/p&&blockquote&Sutton, Richard S., and Andrew G. Barto. &i&Reinforcement learning: An introduction&/i&. Vol. 1. No. 1. Cambridge: MIT press, 1998. &/blockquote&&p&简而言之，路径规划就是一个标准的 MDP 问题，强化学习可以通过值迭代（value iteration）等方法建立一个表格，用以存储状态 s （如机器人当前位置）到动作 a （控制指令）的映射。这样，把机器人放在地图中任何一个位置，它都能迅速地确定自己下一时刻的动作，而这个动作将引导机器人运动到目标点。&/p&&img src=&/v2-fa0bb734b636c_b.png& data-rawwidth=&656& data-rawheight=&388& class=&origin_image zh-lightbox-thumb& width=&656& data-original=&/v2-fa0bb734b636c_r.png&&&p&当然，如果目标点不同、障碍物位置不同，我只需生成多张表格即可。但是，这样就是造成表格太大，占用内存太多的问题。&/p&&p&后来，深度学习出现了，它有可能地完成两件事：1）从传感器观测数据 o 中提取出状态 s；2）拟合出状态 s 与动作 a 的映射关系（就是前面说的表格）。&/p&&p&大名鼎鼎的 DQN 就可以简单地认为在做这两件事（当然，它就是 End-to-End 的结构，实际上并不能简单地分为这样的两个步骤）：&/p&&img src=&/v2-720f92bc3ecac6c4266f2dcd548bf5f6_b.png& data-rawwidth=&656& data-rawheight=&408& class=&origin_image zh-lightbox-thumb& width=&656& data-original=&/v2-720f92bc3ecac6c4266f2dcd548bf5f6_r.png&&&blockquote&Mnih, Volodymyr, et al. &Human-level control through deep reinforcement learning.& Nature 518.): 529-533.&/blockquote&&p&深度强化学习的好处是我们不依赖于人工标记的轨迹，只需要指定规划目标（无碰撞、到达目的地、路径最短等），让机器人不断尝试、迭代更新网络即可。&/p&&p&当然，这一块用在路径规划的工作也已经有了：&/p&&blockquote&Tai, Lei, and Ming Liu. &Towards cognitive exploration through deep reinforcement learning for mobile robots.& &i&arXiv preprint arXiv:&/i&(2016).
Tai, Lei, Giuseppe Paolo, and Ming Liu. &Virtual-to-real Deep Reinforcement Learning: Continuous Control of Mobile Robots for Mapless Navigation.& &i&arXiv preprint arXiv:&/i& (2017). &/blockquote&&img src=&/v2-b48bd09a9d2e460e774392aa_b.png& data-rawwidth=&916& data-rawheight=&471& class=&origin_image zh-lightbox-thumb& width=&916& data-original=&/v2-b48bd09a9d2e460e774392aa_r.png&&&p&这篇文章就是让移动机器人在仿真环境中不断尝试学习、训练 DQN，最终得到一个较好的路径规划结果。&/p&&p&毕竟，现在 Planning-from-scratch 的规划方法总是给我一种『人类不是这样规划的呀』的感觉；深度强化学习又跟人类的技能学习方法很相似；如果成功，规划时间很短（一次前向传播的时间）。所以，我感觉，深度强化学习有希望成为彻底解决机器人运动规划问题的途径，未来几年应该也会涌现出一大堆 paper。&/p&&br&&p&PS：从个人角度而言，如果还只是刚开始做路径规划的小伙伴，极度不建议直接上深度学习；我还是比较建议先至少把传统的规划算法体系都搞清楚，之后，如有可能，再去尝试深度学习。理由的话，以后有机会再聊吧。&/p&
终于来了个自己研究方向的题目~PS：路径规划（Path Planning）与运动规划（Motion Planning）在数学上是同一个问题，所以我在文中就直接混用了。首先，我们要先明确路径规划/运动规划的定义：简单地说，就是给定环境、机器人模型，指定规划目标（如无碰撞…
已有帐号？
无法登录？
社交帐号登录
289 人关注
390 条内容
312 人关注
1336 条内容
161 人关注
185 条内容
984 人关注
749 条内容主题信息（必填）
主题描述（最多限制在50个字符）
申请人信息（必填）
申请信息已提交审核，请注意查收邮件，我们会尽快给您反馈。
如有疑问，请联系
CSDN &《程序员》编辑/记者，投稿&纠错等事宜请致邮
你只管努力，剩下的交给时光！
如今的编程是一场程序员和上帝的竞赛，程序员要开发出更大更好、傻瓜都会用到软件。而上帝在努力创造出更大更傻的傻瓜。目前为止，上帝是赢的。个人网站：。个人QQ群：、
个人大数据技术博客：
作为首位美国人工智能协会（AAAI）华人Fellow，唯一AAAI华人Councilor，国际顶级学术会议KDD、IJCAI等大会主席，香港科技大学计算机与工程系主任杨强教授在国内外机器学习界声誉卓著。在此前时，杨强介绍了他目前的主要工作——致力于一个将深度学习、强化学习和迁移学习有机结合的Reinforcement Transfer Learning（RTL）体系的研究。那么，这个技术框架对工业界的实际应用有什么样的实际意义？在本文中，CSDN结合杨强的另外一个身份——国内人工智能创业公司第四范式首席科学家进行解读。第四范式是原百度T10专家、杨强的弟子、迁移学习大牛戴文渊创立的公司，最初的定位是数据量丰富并且业务极为依赖数字化的金融领域，杨强在学术之余希望推广人工智能技术在国内的发展，参与了第四范式的创业。该公司最近发布了一个，自动化、智能化的机器学习全流程为一大卖点，核心技术就是RTL。杨强认为，人工智能成功的五个必要条件包括大数据、问题边界清晰、外部反馈、计算资源和顶级数据科学家，强化学习和迁移学习分别能够提供的反馈和适应性是单独的深度学习模型所不具备的，同时深度学习的重心已经到了从研究转向工业应用的时候。参与创业的初衷CSDN：您之所以参加第四范式的创业，除了师生关系，还有其他的驱动因素？杨强：其实我们一直热衷于一件事：让我们的技术走向社会。我们一直在研究人工智能和迁移学习，另外我们也看到了很多大公司的局限，很多大公司有自己的想法和目标，一个研究者并不能百分之百地发挥自己的想象力，所以我们就想自己做一个有情怀的公司，来支持我们自己做一些想做的事情。一个很好的例子就是Google的Deepmind，他们就是做他们想做的事情，这对我们来说是一个更重要的启发。在第四范式，我的主要工作涉及设计算法，包括强化学习、迁移学习的算法，而在工程方面团队有很多优秀的工程师已经在大公司受过很多的磨炼，所以我们是互补的。CSDN：第四范式公开介绍的核心技术，包括您说到的深度学习、迁移学习、强化学习，还有一个记忆网络，第四范式的技术体系和您研究的RTL体系是完全一致的吗？杨强：是一致的，当然是不是完全使用还看具体场景。我们比较认可的是强化学习、迁移学习，当用不同的结构把它们给组合起来，就是一种很新的好的学习方式。这种方式在现在还不是很流行，我们预计在今后几年都会用起来，也会通过我们的平台推动起来。深度学习的局限CSDN：您如何看待深度学习的优势和局限？杨强：深度学习的局限来自于几个方面：
表达能力的限制。因为一个模型毕竟是一种现实的反映，等于是现实的镜像，它能够描述现实的能力越强就越准确，而机器学习都是用变量来描述世界的，它的变量数是有限的，深度学习的深度也是有限的。另外它对数据的需求量随着模型的增大而增大，但现实中有那么多高质量数据的情况还不多。所以一方面是数据量，一方面是数据里面的变量、数据的复杂度，深度学习来描述数据的复杂度还不够复杂。
缺乏反馈机制。目前深度学习对图像识别、语音识别等问题来说是最好的，但是对其他的问题并不是最好的，特别是有延迟反馈的问题，例如机器人的行动，AlphaGo下围棋也不是深度学习包打所有的，它还有强化学习的一部分，反馈是直到最后那一步才知道你的输赢。还有很多其他的学习任务都不一定是深度学习才能来完成的。
CSDN：微软的深度残差网络是不是能解决表达能力的问题？杨强：那是一个很好的跃进，它的层数也很多，表达能力很显然往前推进了很多。但即使如此，它也没有解决所有的表达的问题。因为它增加的是层数、层和层之间的连接数，而不是变量数，所以在变量数上还是有局限的。我们认为深度稀疏网络在变量数的容纳能力方面更强。CSDN：迁移学习能解决哪些问题？杨强：它主要解决两个问题。
小数据的问题。比方说我们新开一个网店，卖一种新的糕点，我们没有任何的数据，就无法建立模型对用户进行推荐。但用户买一个东西会反应到用户可能还会买另外一个东西，所以如果知道用户在另外一个领域，比方说卖饮料，已经有了很多很多的数据，利用这些数据建一个模型，结合用户买饮料的习惯和买糕点的习惯的关联，我们就可以把饮料的推荐模型给成功地迁移到糕点的领域，这样，在数据不多的情况下可以成功推荐一些用户可能喜欢的糕点。这个例子就说明，我们有两个领域，一个领域已经有很多的数据，能成功地建一个模型，有一个领域数据不多，但是和前面那个领域是关联的，就可以把那个模型给迁移过来。
个性化的问题。比如我们每个人都希望自己的手机能够记住一些习惯，这样不用每次都去设定它，我们怎么才能让手机记住这一点呢？其实可以通过迁移学习把一个通用的用户使用手机的模型迁移到个性化的数据上面。我想这种情况以后会越来越多。
RTL的实践CSDN：第四范式的官方介绍是有100多个案例，不知道您参与了多少，强化学习和迁移学习遇到的实际的问题是什么？杨强：我不能一一地说，但有一些关键的案例我参与了，这里面用了很多不同的机器学习算法，深度学习和强化学习只是其中的一部分。我要说的一点是，我们在公司建立的初期用得比较多的就是大规模逻辑回归和深度学习。即使加上深度学习，这个学习模式也有它的缺陷——在很多情况下我们得到的反馈是延迟的，这种延迟反馈是深度学习所不能解决的。我们就引入了强化学习来解决它，是有一种自我学习的过程，类似AlphaGo自我对弈，不断地提高。迁移学习，比方说我们在一个金融领域已经建立了一个很好的模型，但我们遇到了一个新的领域怎么办呢？解决所谓的冷启动问题就是利用迁移学习，当数据收集得足够多了以后，我们再改用深度学习。强化学习CSDN：强化学习的应用应该关注哪些方面呢？杨强：强化学习的应用其实很广，最开始应用是在机器人上的应用，比方说你告诉Google AlphaGo到冰箱里给我拿一瓶牛奶过来，它就不会——路径的编程和怎么样打开冰箱都需要人写到程序里。怎么才能学会呢？这就需要强化学习来做，你让它试很多次，有时候拿到有时候没有拿到，通过例子，可以让强化学习的方法学习优化的路径。所以一开始强化学习是用在机器人的路径规划和任务完成上。但我们最近就发现，强化学习的应用面特别广，可以用在很多反馈上，但这个反馈不一定是马上可以得到的，比如医疗领域，对药品和医疗方案的反馈，就是一个很好的例子。CSDN：我们用到了Q Learning？杨强：用到了。但现在比较流行的做法是Deep Q Learning。CSDN：关于扩张和探索平衡您有什么见解？杨强：扩张和探索这个平衡一直是强化学习里面的一个大难题，现在没有特别好的通用做法，应该在不同的领域有不同的思路，在围棋领域尤其明显，比方说树搜索的宽度和深度之间就是一个平衡，但这个平衡AlphaGo做得很好。所以可能在机器人的领域，也需要引入这样的一个平衡点，这个平衡点也是需要去学习的。迁移学习CSDN：目前迁移能做到从金融领域迁移到其他领域么？杨强：跨领域是比较难的，一般是比领域里不同的业务之间做迁移，跨领域在学术界有做的，比方说网络搜索可以迁移到推荐，图象识别可以迁移到文本识别，这些在学术界都有不错的工作，但是真的把它应用到工业界，还是拭目以待。CSDN：难点在哪里？杨强：跨领域的时候，我们需要另外的一种数据来帮助我们，这种数据就是衔接两个领域之间的桥梁数据。这种数据往往在工业界中是隐式的，存在人的脑袋里而没有被机器记录下来。所以我说人工智能的发展还在很初级的阶段，因为我们的数据没有连成片而是一个个孤岛，到了我们能连成片的阶段，有新的成果出来，会是一加一大于二的结果。CSDN：在每个行业都有一定的成熟的应用之后才能真正用起来？杨强：对，这个是要有耐心和足够的积累才可以发现不同领域之间的关联。以医疗企业为例，在基因检测领域已经有了很多的数据，体验有了很多的数据，但毕竟基因检测和体检是两个不同的领域，所以它们之间的关联很少，但当我们有了用户的行为数据，对用户有长期的跟踪，就可以把这两个数据关联起来。CSDN：除此之外迁移学习还需要关注哪些问题？杨强：有偏数据的处理。举一个例子，比方说我们知道在室外有GPS，室内没有，怎么办呢？我们要定位一个很大的商场，现在有一个办法是用Wifi来定位，拿一个手机APP收集很多的信号数据用来训练，但这个数据很容易偏——数据收集的时候和下一个分布是不一样的，我们是不是要重新地收集一遍？那样太麻烦了，不可能每个小时收集一遍室内的数据，所以我们的做法是收集一遍，过后用迁移学习把偏差给做掉，利用点到点的距离，利用校正的方法，在迁移学习里有一个算法也是我们发明的，叫做加权法，就是对过去的数据加权，使得过去数据和现在数据比较近的那些数据的权重比较大，比较远的数据的权重逐渐变小，在迭代多次以后，剩下的数据就是跟现在的数据类似的数据了，这种做法我们觉得行之有效。现在我们在室内定位的领域做了很多的实践。同时我要说明，这也是一种学术的做法，因为室内定位还不是到工业的水平，我们也在用机器学习做各种尝试。先知的实践CSDN：除了采用的学习方法，先知的定位，跟IBM、谷歌、微软的一些云服务或者是一些API有什么本质的区别呢？杨强：首先先知是在金融领域诞生的，对金融领域是特别适用的，金融领域的几个特点是通用的云平台所不能提供的。首先是变量特别多、问题特别复杂，其次是以流的形式输入的，流的量也特别多，另外有很多噪音，并不是所有的数据都跟它有反馈在一起。当然，通用型的云平台也很有必要，用来做一些通用的处理。CSDN：金融人工智能的两个常见场景，是风控和精准营销，能不能介绍其他的场景？杨强：风控和营销是现在第四范式比较成功的场景，已经有很重要的客户来买单了，这个本身就不容易，因为在金融领域对这些IT公司的要求是比较高的。我觉得再往下应该还有一些机会点：一个机会点就是投资顾问理财产品，怎么样能够让公司在第一线而不是在后台能够为投资人或者是理财人提供建议、提供顾问，这可能是一个比较重要的点；第二个点可能是文本的挖掘，公司的财报，社会网络的舆情都会对整个市场有影响，那么投资市场是怎样受到这些报道和新闻的影响的？这个规律是可以通过自然语言学习来得到的。CSDN：先知平台关注应用开发和算法开发，能介绍一下您能解决算法开发的哪些问题么？杨强：我们有几个重要的工作。
如何能够建立一个算法库和算法图书馆来帮助数据底层的清洗问题。实际应用中，数据和数据之间有很多的孤岛，孤岛之间的连接很难，因为有很多数据是缺失的。另外还会有很多错误数据，如何能够把数据改进和连接，这些都是数据清洗的一个范畴，所以对应这些问题就需要建立很多的算法库。
建立了算法库以后要把它归一到机器学习算法所需要的输入格式，即数据转换，这也是一个脏活、累活，很多算法公司不屑去做。在实际应用中我们发现这些活其实占了整个流程的80%，所以某种程度上重要的是如何能让算法更快更有效更及时，并且能够在线地对到来的数据进行分析，建立模型（建模是第三个层次，第四个层次就是强化学习的层次），能够让系统自学习而不是通过人来驱动，能通过它的错误和做对的地方，能够对它整个的流程进行补充、修正，是从下到上的四个阶段。
CSDN：数据免清洗是怎么做到的？杨强：系统有很多清洗的模块，清洗的动作一开始是由人通过一些工具来操纵这些模块，但当这种例子多了以后，我们就可以把这些例子作为机器学习的一个输入，学会一个模型，再由模型模仿人来做。CSDN：这是一个通用的模型还是需要跟具体的业务做结合？杨强：当然需要跟具体的业务做结合，因为不同的业务对数据质量的定义是不一样的，有些认为这些数据里面确实有很多需要清洗，有些应用就觉得不多。CSDN：具体业务的数据上数据能支持输入需求么？杨强：在成功的案例上，数据从量和质两方面都没问题。但我们要发现里面有很多地方需要人的聪明才智，也就是说，数据科学家的作用也是不可或缺的，怎么能让领域科学家把自己的经验转化成编程的动作。举一个例子，你要用深度学习模型会产生很多的特征，这些特征来自哪部分原始数据，什么样的特征才能解决业务的问题，就需要人的直觉和聪明才智，需要数据科学家和领域科学家的沟通。解决人才的难题CSDN：您强调了数据科学家的作用。机器学习领域目前有很多公开的论文，和开源的算法、开源的库/框架，我们的人才为什么还是稀缺的？杨强：这就是刚才说的脏活、累活大家都不愿意去做，因为发表文章和看法是很光荣的事，所以大家都集中做那些事情。我对业界的呼吁，也是希望大家能够把身段放下来，做一些基本数据的处理，把重点放在底层。这也是为什么第四范式真的是在做一些最基本的工作，而不是从第一天开始就急着做一些很上镜的事情。小结杨强认为，迁移学习应用的成熟是一个循序渐进的过程，预计RTL在今后几年的应用将会更加成熟。事实上，强化学习和迁移学习已经越来越受欢迎。中国工程院院士、中国人工智能学会理事长李德毅对“驾驶脑”的研究，就强调了反馈机制，除了将CNN用于形式化，采用强化学习的理念使驾驶脑越来越聪明也是一个特色。，以提升学习效率。而在微软研究院首席研究员俞栋与邓力合著的《解析深度学习：语音识别实践》一书中，多任务和迁移学习也占据了很大的篇幅。这表明，在深度学习最擅长的领域，强化学习和迁移学习依然有重要意义，深度学习也需要与这些算法结合使用。不过，杨强表示，之所以是RTL而不是DRTL，是因为并不是所有的应用都适用深度学习。题外话除了人工智能落地，杨强的另外一个心愿，就是提升华人研究者在国际人工智能领域的影响力。在由中国人工智能学会（CAAI）发起并主办、中科院自动化研究所与CSDN共同承办，将于8月26-27日举行的，杨强作为大会程序委员会共同主席，邀请到了国际人工智能促进会（AAAI）主席、美国亚利桑那大学教授Rao Kambhapati来做主题报告，以强化国际交流。Rao Kambhapati的议题是“Challenges in Planning for Human-Robot Cohabitation”，大会上还会有，，感兴趣的读者请尽快。

深度学习在路径规划上有哪些应用

我要回帖

随机推荐