深度学习有哪些好玩的且易于实现的论文

7037被浏览141901分享邀请回答slideshare.net/ShaneSeungwhanMoon/how-alphago-works当初和李世石大战的时候有很多”专家“都出来讲过这篇paper,包括在下……简单来说,AlphaGo的架构和传统的围棋AI相比并没有传统的创新,传统的机器博弈的架构包括三部分:主体:AlphaBeta树走子策略:某一步走哪最好局面静态评估:当前谁更厉害每当对方走出一步棋,我方就开始用走子策略判断一批优秀的候选着法,然后我们开始YY对方,针对我方的每一着,给对方选出一批优秀的着法进行对抗,以深入分析我方走子的可行性。然而由于棋局的复杂性,我们无法演绎到比赛结束,于是到达一定深度后,我们对当前的局势进行估计,然后根据这个分数反推回去,得到我们最好的招数,也就是下棋人常说的”下棋要多看几步“。那么AlphaGo的厉害之处就在于,它把其中的第二、三项换成了CNN,CNN一来我们就得到了两个好处:1)它有强大的非线性映射能力,算出来的招数很厉害;2)CNN的深度学习能力使得搞围棋不用像过去搞围棋的人一样得花大量时间学围棋了!这点也是当初DeepMind在介绍Atari时说过的,一招CNN,搞定无数领域的难题。曾几何时,我们做博弈的写评估函数,都得对某种棋有很深的认识,基本上得做到业余中的佼佼者;现在有了CNN,你还是可以成为佼佼者,但是这方面的作用明显没有过去那么有用了。实际上现在大环境是什么都可以拿深度学习的东西试试,所以用CNN搞围棋不奇怪,但是能搞成这个事还是很牛的,而在这其中,训练数据就很关键了。个人认为这其中最厉害的还是用增强学习训练policy的部分,实际上这种完全信息的博弈天生就可以看作马尔可夫决策过程(MDP),而增强学习又是解决MDP的一把好手。将AlphaBeta树中的对手想象成Environment中一种看不见的力量,一个Agent的决策模型就自然形成了。至于后续的增强学习的细节,可以看论文中的介绍。1. 这个是用LSTM写jazz风格的旋律,也是蛮厉害的!跑起来很容易,库用的是Theano,python人民的老朋友!相对比较简单。[我准备最近把它啃下来把一些细节分享到这里!]首先是music21这个库,一个很强大的为音乐人士准备的库(我以前怎么没发现这个库,真心很赞!)2. 最近AlphaGo太火了,于是乎推荐一个增强学习玩Flappy Bird的代码:亲测有效,很有意思,相信它足够好玩,也能激发大家的兴趣由于我之前用keras和caffe多一些,所以对tensorflow了解不多,这里贴个中文的文档供大家参考源代码:[这里补上小鸟的一些代码总结]flappy bird的程序主题上有两个部分,一部分可以算作“预测”,就是根据模型指示具体的操作,一部分是“学习”,就是根据对局的信息调整模型。整个项目的根基就是这个游戏本身,在增强学习中可以看作是“Environment”,也就是能接收Action并反馈Next State和Reward的。作者使用了别人写好的现成的程序,不过还是在此基础上做了一定的修改,使游戏能够返回这两个信息。对于Next State,则是下一个时刻的图画信息,对于Reward,主要就是能分了,穿过一对管子得一分,死掉得负分。预测部分:作者采用了E&E的策略,除了以模型进行判定之外,还以一定概率随机操作。学习部分:当数据集收集到一定数量后开始学习,对于非完结的状态,要根据Bellman Equation进行Return的计算(Return和Reward有一定的差别)。然后将(state,action,return)扔给模型学习。模型:CNN,具体的参数README讲得很清楚。总体来看这就是一个模仿Atari实现的项目,不过他一板一眼地把把Atari的经验借鉴了过来,也做到不错的智能效果,所以值得一赞。我仔细地看了关于这个项目的介绍,发现他的思想和Deep Mind的另一个增强学习的项目很相近,那就是Atari游戏。我找到了一个Github项目,没有亲测,后面有时间会做一下实验:两个项目都是用CNN代替增强学习中的state-action-table,项目中的state就是当前的图像(4帧),action就是用户的操作(Flappy Bird就是点一下,昨天和同事聊同事还在说真正游戏里每点一下的轻重是有区别的,我想这个AI应该没有考虑这一点),由于这个空间十分大,我们用CNN来表示它,而学习的关键,也就是把这个表(模型)学习出来。先简单写一下,回头详细地谢谢。3.深度学习的在github有一个合集:推荐一下,感兴趣的话可以过一过=======乱七八糟的在下面,不删了留着。。。===========感谢大家,超过了200赞,决定清明的时候再好好整理下这个回答!1)增加了之前写的水粉铅笔画的代码(要代码的朋友你们久等了……)2)增加了一点关于增强学习的介绍……(基本上是懂的人一看就懂,不懂的……以后我看能不能写个通俗的介绍)============终于有一个超过100赞的回答,成就感满满的,于是更新一下:=====以下是老回答=================谢邀。推荐一个自己前段时间看过的:把一副图像变成铅笔水粉画。绝对好玩,而且有代码。而且……我相信看懂这个项目会比一个深度学习的项目收获更多。另外,这一着也许可以拿来泡妹子……非常抱歉没有仔细看下面的评论,上面的网站里面确实没有代码……一个非官方的实现在这里:希望之前没找到的同学能够看到我的修改。===== 关于原问题的分割线 =====1.1K48 条评论分享收藏感谢收起7037被浏览141901分享邀请回答slideshare.net/ShaneSeungwhanMoon/how-alphago-works当初和李世石大战的时候有很多”专家“都出来讲过这篇paper,包括在下……简单来说,AlphaGo的架构和传统的围棋AI相比并没有传统的创新,传统的机器博弈的架构包括三部分:主体:AlphaBeta树走子策略:某一步走哪最好局面静态评估:当前谁更厉害每当对方走出一步棋,我方就开始用走子策略判断一批优秀的候选着法,然后我们开始YY对方,针对我方的每一着,给对方选出一批优秀的着法进行对抗,以深入分析我方走子的可行性。然而由于棋局的复杂性,我们无法演绎到比赛结束,于是到达一定深度后,我们对当前的局势进行估计,然后根据这个分数反推回去,得到我们最好的招数,也就是下棋人常说的”下棋要多看几步“。那么AlphaGo的厉害之处就在于,它把其中的第二、三项换成了CNN,CNN一来我们就得到了两个好处:1)它有强大的非线性映射能力,算出来的招数很厉害;2)CNN的深度学习能力使得搞围棋不用像过去搞围棋的人一样得花大量时间学围棋了!这点也是当初DeepMind在介绍Atari时说过的,一招CNN,搞定无数领域的难题。曾几何时,我们做博弈的写评估函数,都得对某种棋有很深的认识,基本上得做到业余中的佼佼者;现在有了CNN,你还是可以成为佼佼者,但是这方面的作用明显没有过去那么有用了。实际上现在大环境是什么都可以拿深度学习的东西试试,所以用CNN搞围棋不奇怪,但是能搞成这个事还是很牛的,而在这其中,训练数据就很关键了。个人认为这其中最厉害的还是用增强学习训练policy的部分,实际上这种完全信息的博弈天生就可以看作马尔可夫决策过程(MDP),而增强学习又是解决MDP的一把好手。将AlphaBeta树中的对手想象成Environment中一种看不见的力量,一个Agent的决策模型就自然形成了。至于后续的增强学习的细节,可以看论文中的介绍。1. 这个是用LSTM写jazz风格的旋律,也是蛮厉害的!跑起来很容易,库用的是Theano,python人民的老朋友!相对比较简单。[我准备最近把它啃下来把一些细节分享到这里!]首先是music21这个库,一个很强大的为音乐人士准备的库(我以前怎么没发现这个库,真心很赞!)2. 最近AlphaGo太火了,于是乎推荐一个增强学习玩Flappy Bird的代码:亲测有效,很有意思,相信它足够好玩,也能激发大家的兴趣由于我之前用keras和caffe多一些,所以对tensorflow了解不多,这里贴个中文的文档供大家参考源代码:[这里补上小鸟的一些代码总结]flappy bird的程序主题上有两个部分,一部分可以算作“预测”,就是根据模型指示具体的操作,一部分是“学习”,就是根据对局的信息调整模型。整个项目的根基就是这个游戏本身,在增强学习中可以看作是“Environment”,也就是能接收Action并反馈Next State和Reward的。作者使用了别人写好的现成的程序,不过还是在此基础上做了一定的修改,使游戏能够返回这两个信息。对于Next State,则是下一个时刻的图画信息,对于Reward,主要就是能分了,穿过一对管子得一分,死掉得负分。预测部分:作者采用了E&E的策略,除了以模型进行判定之外,还以一定概率随机操作。学习部分:当数据集收集到一定数量后开始学习,对于非完结的状态,要根据Bellman Equation进行Return的计算(Return和Reward有一定的差别)。然后将(state,action,return)扔给模型学习。模型:CNN,具体的参数README讲得很清楚。总体来看这就是一个模仿Atari实现的项目,不过他一板一眼地把把Atari的经验借鉴了过来,也做到不错的智能效果,所以值得一赞。我仔细地看了关于这个项目的介绍,发现他的思想和Deep Mind的另一个增强学习的项目很相近,那就是Atari游戏。我找到了一个Github项目,没有亲测,后面有时间会做一下实验:两个项目都是用CNN代替增强学习中的state-action-table,项目中的state就是当前的图像(4帧),action就是用户的操作(Flappy Bird就是点一下,昨天和同事聊同事还在说真正游戏里每点一下的轻重是有区别的,我想这个AI应该没有考虑这一点),由于这个空间十分大,我们用CNN来表示它,而学习的关键,也就是把这个表(模型)学习出来。先简单写一下,回头详细地谢谢。3.深度学习的在github有一个合集:推荐一下,感兴趣的话可以过一过=======乱七八糟的在下面,不删了留着。。。===========感谢大家,超过了200赞,决定清明的时候再好好整理下这个回答!1)增加了之前写的水粉铅笔画的代码(要代码的朋友你们久等了……)2)增加了一点关于增强学习的介绍……(基本上是懂的人一看就懂,不懂的……以后我看能不能写个通俗的介绍)============终于有一个超过100赞的回答,成就感满满的,于是更新一下:=====以下是老回答=================谢邀。推荐一个自己前段时间看过的:把一副图像变成铅笔水粉画。绝对好玩,而且有代码。而且……我相信看懂这个项目会比一个深度学习的项目收获更多。另外,这一着也许可以拿来泡妹子……非常抱歉没有仔细看下面的评论,上面的网站里面确实没有代码……一个非官方的实现在这里:希望之前没找到的同学能够看到我的修改。===== 关于原问题的分割线 =====1.1K48 条评论分享收藏感谢收起/sunshineatnoon/Paper-Implementations ,用pytorch 实现了一些比较经典的框架,大部分都是GAN相关的,也都是好玩的(???????)-------------- 以下是原答案 ------------1. Variational Auto Encoder ()
paper里面的数学很高深,然而实现起来crazy easy,就是encoder + decoder + kld loss + gaussian loss, 而且很好玩,可以生成人脸和MNIST。Torch版本()Tensorflow版本()Caffe版本()theano版本(Thanks) 2. Generative Adversarial Networks()这个模型真的十分intuitive和elegant, 两个网络,一个“造假者”,一个“判别真假的警察”,互相博弈训练,最后使得“造假者”可以以假乱真。Tensorflow版本()以上两个模型应该是generative model里面的basic了,他们的各种变体也都很好玩,比如:Draw()。 前两天还见到一个生成神奇宝贝的(),不知道为啥是日文,我也很懵逼,然而生成的图还是很萌的:25313 条评论分享收藏感谢收起查看更多回答不知不觉已经超过400赞了,最近终于有点时间来进一步增加点好玩的东西了,后面的内容不再歪楼了……(非深度学习的东西不放了……)-1. 一个日文的博客——ディープラーニングで新しいポ...
不知不觉已经超过400赞了,最近终于有点时间来进一步增加点好玩的东西了,后面的内容不再歪楼了……(非深度学习的东西不放了……)
-1. 一个日文的博客——
讲如何通过利用DCGAN生成Pockmon Go的宠物形象的文章。因为全是日文,我也不是特别懂日文,所以在这里就不班门弄斧了。感兴趣的自己看看吧? ?...
这个项目火遍大江南北啊,就是第三方根据AlphaGo的论文给出的实现。最近工作太忙没空去看具体细节,底层用的是keras,具体的细节大家可以看看paper。另外今天发现了一个不错的slide:
当初和李世石大战的时候有很多”专家“都出来讲过这篇paper,包括在下……简单来说,AlphaGo的架构和传统的围棋AI相比并没有传统的创新,传统的机器博弈的架构包括三部分:
主体:AlphaBeta树
走子策略:某一步走哪最好
局面静态评估:当前谁更厉害
每当对方走出一步棋,我方就开始用走子策略判断一批优秀的候选着法,然后我们开始YY对方,针对我方的每一着,给对方选出一批优秀的着法进行对抗,以深入分析我方走子的可行性。然而由于棋局的复杂性,我们无法演绎到比赛结束,于是到达一定深度后,我们对当前的局势进行估计,然后根据这个分数反推回去,得到我们最好的招数,也就是下棋人常说的”下棋要多看几步“。
那么AlphaGo的厉害之处就在于,它把其中的第二、三项换成了CNN,CNN一来我们就得到了两个好处:1)它有强大的非线性映射能力,算出来的招数很厉害;2)CNN的深度学习能力使得搞围棋不用像过去搞围棋的人一样得花大量时间学围棋了!这点也是当初DeepMind在介绍Atari时说过的,一招CNN,搞定无数领域的难题。曾几何时,我们做博弈的写评估函数,都得对某种棋有很深的认识,基本上得做到业余中的佼佼者;现在有了CNN,你还是可以成为佼佼者,但是这方面的作用明显没有过去那么有用了。
实际上现在大环境是什么都可以拿深度学习的东西试试,所以用CNN搞围棋不奇怪,但是能搞成这个事还是很牛的,而在这其中,训练数据就很关键了。个人认为这其中最厉害的还是用增强学习训练policy的部分,实际上这种完全信息的博弈天生就可以看作马尔可夫决策过程(MDP),而增强学习又是解决MDP的一把好手。将AlphaBeta树中的对手想象成Environment中一种看不见的力量,一个Agent的决策模型就自然形成了。至于后续的增强学习的细节,可以看论文中的介绍。
这个是用LSTM写jazz风格的旋律,也是蛮厉害的!跑起来很容易,库用的是Theano,python人民的老朋友!相对比较简单。
[我准备最近把它啃下来把一些细节分享到这里!]
首先是music21这个库,一个很强大的为音乐人士准备的库(我以前怎么没发现这个库,真心很赞!)
2. 最近AlphaGo太火了,于是乎推荐一个增强学习玩Flappy Bird的代码:
亲测有效,很有意思,相信它足够好玩,也能激发大家的兴趣
由于我之前用keras和caffe多一些,所以对tensorflow了解不多,这里贴个中文的文档供大家参考源代码:
[这里补上小鸟的一些代码总结]
flappy bird的程序主题上有两个部分,一部分可以算作“预测”,就是根据模型指示具体的操作,一部分是“学习”,就是根据对局的信息调整模型。
整个项目的根基就是这个游戏本身,在增强学习中可以看作是“Environment”,也就是能接收Action并反馈Next State和Reward的。作者使用了别人写好的现成的程序,不过还是在此基础上做了一定的修改,使游戏能够返回这两个信息。对于Next State,则是下一个时刻的图画信息,对于Reward,主要就是能分了,穿过一对管子得一分,死掉得负分。
预测部分:作者采用了E&E的策略,除了以模型进行判定之外,还以一定概率随机操作。
学习部分:当数据集收集到一定数量后开始学习,对于非完结的状态,要根据Bellman Equation进行Return的计算(Return和Reward有一定的差别)。然后将(state,action,return)扔给模型学习。
模型:CNN,具体的参数README讲得很清楚。
总体来看这就是一个模仿Atari实现的项目,不过他一板一眼地把把Atari的经验借鉴了过来,也做到不错的智能效果,所以值得一赞。
我仔细地看了关于这个项目的介绍,发现他的思想和Deep Mind的另一个增强学习的项目很相近,那就是Atari游戏。我找到了一个Github项目,没有亲测,后面有时间会做一下实验:
两个项目都是用CNN代替增强学习中的state-action-table,项目中的state就是当前的图像(4帧),action就是用户的操作(Flappy Bird就是点一下,昨天和同事聊同事还在说真正游戏里每点一下的轻重是有区别的,我想这个AI应该没有考虑这一点),由于这个空间十分大,我们用CNN来表示它,而学习的关键,也就是把这个表(模型)学习出来。
先简单写一下,回头详细地谢谢。
3.深度学习的在github有一个合集:
推荐一下,感兴趣的话可以过一过
=======
乱七八糟的在下面,不删了留着。。。
===========
感谢大家,超过了200赞,决定清明的时候再好好整理下这个回答!
1)增加了之前写的水粉铅笔画的代码(要代码的朋友你们久等了……)
2)增加了一点关于增强学习的介绍……(基本上是懂的人一看就懂,不懂的……以后我看能不能写个通俗的介绍)
============
终于有一个超过100赞的回答,成就感满满的,于是更新一下:
=====
以下是老回答
=================
推荐一个自己前段时间看过的:
把一副图像变成铅笔水粉画。绝对好玩,而且有代码。
而且……我相信看懂这个项目会比一个深度学习的项目收获更多。
另外,这一着也许可以拿来泡妹子……
非常抱歉没有仔细看下面的评论,上面的网站里面确实没有代码……
一个非官方的实现在这里:
希望之前没找到的同学能够看到我的修改。
===== 关于原问题的分割线 =====
扫描二维码下载开发者头条
使用《开发者头条》客户端,拥有更好的阅读体验。
南京无印信息技术有限公司 版权所有 苏ICP备号-2
扫描二维码下载开发者头条
我已安装了开发者头条 App,7 天内不再显示该广告

我要回帖

 

随机推荐