UCL硕士哥大data science硕士 和 information science选哪一个

更新&/p&&p&居然被打车公司hr看到了还分享到了朋友圈,真的汗颜,紧张了一把;&/p&&p&其实里面漏了一个重要我原本打算去的机会,但我临时还是决定去大厂,今天这公司总监给我打了个电话,谈到由业务驱动转向技术驱动,也说了一些挽留话,我真蛮感动的;之前hr的积极更进以及最后我的临时变卦,其实我都蛮惭愧;我一直觉得自己这些面试碰到的公司碰到的人都很好,我跟总监说自己是被高看了,是心里话;大家如果对组合数学或者强化学习有兴趣有研究可以私信我帮忙推荐这个机会;&/p&&p&&br&&/p&&p&#
更新&/p&&p&一些面试的建议:&/p&&p&1:bat三家都喜欢问大量的计算机基础知识,考察工程能力,b都喜欢问数据结构和leetcode,t问的比较随意但是很考察思维能力;(当然还是得看面试官)&/p&&p&2:对于像我这种非计算机班科出身的(数学统计),面机器学习算法的公司比较容易,面工程的公司比较难;&/p&&p&3:深度学习入门门槛很低,但是精通门槛很高,仍然很多东西都是黑盒子,因此如果真的没有这方面经验,不建议写进简历,很容易被问倒;面试官如果自身不精通,他压根不会问深度学习,如果问了,那他基本上还是比较懂行的;(个人经验,不一定准)&/p&&p&4:面试有些问题不确定,就说自己知道的,知道多少说多少,反正不能什么都不说;&/p&&p&&br&&/p&&p&我最近换工作,基本上轮了一圈大的互联网公司,下面是我的面经,希望对nlp或者机器学习深度学习感兴趣的朋友准备面试有点帮助,有些问题我答得不准希望不吝赐教;&/p&&p&&br&&/p&&p&--- 某新闻app ---&/p&&p&round1:&/p&&p&1:cnn做卷积的运算时间复杂度;&/p&&p&2;Random forest和GBT描述;&/p&&p&3:(看到kaggle项目经历)为什么xgboost效果好?&/p&&p&4:leetcode;&/p&&p&&br&&/p&&p&round2:&/p&&p&1:工程背景;&/p&&p&2: python熟悉程度;&/p&&p&3:leetcode;&/p&&p&&br&&/p&&p&round3:&/p&&p&1:项目介绍&/p&&p&2:项目最难的是什么&/p&&p&3:项目做的最有成就感的是什么&/p&&p&4:生活做的最有成就感的是什么&/p&&p&5:一天刷多少次我们的app&/p&&p&&br&&/p&&p&不评论;&/p&&p&&br&&/p&&p&&br&&/p&&p&--- 打车公司 ---&/p&&p&1: LSTM结构推导,为什么比RNN好?&/p&&p&需要说明一下LSTM的结构,input forget gate, cell information hidden information这些,之前我答的是防止梯度消失爆炸,知友指正,不能防止爆炸,很有道理,感谢;&/p&&p&&br&&/p&&p&2:梯度消失爆炸为什么?&/p&&p& 答案:略&/p&&p&&br&&/p&&p&3:为什么你用的autoencoder比LSTM好?&/p&&p& 答案:我说主要还是随机化word embedding的问题,autoencoder的句子表示方法是词袋方法,虽然丢失顺序但是保留物理意义;(?)&/p&&p&&br&&/p&&p&4: overfitting怎么解决:&/p&&p& 答案:dropout, regularization, batch normalizatin;&/p&&p&&br&&/p&&p&5:dropout为什么解决overfitting,L1和L2 regularization原理,为什么L1 regularization可以使参数优化到0, batch normalizatin为什么可以防止梯度消失爆炸;&/p&&p& 答案:略&/p&&p&6: 模型欠拟合的解决方法:&/p&&p& 答案:我就说到了curriculum learning里面的sample reweight和增加模型复杂度;还有一些特征工程;然后问了常用的特征工程的方法;&/p&&p&&br&&/p&&p&7:(简历里面写了VAE和GAN还有RL,牛逼吹大了)VAE和GAN的共同点是什么,解释一下GAN或者强化学习如何引用到你工作里面的;&/p&&p& 答案:略&/p&&p&&br&&/p&&p&传统机器学习&/p&&p&1:SVM的dual problem推导;&/p&&p&2:random forest的算法描述+bias和variance的分解公式;&/p&&p&3:HMM和CRF的本质区别;&/p&&p&4:频率学派和贝叶斯派的本质区别;&/p&&p&5:常用的优化方法;&/p&&p&6: 矩阵行列式的物理意义(行列式就是矩阵对应的线性变换对空间的拉伸程度的度量,或者说物体经过变换前后的体积比)&/p&&p&7: 动态预测每个区域的用车需求量;&/p&&p&&br&&/p&&p&对于打车公司,我的感觉很好,hr态度和面试官态度都很好,包括最后跟老大打完电话约去公司聊一下确定一下;全程hr都是有问必答;&/p&&p&有一次为了去前面那个新闻app,而改了打车公司面试时间,hr态度都很好;&/p&&p&最后我已经决定了去深圳,不能去打车公司也有点遗憾了;&/p&&p&而且打车公司问的问题很专业,全程下来都是ML算法,不考脑残的leetcode;我根本没时间也不想再去刷leetcode就为了个面试;&/p&&p&&br&&/p&&p&--- 手机公司 ---&/p&&p&round1:&/p&&p&1:LSTM相关的问题;&/p&&p&2:python写k-means;&/p&&p&3:想不起来了&/p&&p&&br&&/p&&p&round2:&/p&&p&1:业务相关的问题&/p&&p&2:记不起来了&/p&&p&&br&&/p&&p&round3:&/p&&p&1:记不起来了&/p&&p&&br&&/p&&p&手机公司最近在搞发布会,面试过了一个星期再通知我去复面,我果断拒绝;&/p&&p&全程深度学习的东西基本上不问,问了一两个看来他们基本不用,然后就是leetcode;&/p&&p&手机公司做智能家居蛮有前途的;面试官态度很好;&/p&&p&&br&&/p&&p&&br&&/p&&p&--- 搜索公司 ---&/p&&p&三轮&/p&&p&1:怎么样识别文本垃圾信息;&/p&&p&2:(数据结构)树合并;&/p&&p&3:工作涉及到的业务知识;&/p&&p&4: python如何把16位进制的数转换成2进制的数;&/p&&p&5:MySQL的键的一个问题;&/p&&p&6: linux下如何把两个文件按照列合并&/p&&p&7:map-reduce的原理(问的基础,因为我简历没有mapreduce);&/p&&p&8:NLP方面的想法;&/p&&p&9:职业规划,专家型还是领导型;&/p&&p&10:如果给offer是不是直接来此公司;&/p&&p&&br&&/p&&p&说实话,搜索公司最耿直,一下午面玩完全没有任何磨磨唧唧就给了口头offer;&/p&&p&如果留在北京,首选肯定是它了;&/p&&p&后面问我在面其他哪些公司,如果给了offer去哪家,我说就这家,那时候也没想到后面的两家深圳公司也过了,感觉蛮愧疚的,就冲这个态度也应该去此公司的;&/p&&p&真的不像网上流传的那些;而且此公司最后面的manager是我见过态度很好而且感觉可以依靠人;&/p&&p&&br&&/p&&p&&br&&/p&&p&&br&&/p&&p&-- 大厂 ---&/p&&p&1: 链表逆转&/p&&p&2:1亿的文本如何放在100台机器上两两做相似度计算&/p&&p&3:40亿数据如何用2G内存排序&/p&&p&4;遍历树&/p&&p&5:HMM原理&/p&&p&&br&&/p&&p&大厂来面我的人级别很高,全程碾压我,最后我说话都不利索了,完全想不到会过的;&/p&&p&感觉大厂效率很高,hr也很专业;其实就面了两轮就谈薪资了;&/p&&p&&br&&/p&&p&总体来说,面试还是很顺利,基本上投的公司都给了offer;因为要去深圳,有两个很好的北京的机会不能去,真心遗憾;&/p&
更新居然被打车公司hr看到了还分享到了朋友圈,真的汗颜,紧张了一把;其实里面漏了一个重要我原本打算去的机会,但我临时还是决定去大厂,今天这公司总监给我打了个电话,谈到由业务驱动转向技术驱动,也说了一些挽留话,我真蛮感动的;之前h…
1 工具的学习(排列有序)&br&
python(我用的python tutorial,细节可以查书learning python,然后查询一些文档比如,numpy,matplotlib官方文档) &br&
java (我先看的 head first java, 然后thinking in java看了一部分)&br&
linux shell (越熟越好,我只是刷了鸟哥那本入门书的前半部分)&br&
hadoop (需要会折腾,在win电脑上不好配置,如果实验室有环境或者有人帮忙带带入门最好。&br&&br&&br&2 机器学习入门(排列有序)&br&
集体编程智慧(把例子刷一遍,一方面是理解入门数据挖掘,一方面更熟悉下python)&br&
数据挖掘导论,机器学习(tom mitchell),Andrew Ng的机器学习课程,机器学习实战(主要参考下书中的代码,书中代码并不是非常完美,主要用来入门)。。&br&这几个材料建议选其中一、二个为核心连贯学习,其他可以参考。比如你先用数据挖掘导论了解一些基本的概念,用Andrew Ng的机器学习课程进行比较细致的学习,其中要实习一些算法的时候可以参考机器学习实战,某些算法看不懂时候可以参考其他书籍&br&&br&
Kaggle找几个最简单的题进行入门实战。(比如泰坦尼克号那题)&br&
可以适当了解一些机器学习的具体应用,如:推荐系统、图像处理、语音或搜索。(结合自己的兴趣专业选择某一个深入学习)&br&
Pattern Recognition And Machine Learning,The Elements of Statistical Learning 两本理论非常详细的巨著,如果有精力一定要看看。建议从第一本看起(因为我也只能勉强看懂第一本,第二本如果其他人都说很经典,可以看懂的话肯定是要看的)。&br&&br&&br&3 数据结构基础&br&算法导论+leetcode在线题目&br&&br&总结:&br&看书要多动手,多总结,比如看了个朴素贝叶斯算法,最好把这个方法总结一下,然后编写代码实现简单的例子。参考更多的书籍,参考baidu&br&&br&-----------------------------&br&
另外如果想找份工作一定要多多实习,只要有一份不错的实习经验找个好工作的概率大大增加。从另外一个角度,不要把宝全部压在校招上&br&&br&参考自我的博客哈:&a href=&///?target=http%3A//blog.csdn.net/u/article/details/& class=& wrap external& target=&_blank& rel=&nofollow noreferrer&&经验分享:大学生研究生如何找到一份数据挖掘的工作&i class=&icon-external&&&/i&&/a&
1 工具的学习(排列有序) python(我用的python tutorial,细节可以查书learning python,然后查询一些文档比如,numpy,matplotlib官方文档) java (我先看的 head first java, 然后thinking in java看了一部分) linux shell (越熟越好,我只是刷了鸟哥那本…
&blockquote&Kaggle 是一个流行的数据科学竞赛平台,已被谷歌收购,参阅《&a href=&///?target=https%3A//mp./s%3F__biz%3DMzA3MzI4MjgzMw%3D%3D%26mid%3D%26idx%3D2%26sn%3D88e148fb2dd30d5b3dfc90%26chksm%3D871b12eab06c9bfcf33a7abe2d30792dbb2db08a01ccf%26scene%3D21%23wechat_redirect& class=& wrap external& target=&_blank& rel=&nofollow noreferrer&&业界 | 谷歌云官方正式宣布收购数据科学社区 Kaggle&i class=&icon-external&&&/i&&/a&》。作为一个竞赛平台,Kaggle 对于初学者来说可能有些难度。毕竟其中的一些竞赛有高达 100 万美元的奖金池和数百位参赛者。顶级的团队在处理机场安全提升或卫星数据分析等任务上拥有数十年积累的经验。为了帮助初学者入门 Kaggle,EliteDataScience 近日发表了一篇入门介绍文章,解答了一些初学者最常遇到的问题。机器之心对这篇文章进行了编译介绍,另外也增加了一些机器之心之前发过的文章作为补充资源。&/blockquote&&p&&a href=&///?target=https%3A//mp./s%3F__biz%3DMzA3MzI4MjgzMw%3D%3D%26mid%3D%26idx%3D3%26sn%3D5f251adf377d9bc41b4d468%26chksm%3D871b2e97b06ca7816f32fcfd915d7727adbbbeba76f6a%26mpshare%3D1%26scene%3D1%26srcid%3D0725ukFZcMPxmShvASI7pO85%26key%3D68d35b4cbb78b0b433f52e5dd712ffa19a4be533c674f885f8e13ebc626d63cdfe5eece316a65ebb378aedc57dac040%26ascene%3D0%26uin%3DNTU2ODc3MDk1%26devicetype%3DiMac%2BMacBookPro12%252C1%2BOSX%2BOSX%2B10.10.5%2Bbuild%%26version%3Dnettype%3DWIFI%26fontScale%3D100%26pass_ticket%3DeTbnrK692ajIv6Or%252BfDxGsLYF%252B0aAxT4Yo1aLYu5M7%252F3Iy%252FkQ6osDRTfEOXy13V7& class=& wrap external& target=&_blank& rel=&nofollow noreferrer&&文章标题:Kaggle初学者五步入门指南,七大诀窍助你享受竞赛&i class=&icon-external&&&/i&&/a&&/p&&p&&br&&/p&&p&首先,我们要清楚了解:&/p&&blockquote&&i&Kaggle 竞赛和「经典的」数据科学有一些重要的不同之处,但只要你以正确的心态接触它,就也能收获有价值的经验。&/i&&/blockquote&&p&让我们解释一下:&/p&&p&&br&&/p&&p&&b&Kaggle 竞赛&/b&&/p&&p&本质上,带有奖金池的竞赛必须满足一些标准:&/p&&ul&&li&问题必须困难:竞赛不应该是一个下午就能解决的任务。为了得到最好的投资回报,主办公司会提交他们最大最难的问题。&/li&&li&解决方案必须新:要赢得最新的竞赛,你通常需要进行扩展研究、定制算法、训练先进的模型等等。&/li&&li&表现必须能比较:竞赛必须要决出优胜者,所以你和其他对手的解决方案必须要被评分。&/li&&/ul&&p&&br&&/p&&p&&b&「经典的」数据科学&/b&&/p&&p&相对而言,日常所用的数据科学并不需要满足这些标准。&/p&&ul&&li&问题可能简单。实际上,数据科学家应该尽力确认易于实现的成果:可以快速解决的富有成效的项目。&/li&&li&解决方案可以是成熟的。大多数常见任务(比如探索分析、数据清理、A/B 测试、经典算法)都已经有了已得到证明的框架。没必要重新发明轮子。&/li&&li&表现可以是绝对的。即使一个解决方案只是简单地超越了之前的基准,那也非常有价值。&/li&&/ul&&p&Kaggle 竞赛鼓励你竭尽所能,而经典数据科学则推崇效率和最大化的业务效果。&/p&&p&&br&&/p&&p&&b&Kaggle 竞赛值得参加吗?&/b&&/p&&p&尽管 Kaggle 和经典数据科学之间存在差异,但 Kaggle 仍然是一种很好的入门工具。&/p&&p&每个竞赛都是独立的。无需设置项目范围然后收集数据,这让你有时间专注其它技能。&/p&&p&练习就是实践。学习数据科学的最好方法是在做中学。只要没有每场竞赛都获胜的压力,你就可以练习各种有趣的问题。&/p&&p&讨论和获胜者采访很有启发性。每个竞赛都有自己的讨论板块与获胜者简报。你可以窥见更有经验的数据科学家的思考过程。&/p&&p&&i&Kaggle 获胜者采访&/i&&/p&&p&&br&&/p&&p&&b&怎样入门 Kaggle?&/b&&/p&&p&接下来,我们将给出一个按步进行的行动规划,然后慢慢上升到 Kaggle 竞赛中。&/p&&p&&br&&/p&&p&&b&第一步:选择一种编程语言&/b&&/p&&p&首先,我们推荐你选择一种编程语言,并坚持使用。Python 和 R 在 Kaggle 和更广泛的数据科学社区上都很流行。&/p&&p&如果你是一个毫无经验的新手,我们推荐 Python,因为这是一种通用编程语言,你可以在整个流程中都使用它。&/p&&p&&br&&/p&&p&参考:&/p&&ul&&li&&a href=&///?target=http%3A///r-vs-python-for-data-science& class=& wrap external& target=&_blank& rel=&nofollow noreferrer&&数据科学领域 R vs Python&i class=&icon-external&&&/i&&/a&&/li&&li&&a href=&///?target=http%3A///learn-python-for-data-science& class=& wrap external& target=&_blank& rel=&nofollow noreferrer&&如何为数据科学学习 Python&i class=&icon-external&&&/i&&/a& &/li&&li&&a href=&///?target=http%3A//mp./s%3F__biz%3DMzA3MzI4MjgzMw%3D%3D%26mid%3D%26idx%3D1%26sn%3D00b5c6ed7e4c576c8be3eae1dc348cfe%26chksm%3D871b0b30b06cb78ad40bb36fe0ebdeca42d4a%26scene%3D21%23wechat_redirect& class=& wrap external& target=&_blank& rel=&nofollow noreferrer&&深度 | R vs Python:R 是现在最好的数据科学语言吗?&i class=&icon-external&&&/i&&/a&&/li&&li&&a href=&///?target=http%3A//mp./s%3F__biz%3DMzA3MzI4MjgzMw%3D%3D%26mid%3D%26idx%3D3%26sn%3Dc3b8b65ec118d6fdef3f55e5f29e89ff%26chksm%3D871b03a2b06c8ab4b0a0c87a3bb129ad5f420fddc5a1a911escene%3D21%23wechat_redirect& class=& wrap external& target=&_blank& rel=&nofollow noreferrer&&业界 | 超越 R,Python 成为最受欢迎的机器学习语言&i class=&icon-external&&&/i&&/a&&/li&&/ul&&p&&br&&/p&&p&&b&第二步:学习探索数据的基础&/b&&/p&&p&加载、浏览和绘制你的数据(即探索性分析)的能力是数据科学的第一步,因为它可以为你将在模型训练过程中做的各种决策提供信息。&/p&&p&如果你选择了 Python 路线,那么我们推荐你使用专门为这个目的设计的 Seaborn 库。其中有高层面的绘图函数,可以绘制许多最常见和有用的图表。&/p&&p&&br&&/p&&p&参考:&/p&&ul&&li&&a href=&///?target=https%3A//seaborn.pydata.org/& class=& wrap external& target=&_blank& rel=&nofollow noreferrer&&Seaborn 库&i class=&icon-external&&&/i&&/a&&/li&&li&&a href=&///?target=http%3A///python-seaborn-tutorial& class=& wrap external& target=&_blank& rel=&nofollow noreferrer&&Python Seaborn 教程&i class=&icon-external&&&/i&&/a&&/li&&li&&a href=&///?target=http%3A//mp./s%3F__biz%3DMzA3MzI4MjgzMw%3D%3D%26mid%3D%26idx%3D2%26sn%3D89d176a782875afaafc69dd40cbee006%26chksm%3D871b2534b06cac22add2fbaec18be4a79560bd%26scene%3D21%23wechat_redirect& class=& wrap external& target=&_blank& rel=&nofollow noreferrer&&资源 | 2017 年最流行的 15 个数据科学 Python 库&i class=&icon-external&&&/i&&/a&&/li&&/ul&&p&&br&&/p&&p&&b&第三步:训练你的第一个机器学习模型&/b&&/p&&p&在进入 Kaggle 之前,我们推荐你先在更简单更容易管理的数据集上训练一个模型。这能让你熟悉机器学习库,为以后的工作做铺垫。&/p&&p&关键在于培养良好的习惯,比如将你的数据集分成独立的训练集和测试集,交叉验证避免过拟合以及使用合适的表现评价指标。&/p&&p&对于 Python,最好的通用机器学习库是 Scikit-Learn。&/p&&p&&br&&/p&&p&参考:&/p&&ul&&li&&a href=&///?target=http%3A//scikit-learn.org/stable/& class=& wrap external& target=&_blank& rel=&nofollow noreferrer&&Scikit-Learn 库&i class=&icon-external&&&/i&&/a&&/li&&li&&a href=&///?target=http%3A///python-machine-learning-tutorial-scikit-learn& class=& wrap external& target=&_blank& rel=&nofollow noreferrer&&Python Scikit-Learn 教程&i class=&icon-external&&&/i&&/a&&/li&&li&&a href=&///?target=http%3A///& class=& wrap external& target=&_blank& rel=&nofollow noreferrer&&7 天应用机器学习速成课&i class=&icon-external&&&/i&&/a&&/li&&li&&a href=&///?target=http%3A//mp./s%3F__biz%3DMzA3MzI4MjgzMw%3D%3D%26mid%3D%26idx%3D1%26sn%3D703d13d6c482daf6b211c5%26chksm%3D871b13ecb06c9afa28f8aad985e4eae8adbd70c1d70fabb3b2817fa%26scene%3D21%23wechat_redirect& class=& wrap external& target=&_blank& rel=&nofollow noreferrer&&只需十四步:从零开始掌握 Python 机器学习(附资源)&i class=&icon-external&&&/i&&/a&&/li&&li&&a href=&///?target=http%3A//mp./s%3F__biz%3DMzA3MzI4MjgzMw%3D%3D%26mid%3D%26idx%3D4%26sn%3D505ababb07a6bee5d42ae%26chksm%3D871be9f84888ecb2ced8d3f52fe97f923b94deb34383eacefb4a5cf%26scene%3D21%23wechat_redirect& class=& wrap external& target=&_blank& rel=&nofollow noreferrer&&教程 | Kaggle CTO Ben Hamner :机器学习的八个步骤&i class=&icon-external&&&/i&&/a&&/li&&/ul&&p&&br&&/p&&p&&b&第四步:解决入门级竞赛&/b&&/p&&p&现在我们已经准备好尝试 Kaggle 竞赛了,这些竞赛分成几个类别。最常见的类别是:&/p&&ul&&li&Featured:这些通常是由公司、组织甚至政府赞助的,奖金池最大。&/li&&li&Research:这些是研究方向的竞赛,只有很少或没有奖金。它们也有非传统的提交流程。&/li&&li&Recruitment:这些是由想要招聘数据科学家的公司赞助的。目前仍然相对少见。&/li&&li&Getting Started:这些竞赛的结构和 Featured 竞赛类似,但没有奖金。它们有更简单的数据集、大量教程和滚动的提交窗口让你可以随时输入。&/li&&/ul&&p&Getting Started 竞赛非常适合初学者,因为它们给你提供了低风险的学习环境,并且还有很多社区创造的教程:&a href=&///?target=https%3A///c/titanic%23tutorials& class=& external& target=&_blank& rel=&nofollow noreferrer&&&span class=&invisible&&https://www.&/span&&span class=&visible&&/c/titanic#&/span&&span class=&invisible&&tutorials&/span&&span class=&ellipsis&&&/span&&i class=&icon-external&&&/i&&/a&&/p&&p&&br&&/p&&p&&b&第五步:比赛是为了更好地学习,而不是赚钱&/b&&/p&&p&有了上面的基础,就可以参与到 Featured 竞赛中了。一般来说,为了取得好排名,通常需要远远更多的时间和精力。&/p&&p&因此,我们建议你明智地选择参与项目。参加竞赛能帮你深入到你希望长期参与的技术领域中。&/p&&p&尽管奖金很诱人,但更有价值(也更可靠)的回报是为你的未来事业所获得的技能。&/p&&p&&br&&/p&&p&&b&享受 Kaggle 的小诀窍&/b&&/p&&p&最后,我们将介绍几个参与 Kaggle 的最受欢迎的诀窍,希望能帮你享受你的 Kaggle 时光。&/p&&p&&br&&/p&&p&&b&诀窍 1:设置循序渐进的目标&/b&&/p&&p&如果你曾经玩过什么让人上瘾的游戏,你就知道循序渐进的目标的重要性。那就是好游戏让人着迷的诀窍。每一个目标都要足够大,以便带来成就感;但也不能太大,不然无法实现。&/p&&p&大多数 Kaggle 参与者都没赢过任何一场竞赛,这完全正常。如果把获胜作为第一个里程碑,你可能会失望,尝试几次之后可能就会失去动力。循序渐进的目标会让你的旅程更加愉快。比如:&/p&&ul&&li&提交一个超越基准解决方案的方案&/li&&li&在一场竞赛中进入排名前 50%&/li&&li&在一场竞赛中进入排名前 25%&/li&&li&在三场竞赛中进入排名前 25%&/li&&li&在一场竞赛中进入排名前 10%&/li&&li&赢得一场竞赛!&/li&&/ul&&p&这种策略让你可以一路衡量你的进展和进步。&/p&&p&&br&&/p&&p&&b&诀窍 2:查阅得票最多的 kernel&/b&&/p&&p&Kaggle 有一个非常厉害的功能:参与者可以提交 kernel,即用于探索一个概念、展示一种技术或分享一种解决方案的短脚本。&/p&&p&当你开始一场竞赛或感觉进步停滞时,查阅受欢迎的 kernel 或许能给你带来灵感。&/p&&p&&br&&/p&&p&&b&诀窍 3:在论坛中提问&/b&&/p&&p&不要害怕问「愚蠢的」问题。&/p&&p&提问能遇到的最糟糕的事情是什么?也许你会被忽视……仅此而已。&/p&&p&另一方面,你能得到很多回报,包括来自经验更丰富的数据科学家的建议和指导。&/p&&p&&br&&/p&&p&&b&诀窍 4:独立发展核心技能&/b&&/p&&p&开始的时候,我们建议你独自工作。这将迫使你解决应用性机器学习流程中的每一步,包括探索性分析、数据清理、特征工程和模型训练。&/p&&p&如果过早地和人组队,你就可能会错失发展这些基本技能的机会。&/p&&p&&br&&/p&&p&&b&诀窍 5:组队以拓展你的极限&/b&&/p&&p&虽然太早组队不好,但在未来的比赛中组队让你能向其他人学习,进而拓展你的极限。过去的许多获胜者都是团队,这让他们可以结合彼此的知识共同施展力量。&/p&&p&此外,一旦你掌握了机器学习的技术技能,你就可以与其他可能比你有更多领域知识的人合作,进一步扩展你的机遇。&/p&&p&&br&&/p&&p&&b&诀窍 6:记住 Kaggle 可以成为你的垫脚石&/b&&/p&&p&记住,你不一定要成为一个长期的 Kaggle 人。如果发现你不喜欢这种形式,也没什么大不了的。&/p&&p&实际上,许多人在做自己的项目或成为全职数据科学家之前都会使用 Kaggle 作为自己的垫脚石。&/p&&p&所以你的关注重点应该是尽可能地学习。长远来看,参与能给你带来相关经验的竞赛比参加有最高奖金的竞赛更好。&/p&&p&&br&&/p&&p&&b&诀窍 7:不要担心排名低&/b&&/p&&p&有些初学者担心低排名出现在他们的个人资料中,结果一直没有开始。当然,比赛焦虑是很正常的现象,并不只限于 Kaggle。&/p&&p&但是,排名低真的没什么关系。没人会因此贬低你,因为他们曾经某个时候也是初学者。&/p&&p&即便如此,如果仍然担心个人资料里的低排名,你可以再单独创建一个练习账号。一旦觉得自己能力不错了,就可以开始用你的「主帐号」来建立丰功伟绩了。(再说一下,这么做毫无必要!) &/p&&p&&br&&/p&&p&&b&结论&/b&&/p&&p&在这篇指南中,我们分享了上手 Kaggle 的 5 大步骤:&/p&&ol&&li&选择一种编程语言&/li&&li&学习探索数据的基础&/li&&li&训练第一个机器学习模型&/li&&li&解决入门级竞赛&/li&&li&比赛是为了更好地学习,而不是赚钱&/li&&/ol&&p&最后,我们分享了享受这个平台的 7 个诀窍:&/p&&ul&&li&设置循序渐进的目标&/li&&li&查阅得票最多的 kernel&/li&&li&在论坛中提问&/li&&li&独立发展核心技能&/li&&li&组队以拓展你的极限&/li&&li&记住 Kaggle 可以成为你的垫脚石&/li&&li&不要担心排名低&/li&&/ul&&p&&a href=&///?target=https%3A///beginner-kaggle& class=& wrap external& target=&_blank& rel=&nofollow noreferrer&&最后附上原文链接&i class=&icon-external&&&/i&&/a&&/p&&p&以上,希望对你有所帮助。&/p&&p&&br&&/p&&p&本文首发于微信公众号:机器之心(almosthuman2014),如需转载,请私信联系,感谢。&/p&
Kaggle 是一个流行的数据科学竞赛平台,已被谷歌收购,参阅《》。作为一个竞赛平台,Kaggle 对于初学者来说可能有些难度。毕竟其中的一些竞赛有高达 100 万美元的奖金池和数百位参赛者。顶级的团队在处理…
&img src=&/v2-e425d140d038ad19d390c1_b.jpg& data-rawwidth=&580& data-rawheight=&426& class=&origin_image zh-lightbox-thumb& width=&580& data-original=&/v2-e425d140d038ad19d390c1_r.jpg&&&p&基本上,只要会做下面这些(技术总监们不想被你知道的)&a href=&/?target=https%3A///mlnd/%3Futm_source%3DOA%26utm_medium%3Dwechat%26utm_campaign%3DMLND04& class=& wrap external& target=&_blank& rel=&nofollow noreferrer&&机器学习&i class=&icon-external&&&/i&&/a&题目,你就可以申请国内大公司,乃至硅谷公司的技术面试了!&/p&&p&&br&&/p&&img src=&/v2-10ea549e821a35a7c631_b.png& data-rawwidth=&1332& data-rawheight=&742& class=&origin_image zh-lightbox-thumb& width=&1332& data-original=&/v2-10ea549e821a35a7c631_r.png&&&p&&br&&/p&&p&&br&&/p&&p&&b&计算机科学典型问题&/b&&/p&&p&&br&&/p&&ul&&li&如何判断一个而链表中是否有环?&/li&&li&给定一棵二叉查找树中的两个元素,求它们的最近公共祖先。&/li&&li&给一个栈排序&/li&&li&基于比较的排序算法的时间复杂度是什么?证明?&/li&&li&如何求一个带权图中两个结点直接按的最短路径?如果有些权值是负的怎么办?&/li&&li&求一个字符串中所有的回文子串。&/li&&/ul&&p&&br&&/p&&p&对这些问题你都要能够推导你的解法的时间和空间复杂度(大 O 表示法),并且尽量用最低的复杂度解决。&/p&&p&&br&&/p&&p&只有通过大量的练习才能将这些不同类型的问题烂熟于胸,从而在面试中迅速地给出一个高效的解法。常用的算法面试准备平台有 InterviewBit、LeetCode、Interview Cake、Pramp、&a href=&/?target=http%3A//interviewing.io/& class=& wrap external& target=&_blank& rel=&nofollow noreferrer&&interviewing.io&i class=&icon-external&&&/i&&/a& 等。&/p&&p&&br&&/p&&p&&b&概率论和统计典型问题&/b&&/p&&p&&br&&/p&&ul&&li&给出一个群体中男性和女性各自的平均身高,求整个群体的平均身高。&/li&&li&一次调查表明意大利三分之一的汽车都是法拉利,并且在那之中一半的车都是红色的。如果你在意大利的街头看到一辆红色的汽车驶来,请问它是法拉利的可能性有多大?&/li&&li&你试图找出在自己的网站上放置版头的最佳方案。变量包括版头的尺寸(大、中、小)以及放置的位置(顶部、中间、底部)。假定需要 95% 的置信水平,请问你至少需要多少次访问和点击来确定某个方案比其他的组合都要好?&/li&&/ul&&p&&br&&/p&&p&很多&a href=&/?target=https%3A///mlnd/%3Futm_source%3DOA%26utm_medium%3Dwechat%26utm_campaign%3DMLND04& class=& wrap external& target=&_blank& rel=&nofollow noreferrer&&机器学习&i class=&icon-external&&&/i&&/a&算法都以概率论和统计作为理论基础。对于这些基础知识有清晰的概念是极为重要的。当然同时你也要能够将这些抽象的概念与现实联系起来。&/p&&p&&br&&/p&&p&&b&数据建模和评估典型问题&/b&&/p&&p&&br&&/p&&ul&&li&一位农民想搞明白是什么因素影响了他的牛奶产量。他记录了每天的气温(30 - 40 度)、湿度(60 - 90%)、饲料消耗(2000 - 2500 千克)以及牛奶产量(500 - 1000 升)。&/li&&li&假设问题是要预测每天的牛奶产量,你会如何处理数据并建立模型?&/li&&li&这是一个什么类型的机器学习问题?&/li&&li&你的公司在开发一个面部表情识别系统。这个系统接受 1920 x 1080 的图片作为输入,并告诉用户图片中的人脸处于以下哪种情绪状态:平常、高兴、悲伤、愤怒和恐惧。当图片中没有人脸时系统要能够分辨这种情况。&/li&&li&这是一个什么类型的机器学习问题?&/li&&li&如果每个像素点由 3 个值来表示(RGB),那么输入数据的原始维度有多大?有办法降维吗?&/li&&li&如何对系统的输出进行编码?为什么?&/li&&li&过去几个世纪的气象数据展现出一种循环的气温模式:一会升高一会下降。对于这样的数据(一个年平均气温的序列),你会如何建模并预测未来 5 年的平均气温?&/li&&li&你在一家在线新闻网站工作,需要从各处收集文本,并将不同来源的内容聚集成一篇报道。你会如何设计这样一个系统?会用到哪些&a href=&/?target=https%3A///mlnd/%3Futm_source%3DOA%26utm_medium%3Dwechat%26utm_campaign%3DMLND04& class=& wrap external& target=&_blank& rel=&nofollow noreferrer&&机器学习&i class=&icon-external&&&/i&&/a&技术?&/li&&/ul&&p&&br&&/p&&p&&b&应用&/b&&a href=&/?target=https%3A///mlnd/%3Futm_source%3DOA%26utm_medium%3Dwechat%26utm_campaign%3DMLND04& class=& wrap external& target=&_blank& rel=&nofollow noreferrer&&机器学习&i class=&icon-external&&&/i&&/a&&b&算法和库&/b&&/p&&p&&br&&/p&&ul&&li&你用一个给定的数据集训练一个单隐层的神经网络,发现网络的权值在训练中强烈地震荡(有时在负值和正值之间变化)。为了解决这个问题你需要调整哪个参数?&/li&&li&支持向量机的训练在本质上是在最优化哪个值?&/li&&li&LASSO 回归用 L1-norm 作为惩罚项,而岭回归(Ridge Regression)则使用 L2-norm 作为惩罚项。这两者哪个更有可能得到一个稀疏(某些项的系数为 0)的模型?&/li&&li&在用反向传播法训练一个 10 层的神经网络时,你发现前 3 层的权值完全没有变化,而 4 ~ 6 层的权值则变化得非常慢。这是为什么?如何解决?&/li&&li&你手上有一个关于小麦产出的数据集,包括年降雨量 R、平均海拔 A 以及小麦产量 O。你经过初步分析认为产量跟年降雨量的平方以及平均海报的对数之间存在关系,即:O = β_0 + β_1 x R^2 + β_2 x log(A)。能用线性回归求出系数 β 吗?&/li&&/ul&&p&&br&&/p&&p&你可以通过像 Kaggle 比赛那样的数据科学和&a href=&/?target=https%3A///mlnd/%3Futm_source%3DOA%26utm_medium%3Dwechat%26utm_campaign%3DMLND04& class=& wrap external& target=&_blank& rel=&nofollow noreferrer&&机器学习&i class=&icon-external&&&/i&&/a&挑战来了解各种各样的问题和它们之间的细微差别。多多参加这些比赛,并尝试应用不同的机器学习模型。&/p&&p&&br&&/p&&p&&b&软件工程和系统设计典型问题&/b&&/p&&p&&br&&/p&&ul&&li&你有一个电商网站,当用户点击一个商品打开详情页面时,你想基于商品特征和用户的购买历史为用户推荐 5 个其他的商品显示在页面的底部。你需要哪些服务和数据表来实现这个功能?请写一个查询语句或一段过程式代码来返回所要推荐的 5 个商品。&/li&&li&对于 YouTube 那样的在线视频网站,你会收集哪些数据来衡量用户的参与度和视频的人气度?&/li&&li&一个简单的垃圾邮件检测系统是这样的:它每次处理一封邮件,统计不同单词的出现频率(Term frequency),并将这些频率与之前已经被标注为垃圾 / 正常邮件的那些频率进行比较。现在需要对这系统进行拓展来处理海量的邮件流量,请设计一个 Map-Reduce 方案在一个集群上部署这个系统。&/li&&li&你要生成一个实时的热力图,来展示用户正在浏览和点击一个网页的哪些部分。在客户端和服务端分别需要哪些组件 / 服务 / API 来实现这个功能?&/li&&/ul&&p&&a href=&/?target=https%3A///mlnd/%3Futm_source%3DOA%26utm_medium%3Dwechat%26utm_campaign%3DMLND04& class=& wrap external& target=&_blank& rel=&nofollow noreferrer&&机器学习&i class=&icon-external&&&/i&&/a&&/p&&img src=&/v2-5a9ffccfa20_b.png& data-rawwidth=&778& data-rawheight=&380& class=&origin_image zh-lightbox-thumb& width=&778& data-original=&/v2-5a9ffccfa20_r.png&&&p&&/p&
基本上,只要会做下面这些(技术总监们不想被你知道的)题目,你就可以申请国内大公司,乃至硅谷公司的技术面试了! 计算机科学典型问题 如何判断一个而链表中是否有环?给定一棵二叉查找树中的两个元素,求它们的最近公共祖先。给一个栈排序基于比…
&p&R语言的ggplot2吊得不行啊,实在是爱不释手哇,好吧空谈误国,上图为先!&/p&&img src=&/v2-3c20f86b8a815d7f4b5c4b1e1c785d68_b.jpg& data-rawwidth=&1024& data-rawheight=&576& class=&origin_image zh-lightbox-thumb& width=&1024& data-original=&/v2-3c20f86b8a815d7f4b5c4b1e1c785d68_r.jpg&&&p&R语言的数据可视化基本全仗ggplot2了(不要跟我提什么R语言有四套可视化语法,其他三套都是鸡肋),所以今天展示的案例全部都是基于ggplot2的:&/p&&p&&b&这是刚学的时候临摹的商务图表:&/b&&/p&&img src=&/v2-0bd8ed4be29718d10bfb12_b.png& data-rawwidth=&755& data-rawheight=&3399& class=&origin_image zh-lightbox-thumb& width=&755& data-original=&/v2-0bd8ed4be29718d10bfb12_r.png&&&p&&br&&/p&&img src=&/v2-f387a048ac4bdd7c8b784c2ce37eb586_b.png& data-rawwidth=&640& data-rawheight=&422& class=&origin_image zh-lightbox-thumb& width=&640& data-original=&/v2-f387a048ac4bdd7c8b784c2ce37eb586_r.png&&&p&&br&&/p&&p&&b&后来开始找一些信息图模仿:&/b&&/p&&p&&br&&/p&&img src=&/v2-cfc43dd083c65e692f9cc04_b.png& data-rawwidth=&1280& data-rawheight=&3600& class=&origin_image zh-lightbox-thumb& width=&1280& data-original=&/v2-cfc43dd083c65e692f9cc04_r.png&&&p&&br&&/p&&img src=&/v2-3cc8aef1eeb3ff4ffb19e32f3405e52b_b.png& data-rawwidth=&640& data-rawheight=&355& class=&origin_image zh-lightbox-thumb& width=&640& data-original=&/v2-3cc8aef1eeb3ff4ffb19e32f3405e52b_r.png&&&p&&br&&/p&&img src=&/v2-633c7cd6edc320e098b6_b.png& data-rawwidth=&640& data-rawheight=&355& class=&origin_image zh-lightbox-thumb& width=&640& data-original=&/v2-633c7cd6edc320e098b6_r.png&&&p&&br&&/p&&p&&b&因为喜欢数据地图这个领域,所以练习了很多:&/b&&/p&&p&&br&&/p&&img src=&/v2-530b3ae6aafa818e8183c7_b.png& data-rawwidth=&1324& data-rawheight=&1687& class=&origin_image zh-lightbox-thumb& width=&1324& data-original=&/v2-530b3ae6aafa818e8183c7_r.png&&&p&&br&&/p&&img src=&/v2-68baf63ce694cc5f1749_b.png& data-rawwidth=&1332& data-rawheight=&1691& class=&origin_image zh-lightbox-thumb& width=&1332& data-original=&/v2-68baf63ce694cc5f1749_r.png&&&p&&br&&/p&&img src=&/v2-8170962eae931054beab827a901aeb77_b.png& data-rawwidth=&1320& data-rawheight=&1582& class=&origin_image zh-lightbox-thumb& width=&1320& data-original=&/v2-8170962eae931054beab827a901aeb77_r.png&&&p&&b&后来小有名气了,开始自己揽活挣零花钱:&/b&&/p&&p&&br&&/p&&img src=&/v2-1bdaacfb12a362fcddf232_b.jpg& data-rawwidth=&669& data-rawheight=&3074& class=&origin_image zh-lightbox-thumb& width=&669& data-original=&/v2-1bdaacfb12a362fcddf232_r.jpg&&&p&&br&&/p&&img src=&/v2-be974db2d3_b.jpg& data-rawwidth=&1527& data-rawheight=&5397& class=&origin_image zh-lightbox-thumb& width=&1527& data-original=&/v2-be974db2d3_r.jpg&&&p&&b&学习了R语言的rvest和Rcurl等爬虫框架开始爬数据做一些比较务正业的数据分析:&/b&&/p&&p&&br&&/p&&img src=&/v2-2ebe9eec7b3e6fee3ccf_b.png& data-rawwidth=&680& data-rawheight=&2676& class=&origin_image zh-lightbox-thumb& width=&680& data-original=&/v2-2ebe9eec7b3e6fee3ccf_r.png&&&p&&br&&/p&&img src=&/v2-d996badce8b12f52bc5caf_b.png& data-rawwidth=&1280& data-rawheight=&2160& class=&origin_image zh-lightbox-thumb& width=&1280& data-original=&/v2-d996badce8b12f52bc5caf_r.png&&&p&&b&脑洞我也有很多哈哈哈!&/b&&/p&&img src=&/v2-9ed599aff8bd_b.png& data-rawwidth=&3189& data-rawheight=&1772& class=&origin_image zh-lightbox-thumb& width=&3189& data-original=&/v2-9ed599aff8bd_r.png&&&p&&br&&/p&&img src=&/v2-ca1b153c9ed8cc2c7691_b.jpg& data-rawwidth=&1024& data-rawheight=&569& class=&origin_image zh-lightbox-thumb& width=&1024& data-original=&/v2-ca1b153c9ed8cc2c7691_r.jpg&&&p&&br&&/p&&img src=&/v2-24c31adb3dfd5d00ebc63911_b.png& data-rawwidth=&1200& data-rawheight=&1200& class=&origin_image zh-lightbox-thumb& width=&1200& data-original=&/v2-24c31adb3dfd5d00ebc63911_r.png&&&p&&br&&/p&&img src=&/v2-fc9b110c5fa69f538b5bc17_b.png& data-rawwidth=&1000& data-rawheight=&870& class=&origin_image zh-lightbox-thumb& width=&1000& data-original=&/v2-fc9b110c5fa69f538b5bc17_r.png&&&p&&br&&/p&&img src=&/v2-7b7efa899b1b786a74e01b_b.jpg& data-rawwidth=&1024& data-rawheight=&569& class=&origin_image zh-lightbox-thumb& width=&1024& data-original=&/v2-7b7efa899b1b786a74e01b_r.jpg&&&p&&br&&/p&&img src=&/v2-182a1c1f3fcc8c60e16357_b.jpg& data-rawwidth=&1024& data-rawheight=&569& class=&origin_image zh-lightbox-thumb& width=&1024& data-original=&/v2-182a1c1f3fcc8c60e16357_r.jpg&&&p&&b&你以为我只会R吗(Excel也会一点儿),其实我的PPT也做的不错的哦!&/b&&/p&&p&&br&&/p&&img src=&/v2-e32c4c3a503aafb89c3fa9_b.png& data-rawwidth=&1280& data-rawheight=&10080& class=&origin_image zh-lightbox-thumb& width=&1280& data-original=&/v2-e32c4c3a503aafb89c3fa9_r.png&&&p&&b&上面图太大了费流量,(主要怕你手机刷不开),所以放个小点儿的缩略图:&/b&&/p&&img src=&/v2-34c11c6d14b980a2e262a0e5aaf74797_b.png& data-rawwidth=&1288& data-rawheight=&2414& class=&origin_image zh-lightbox-thumb& width=&1288& data-original=&/v2-34c11c6d14b980a2e262a0e5aaf74797_r.png&&&p&&b&好了,发完图赶紧跑,害怕警察叔叔把我带走~&/b&&/p&&p&&b&====================&/b&&/p&&p&&b&这些案例是公众号“数据小魔方”里推送过代码和数据的!&/b&&/p&&p&&b&===================&/b&&/p&&p&容我再放一条链接:&/p&&p&&b&Excel到底有多厉害!&/b&&/p&&p&&a href=&/question//answer/& class=&internal&&&span class=&invisible&&https://www.&/span&&span class=&visible&&/question/2758&/span&&span class=&invisible&&8491/answer/&/span&&span class=&ellipsis&&&/span&&/a&&/p&
R语言的ggplot2吊得不行啊,实在是爱不释手哇,好吧空谈误国,上图为先!R语言的数据可视化基本全仗ggplot2了(不要跟我提什么R语言有四套可视化语法,其他三套都是鸡肋),所以今天展示的案例全部都是基于ggplot2的:这是刚学的时候临摹的商务图表: 后来…
&p&&b&以下主要是书单以及视频的推荐&/b&&/p&&p&本人是即将毕业的计算机专业本科生,从大二开始学习数据挖掘,到目前算是初窥门径,由于身边很多同学考上研究生并决定选择机器学习/深度学习等相关方向,向我询问如何学习机器学习,特地来写此答案,本人并非老司机,两年多的学习也只是使自己初窥门径,希望自己的经验能够帮助新手少走弯路。&/p&&p&————————————————&/p&&p&&b&数学基础:&/b&&/p&&p&大部分的人说,学机器学习,只要掌握大学三门课(数学分析、线性代数、概率论与数理统计),但这很不客观,有很多数学知识是这三门课中没有讲到的,这就会成为学习的瓶颈。想深入学习机器学习的人,很有必要学习以下数学课程:&/p&&p&1.&b&《矩阵分析》&/b&:机器学习很多算法需要使用计算机来计算,就需要转换成计算机所接受的格式,而且很多矩阵相关的内容在线性代数中并没有涉及,所以学习《矩阵分析》是很有必要的。&/p&&p&书籍:推荐 Horn的《矩阵分析》&/p&&img src=&/v2-9abcf0f69e_b.png& data-rawwidth=&264& data-rawheight=&328& class=&content_image& width=&264&&&p&&br&&/p&&p&2.&b&《统计学》&/b&:大学期间开的概率统计的主要部分在于概率,而统计部分则是浅尝即止,就算包含了大数定律、抽样分布还是参数估计,也只涉及了很浅显的一部分(是以考研数学一的标准来衡量,而并非是课本,因为答主考的就是数学一,虽然浙大那本书里甚至包含了Markov Chain,但内容真的看不下去)。这些统计知识可以说是机器学习算法的基础组成,而且在实际项目中,掌握很多统计学方法会如虎添翼。&/p&&p&书籍:推荐 &b&门登霍尔的《统计学》&/b&&/p&&p&&br&&/p&&img src=&/v2-819f286d3e4a48122638_b.png& data-rawwidth=&320& data-rawheight=&420& class=&content_image& width=&320&&&p&&br&&/p&&p&(以上两门课程,可以在学习机器学习算法的同时进行学习,毕竟的确很多机器学习算法只需要大学数学的水平就够了,但学习这两门课是很必要的)&/p&&p&&b&3.《最优化》&/b&&/p&&p&optimization是大部分机器学习算法都会遇到的问题,因为很多机器学习算法都会被变成目标函数,最优化就是用来对目标函数参数求解的工具。&/p&&p&推荐:鼎鼎大名的&b&《凸优化》&/b&&/p&&p&&br&&/p&&img src=&/v2-6ab5c41ab86fafcb1759284_b.png& data-rawwidth=&366& data-rawheight=&554& class=&content_image& width=&366&&&p&此书算是一本大部头,但并不难,本人当初只有大学工科数学基础就能比较流畅地通读一遍。&/p&&p&&br&&/p&&p&以及一位朋友在评论中推荐的 &b&《最优化导论》&/b&(答主未读过,暂不评价)&/p&&img src=&/v2-2dc8a12af9c1b2e3cc71c783_b.png& data-rawwidth=&369& data-rawheight=&539& class=&content_image& width=&369&&&p&&br&&/p&&p&————————————————&/p&&p&&b&入门书单与视频:&/b&&/p&&p&&b&《数据挖掘导论》&/b&&/p&&img src=&/v2-995a130e7e0f5bc8c4d9_b.png& data-rawwidth=&311& data-rawheight=&425& class=&content_image& width=&311&&&p&&br&&/p&&p&学习数据挖掘,要先了解其到底是什么,这本书作为入门书非常好。这本书以实际应用为主,对算法的分析只触及到一点点,通过这本书说明的主要是算法的运行过程和意义,而非算法本身的数学推理。这本书上的内容,高中生都能读懂,但答主读了不只三遍,而且在不同的阶段阶段,读这本书都有很大的体悟和收获。&/p&&p&&br&&/p&&p&&b&李航老师的《统计学习方法》、周志华老师的《机器学习》(西瓜书)、Mitchell的《机器学习》&/b&&/p&&p&&br&&/p&&img src=&/v2-16f68ce09c70ecb102acd9_b.png& data-rawwidth=&258& data-rawheight=&424& class=&content_image& width=&258&&&p&&br&&/p&&p&&br&&/p&&img src=&/v2-9c1690ff7cbea92d80d5af2d65bae67f_b.png& data-rawwidth=&298& data-rawheight=&334& class=&content_image& width=&298&&&p&&br&&/p&&img src=&/v2-fd9d48ae6fcdb02_b.png& data-rawwidth=&295& data-rawheight=&432& class=&content_image& width=&295&&&p&&br&&/p&&p&这三本书都是机器学习入门的经典书籍,之所以同时推荐三本,不是为了从这三本书中选一个,而是全部买下来对照着看:《统计学习方法》对公式的推理相对详细;周志华的书内容更加广泛,但推理不太详细;Mitchell的书重在算法的思路,对公式的推理很浅显,但易懂。建议学习的时候以李航老师的书为基础,对周志华老师的书进行系统的学习。&/p&&p&&b&视频:台大的《机器学习基石》与《机器学习技法》&/b&&/p&&p&一直以来,很多人推荐的入门视频都是Andrew NG的课程,但本人更加倾向于台大这两门课,这两门课从最基础的理论到各种典型的机器学习算法都包括,非常注重公式的推导,相比NG的课难度更高,但收获也更多。当完整的学习完整个课程,将会对机器学习的知识体系有很好的理解。&/p&&p&————————————————&/p&&p&&b&实战:&/b&&/p&&p&&b&《集体智慧编程》&/b&&/p&&p&&br&&/p&&img src=&/v2-c5931bad75d988c6d7280_b.png& data-rawwidth=&405& data-rawheight=&526& class=&content_image& width=&405&&&p&此书无公式推导,只告诉我们哪个算法能做什么,需要做什么。虽然浅显,但真正的涉及到了数据挖掘存在的意义:数据挖掘真正的目的就是对数据进行分析挖掘,得到有用的信息。数据挖掘最基础的当然是数学和统计学,但如果只会对数学公式进行推导确不知道如何使用这些数学公式,那应该是一个假的数据科学家。答主大一时学习的是Java,当时主要搞的是JavaEE开发,也很喜欢数据结构以及ACM,自然对于编程算是比较擅长的,答主是以一个程序员的身份开始学习的数据挖掘,所以对这本以Coding来对数据挖掘进行介绍的书很有好感。&/p&&p&&b&《机器学习实战》[选修]&/b&&/p&&p&&br&&/p&&img src=&/v2-f4fd1cc01bcf962baa9d524ca59a0dd9_b.png& data-rawwidth=&244& data-rawheight=&301& class=&content_image& width=&244&&&p&&br&&/p&&p&这本书是真正的造轮子,将各种机器学习算法真正的用python实现了一边,虽然对于数值分析等方面考虑的并不周祥,但已经算是一本造轮子的书。学习了机器学习算法后,造着这本书实现一遍,是一件很有成就感的事情,但这本书并非必读,答主也只是实现了其中几个算法而已,因为这本书的很多算法写的并不是很好,而想对这本书的程序进行改善,通常会走弯路,所以行有余力,则读此书&/p&&p&&b&《利用Python进行数据分析》&/b&&/p&&p&&br&&/p&&img src=&/v2-a7ecfcfcff5accc_b.png& data-rawwidth=&313& data-rawheight=&414& class=&content_image& width=&313&&&p&&br&&/p&&p&这本书介绍了最主要的python数据处理工具:numpy,pandas,matplotlib等,当通读完一遍之后,这本书就可以被当成工具书,偶尔查一查。&/p&&p&&b&《机器学习系统设计》&/b&&/p&&p&&br&&/p&&img src=&/v2-edc86efbbebc342ab756f1_b.png& data-rawwidth=&262& data-rawheight=&356& class=&content_image& width=&262&&&p&python平台上最火机器学习库肯定是scikit-learn,在答主还没有准备考研的时候,这本书还没出,当时答主将主要目标放在了算法的学习上,虽然对scikit-learn倾慕已久,但苦于没有中文版的书籍又懒得读英文版(当时中二的认为自己编程很吊,等出了中文版随便看看就学会了,没有必要浪费脑细胞去读英文版),所以一直到考研结束后继续学习机器学习之路,发现这本书后,欣喜若狂,很快就将这本书买下并拜读。&/p&&p&————————————————&/p&&p&&b&中级:&/b&&/p&&p&在这一阶段,基础的机器学习算法已经不是问题,较为深入的部分也分出了方向,答主目前在学习深度学习,但一直没有放弃深入学习机器学习的目标&/p&&p&&b&机器学习:《pattern recognition and machine learning》&/b&&/p&&p&这本书已经有很多人介绍过了,这本书虽然是大部头,但作者写的行云流水,把贝叶斯玩的很6,思路非常清晰,而且&b&全&/b&。每当我在推导算法的时候遇到障碍,都会从这本书中找答案,幸运的是这本书通常都会给我答案。比如前几天学习Boltzmann机的时候对MCMC和Gibbs算法的理解不太好,有写疑惑,我回头翻了这本书的中文版(马春鹏学长翻译的版本,我自己印成了书),读了书中第11章,又在网络上找了相关的知识,就完全理解了。&/p&&p&&br&&/p&&p&&b&深度学习:Yoshua Bengio的《深度学习》&/b&&/p&&p&这本书就不介绍了,因为答主也正在读这本书,而且对深度学习连入门都不算,只是有一点神经网络基础。网络上很多人推荐这本书,目前答主正在读此书第二部分,受益匪浅。&/p&&p&&br&&/p&&p&&b&深度学习:Nielsem的《Neural Networks and Deep Learning》&/b&&/p&&p&这本书简短精悍,从BP算法和介绍到了CNN,算是深度学习很好的入门书籍。&/p&&p&&br&&/p&&p&&b&机器学习视频:徐亦达的机器学习视频&/b&&/p&&p&youtube地址:&a href=&///?target=https%3A///channel/UConITmGn5PFr0hxTI2tWD4Q/playlists& class=& external& target=&_blank& rel=&nofollow noreferrer&&&span class=&invisible&&https://www.&/span&&span class=&visible&&/channel/UCo&/span&&span class=&invisible&&nITmGn5PFr0hxTI2tWD4Q/playlists&/span&&span class=&ellipsis&&&/span&&i class=&icon-external&&&/i&&/a&&/p&&p&他的视频是之前在复习EM算法的时候发现自己的理解不太深,在youtube上查相关的讲解,发现到的。他上传的视频只有四个系列,主要在于公式的推导,讲解深入浅出,个人认为是非常优秀的机器学习教程。&/p&&p&(还有很多优秀的书籍没有推荐,比如《ESL》《MLAPP》等等,为什么没有推荐,不是书不好,而是答主精力及能力有限,还未拜读到,如果日后读到了,会给补上。)&/p&&p&————————————————&/p&&p&&b&高级:&/b&&/p&&p&本人目前还只是一个准研究生,对机器学习只算略知一二,由于是计算机专业并没有数学和统计学背景,本人也正在苦逼的学习数学专业课程和统计学专业课程,感觉写到中级已经很自以为是了,如果本人有朝一日真正有资格写高级部分的时候,定会来此补上。&/p&&p&————————————————&/p&
以下主要是书单以及视频的推荐本人是即将毕业的计算机专业本科生,从大二开始学习数据挖掘,到目前算是初窥门径,由于身边很多同学考上研究生并决定选择机器学习/深度学习等相关方向,向我询问如何学习机器学习,特地来写此答案,本人并非老司机,两年多的…
作为天池老选手,一直想着要把收集的天池平台上举办的历次大数据竞赛的决赛答辩资料以及开源的代码等收集起来作为集锦,贡献给各位大数据竞赛特别是天池平台的选手和爱好者。怎奈一直琐事烦身,未能及时整理出来。今天又有选手问我之前比赛的资料,遂决定先开一个头,能先整理多少就先公开多少,一方面督促自己尽快完成此事,另一方面也可以尽早收集各位朋友和选手们的反馈,尽可能的完善资料列表。本帖将会在我的知乎专栏中持续更新,请关注我的知乎专栏 &a href=&/jlbookworm& class=&internal&&知乎专栏&/a&&p&注1)凡历次天池竞赛的选手有愿意公开自己的比赛资料的,无论名次、无论资料是否完整,皆可联系我,我会尽可能的做些整理后加入到此列表中来。我的联系邮箱: &a href=&mailto:& data-title=&& class=&&&&/a&,QQ:
,金陵书生。&/p&&p&注2)天池竞赛的数据及部分前几名选手的比赛资料受版权限制,官方不允许公开,因此请勿问我索要本资料列表之外的资料及比赛数据。数据集可通过天池比赛平台来申请,或联系官方索要。天池大数据平台地址: &a href=&/?target=https%3A//tianchi.& class=& wrap external& target=&_blank& rel=&nofollow noreferrer&&天池大数据科研平台-打造“数据众智、众创”第一平台&i class=&icon-external&&&/i&&/a&&/p&&p&注3)当前尚未准备好稳定的资料存放空间,因此还没有把收集的PPT等资料上传后贴出链接。稍后会抽空整理好后修订这部分内容。&/p&&p&注4)资料列表按比赛的时间顺序逆向排序,即最新的比赛排在最前面。&/p&&h2&一、2016年天池平台比赛资料列表&/h2&&h2&1.1 生活大实惠:O2O优惠券使用预测 &/h2&&p&比赛介绍:&a href=&/?target=https%3A//tianchi./competition/introduction.htm%3Fspm%3D.333.6.XHo01D%26raceId%3D231587& class=& wrap external& target=&_blank& rel=&nofollow noreferrer&&赛制介绍&i class=&icon-external&&&/i&&/a&&/p&&p&开源资料:&/p&&p&第1名团队:wepon、天音和charles提供的CCF O2O比赛第一名的全套代码和资料:&/p&&br&&a href=&/?target=https%3A///wepe/O2O-Coupon-Usage-Forecast& class=& wrap external& target=&_blank& rel=&nofollow noreferrer&&wepe/O2O-Coupon-Usage-Forecast&i class=&icon-external&&&/i&&/a&&p&第2名的 袁老师甚少在线,稍后联系看是否能求得代码或PPT开放。&/p&&p&第3名的 李总、bryan他们的PPT已经对外开放,大数据群中的朋友可以通过群文件下载。在稍后找到稳定的资料存放地址后,我会将这些PPT等上传一份后,再把链接贴上来。&/p&&p&其他队伍有意向公开代码或资料的,请联系我,非常感谢!&/p&&h2&1.2 机场客流量的时空分布预测&/h2&&p&top5队伍的PPT和代码思路在群文件中已经公开,稍后整理好贴上来。&/p&&h2&1.3 阿里云算法安全挑战赛&/h2&&p&这个题目由于官方不允许开放代码和资料,因此公开资料甚少,但有部分优秀选手还是在知名代码托管网站上公开了一部分代码和资料,为不对这些选手造成影响,这里就不收录相关资料了,有需要的可以自行查找。有关怎么查找的问题,恕不答复。&/p&&h2&1.4 最后一公里极速配送&/h2&&p&本次比赛的资料按官方要求不允许公开,除官方微信公众号的决赛答辩介绍资料外,尚未发现其他公开资料。本次比赛主要是优化算法设计,与其他机器学习/数据挖掘比赛差异较大。&/p&&h2&1.5 阿里音乐流行趋势预测大赛&/h2&&p&前5名的PPT已公开,代码不公开。稍后放上详细链接。&/p&&p&第六名的全部资料,是本次比赛资料分享最全面的队伍: &a href=&/?target=http%3A///article/alimusic.html& class=& wrap external& target=&_blank& rel=&nofollow noreferrer&&Ferryman&i class=&icon-external&&&/i&&/a&&/p&&p&代码地址:&a href=&/?target=https%3A///wangqingbaidu/aliMusic& class=& wrap external& target=&_blank& rel=&nofollow noreferrer&&wangqingbaidu/aliMusic&i class=&icon-external&&&/i&&/a&&/p&&p&数据可视化代码,可用来做数据探索: &a href=&/?target=https%3A///huyangc/tianchi_music& class=& wrap external& target=&_blank& rel=&nofollow noreferrer&&huyangc/tianchi_music&i class=&icon-external&&&/i&&/a&&/p&&p&时间序列预测的知乎讨论: &a href=&/question/& class=&internal&&有什么好的模型可以做高精度的时间序列预测呢? - 数据分析 - 知乎&/a&&/p&&p&入门参考: &a href=&/?target=https%3A///strint/AliMusicTrendPredict& class=& wrap external& target=&_blank& rel=&nofollow noreferrer&&strint/AliMusicTrendPredict&i class=&icon-external&&&/i&&/a&&/p&&h2&1.6 菜鸟——需求预测与分仓规划&/h2&&p&这个比赛貌似没公开PPT,持续收集中。&/p&&p&第1赛季第1名,第2赛季第6名,wepon和bryan他们的队伍:&/p&&p&&a href=&/?target=https%3A///wepe/CaiNiao-DemandForecast-StoragePlaning& class=& wrap external& target=&_blank& rel=&nofollow noreferrer&&wepe/CaiNiao-DemandForecast-StoragePlaning&i class=&icon-external&&&/i&&/a&&br&&/p&&p&wepon的github上好东西好多,值得follow&/p&&p&复赛第10名的团队:&/p&&p&&a href=&/?target=https%3A///xing89qs/TianChi_CaiNiao_Season2& class=& wrap external& target=&_blank& rel=&nofollow noreferrer&&xing89qs/TianChi_CaiNiao_Season2&i class=&icon-external&&&/i&&/a&&br&&/p&&h2&1.7 IJCAI SocInf'16 Contest-Brick-and-Mortar Store Recommendation with Budget Constraints&/h2&&p&资料甚少,待收集&/p&
作为天池老选手,一直想着要把收集的天池平台上举办的历次大数据竞赛的决赛答辩资料以及开源的代码等收集起来作为集锦,贡献给各位大数据竞赛特别是天池平台的选手和爱好者。怎奈一直琐事烦身,未能及时整理出来。今天又有选手问我之前比赛的资料,遂决定先…
&p&不是前辈,但也来回答一波。&/p&&p&师兄,我觉得是很有必要的。目前大三,本科的专业是电子信息科学,准备保研到计算机。&/p&&h2&1.找工作面试的时候&/h2&&p&我也学ML,自己也很喜欢,感兴趣的同时也很认真学习。&/p&&p&我面试过一个面向深度学习图像算法的实习岗,首先笔试题(校招)很多常规算法。过了笔试得到面试通知,技术面的时候面试官问了我一些基本的算法:&/p&&blockquote&面试官:“你讲一讲最小生成树吧。”
我:“最小生成树,常见的有两种,分别是Prim's和Kruskal's的最小生成树算法,这两种都是贪心算法,过程是这样的...”
面试官:“你知道最小生成树有什么应用吗?”
我:“最小生成树在电子方面的话,在布线方面有应用,有m个点都同时接通,最小生成树能设计出最省材料的连接方法。”
我迟疑了一下,我知道面试官想听的不是这个。我突然间想起了!!!
我:“最小生成树的另外一个应用是&b&聚类&/b&,利用Kruskal's的思路,可以实现聚类。这个聚类方法叫Max-Spacing k-Clustering”
面试官:“你学过哪些聚类?讲一讲是怎么实现的?”
我:“k-means...”
......&/blockquote&&p&后来我的技术面通过了。&/p&&h2&2.关于时间&/h2&&p&可能我是本科生,时间比较多吧。但是这两年以来,我自己挤出了很多时间学习。&/p&&p&首先是专业本身的课程,我一个教授和我说的:“你们要有热血,要恨得下心”。大三,每一门考试我都很认真对待,我的绩点全系第一。&/p&&p&然后,为了保研,我参加了挺多比赛,也拿到了一些成绩。&/p&&p&还有就是其他课程的学习。这一年里,我在Coursera上完成了10门课,还有5门正在学习中。&/p&&p&机器学习的笔记:&/p&&img src=&/v2-bcb4ae625faab3f34edf_b.jpg& data-rawwidth=&3120& data-rawheight=&4208& class=&origin_image zh-lightbox-thumb& width=&3120& data-original=&/v2-bcb4ae625faab3f34edf_r.jpg&&&p&常规算法的笔记:&/p&&img src=&/v2-daba421197acbe7ea1845_b.jpg& data-rawwidth=&3120& data-rawheight=&4208& class=&origin_image zh-lightbox-thumb& width=&3120& data-original=&/v2-daba421197acbe7ea1845_r.jpg&&&p&这两年,几乎所有课余时间都在实验室里度过了。&/p&&p&接下来的暑假,我还想学点前端,搭建个博客,自己写写学习笔记之类的!&/p&&img src=&/v2-d12ac5b9affc_b.png& data-rawwidth=&833& data-rawheight=&1486& class=&origin_image zh-lightbox-thumb& width=&833& data-original=&/v2-d12ac5b9affc_r.png&&&p&最后,推荐斯坦福的算法课。老师讲课讲的好,分析十分到位!&/p&&p&========&b&分割线&/b&=======&/p&&p&赞同 &a class=&member_mention& href=&///people/abe0e60087& data-hash=&abe0e60087& data-hovercard=&p$b$abe0e60087&&@徐凯强 Andy&/a& 所说的概率图模型,最近正在学习Daphne Koller的Probabilistic Graphical Models,感觉受益匪浅。&/p&&p&另外,斯坦福一名教授对《算法设计与分析》这门课的看法(部分截图):&/p&&img src=&/v2-24b4168bfb15b1c4034bc14abca9cb51_b.png& data-rawwidth=&964& data-rawheight=&832& class=&origin_image zh-lightbox-thumb& width=&964& data-original=&/v2-24b4168bfb15b1c4034bc14abca9cb51_r.png&&&p&我的专业是电子信息,其实自身的专业课本来就有《算法与数据结构》这门课,但是感觉自己学地很少,于是就一鼓作气学完了整个专项课程。我很喜欢里面的严谨的证明,各种数学分析,很重要的是这门课讲挺注重算法的思想,并不会局限于某个算法。再一次明白了为什么有人说:程序=算法+数据结构。&/p&&p&还有,感谢大家的赞。现在的我正在踏踏实实打基础,在这两年间也做了一些项目。每天的生活大概是这样的:起床,吃早餐去实验室,吃午饭回实验室,累了就趴一下,吃晚饭回实验室,11点之前回宿舍洗澡。在实验室主要做三件事:学习课本的知识,补充课外的知识,搞项目参加比赛。当然没那么枯燥,有时会跑跑步、打打球、去游泳。学习和运动占了绝大部分。&/p&&p&附上前两个月的简历,希望师弟师妹们不要浪费自己的大学时光!&/p&&img src=&/v2-6b17ff0b27_b.jpg& data-rawwidth=&2551& data-rawheight=&3279& class=&origin_image zh-lightbox-thumb& width=&2551& data-original=&/v2-6b17ff0b27_r.jpg&&
不是前辈,但也来回答一波。师兄,我觉得是很有必要的。目前大三,本科的专业是电子信息科学,准备保研到计算机。1.找工作面试的时候我也学ML,自己也很喜欢,感兴趣的同时也很认真学习。我面试过一个面向深度学习图像算法的实习岗,首先笔试题(校招)很多…
&p&昨天晚上折腾到北京时间凌晨1点,终于完成了ELF开源的任务。这次开源获得了公司的支持,和代码一起公布的还有arXiv文章及公司的官方博客。国内的媒体真是快,我还没来得及写专栏,第二天早晨就看到机器之心的翻译了。&/p&&p&代码见:&a href=&/?target=https%3A///facebookresearch/ELF/& class=& wrap external& target=&_blank& rel=&nofollow noreferrer&&facebookresearch/ELF&i class=&icon-external&&&/i&&/a&&/p&&p&文章见:&a href=&/?target=https%3A//arxiv.org/abs/& class=& wrap external& target=&_blank& rel=&nofollow noreferrer&&An Extensive, Lightweight and Flexible Research Platform for Real-time Strategy Games&i class=&icon-external&&&/i&&/a&&/p&&p&官方博客见:&a href=&/?target=https%3A///posts/406/introducing-elf-an-extensive-lightweight-and-flexible-platform-for-game-research/& class=& external& target=&_blank& rel=&nofollow noreferrer&&&span class=&invisible&&https://&/span&&span class=&visible&&/posts&/span&&span class=&invisible&&/406/introducing-elf-an-extensive-lightweight-and-flexible-platform-for-game-research/&/span&&span class=&ellipsis&&&/span&&i class=&icon-external&&&/i&&/a&&/p&&p&英文的个人博客:&a href=&/?target=http%3A///& class=& external& target=&_blank& rel=&nofollow noreferrer&&&span class=&invisible&&http://&/span&&span class=&visible&&&/span&&span class=&invisible&&/&/span&&span class=&ellipsis&&&/span&&i class=&icon-external&&&/i&&/a&&/p&&p&ELF的核心思想是“让大家都能做得起深度强化学习的研究”,它给了一个从模拟器到优化算法的一篮子解决方案。通过一些工程上的技巧以降低计算资源的需求,增加程序的可读性,并且提供一个短小精悍的即时战略引擎用来给大家研究。框架的设计和代码,即时战略游戏引擎及文章的撰写由我完成;前端可视化代码,及夺旗和塔防两个游戏的设计和训练由龚渠成(Qucheng Gong)完成;&a class=&member_mention& href=&/people/5c2b06e8ddca64fb72bbaf& data-hash=&5c2b06e8ddca64fb72bbaf& data-hovercard=&p$b$5c2b06e8ddca64fb72bbaf&&@吴育昕&/a& (Yuxin Wu)把Atari模拟器接入了ELF,并且进行了速度测试;商文龄(Wenling Shang)改进了神经网络结构,加入了LeakyReLU和Batch Normalization并提高了性能;最后Larry对这个项目提出了很多建议,并且帮忙修改了文章。&/p&&p&这个框架前前后后做了半年左右,核心设计改了挺多次,最后收敛到现在这个版本。总的来说我对ELF这个框架的设计还是比较满意的,用C++将许多并行的游戏线程和每个线程的历史数据封装进去,使得每次Python循环时都可以得到一批次的游戏状态,而不是某一个线程单独的游戏状态。这样接强化学习算法时,可以直接调用神经网络的前向/后向传递,而不需要手工在Python里面写多线程或者多进程的代码,这样就使得Python代码清晰可读并享有较高性能。ELF的训练用了PyTorch作为平台,PyTorch,训练算法及模型之间使用Python dict作为接口,这样对于任何一个模型或者算法而言,它只需要通过预先设好的键值,从dict里面读它想要的输入,然后生成它要生成的输出,而不必考虑其它部分的细节。这样就使得框架易读,且扩展性好。这样写还有一个好处,就是可以根据每个游戏线程的序号及其当前状态来采用不同的模型,这样就把蒙特卡罗树搜索(Monte-Carlo Tree Search),自我对弈(Self-Play)等等涉及到游戏状态和神经网络之间复杂互动关系的方法,统一在一起了。如果大家看过围棋引擎DarkForest的代码,可能会觉得分成两个独立程序来运行DF非常不方便,需要先打开一个程序用CPU来做树搜索,同时再打开一个程序用GPU来运行策略及值网络。现在在ELF框架下不需要了。这一部分的代码过一阵子也会开源。另外这个框架其实不仅仅限于游戏,任何一个虚拟环境,比如说物理引擎,比如说连续或者离散控制系统,只要有C/C++的源码,都可以整合进去,ELF会自动处理多线程同步的并返回一批次的内部状态——当然,即便没有源码,只要存在某种形式的接口,也是可以的。&/p&&p&在这个框架下面,我们实现了一个小巧的即时战略引擎,并写了一个简化版的一对一即时战略游戏(MiniRTS),还有夺旗和塔防两个扩展。MiniRTS虽然小,但是基本的采矿、造兵、造建筑、战争迷雾等游戏机制都有,各单位可以在地图上连续移动,并且每个单位有基本的避障及寻路功能。因为这个引擎是从头开始设计的,很多细节可以专为深度学习和强化学习的训练定制。在游戏的复杂性方面,仅仅花两周写出来的MiniRTS当然远不如大型团队开发几个月做出来的商业游戏,不过它胜在速度快占用资源少,并且可以扩展,对于测试一些新的研究思路会比较有帮助。速度是MiniRTS的强项,比如说在一台4核的Mac的笔记本上,运行游戏可以跑到每个核4万帧每秒。用12个CPU和1个GPU去测试训练出来的模型,跑一万局游戏仅需一分半钟。然后我们也提供了一个网页版的可视化工具,可以拿来看Replay,甚至和电脑AI玩一局。相比之下若是用星际等商业化游戏做研究,就需要动用大量资源,而且很多功能无法自行拓展。&/p&&p&在MiniRTS及夺旗和塔防三个游戏上,我们进一步做了强化学习的训练实验,用的是流行的Actor-Critic模型,但加了些off-policy的拓展。在训练MiniRTS时,我们没有加辅助奖励(比如说鼓励造坦克鼓励采矿等),而只告诉算法这一局结束后是赢是输。即时战略游戏的行动空间(action space)是非常广阔的,用现有的框架不太容易找到好的策略,所以这次先做比较简单的方法,把行动空间离散化为一些高层策略,比如说造农民,造兵,全军进攻及防守,等等。这样现有的强化学习方法就可以使用,并且得到了一些比较有趣的结果,能够以70%的胜率战胜我们自己写的基于规则的AI。&/p&&p&如果大家对强化学习和游戏AI有兴趣,这个框架会提供很大帮助,我这里就毫不谦虚地自卖自夸。希望大家喜欢。&/p&&p&PS: 这个框架的原名是LightELF,和之前的DarkForest合起来就是“飞舞在黑暗森林中的光之精灵”,就容我小小地文青一下。&/p&
昨天晚上折腾到北京时间凌晨1点,终于完成了ELF开源的任务。这次开源获得了公司的支持,和代码一起公布的还有arXiv文章及公司的官方博客。国内的媒体真是快,我还没来得及写专栏,第二天早晨就看到机器之心的翻译了。代码见:文章见:
&p&以下方法仅适用开发出身或有语言基础的同学。&/p&&br&&p&我的情况跟题主是一样的,软件工程出身,在之前一直在做Java/Python开发,无意之中接触到了爬虫,接触了一堆一堆的数据,之后慢慢开始对数据感兴趣,开始学习一些数据分析的技能:凭着爬虫以及数据分析的技能我找到了理想中的数据分析岗位。所以我对自己的评价一直是:&b&科班出身的软件工程师、野路子的数据分析师。&/b&&/p&&br&&p&从Java/Python开发到Python爬虫到数据分析,有很多人是看着我一步一步走过来的,我想在这里根据我自己这段野路子的学习经历说一说非科班如何利用业余时间学数据分析,当然只是数据分析,不是数据挖掘。&/p&&br&&p&数据分析师的能力分为:&b&分析能力和业务能力,&/b& &a class=&member_mention& href=&///people/1226dd3baaf60e6904a7e& data-hash=&1226dd3baaf60e6904a7e& data-hovercard=&p$b$1226dd3baaf60e6904a7e&&@邹昕&/a& 大神说:&b&分析能力决定一个数据分析师的下限,业务能力决定一个数据分析师的上限。&/b&&/p&&br&&p&因为是开发出身,我的方法与其他人的不同,&/p&&p&我把数据分析的学习分为两个大的阶段,:&/p&&br&&p&学习的第一阶段:这一阶段是为了培养自己做分析的能力&/p&&p&&b&第一阶段的基础是要有数据&/b&&/p&&p&分析能力相对来说是死板的,通常你需要学会掌握下面这些技能:&/p&&ul&&li&数据分析常用哪些算法?&/li&&li&需要用哪些库?&/li&&li&如何进行计算?&/li&&li&进行可视化,每一种图表的用途是什么?&/li&&/ul&&br&&p&为了解决上面抛出的问题,你可以仔细学习阅读下面的书籍:&/p&&p&1. &a href=&///?target=https%3A///subject//& class=& wrap external& target=&_blank& rel=&nofollow noreferrer&&利用Python进行数据分析 (豆瓣)&i class=&icon-external&&&/i&&/a&&/p&&p&2. &a href=&///?target=https%3A///subject//& class=& wrap external& target=&_blank& rel=&nofollow noreferrer&&SciPy and NumPy (豆瓣)&i class=&icon-external&&&/i&&/a&&/p&&br&&p&当然,如果你不想用Pyhton用R去搞这么复杂的计算,那你也可以直接把清理好的数据扔在一些做计算和可视化的工具里,我比较熟悉的就是:Tableau,以及据说不错的Power BI.当然最后你发现还是学习Python或者R的数据分析库来的实在,因为他们更加灵活。&/p&&br&&p&在第一阶段用工具结合Python我留下了一些文章,可以作为参考,这些都是在爬虫抓了很多数据之后,先有数据后结合教程书籍分析学习产生的内容。&/p&&p&1. &a href=&/p/& class=&internal&&链家网的租房数据做些有意思的事情?&/a&&/p&&p&2. &a href=&/p/& class=&internal&&豆瓣读书分析报告&/a&&/p&&p&3. &a href=&/p/& class=&internal&&爬取6.6w+豆瓣电影之后的分析故事&/a&&/p&&br&&p&学习的第二阶段:&b&这一阶段是为了培养自己做业务的能力&/b&&/p&&p&在第一阶段的学习你已经学会了:&/p&&ul&&li&对数据的整体感知&/li&&li&知道什么时候该用什么图表&/li&&li&掌握了一些基本的算法和分析库&/li&&/ul&&br&&p&这一阶段,技术不再是你的障碍,&b&重点是要有IDEA&/b&&/p&&p&这一阶段数据分析的步骤通常为:&/p&&ul&&li&我想要做什么?分析什么?&/li&&li&是否有数据能提供支持?把你想做的抽象成数据。&/li&&li&数据获取/数据清洗&/li&&li&开始进行分析(语言、工具)&/li&&/ul&&br&&p&我们能看到这四个步骤后两个步骤是在第一阶段学习的内容,所以我们只要把精力聚焦在前两个步骤就可以了,那么怎样培养自己数据分析的IDEA,我的方法是:多学多看多做。&/p&&br&&p&多看:看一些实战IDEA较多的书籍&/p&&p&1. &a href=&///?target=https%3A///subject//& class=& wrap external& target=&_blank& rel=&nofollow noreferrer&&数据之美 (豆瓣)&i class=&icon-external&&&/i&&/a&&/p&&p&2. &a href=&///?target=https%3A///subject/3283973/& class=& wrap external& target=&_blank& rel=&nofollow noreferrer&&啤酒与尿布 (豆瓣)&i class=&icon-external&&&/i&&/a&&/p&&p&3. &a href=&///?target=https%3A///subject/5257905/& class=& wrap external& target=&_blank& rel=&nofollow noreferrer&&深入浅出数据分析 (豆瓣)&i class=&icon-external&&&/i&&/a&&/p&&br&&p&多做:&/p&&p&网络上有很多数据分析的案例,很简单易懂,在深层的技术点也不难,你完全可以按照他的思路重新做一遍,就变成了你的思路了。&/p&&p&&b&数据冰山的数据分析文章:&/b&&/p&&p&1. &a href=&/p/?refer=hemingke& class=&internal&&生活中的数据犀利哥之一:开篇及选车&/a&&/p&&p&2. &a href=&/p/?refer=hemingke& class=&internal&&生活中的数据犀利哥之二:排队&/a&&/p&&p&3. &a href=&/p/?refer=hemingke& class=&internal&&生活中的数据犀利哥之三:找座&/a&&/p&&p&4. &a href=&/p/?refer=hemingke& class=&internal&&生活中的数据犀利哥之四:看趋势&/a&&/p&&p&5. &a href=&/p/& class=&internal&&生活中的数据犀利哥之五:找错因果关系&/a&&/p&&p&6. &a href=&/p/& class=&internal&&生活中的数据犀利哥之六:快递员送货&/a&&/p&&p&7. &a href=&/p/?refer=hemingke& class=&internal&&北上广深哪里过得更潇洒&/a&&/p&&p&8. &a href=&/p/?refer=hemingke& class=&internal&&沧海横流,看行业起伏(2015年)&/a&&/p&&p&9. &a href=&/p/?refer=hemingke& class=&internal&&和颐事件之后: 怎么定酒店更有安全感?&/a&&/p&&p&10. &a href=&/p/?refer=hemingke& class=&internal&&老鹿玩数据——不光是求婚神器(一)&/a&&/p&&p&11. &a href=&/p/?refer=hemingke& class=&internal&&老鹿玩数据——不光是求婚神器(二)&/a&&/p&&p&12. &a href=&/p/?refer=hemingke& class=&internal&&《春节自救指南》之数据分析&/a&&/p&&br&&p&&b&还有我曾经写的几篇文章:&/b&&/p&&p&1. &a href=&/p/& class=&internal&&如何判断一场知乎live的质量?&/a&&/p&&p&2. &a href=&/p/& class=&internal&&豆瓣5.6分的《西游伏妖篇》有水军吗?&/a&&/p&&br&&p&&b&团支书的一些回答和文章:&/b&&/p&&p&1. &a href=&/question//answer/& class=&internal&&怎样才能以最少的钱租个靠近地铁的房子?&/a&&/p&&p&2. &a href=&/question//answer/& class=&internal&&「上海富了周围,北京坑了周围」? - 知乎&/a&&/p&&p&3. &a href=&/question//answer/& class=&internal&&如何不吹牛地形容北京有多大? - 知乎&/a&&/p&&br&&p&等等几位的文章都可以用来学习参考。&/p&&br&&p&通过以上数据分析算是入门了,至于如何进阶,我也在摸索中,希望有机会我可以更新到这篇回答里,也欢迎在学习数据分析的同学一起交流。&/p&
以下方法仅适用开发出身或有语言基础的同学。 我的情况跟题主是一样的,软件工程出身,在之前一直在做Java/Python开发,无意之中接触到了爬虫,接触了一堆一堆的数据,之后慢慢开始对数据感兴趣,开始学习一些数据分析的技能:凭着爬虫以及数据分析的技能我…
已有帐号?
无法登录?
社交帐号登录
2997 人关注
210 条内容
393 人关注
310 条内容
5881 人关注
150 条内容
186 人关注

我要回帖

更多关于 哥大data science硕士 的文章

 

随机推荐