深度学习入门必看的书和论文?有哪些必备的技能需学习

深度学习入门必看的书和论文?有哪些必备的技能需学习_百度知道
深度学习入门必看的书和论文?有哪些必备的技能需学习
我有更好的答案
除常见的直言式外,还有比喻式:如《我身边的雷锋》;倾诉式:《老师,您听我说——》;赞叹式:《他是好样的》;陈述式,如《我最了解他》等。这里我们只是谈到了一些传统的拟题方式人物角度的作文题形式多样,而最后以文题害文。要做到文题创新,是一个很大的话题,是为了避免同学们单纯地求新求异
为您推荐:
其他类似问题
换一换
回答问题,赢新手礼包
个人、企业类
违法有害信息,请在下方选择后提交
色情、暴力
我们会通过消息、邮箱等方式尽快将举报结果通知您。10,166被浏览441,653分享邀请回答1711 条评论分享收藏感谢收起10,166被浏览441,653分享邀请回答slideshare.net/tw_dsconf/ss-?qid=108adce3-2c3d-d0a57e46bc&v=&b=&from_search=3没梯子的同学,可以从我的网盘下:链接: 密码:3mty需要做哪些准备?个人感觉,把求偏导,sigmoid函数之类的数学基础准备一下即可。其他部分,如有不懂的地方,比如SGD, mini batch epoch之类的概念,网上查一下即可,应该问题不大。----------------------------------------------------------------有朋友留言,希望提供更为详细的信息。关于如何入门,请参考我在另一个类似问题中的回答:----------------------------------------------------------------祝学习顺利!1.4K64 条评论分享收藏感谢收起pic4.zhimg.com/v2-b1bd0f75b46ed27dafb6e3f_b.jpg" data-rawwidth="197" data-rawheight="204" class="content_image" width="197"&神经网络的解决方法依旧是转换到另外一个空间下,用的是所说的神经网络的解决方法依旧是转换到另外一个空间下,用的是所说的5种空间变换操作。比如下图就是经过放大、平移、旋转、扭曲原二维空间后,在三维空间下就可以成功找到一个超平面分割红蓝两线 (同SVM的思路一样)。
&img src="" data-rawwidth="197" data-rawheight="198" class="content_image" width="197"&上面是一层神经网络可以做到的,如果把上面是一层神经网络可以做到的,如果把 当做新的输入再次用这5种操作进行第二遍空间变换的话,网络也就变为了二层。最终输出是。
设想网络拥有很多层时,对原始输入空间的“扭曲力”会大幅增加,如下图,最终我们可以轻松找到一个超平面分割空间。 &img src="" data-rawwidth="204" data-rawheight="201" class="content_image" width="204"&当然也有如下图失败的时候,关键在于“如何扭曲空间”。所谓监督学习就是给予神经网络网络大量的训练例子,让网络从训练例子中学会如何变换空间。每一层的权重W就当然也有如下图失败的时候,关键在于“如何扭曲空间”。所谓监督学习就是给予神经网络网络大量的训练例子,让网络从训练例子中学会如何变换空间。每一层的权重W就控制着如何变换空间,我们最终需要的也就是训练好的神经网络的所有层的权重矩阵。。这里有非常棒的,一定要打开尝试并感受这种扭曲过程。更多内容请看。 上面的内容有三张动态图,对于理解这种空间变化非常有帮助。由于知乎不支持动态图,可以在gitbook上感受那三张图。一定一定要感受。线性可分视角:神经网络的学习就是学习如何利用矩阵的线性变换加激活函数的非线性变换,将原始输入空间投向线性可分/稀疏的空间去分类/回归。 增加节点数:增加维度,即增加线性转换能力。 增加层数:增加激活函数的次数,即增加非线性转换次数。物理视角:“物质组成”类比:回想上文由碳氧原子通过不同组合形成若干分子的例子。从分子层面继续迭代这种组合思想,可以形成DNA,细胞,组织,器官,最终可以形成一个完整的人。继续迭代还会有家庭,公司,国家等。这种现象在身边随处可见。并且原子的内部结构与太阳系又惊人的相似。不同层级之间都是以类似的几种规则再不断形成新物质。你也可能听过分形学这三个字。可通过观看来感受自然界这种层级现象的普遍性。 人脸识别情景:我们可以模拟这种思想并应用在画面识别上。由像素组成菱角再组成五官最后到不同的人脸。每一层代表不同的不同的物质层面 (如分子层)。而每层的W存储着如何组合上一层的物质从而形成新物质。
如果我们完全掌握一架飞机是如何从分子开始一层一层形成的,拿到一堆分子后,我们就可以判断他们是否可以以此形成方式,形成一架飞机。
附:展示了数据是如何“流动”的。 物质组成视角:神经网络的学习过程就是学习物质组成方式的过程。 增加节点数:增加同一层物质的种类,比如118个元素的原子层就有118个节点。 增加层数:增加更多层级,比如分子层,原子层,器官层,并通过判断更抽象的概念来识别物体。三、神经网络的训练知道了神经网络的学习过程就是学习控制着空间变换方式(物质组成方式)的权重矩阵后,接下来的问题就是如何学习每一层的权重矩阵W。如何训练:既然我们希望网络的输出尽可能的接近真正想要预测的值。那么就可以通过比较当前网络的预测值和我们真正想要的目标值,再根据两者的差异情况来更新每一层的权重矩阵(比如,如果网络的预测值高了,就调整权重让它预测低一些,不断调整,直到能够预测出目标值)。因此就需要先定义“如何比较预测值和目标值的差异”,这便是损失函数或目标函数(loss function or objective function),用于衡量预测值和目标值的差异的方程。loss function的输出值(loss)越高表示差异性越大。那神经网络的训练就变成了尽可能的缩小loss的过程。
所用的方法是梯度下降(Gradient descent):通过使loss值向当前点对应梯度的反方向不断移动,来降低loss。一次移动多少是由学习速率(learning rate)来控制的。梯度下降的问题:然而使用梯度下降训练神经网络拥有两个主要难题。1、局部极小值梯度下降寻找的是loss function的局部极小值,而我们想要全局最小值。如下图所示,我们希望loss值可以降低到右侧深蓝色的最低点,但loss有可能“卡”在左侧的局部极小值中。
&img src="" data-rawwidth="420" data-rawheight="250" class="content_image" width="420"&试图解决“卡在局部极小值”问题的方法分两大类:试图解决“卡在局部极小值”问题的方法分两大类:调节步伐:调节学习速率,使每一次的更新“步伐”不同。常用方法有:随机梯度下降(Stochastic Gradient Descent (SGD):每次只更新一个样本所计算的梯度小批量梯度下降(Mini-batch gradient descent):每次更新若干样本所计算的梯度的平均值动量(Momentum):不仅仅考虑当前样本所计算的梯度;Nesterov动量(Nesterov Momentum):Momentum的改进Adagrad、RMSProp、Adadelta、Adam:这些方法都是训练过程中依照规则降低学习速率,部分也综合动量优化起点:合理初始化权重(weights initialization)、预训练网络(pre-train),使网络获得一个较好的“起始点”,如最右侧的起始点就比最左侧的起始点要好。常用方法有:高斯分布初始权重(Gaussian distribution)、均匀分布初始权重(Uniform distribution)、Glorot 初始权重、He初始权、稀疏矩阵初始权重(sparse matrix)2、梯度的计算机器学习所处理的数据都是高维数据,该如何快速计算梯度、而不是以年来计算。
其次如何更新隐藏层的权重?
解决方法是:计算图:反向传播算法
这里的解释留给非常棒的
需要知道的是,反向传播算法是求梯度的一种方法。如同快速傅里叶变换(FFT)的贡献。
而计算图的概念又使梯度的计算更加合理方便。基本流程图:下面就结合图简单浏览一下训练和识别过程,并描述各个部分的作用。要结合图解阅读以下内容。但手机显示的图过小,最好用电脑打开。收集训练集(train data):也就是同时有input以及对应label的数据。每个数据叫做训练样本(sample)。label也叫target,也是机器学习中最贵的部分。上图表示的是我的数据库。假设input本别是x的维度是39,label的维度是48。设计网络结构(architecture):确定层数、每一隐藏层的节点数和激活函数,以及输出层的激活函数和损失函数。上图用的是两层隐藏层(最后一层是输出层)。隐藏层所用激活函数a( )是ReLu,输出层的激活函数是线性linear(也可看成是没有激活函数)。隐藏层都是1000节点。损失函数L( )是用于比较距离MSE:mean((output - target)^2)。MSE越小表示预测效果越好。训练过程就是不断减小MSE的过程。到此所有数据的维度都已确定:训练数据:权重矩阵:偏移向量:网络输出:数据预处理(preprocessing):将所有样本的input和label处理成能够使用神经网络的数据,label的值域符合激活函数的值域。并简单优化数据以便让训练易于收敛。比如中心化(mean subtraction)、归一化(normlization)、主成分分析(PCA)、白化(whitening)。假设上图的input和output全都经过了中心化和归一化。权重初始化(weights initialization):在训练前不能为空,要初始化才能够计算loss从而来降低。初始化决定了loss在loss function中从哪个点开始作为起点训练网络。上图用均匀分布初始权重(Uniform distribution)。训练网络(training):训练过程就是用训练数据的input经过网络计算出output,再和label计算出loss,再计算出gradients来更新weights的过程。正向传递:,算当前网络的预测值计算loss:计算梯度:从loss开始反向传播计算每个参数(parameters)对应的梯度(gradients)。这里用Stochastic Gradient Descent (SGD) 来计算梯度,即每次更新所计算的梯度都是从一个样本计算出来的。传统的方法Gradient Descent是正向传递所有样本来计算梯度。SGD的方法来计算梯度的话,loss function的形状如下图所示会有变化,这样在更新中就有可能“跳出”局部最小值。 更新权重:这里用最简单的方法来更新,即所有参数都 预测新值:训练过所有样本后,打乱样本顺序再次训练若干次。训练完毕后,当再来新的数据input,就可以利用训练的网络来预测了。这时的output就是效果很好的预测值了。下图是一张实际值和预测值的三组对比图。输出数据是48维,这里只取1个维度来画图。蓝色的是实际值,绿色的是实际值。最上方的是训练数据的对比图,而下方的两行是神经网络模型从未见过的数据预测对比图。(不过这里用的是RNN,主要是为了让大家感受一下效果)12113 条评论分享收藏感谢收起Github 上有同学总结了一份 机器学习和深度学习资料列表 ,共两篇,总计接近 1000 条。原文第一篇如下:
机器学习(Machine Learning)&深度学习(Deep Learning)资料(Chapter 1)注:机器学习资料共500条,开始更新希望转载的朋友,你可以不用联系我.但是一定要保留原文链接,因为这个项目还在继续也在不定期更新.希望看到文章的朋友能够学到更多.此外:某些资料在中国访问需要梯子.
介绍:这是一篇介绍机器学习历史的文章,介绍很全面,从感知机、神经网络、决策树、SVM、Adaboost到随机森林、Deep Learning.
介绍:这是瑞士人工智能实验室Jurgen Schmidhuber写的最新版本《神经网络与深度学习综述》本综述的特点是以时间排序,从1940年开始讲起,到60-80年代,80-90年代,一直讲到2000年后及最近几年的进展。涵盖了deep learning里各种tricks,引用非常全面.
介绍:这是一份python机器学习库,如果您是一位python工程师而且想深入的学习机器学习.那么这篇文章或许能够帮助到你.
介绍:这一篇介绍如果设计和管理属于你自己的机器学习项目的文章,里面提供了管理模版、数据管理与实践方法.
介绍:如果你还不知道什么是机器学习,或则是刚刚学习感觉到很枯燥乏味。那么推荐一读。这篇文章已经被翻译成中文,如果有兴趣可以移步
介绍:R语言是机器学习的主要语言,有很多的朋友想学习R语言,但是总是忘记一些函数与关键字的含义。那么这篇文章或许能够帮助到你
介绍:我该如何选择机器学习算法,这篇文章比较直观的比较了Naive Bayes,Logistic Regression,SVM,决策树等方法的优劣,另外讨论了样本大小、Feature与Model权衡等问题。此外还有已经翻译了的版本:
介绍:深度学习概述:从感知机到深度网络,作者对于例子的选择、理论的介绍都很到位,由浅入深。翻译版本:
介绍:&机器学习与优化&这是一本机器学习的小册子, 短短300多页道尽机器学习的方方面面. 图文并茂, 生动易懂, 没有一坨坨公式的烦恼. 适合新手入门打基础, 也适合老手温故而知新. 比起MLAPP/PRML等大部头, 也许这本你更需要!具体内容推荐阅读:
介绍:作者是来自百度,不过他本人已经在2014年4月份申请离职了。但是这篇文章很不错如果你不知道深度学习与支持向量机/统计学习理论有什么联系?那么应该立即看看这篇文章.
介绍:这本书是由谷歌公司和MIT共同出品的计算机科学中的数学:,Eric Lehman et al 2013 。分为5大部分:1)证明,归纳。2)结构,数论,图。3)计数,求和,生成函数。4)概率,随机行走。5)递归。等等
介绍:信息时代的计算机科学理论,目前国内有纸质书购买,
介绍:这是一本由雪城大学新编的第二版《数据科学入门》教材:偏实用型,浅显易懂,适合想学习R语言的同学选读。
介绍:这并不是一篇文档或书籍。这是篇向图灵奖得主Donald Knuth提问记录稿: 近日, Charles Leiserson, Al Aho, Jon Bentley等大神向Knuth提出了20个问题,内容包括TAOCP,P/NP问题,图灵机,逻辑,以及为什么大神不用电邮等等。
介绍:不会统计怎么办?不知道如何选择合适的统计模型怎么办?那这篇文章你的好好读一读了麻省理工Joshua B. Tenenbaum和剑桥Zoubin Ghahramani合作,写了一篇关于automatic statistician的文章。可以自动选择回归模型类别,还能自动写报告...
介绍:对深度学习和representation learning最新进展有兴趣的同学可以了解一下
介绍:这是一本信息检索相关的书籍,是由斯坦福Manning与谷歌副总裁Raghavan等合著的Introduction to Information Retrieval一直是北美最受欢迎的信息检索教材之一。最近作者增加了该课程的幻灯片和作业。IR相关资源:
介绍:Deniz Yuret用10张漂亮的图来解释机器学习重要概念:1. Bias/Variance Tradeoff 2. Overfitting 3. Bayesian / Occam's razor 4. Feature combination 5. Irrelevant feature 6. Basis function 7. Discriminative / Generative 8. Loss function 9. Least squares 10. Sparsity.很清晰
介绍:雅虎研究院的数据集汇总: 包括语言类数据,图与社交类数据,评分与分类数据,计算广告学数据,图像数据,竞赛数据,以及系统类的数据。
介绍:这是一本斯坦福统计学著名教授Trevor Hastie和Robert Tibshirani的新书,并且在2014年一月已经开课:
介绍:机器学习最佳入门学习资料汇总是专为机器学习初学者推荐的优质学习资源,帮助初学者快速入门。而且这篇文章的介绍已经被翻译成。如果你不怎么熟悉,那么我建议你先看一看中文的介绍。
介绍:主要是顺着Bengio的PAMI review的文章找出来的。包括几本综述文章,将近100篇论文,各位山头们的Presentation。全部都可以在google上找到。
介绍:这是一本书籍,主要介绍的是跨语言信息检索方面的知识。理论很多
介绍:本文共有三个系列,作者是来自IBM的工程师。它主要介绍了推荐引擎相关算法,并帮助读者高效的实现这些算法。&,
介绍:康奈尔大学信息科学系助理教授David Mimno写的《对机器学习初学者的一点建议》, 写的挺实际,强调实践与理论结合,最后还引用了冯 & 诺依曼的名言: "Young man, in mathematics you don't understand things. You just get used to them."
介绍:这是一本关于分布式并行处理的数据《Explorations in Parallel Distributed Processing: A Handbook of Models, Programs, and Exercises》,作者是斯坦福的James L. McClelland。着重介绍了各种神级网络算法的分布式实现,做Distributed Deep Learning 的童鞋可以参考下
介绍:【&机器学习&是什么?】John Platt是微软研究院杰出科学家,17年来他一直在机器学习领域耕耘。近年来机器学习变得炙手可热,Platt和同事们遂决定开设,向公众介绍机器学习的研究进展。机器学习是什么,被应用在哪里?来看Platt的这篇
介绍:2014年国际机器学习大会(ICML)已经于6月21-26日在国家会议中心隆重举办。本次大会由微软亚洲研究院和清华大学联手主办,是这个有着30多年历史并享誉世界的机器学习领域的盛会首次来到中国,已成功吸引海内外1200多位学者的报名参与。干货很多,值得深入学习下
介绍:这篇文章主要是以Learning to Rank为例说明企业界机器学习的具体应用,RankNet对NDCG之类不敏感,加入NDCG因素后变成了LambdaRank,同样的思想从神经网络改为应用到Boosted Tree模型就成就了LambdaMART。,微软的机器学习大神,Yahoo 2010 Learning to Rank Challenge第一名得主,排序模型方面有RankNet,LambdaRank,LambdaMART,尤其以LambdaMART最为突出,代表论文为:&&此外,Burges还有很多有名的代表作,比如:
介绍:100 Best GitHub: Deep Learning
介绍:本教程将阐述无监督特征学习和深度学习的主要观点。通过学习,你也将实现多个功能学习/深度学习算法,能看到它们为你工作,并学习如何应用/适应这些想法到新问题上。本教程假定机器学习的基本知识(特别是熟悉的监督学习,逻辑回归,梯度下降的想法),如果你不熟悉这些想法,我们建议你去这里,并先完成第II,III,IV章(到逻辑回归)。此外这关于这套教程的源代码在github上面已经有python版本了
介绍:这份文档来自微软研究院,精髓很多。如果需要完全理解,需要一定的机器学习基础。不过有些地方会让人眼前一亮,毛塞顿开。
介绍:这是一篇介绍图像卷积运算的文章,讲的已经算比较详细的了
介绍:每天请一个大牛来讲座,主要涉及机器学习,大数据分析,并行计算以及人脑研究。&(需FQ)
介绍:一个超级完整的机器学习开源库总结,如果你认为这个碉堡了,那后面这个列表会更让你惊讶:【Awesome Awesomeness】,国内已经有热心的朋友进行了翻译,
介绍:ACL候任主席、斯坦福大学计算机系Chris Manning教授的《自然语言处理》课程所有视频已经可以在斯坦福公开课网站上观看了(如Chrome不行,可用IE观看) 作业与测验也可以下载。
介绍:对比 Deep Learning 和 Shallow Learning 的好文,来着浙大毕业、MIT 读博的 Chiyuan Zhang 的博客。
介绍:利用卷积神经网络做音乐推荐。
介绍:神经网络的免费在线书,已经写了三章了,还有对应的开源代码:&爱好者的福音。
介绍:Java机器学习相关平台和开源的机器学习库,按照大数据、NLP、计算机视觉和Deep Learning分类进行了整理。看起来挺全的,Java爱好者值得收藏。
介绍:机器学习最基本的入门文章,适合零基础者
介绍:机器学习的算法很多。很多时候困惑人们都是,很多算法是一类算法,而有些算法又是从其他算法中延伸出来的。这里,我们从两个方面来给大家介绍,第一个方面是学习的方式,第二个方面是算法的类似性。
介绍:看题目你已经知道了是什么内容,没错。里面有很多经典的机器学习论文值得仔细与反复的阅读。
介绍:视频由加州理工学院(Caltech)出品。需要英语底子。
介绍:总结了机器学习的经典书籍,包括数学基础和算法理论的书籍,可做为入门参考书单。
介绍:16本机器学习的电子书,可以下载下来在pad,手机上面任意时刻去阅读。不多我建议你看完一本再下载一本。
介绍:标题很大,从新手到专家。不过看完上面所有资料。肯定是专家了
介绍:入门的书真的很多,而且我已经帮你找齐了。
介绍:Sibyl 是一个监督式机器学习系统,用来解决预测方面的问题,比如 YouTube 的视频推荐。
介绍:Yoshua Bengio, Ian Goodfellow, Aaron Courville著
介绍:关于(Deep) Neural Networks在 NLP 和 Text Mining 方面一些paper的总结
介绍:计算机视觉入门之前景目标检测1(总结)
介绍:计算机视觉入门之行人检测
介绍:Important resources for learning and understanding . Is awesome
介绍:这又是一篇机器学习初学者的入门文章。值得一读
介绍:在线Neural Networks and Deep Learning电子书
介绍:python的17个关于机器学习的工具
介绍:下集在这里
介绍:作者王益目前是腾讯广告算法总监,王益博士毕业后在google任研究。这篇文章王益博士7年来从谷歌到腾讯对于分布机器学习的所见所闻。值得细读
介绍:把机器学习提升的级别分为0~4级,每级需要学习的教材和掌握的知识。这样,给机器学习者提供一个上进的路线图,以免走弯路。另外,整个网站都是关于机器学习的,资源很丰富。
介绍:机器学习各个方向综述的网站
介绍:深度学习阅资源列表
介绍:这是一本来自微的研究员 li Peng和Dong Yu所著的关于深度学习的方法和应用的电子书
介绍:2014年七月CMU举办的机器学习夏季课刚刚结束 有近50小时的视频、十多个PDF版幻灯片,覆盖 深度学习,贝叶斯,分布式机器学习,伸缩性 等热点话题。所有13名讲师都是牛人:包括大牛Tom Mitchell (他的[机器学习]是名校的常用教材),还有CMU李沐 .(1080P高清哟)
介绍:在今年的IEEE/IFIP可靠系统和网络(DSN)国际会议上,Google软件工程师Tushar Chandra做了一个关于Sibyl系统的主题演讲。 Sibyl是一个监督式机器学习系统,用来解决预测方面的问题,比如YouTube的视频推荐。详情请阅读
介绍:谷歌研究院的Christian Szegedy在谷歌研究院的博客上简要地介绍了他们今年参加ImageNet取得好成绩的GoogLeNet系统.是关于图像处理的。
介绍:贝叶斯学习。如果不是很清可看看
介绍:网友问伯克利机器学习大牛、美国双料院士Michael I. Jordan:"如果你有10亿美金,你怎么花?Jordan: "我会用这10亿美金建造一个NASA级别的自然语言处理研究项目。"
介绍:常见面试之机器学习算法思想简单梳理,此外作者还有一些其他的和,不仅是理论还有源码。
介绍:Videolectures上最受欢迎的25个文本与数据挖掘视频汇总
介绍:在Kaggle上经常取得不错成绩的Tim Dettmers介绍了他自己是怎么选择深度学习的GPUs, 以及个人如何构建深度学习的GPU集群:&
介绍:对话机器学习大神Michael Jordan
介绍:还有2,3部分。
介绍:是Stanford 教授 Andrew Ng 的 Deep Learning 教程,国内的机器学习爱好者很热心的把这个教程翻译成了中文。如果你英语不好,可以看看这个
介绍:因为近两年来,深度学习在媒体界被炒作很厉害(就像大数据)。其实很多人都还不知道什么是深度学习。这篇文章由浅入深。告诉你深度学究竟是什么!
介绍:这是斯坦福大学做的一免费课程(很勉强),这个可以给你在深度学习的路上给你一个学习的思路。里面提到了一些基本的算法。而且告诉你如何去应用到实际环境中。
介绍:这是多伦多大学做的一个深度学习用来识别图片标签/图转文字的demo。是一个实际应用案例。有源码
介绍:机器学习模型,阅读这个内容需要有一定的基础。
介绍: (CRAN Task Views, 34种常见任务,每个任务又各自分类列举若干常用相关工具包) 例如: 机器学习,自然语言处理,时间序列分析,空间信息分析,多重变量分析,计量经济学,心理统计学,社会学统计,化学计量学,环境科学,药物代谢动力学 等
介绍: 机器学习无疑是当前数据分析领域的一个热点内容。很多人在平时的工作中都或多或少会用到机器学习的算法。本文为您总结一下常见的机器学习算法,以供您在工作和学习中参考.
介绍: 很多干货,而且作者还总结了好几个系列。另外还作者还了一个.非常的感谢作者总结。
介绍:传送理由:Rob Fergus的用深度学习做计算机是觉的NIPS 2013教程。有mp4, mp3, pdf各种&他是纽约大学教授,目前也在Facebook工作,他2014年的8篇
介绍:FudanNLP,这是一个复旦大学计算机学院开发的开源中文自然语言处理(NLP)工具包 Fudan NLP里包含中文分词、关键词抽取、命名实体识别、词性标注、时间词抽取、语法分析等功能,对搜索引擎 文本分析等极为有价值。
介绍:LinkedIn 开源的机器学习工具包,支持单机, Hadoop cluster,和 Spark cluster 重点是 logistic regression 算法
介绍:对于英语不好,但又很想学习机器学习的朋友。是一个大的福利。机器学习周刊目前主要提供中文版,还是面向广大国内爱好者,内容涉及机器学习、数据挖掘、并行系统、图像识别、人工智能、机器人等等。谢谢作者
介绍:《线性代数》是《机器学习》的重要数学先导课程。其实《线代》这门课讲得浅显易懂特别不容易,如果一上来就讲逆序数及罗列行列式性质,很容易让学生失去学习的兴趣。我个人推荐的最佳《线性代数》课程是麻省理工Gilbert Strang教授的课程。&
介绍:大数据数据处理资源、工具不完备列表,从框架、分布式编程、分布式文件系统、键值数据模型、图数据模型、数据可视化、列存储、机器学习等。很赞的资源汇总。
介绍:雅虎邀请了一名来自本古里安大学的访问学者,制作了一套关于机器学习的系列视频课程。本课程共分为7期,详细讲解了有关SVM, boosting, nearest neighbors, decision trees 等常规机器学习算法的理论基础知识。
介绍:应对大数据时代,量子机器学习的第一个实验&
介绍:Wired杂志报道了UCLA数学博士Chris McKinlay (图1)通过大数据手段+机器学习方法破解婚恋网站配对算法找到真爱的故事,通过Python脚本控制着12个账号,下载了婚恋网站2万女用户的600万问题答案,对他们进行了统计抽样及聚类分析(图2,3),最后终于收获了真爱。科技改变命运!
介绍:MIT的Underactuated Robotics于 日开课,该课属于MIT研究生级别的课程,对机器人和非线性动力系统感兴趣的朋友不妨可以挑战一下这门课程!
介绍:mllib实践经验分享
介绍:Google用Deep Learning做的antispam(反垃圾邮件)
介绍:NLP常用信息资源*&
介绍:机器学习速查表
介绍:从1996年开始在计算机科学的论文中被引用次数最多的论文
介绍:把今年的一个ACM Trans. on Graphics (TOG)论文中的代码整理为一个开源的算法框架,共享出来了。欢迎大家使用。可以实时的采集3D数据、重建出三维模型。Online learning,GPU Random forest,GPU CRF也会后续公开。
介绍:【神经网络黑客指南】现在,最火莫过于深度学习(Deep Learning),怎样更好学习它?可以让你在浏览器中,跑起深度学习效果的超酷开源项目作者karpathy告诉你,最佳技巧是,当你开始写代码,一切将变得清晰。他刚发布了一本图书,不断在线更新
介绍:前Google广告系统工程师Josh Wills 讲述工业界和学术界机器学习的异同,大实话
介绍:使用&做电影评论的情感分析。
介绍:不仅是资料,而且还对有些资料做了注释。
介绍:深度学习入门的初级读本
介绍:机器学习教会了我们什么?
介绍:scikit-learn是在SciPy基础上构建的用于机器学习的Python模块。
介绍:乔丹教授(Michael I. Jordan)教授是机器学习领域神经网络的大牛,他对深度学习、神经网络有着很浓厚的兴趣。因此,很多提问的问题中包含了机器学习领域的各类模型,乔丹教授对此一一做了解释和展望。
介绍:A*搜索是人工智能基本算法,用于高效地搜索图中两点的最佳路径, 核心是 g(n)+h(n): g(n)是从起点到顶点n的实际代价,h(n)是顶点n到目标顶点的估算代价。
介绍:本项目利用了Microsoft Azure,可以在几分种内完成NLP on Azure Website的部署,立即开始对FNLP各种特性的试用,或者以REST API的形式调用FNLP的语言分析功能
介绍:现任复旦大学首席教授、计算机软件博士生导师。计算机科学研究所副所长.内部课程
介绍:好东西的干货真的很多
介绍:从硬件、图像到健康、生物、大数据、生物信息再到量子计算等,Amund Tveit等维护了一个DeepLearning.University小项目:收集从2014年开始深度学习文献,相信可以作为深度学习的起点,
介绍:EMNLP上两篇关于&用到了deep model组织特征;用到了stock network。
介绍:作者是深度学习一线大牛Bengio组写的教程,算法深入显出,还有实现代码,一步步展开。
介绍:许多传统的机器学习任务都是在学习function,不过谷歌目前有开始学习算法的趋势。谷歌另外的这篇学习Python程序的也有相似之处
介绍:作者是华为技术有限公司,诺亚方舟实验室,首席科学家的李航博士写的关于信息检索与自然语言处理的文章
介绍:利用机用器学习在谣言的判别上的应用,此外还有两个。一个是识别垃圾与虚假信息的.还有一个是
介绍:该课程是网易公开课的收费课程,不贵,超级便宜。主要适合于对利用R语言进行机器学习,数据挖掘感兴趣的人。
介绍:本章中作者总结了三代机器学习算法实现的演化:第一代非分布式的, 第二代工具如Mahout和Rapidminer实现基于Hadoop的扩展,第三代如Spark和Storm实现了实时和迭代数据处理。
介绍:讲计算机视觉的四部奇书(应该叫经典吧)之一,另外三本是Hartley的《多图几何》、Gonzalez的《数字图像处理》、Rafael C.Gonzalez / Richard E.Woods 的
介绍:里面基本没涉及到具体算法,但作者介绍了CF在LinkedIn的很多应用,以及他们在做推荐过程中获得的一些经验。最后一条经验是应该监控log数据的质量,因为推荐的质量很依赖数据的质量!
介绍:初学者如何查阅自然语言处理(NLP)领域学术资料
介绍:用树莓派和相机模块进行人脸识别
介绍:如何利用深度学习与大数据构建对话系统
介绍:Francis Bach合作的有关稀疏建模的新综述(书):Sparse Modeling for Image and Vision Processing,内容涉及Sparsity, Dictionary Learning, PCA, Matrix Factorization等理论,以及在图像和视觉上的应用,而且第一部分关于Why does the l1-norm induce sparsity的解释也很不错。
介绍:RKHS是机器学习中重要的概念,其在large margin分类器上的应用也是广为熟知的。如果没有较好的数学基础,直接理解RKHS可能会不易。本文从基本运算空间讲到Banach和Hilbert空间,深入浅出,一共才12页。
介绍:许多同学对于机器学习及深度学习的困惑在于,数学方面已经大致理解了,但是动起手来却不知道如何下手写代码。斯坦福深度学习博士Andrej Karpathy写了一篇实战版本的深度学习及机器学习教程,手把手教你用Javascript写神经网络和SVM.
介绍:【语料库】语料库资源汇总
介绍:本文会过一遍最流行的机器学习算法,大致了解哪些方法可用,很有帮助。
介绍:这个里面有很多关于机器学习、信号处理、计算机视觉、深入学习、神经网络等领域的大量源代码(或可执行代码)及相关论文。科研写论文的好资源
介绍:NYU 2014年的深度学习课程资料,有视频
介绍:计算机视觉数据集不完全汇总
介绍:机器学习开源软件
介绍:A Library for Support Vector Machines
介绍:之一
介绍:github上面100个非常棒的项目
介绍:当前加州大学欧文分校为机器学习社区维护着306个数据集。
介绍:Andrej Karpathy 是斯坦福大学Li Fei-Fei的博士生,使用机器学习在图像、视频语义分析领域取得了科研和工程上的突破,发的文章不多,但每个都很扎实,在每一个问题上都做到了state-of-art.
介绍:Andrej Karpathy的深度强化学习演示,
介绍:CIKM Cup(或者称为CIKM Competition)是ACM CIKM举办的国际数据挖掘竞赛的名称。
介绍:杰弗里&埃弗里斯特&辛顿 FRS是一位英国出生的计算机学家和心理学家,以其在神经网络方面的贡献闻名。辛顿是反向传播算法和对比散度算法的发明人之一,也是深度学习的积极推动者.
介绍:微软研究院深度学习技术中心在CIKM2014 上关于《自然语言处理的深度学习理论与实际》教学讲座的幻灯片
介绍: 本文基于&支持向量机的高频限价订单的动态建模&采用了 Apache Spark和Spark MLLib从纽约股票交易所的订单日志数据构建价格运动预测模型。(股票有风险,投资谨慎)GitHub源代码托管.
介绍:徐宗本 院士将于热爱机器学习的小伙伴一起探讨有关于机器学习的几个理论性问题,并给出一些有意义的结论。最后通过一些实例来说明这些理论问题的物理意义和实际应用价值。
介绍:作者还著有《这就是搜索引擎:核心技术详解》一书,主要是介绍应用层的东西
介绍:机器学习课程
介绍:人脸识别必读文章推荐
介绍:推荐系统经典论文文献
介绍:人脸识别必读文章推荐
介绍:第十二届中国"机器学习及其应用"研讨会PPT
介绍:统计学习是关于计算机基于数据构建的概率统计模型并运用模型对数据进行预测和分析的一门科学,统计学习也成为统计机器学习。课程来自上海交通大学
介绍:机器学习的目标是对计算机编程,以便使用样本数据或以往的经验来解决给定的问题.
介绍:CIKM 2014 Jeff Dean、Qi Lu、Gerhard Weikum的主题报告的幻灯片, Alex Smola、Limsoon Wong、Tong Zhang、Chih-Jen Lin的Industry Track报告的幻灯片
介绍:部分中文
介绍:此外作者还有一篇
介绍:加州伯克利大学博士Aria Haghighi写了一篇超赞的数值优化博文,从牛顿法讲到拟牛顿法,再讲到BFGS以及L-BFGS, 图文并茂,还有伪代码。强烈推荐。
介绍:还有续集
介绍:R语言程序员私人定制版
介绍:谷歌地图解密
介绍:空间数据挖掘常用方法
介绍:Kaggle新比赛 &When bag of words meets bags of popcorn& aka &边学边用word2vec和deep learning做NLP& 里面全套教程教一步一步用python和gensim包的word2vec模型,并在实际比赛里面比调参数和清数据。 如果已装过gensim不要忘升级
介绍:PyNLPIR提供了NLPIR/ICTCLAS汉语分词的Python接口,此外提供了常用汉字常量,如CJK字符和偏旁,中文标点,拼音,和汉字正则表达式(如找到文本中的繁体字)
介绍:这文章说把最近模型识别上的突破应用到围棋软件上,打16万张职业棋谱训练模型识别功能。想法不错。训练后目前能做到不用计算,只看棋盘就给出下一步,大约10级棋力。但这篇文章太过乐观,说什么人类的最后一块堡垒马上就要跨掉了。话说得太早。不过,如果与别的软件结合应该还有潜力可挖。@万精油墨绿
介绍:UT Austin教授Eric Price关于今年NIPS审稿实验的详细分析,他表示,根据这次实验的结果,如果今年NIPS重新审稿的话,会有一半的论文被拒。
介绍:KDNuggets分别总结了2014年14个阅读最多以及分享最多的文章。我们从中可以看到多个主题&&深度学习,数据科学家职业,教育和薪酬,学习数据科学的工具比如R和Python以及大众投票的最受欢迎的数据科学和数据挖掘语言
介绍:Python实现线性回归,作者还有其他很棒的文章推荐可以看看
介绍:2014中国大数据技术大会33位核心专家演讲PDF下载
介绍:这是T. Mikolov & Y. Bengio最新论文Ensemble of Generative and Discriminative Techniques for Sentiment Analysis of Movie Reviews ,使用RNN和PV在情感分析效果不错,[项目代码](&Vector终于揭开面纱了嘛。
介绍:NLPIR/ICTCLAS2015分词系统发布与用户交流大会上的演讲,请更多朋友检阅新版分词吧。 我们实验室同学的演讲包括:
介绍:Convex Neural Networks 解决维数灾难
介绍:介绍CNN参数在使用bp算法时该怎么训练,毕竟CNN中有卷积层和下采样层,虽然和MLP的bp算法本质上相同,但形式上还是有些区别的,很显然在完成CNN反向传播前了解bp算法是必须的。此外作者也做了一个
介绍:如果要在一篇文章中匹配十万个关键词怎么办?&算法利用添加了返回边的Trie树,能够在线性时间内完成匹配。 但如果匹配十万个正则表达式呢 ? 这时候可以用到把多个正则优化成Trie树的方法,如日本人写的&
介绍:深度学习阅读清单
介绍:Caffe是一个开源的深度学习框架,作者目前在google工作,作者主页
介绍:2014 ImageNet冠军GoogLeNet深度学习模型的Caffe复现模型,.
介绍:LambdaNetLambdaNet是由Haskell实现的一个开源的人工神经网络库,它抽象了网络创建、训练并使用了高阶函数。该库还提供了一组预定义函数,用户可以采取多种方式组合这些函数来操作现实世界数据。
介绍:如果你从事互联网搜索,在线广告,用户行为分析,图像识别,自然语言理解,或者生物信息学,智能机器人,金融预测,那么这门核心课程你必须深入了解。
介绍:"人工智能研究分许多流派。其中之一以IBM为代表,认为只要有高性能计算就可得到智能,他们的&深蓝&击败了世界象棋冠军;另一流派认为智能来自动物本能;还有个很强的流派认为只要找来专家,把他们的思维用逻辑一条条写下,放到计算机里就行&&" 杨强在TEDxNanjing谈智能的起源
介绍:1)机器翻译&2)成分句法
介绍:网易有道的三位工程师写的word2vec的解析文档,从基本的词向量/统计语言模型-&NNLM-&Log-Linear/Log-Bilinear-&层次化Log-Bilinear,到CBOW和Skip-gram模型,再到word2vec的各种tricks,公式推导与代码,基本上是网上关于word2vec资料的大合集,对word2vec感兴趣的朋友可以看看
介绍:机器学习开源软件,收录了各种机器学习的各种编程语言学术与商业的开源软件.与此类似的还有很多例如:, , , , , , , 
介绍:作者是计算机研二(写文章的时候,现在是2015年了应该快要毕业了),专业方向自然语言处理.这是一点他的经验之谈.对于入门的朋友或许会有帮助
介绍:这是一篇关于机器学习算法分类的文章,非常好
介绍:机器学习日报里面推荐很多内容,在这里有一部分的优秀内容就是来自机器学习日报.
介绍:这是一篇关于图像分类在深度学习中的文章
介绍:作者与Bengio的兄弟Samy 09年合编《自动语音识别:核方法》 3)李开复1989年《自动语音识别》专著,其博导、94年图灵奖得主Raj Reddy作序
介绍: 作者是360电商技术组成员,这是一篇NLP在中文分词中的应用
介绍: 使用deep learning的人脸关键点检测,此外还有一篇
介绍: 由Sebastian Nowozin等人编纂MIT出版的新书《Advanced Structured Prediction》&,汇集了结构化预测领域诸多牛文,涉及CV、NLP等领域,值得一读。网上公开的几章草稿:,,,,
介绍: Tropp把数学家用高深装逼的数学语言写的矩阵概率不等式用初等的方法写出来,是非常好的手册,领域内的paper各种证明都在用里面的结果。虽说是初等的,但还是非常的难
介绍: 不容错过的免费大数据集,有些已经是耳熟能详,有些可能还是第一次听说,内容跨越文本、数据、多媒体等,让他们伴你开始数据科学之旅吧,具体包括:、US Census Bureau、European Union Open Data Portal、等
介绍: 谷歌科学家、Hinton亲传弟子Ilya Sutskever的深度学习综述及实际建议
介绍: 非常好的讨论递归神经网络的文章,覆盖了RNN的概念、原理、训练及优化等各个方面内容,强烈推荐!本文作者Nikhil Buduma还有一篇值得推荐
介绍:里面融合了很多的资源,例如竞赛,在线课程,demo,数据整合等。有分类
介绍:《机器学习的统计基础》在线版,该手册希望在理论与实践之间找到平衡点,各主要内容都伴有实际例子及数据,书中的例子程序都是用R语言编写的。
介绍:IVAN VASILEV写的深度学习导引:从浅层感知机到深度网络。高可读
介绍:鲁棒及有益的人工智能优先研究计划:一封公开信,目前已经有Stuart Russell, Tom Dietterich, Eric Horvitz, Yann LeCun, Peter Norvig, Tom Mitchell, Geoffrey Hinton, Elon Musk等人签署.这封信的背景是最近霍金和Elon Musk提醒人们注意AI的潜在威胁。公开信的内容是AI科学家们站在造福社会的角度,展望人工智能的未来发展方向,提出开发AI系统的Verification,Validity, Security, Control四点要求,以及需要注意的社会问题。毕竟当前AI在经济领域,法律,以及道德领域相关研究较少。其实还有一部美剧,介绍了AI的演进从一开始的自我学习,过滤,图像识别,语音识别等判断危险,到第四季的时候出现了机器通过学习成长之后想控制世界的状态。说到这里推荐收看。
介绍:里面根据词条提供了许多资源,还有相关知识结构,路线图,用时长短等。号称是&机器学习&搜索引擎
介绍:Facebook人工智能研究院(FAIR)开源了一系列软件库,以帮助开发者建立更大、更快的深度学习模型。开放的软件库在 Facebook 被称作模块。用它们替代机器学习领域常用的开发环境 Torch 中的默认模块,可以在更短的时间内训练更大规模的神经网络模型。
介绍:本文虽然是写于2012年,但是这篇文章完全是作者的经验之作。
介绍:本文是对《机器学习实战》作者Peter Harrington做的一个访谈。包含了书中部分的疑问解答和一点个人学习建议
介绍:非常好的深度学习概述,对几种流行的深度学习模型都进行了介绍和讨论
介绍:主要是讲述了利用R语言进行数据挖掘
介绍:帮你理解卷积神经网络,讲解很清晰,此外还有两篇,. 作者的其他的关于神经网络文章也很棒
介绍:Deep Learning算法介绍,里面介绍了06年3篇让deep learning崛起的论文
介绍:一本学习人工智能的书籍,作者是Yoshua Bengio,相关
介绍:Geoffrey Hinton是Deep Learning的大牛,他的主页放了一些介绍性文章和课件值得学习
介绍:概率论:数理逻辑书籍
介绍:一个用来快速的统计,机器学习并且对于数据量大的数学库
介绍:在这里你可以看到最近深度学习有什么新动向。
介绍:此书在信息检索领域家喻户晓, 除提供该书的免费电子版外,还提供一个&,收录了信息检索、网络信息检索、搜索引擎实现等方面相关的图书、研究中心、相关课程、子领域、会议、期刊等等,堪称全集,值得收藏
介绍:信息几何学及其在机器学习中的应用
介绍:课程《法律分析》介绍幻灯片。用机器学习解决法律相关分析和预测问题,相关的法律应用包括预测编码、早期案例评估、案件整体情况的预测,定价和工作人员预测,司法行为预测等。法律领域大家可能都比较陌生,不妨了解下。
介绍: 文中提到了最优,模型,最大熵等等理论,此外还有应用篇。推荐系统可以说是一本不错的阅读稿,关于模型还推荐一篇
介绍: NeuralTalk is a Python+numpy project for learning Multimodal Recurrent Neural Networks that describe images with sentences.NeuralTalk是一个Python的从图像生成自然语言描述的工具。它实现了Google (Vinyals等,卷积神经网络CNN + 长短期记忆LSTM) 和斯坦福 (Karpathy and Fei-Fei, CNN + 递归神经网络RNN)的算法。NeuralTalk自带了一个训练好的动物模型,你可以拿狮子大象的照片来试试看
介绍:本文主要介绍了在Hadoop2.0上使用深度学习,文章来自paypal
介绍:用基于梯度下降的方法训练深度框架的实践推荐指导,作者是&.感谢@xuewei4d 推荐
介绍: 用统计和因果方法做机器学习(视频报告)
介绍: 一个讲机器学习的Youtube视频教程。160集。系统程度跟书可比拟。
介绍: 机器学习中的数学,作者的研究方向是机器学习,并行计算如果你还想了解一点其他的可以看看他的其他文章
介绍: 美团推荐算法实践,从框架,应用,策略,查询等分析
介绍: 深度学习用于问答系统答案句的选取
介绍: CNN用于WEB搜索,深度学习在文本计算中的应用
介绍: Awesome系列中的公开数据集
介绍: 一个学术搜索引擎
介绍: 用Python和Cython写的工业级自然语言处理库,号称是速度最快的NLP库,快的原因一是用Cython写的,二是用了个很巧妙的hash技术,加速系统的瓶颈,NLP中稀松特征的存取
介绍:&是个数学研究中心,上面的这份ppt是来自Fields举办的活动中Russ Salakhutdinov带来的《大规模机器学习》分享
介绍: Topic modeling 的经典论文,标注了关键点
介绍: 多伦多大学与Google合作的新论文,深度学习也可以用来下围棋,据说能达到六段水平
介绍: 新闻,paper,课程,book,system,CES,Roboot,此外还推荐一个
介绍: 18 free eBooks on Machine Learning
介绍:Chief scientist of Noah's Ark Lab of Huawei Technologies.He worked at the Research Laboratories of NEC Corporation during 1990 and 2001 and Microsoft Research Asia during 2001 and 2012.
介绍: DEEPLEARNING.UNIVERSITY的论文库已经收录了963篇经过分类的深度学习论文了,很多经典论文都已经收录
介绍: Radim ?eh??ek(Gensim开发者)在一次机器学习聚会上的报告,关于word2vec及其优化、应用和扩展,很实用.
介绍:很多公司都用机器学习来解决问题,提高用户体验。那么怎么可以让机器学习更实时和有效呢?Spark MLlib 1.2里面的Streaming K-means,由斑马鱼脑神经研究的Jeremy Freeman脑神经科学家编写,最初是为了实时处理他们每半小时1TB的研究数据,现在发布给大家用了。
介绍: 这是一篇面向工程师的LDA入门笔记,并且提供一份开箱即用Java实现。本文只记录基本概念与原理,并不涉及公式推导。文中的LDA实现核心部分采用了arbylon的LdaGibbsSampler并力所能及地注解了,在搜狗分类语料库上测试良好,开源在上。
介绍: AMiner是一个学术搜索引擎,从学术网络中挖掘深度知识、面向科技大数据的挖掘。收集近4000万作者信息、8000万论文信息、1亿多引用关系、链接近8百万知识点;支持专家搜索、机构排名、科研成果评价、会议排名。
介绍: Quora上的主题,讨论Word2Vec的有趣应用,Omer Levy提到了他在CoNLL2014最佳论文里的分析结果和新方法,Daniel Hammack给出了找特异词的小应用并提供了
介绍: 机器学习公开课汇总,虽然里面的有些课程已经归档过了,但是还有个别的信息没有。感谢课程图谱的小编
介绍: 【A First Course in Linear Algebra】Robert Beezer 有答案 有移动版、打印版 使用GNU自由文档协议 引用了杰弗逊1813年的信
介绍:libfacedetection是深圳大学开源的一个人脸图像识别库。包含正面和多视角人脸检测两个算法.优点:速度快(OpenCV haar+adaboost的2-3倍), 准确度高 (FDDB非公开类评测排名第二),能估计人脸角度。
介绍:WSDM2015最佳论文 把马尔可夫链理论用在了图分析上面,比一般的propagation model更加深刻一些。通过全局的平稳分布去求解每个节点影响系数模型。假设合理(转移受到相邻的影响系数影响)。可以用来反求每个节点的影响系数
介绍:机器学习入门书籍,
介绍: 非常棒的强调特征选择对分类器重要性的文章。情感分类中,根据互信息对复杂高维特征降维再使用朴素贝叶斯分类器,取得了比SVM更理想的效果,训练和分类时间也大大降低&&更重要的是,不必花大量时间在学习和优化SVM上&&特征也一样no free lunch
介绍:CMU的统计系和计算机系知名教授Larry Wasserman 在《机器崛起》,对比了统计和机器学习的差异
介绍:随着大数据时代的到来,机器学习成为解决问题的一种重要且关键的工具。不管是工业界还是学术界,机器学习都是一个炙手可热的方向,但是学术界和工业界对机器学习的研究各有侧重,学术界侧重于对机器学习理论的研究,工业界侧重于如何用机器学习来解决实际问题。这篇文章是美团的实际环境中的实战篇
介绍:面向机器学习的高斯过程,章节概要:回归、分类、协方差函数、模型选择与超参优化、高斯模型与其他模型关系、大数据集的逼近方法等,
介绍:Python下的文本模糊匹配库,老库新推,可计算串间ratio(简单相似系数)、partial_ratio(局部相似系数)、token_sort_ratio(词排序相似系数)、token_set_ratio(词集合相似系数)等&
介绍:Blocks是基于Theano的神经网络搭建框架,集成相关函数、管道和算法,帮你更快地创建和管理NN模块.
介绍:机器学习大神Alex Smola在CMU新一期的机器学习入门课程&Introduction to Machine Learning&近期刚刚开课,课程4K高清视频同步到Youtube上,目前刚刚更新到 2.4 Exponential Families,课程视频, 感兴趣的同学可以关注,非常适合入门.
介绍:用社交用户行为学习图片的协同特征,可更好地表达图片内容相似性。由于不依赖于人工标签(标注),可用于大规模图片处理,难在用户行为数据的获取和清洗;利用社会化特征的思路值得借鉴.
介绍:Twitter技术团队对前段时间开源的时间序列异常检测算法(S-H-ESD)R包的介绍,其中对异常的定义和分析很值得参考,文中也提到&&异常是强针对性的,某个领域开发的异常检测在其他领域直接用可不行.
介绍:聚焦数据质量问题的应对,数据质量对各种规模企业的性能和效率都至关重要,文中总结出(不限于)22种典型数据质量问题显现的信号,以及典型的数据质量解决方案(清洗、去重、统一、匹配、权限清理等)
介绍:中文分词入门之资源.
介绍:15年旧金山深度学习峰会视频集萃,
介绍:很好的条件随机场(CRF)介绍文章,作者的学习笔记
介绍: 来自Stanford,用神经网络实现快速准确的依存关系解析器
介绍:做深度学习如何选择GPU的建议
介绍: Stanford的Trevor Hastie教授在H2O.ai Meet-Up上的报告,讲稀疏线性模型&&面向&宽数据&(特征维数超过样本数)的线性模型,13年同&、.
介绍: 分类整理的机器视觉相关资源列表,秉承Awesome系列风格,有质有量!作者的更新频率也很频繁
介绍: social networks course
介绍: 大规模机器学习流程的构建与部署.
介绍: 人脸识别二次开发包,免费,可商用,有演示、范例、说明书.
介绍: 采用Torch用深度学习网络理解NLP,来自Facebook 人工智能的文章.
介绍: 来自CMU的Ed Hovy和Stanford的Jiwei Li一篇有意思的Arxiv文章,作者用Shannon Entropy来刻画NLP中各项任务的难度.
介绍: 信息检索排序模型BM25(Besting Matching)。1)从经典概率模型演变而来 2)捕捉了向量空间模型中三个影响索引项权重的因子:IDF逆文档频率;TF索引项频率;文档长度归一化。3)并且含有集成学习的思想:组合了BM11和BM15两个模型。4)作者是BM25的提出者和Okapi实现者Robertson.
介绍: 自回归滑动平均(ARMA)时间序列的简单介绍,ARMA是研究时间序列的重要方法,由自回归模型(AR模型)与滑动平均模型(MA模型)为基础&混合&构成.
介绍: 把来自target的attention signal加入source encoding CNN的输入,得到了比BBN的模型好的多neural network joint model
介绍: 揭开印度菜的美味秘诀&&通过对大量食谱原料关系的挖掘,发现印度菜美味的原因之一是其中的味道互相冲突,很有趣的文本挖掘研究
介绍: HMM相关文章,此外推荐
介绍: 1)词频与其降序排序的关系,最著名的是语言学家齐夫(Zipf,49年提出的Zipf&s law,即二者成反比关系. 曼德勃罗(Mandelbrot,)引入参数修正了对甚高频和甚低频词的刻画 2)Heaps' law: 词汇表与语料规模的平方根(这是一个参数,英语0.4-0.6)成正比
介绍: J&rgen Schmidhuber在Reddit上的AMA(Ask Me Anything)主题,有不少RNN和AI、ML的干货内容,关于开源&思想&方法&建议&&耐心阅读,相信你也会受益匪浅.
介绍: 成G上T的学术数据,HN近期热议话题,主题涉及机器学习、NLP、SNA等。下载最简单的方法,通过BT软件,RSS订阅各集合即可
介绍: Scikit-Learn官网提供,在原有的Cheat Sheet基础上加上了Scikit-Learn相关文档的链接,方便浏览
介绍: 深度学习的全面硬件指南,从GPU到RAM、CPU、SSD、PCIe
介绍:Pedestrian Detection paper & data
介绍: 【神经科学碰撞人工智能】在脸部识别上你我都是专家,即使细微的差别也能辨认。研究已证明人类和灵长类动物在面部加工上不同于其他物种,人类使用梭状回面孔区(FFA)。Khaligh-Razavi等通过计算机模拟出人脸识别的FFA活动,堪称神经科学与人工智能的完美结合。
介绍: 神经网络C++教程,本文介绍了用可调节梯度下降和可调节动量法设计和编码经典BP神经网络,网络经过训练可以做出惊人和美妙的东西出来。此外作者博客的其他文章也很不错。
介绍:deeplearning4j官网提供的实际应用场景NN选择参考表,列举了一些典型问题建议使用的神经网络
介绍:一个深度学习项目,提供了Python, C/C++, Java, Scala, Go多个版本的代码
介绍:深度学习教程,
介绍:自然语言处理的发展趋势&&访卡内基梅隆大学爱德华&霍威教授.
介绍:Google对Facebook DeepFace的有力回击&& FaceNet,在LFW(Labeled Faces in the Wild)上达到99.63%准确率(新纪录),FaceNet embeddings可用于人脸识别、鉴别和聚类.
介绍:本文来自Databricks公司网站的一篇博客文章,由Joseph Bradley和Manish Amde撰写,文章主要介绍了Random Forests和Gradient-Boosted Trees(GBTs)算法和他们在MLlib中的分布式实现,以及展示一些简单的例子并建议该从何处上手..
介绍:华盛顿大学Pedro Domingos团队的DNN,提供论文和实现代码.
介绍:基于神经网络的自然语言依存关系解析器(已集成至Stanford CoreNLP),特点是超快、准确,目前可处理中英文语料,基于&思路实现.
介绍:本文根据神经网络的发展历程,详细讲解神经网络语言模型在各个阶段的形式,其中的模型包含NNLM[Bengio,2003]、Hierarchical NNLM[Bengio, 2005], Log-Bilinear[Hinton, 2007],SENNA等重要变形,总结的特别好.
介绍:经典问题的新研究:利用文本和可读性特征分类垃圾邮件。
介绍:优胜方案源码及文档,包括完整的数据处理流程,是学习Python数据处理和Kaggle经典参赛框架的绝佳实例
介绍:IPOL(在线图像处理)是图像处理和图像分析的研究期刊,每篇文章都包含一个算法及相应的代码、Demo和实验文档。文本和源码是经过了同行评审的。IPOL是开放的科学和可重复的研究期刊。我一直想做点类似的工作,拉近产品和技术之间的距离.
介绍:出自MIT,研究加密数据高效分类问题.
介绍:新加坡LV实验室的神经网络并行框架,支持构建各种并行的架构,在多机多卡,同步更新参数的情况下基本达到线性加速。12块Titan 20小时可以完成Googlenet的训练。
介绍:这是一个机器学习资源库,虽然比较少.但蚊子再小也是肉.有突出部分.此外还有一个由.
介绍:Chase Davis在NICAR15上的主题报告材料,用Scikit-Learn做监督学习的入门例子.
介绍:这是一本自然语言处理的词典,从1998年开始到目前积累了成千上万的专业词语解释,如果你是一位刚入门的朋友.可以借这本词典让自己成长更快.
介绍:通过分析1930年至今的比赛数据,用PageRank计算世界杯参赛球队排行榜.
介绍:R语言教程,此外还推荐一个R语言教程.
介绍:经典老文,复杂网络社区发现的高效算法,Gephi中的即基于此.
介绍: 一个面向 .net 的开源机器学习库,
介绍: 支持node.js的JS神经网络库,可在客户端浏览器中运行,支持LSTM等&
介绍: 决策树
介绍: 讨论深度学习自动编码器如何有效应对维数灾难,
介绍: CMU的优化与随机方法课程,由A. Smola和S. Sra主讲,优化理论是机器学习的基石,值得深入学习&
介绍: "面向视觉识别的CNN"课程设计报告集锦.近百篇,内容涉及图像识别应用的各个方面
介绍:用Spark的MLlib+GraphX做大规模LDA主题抽取.
介绍: 基于深度学习的多标签分类,用基于RBM的DBN解决多标签分类(特征)问题
介绍: DeepMind论文集锦
介绍: 一个开源语音识别工具包,它目前托管在上面
介绍: 免费电子书《数据新闻手册》, 国内有热心的朋友翻译了,大家也可以
介绍: 零售领域的数据挖掘文章.
介绍: 深度学习卷积概念详解,深入浅出.
介绍: 非常强大的Python的数据分析工具包.
介绍: 2015文本分析(商业)应用综述.
介绍: 深度学习框架、库调研及Theano的初步测试体会报告.
介绍: MIT的Yoshua Bengio等人讲深度学习的新书,还未定稿,线上提供Draft chapters收集反馈,超赞!强烈推荐.
介绍: Python下开源可持久化朴素贝叶斯分类库.
介绍:Paracel is a distributed computational framework designed for machine learning problems, graph algorithms and scientific computing in C++.
介绍: 开源汉语言处理包.
介绍: 使用Ruby实现简单的神经网络例子.
介绍:神经网络黑客入门.
介绍:好多数据科学家名人推荐,还有资料.
介绍:实现项目已经开源在github上面
介绍:作者发现,经过调参,传统的方法也能和word2vec取得差不多的效果。另外,无论作者怎么试,GloVe都比不过word2vec.
介绍:Stanford深度学习与自然语言处理课程,Richard Socher主讲.
介绍:机器学习中的重要数学概念.
介绍:用于改进语义表示的树型LSTM递归神经网络,句子级相关性判断和情感分类效果很好..
介绍:卡耐基梅隆Ryan Tibshirani和Larry Wasserman开设的机器学习课程,先修课程为机器学习(10-715)和中级统计学(36-705),聚焦统计理论和方法在机器学习领域应用.
介绍:《哈佛大学蒙特卡洛方法与随机优化课程》是哈佛应用数学研究生课程,由V Kaynig-Fittkau、P Protopapas主讲,Python程序示例,对贝叶斯推理感兴趣的朋友一定要看看,提供授.
介绍:生物医学的SPARK大数据应用.并且伯克利开源了他们的big data genomics系统,其他的内容可以关注一下.
介绍:对自然语言处理技术或者机器翻译技术感兴趣的亲们,请在提出自己牛逼到无以伦比的idea(自动归纳翻译规律、自动理解语境、自动识别语义等等)之前,请通过谷歌学术简单搜一下,如果谷歌不可用,这个网址有这个领域几大顶会的论文列表,切不可断章取义,胡乱假设.
介绍:论文+代码:基于集成方法的Twitter情感分类,.
介绍:NIPS CiML 2014的PPT,NIPS是神经信息处理系统进展大会的英文简称.
介绍:斯坦福的深度学习课程的Projects 每个人都要写一个论文级别的报告 里面有一些很有意思的应用 大家可以看看 .
介绍:R语言线性回归多方案速度比较具体方案包括lm()、nls()、glm()、bayesglm()、nls()、mle2()、optim()和Stan&s optimizing()等.
介绍:文中提到的三篇论文(机器学习那些事、无监督聚类综述、监督分类综述)都很经典,Domnigos的机器学习课也很精彩
介绍:莱斯大学(Rice University)的深度学习的概率理论.
介绍:基于马尔可夫链自动生成啤酒评论的开源Twitter机器人,.
介绍:视频+讲义:深度学习用于自然语言处理教程(NAACL13).
介绍:用机器学习做数据分析,David Taylor最近在McGill University研讨会上的报告,还提供了一系列讲机器学习方法的ipn,很有价值&.
介绍:基于CNN+LSTM的视频分类,.
介绍:Quora怎么用机器学习.
介绍:亚马逊在机器学习上面的一些应用,.
介绍:并行机器学习指南(基于scikit-learn和IPython).
介绍:DataSchool的机器学习基本概念教学.
介绍:一个基于OpenGL实现的卷积神经网络,支持Linux及Windows系.
介绍:基于Mahout和Elasticsearch的推荐系统.
介绍:Francis X. Diebold的《(经济|商业|金融等领域)预测方法.
介绍:Francis X. Diebold的《时序计量经济学》.
介绍:基于Yelp数据集的开源比较,评测覆盖Naive Bayes、SentiWordNet、CoreNLP等 .
介绍:国内Pattern Recognition And Machine Learning读书会资源汇总,,.
介绍:用于Web分析和数据挖掘的概率数据结构.
介绍:机器学习在导航上面的应用.
介绍:Neural Networks Demystified系列视频,Stephen Welch制作,纯手绘风格,浅显易懂,.
介绍:{swirl}数据训练营:R&数据科学在线交互教程.
介绍:关于深度学习和RNN的讨论&.
介绍:Deep Reinforcement Learning.
介绍:(PyCon2015)Scikit-Learn机器学习教程,.
介绍:PDNN: A Python Toolkit for Deep Learning.
介绍:15年春季学期CMU的机器学习课程,由Alex Smola主讲,提供讲义及授课视频,很不错..
介绍:大数据处理课.内容覆盖流处理、MapReduce、图算法等.
介绍:用Spark MLlib实现易用可扩展的机器学习,.
介绍:以往上千行代码概率编程(语言)实现只需50行.
介绍:ggplot2速查小册子,,此外还推荐.
介绍:用结构化模型来预测实时股票行情.
介绍:录取论文列表,大部分论文可使用Google找到.
介绍:一般矩阵乘法(GEMM)对深度学习的重要性.
介绍:A Community of awesome Distributed Machine Learning C++ projects.
介绍:免费电子书&强化学习介绍&,,,相关课程,.
介绍:免费书:Azure ML使用精要.
介绍:A Deep Learning Tutorial: From Perceptrons to Deep Networks.
介绍:有趣的机器学习:最简明入门指南,.
介绍:深度学习简明介绍,.
介绍:Portable, scalable and reliable distributed machine learning.
介绍:CNN开源实现横向评测,参评框架包括Caffe 、Torch-7、CuDNN 、cudaconvnet2 、fbfft、Nervana Systems等,NervanaSys表现突出.
介绍:卡耐基梅隆大学计算机学院语言技术系的资源大全,包括大量的NLP开源软件工具包,基础数据集,论文集,数据挖掘教程,机器学习资源.
介绍:Twitter情感分析工具SentiTweet,.
介绍:华盛顿大学的Machine Learning Paper Repository.
介绍:机器学习速查表.
介绍:最新的Spark summit会议资料.
介绍:最新的Spark summit会议资料.
介绍:Ebook Learning Spark.
介绍:Ebook Advanced Analytics with Spark, Early Release Edition.
介绍:清华大学副教授,是图挖掘方面的专家。他主持设计和实现的Arnetminer是国内领先的图挖掘系统,该系统也是多个会议的支持商.
介绍:迁移学习的国际领军人物.
介绍:在半监督学习,multi-label学习和集成学习方面在国际上有一定的影响力.
介绍:信息检索,自然语言处理,机器翻译方面的专家.
介绍:吴军博士是当前Google中日韩文搜索算法的主要设计者。在Google其间,他领导了许多研发项目,包括许多与中文相关的产品和自然语言处理的项目,他的.
介绍:喵星人相关论文集.
介绍:如何评价机器学习模型系列文章,,.
介绍:Twitter新trends的基本实现框架.
介绍:Storm手册,国内有,谢谢作者.
介绍:Java机器学习算法库SmileMiner.
介绍:机器翻译学术论文写作方法和技巧,Simon Peyton Jones的同类视频,.
介绍:神经网络训练中的Tricks之高效BP,博主的其他博客也挺精彩的.
介绍:作者是NLP方向的硕士,短短几年内研究成果颇丰,推荐新入门的朋友阅读.
介绍:UCLA的Jens Palsberg根据Google Scholar建立了一个计算机领域的H-index牛人列表,我们熟悉的各个领域的大牛绝大多数都在榜上,包括1位诺贝尔奖得主,35位图灵奖得主,近百位美国工程院/科学院院士,300多位ACM Fellow,在这里推荐的原因是大家可以在google通过搜索牛人的名字来获取更多的资源,这份资料很宝贵.
介绍:用大型语料库学习概念的层次关系,如鸟是鹦鹉的上级,鹦鹉是虎皮鹦鹉的上级。创新性在于模型构造,用因子图刻画概念之间依存关系,因引入兄弟关系,图有环,所以用有环扩散(loopy propagation)迭代计算边际概率(marginal probability).
介绍: 这是一款贝叶斯分析的商业软件,官方写的有250多页,虽然R语言 已经有类似的,但毕竟可以增加一个可选项.
介绍:deep net highlights from 2014.
介绍:This paper proposes Fast R-CNN, a clean and fast framework for object detection.
介绍:图像指纹的重复识别,作者,国内.
介绍:提供计算机视觉、机器视觉应用的公司信息汇总.应用领域包括:自动辅助驾驶和交通管理、眼球和头部跟踪、影视运动分析、影视业、手势识别、通用视觉系统、各种工业自动化和检验、医药和生物、移动设备目标识别和AR、人群跟踪、摄像、安全监控、生物监控、三维建模、web和云应用.
介绍:Python版可视化数据统计开源库.
介绍:麻省理工Gilbert Strang线性代数课程笔记,Gilbert Strang《Linear Algebra》课程主页.
介绍:面向机器学习/深度学习的数据向量化工具Canova,, 支持CSV文件、MNIST数据、TF-IDF/Bag of Words/word2vec文本向量化.
介绍:快速入门:基于Apache Mahout的分布式机器学习.
介绍:基于scikit-learn讲解了一些机器学习技术,如SVM,NB,PCA,DT,以及特征工程、特征选择和模型选择问题.
介绍:基于Spark的高效机器学习,.
介绍:WePay用机器学习对抗信用卡"shell selling"诈骗.
介绍:16位数据科学家语录精选.
介绍:深度学习在大数据分析领域的应用和挑战.
介绍:免费的机器学习与数学书籍,除此之外还有其他的,编程语言,设计,操作系统等.
介绍:一篇关于CNN模型对象识别Paper.
介绍:深度学习的统计分析V:泛化和正则化.
介绍:用SGD能高效完成训练的大规模(多层)深度网络HN.
介绍:深度学习解读文章.
介绍:Coursera上的推荐系统导论(Introduction to Recommender Systems)公开课.
介绍:Andrew Ng经典机器学习课程笔记.
介绍:ICLR 2015见闻录,的其他机器学习文章也不错.
介绍:推荐系统"个性化语义排序"模型.
介绍:激情时分更惜字&&MIT的最新Twitter研究结果.
介绍:苏州大学人类语言技术研究相关论文.
介绍:实现神经图灵机(NTM),,此外推荐相关神经图灵机.
介绍:华盛顿大学的机器视觉(2015),参考资料.
介绍:"Mining of Massive Datasets"发布第二版,Jure Leskovec, Anand Rajaraman, Jeff Ullman 新版增加Jure Leskovec作为合作作者,新增社交网络图数据挖掘、降维和大规模机器学习三章,依旧免费.
介绍:一个深度学习资源页,资料很丰富.
介绍:免费电子书"Learning Deep Learning".
介绍:Machine Learning for Astronomy with scikit-learn.
介绍:免费电子书"随机森林入门指南".
介绍:白话数据挖掘十大算法.
介绍:基于Mahout和Elasticsearch的推荐系统,.
介绍:博士学位论文:ELM研究进展.
介绍:Pandas十分钟速览,.
介绍:面向数据新闻的文本挖掘.
介绍:用网络图片合成延时视频(SIGGRAPH 2015).
介绍:分类系统的维数灾难.
介绍:深度学习vs.大数据&&从数据到知识:版权的思考,[翻译版](
介绍:预测模型入门.
介绍:深入浅出LSTM.
介绍:2015年ICLR会议与.
介绍:Ben Jones的数据可视化建议.
介绍:解读数据降维/PCA/SVD.
介绍:IPN:监督学习方法示例/对比参考表,覆盖logistic回归, 决策树, SVM, KNN, Naive Bayes等方法.
介绍:基于RankSVM和DNN自动(重组)生成Rap歌词.
介绍:随机索引RI词空间模型专题.
介绍:基于机器学习的漏洞检测工具VDiscover.
介绍:深度学习系统minerva。拥有python编程接口。多GPU几乎达到线性加速。在4块GPU上能在4天内将GoogLeNet训练到68.7%的top-1以及89.0%的top-5准确率。和同为dmlc项目的cxxnet相比,采用动态数据流引擎,提供更多灵活性。未来将和cxxnet一起整合为mxnet项目,互取优势.
介绍:2015年国际计算机视觉与模式识别会议paper.
介绍:Netflix工程总监眼中的分类算法:深度学习优先级最低,.
介绍:Codalab图像标注竞赛排行+各家论文,Reddit上flukeskywalker整理了各家技术.
介绍:基于Caffe的加速深度学习系统CcT.
介绍:深度学习(模型)低精度(训练与)存储.
介绍:新书预览:模型机器学习.
介绍:免费电子书多臂老 虎 机,此外推荐.
介绍:基于Kaggle's Titanic Competition的交互式R机器学习教程,介绍.
介绍:Deep Learning(深度学习)学习笔记整理系列.
介绍:神经(感知)机器翻译介绍.
介绍:Andrew Ng关于深度学习/自学习/无监督特征学习的报告,.
介绍:论文:通过潜在知识迁移训练RNN.
介绍:面向金融数据的情感分析工具.
介绍:(Python)主题模型交互可视化库pyLDAvis.
介绍:Logistic回归与优化实例教程.
介绍:贾扬清(谷歌大脑科学家、caffe缔造者)微信讲座记录.
介绍:Theano/Blocks实现RNN手写字符串生成sketch.
介绍:基于TopSig的海量(7亿+)网页聚类.
介绍:NAACL 2015 论文papers.
介绍:机器学习预测股市的七个问题.
介绍:神经网络学习资料推荐.
介绍:面向序列学习的RNN综述.
介绍:R文本处理手册.
介绍:&必看&的Python视频集锦.
介绍:Google(基础结构)栈.
介绍:矩阵和数据的随机算法(UC Berkeley 2013).
介绍:DataCamp中级R语言教程.
介绍:免费电子书:轻松掌握拓扑学,.
介绍:Scikit-learn 是基于Scipy为机器学习建造的的一个Python模块,他的特色就是多样化的分类,回归和聚类的算法包括支持向量机,逻辑回归,朴素贝叶斯分类器,随机森林,Gradient Boosting,聚类算法和DBSCAN。而且也设计出了Python numerical和scientific libraries Numpy and Scipy
介绍:Pylearn是一个让机器学习研究简单化的基于Theano的库程序。
介绍:NuPIC是一个以HTM学习算法为工具的机器智能平台。HTM是皮层的精确计算方法。HTM的核心是基于时间的持续学习算法和储存和撤销的时空模式。NuPIC适合于各种各样的问题,尤其是检测异常和预测的流数据来源。
介绍:Nilearn 是一个能够快速统计学习神经影像数据的Python模块。它利用Python语言中的scikit-learn 工具箱和一些进行预测建模,分类,解码,连通性分析的应用程序来进行多元的统计。
介绍:Pybrain是基于Python语言强化学习,人工智能,神经网络库的简称。 它的目标是提供灵活、容易使用并且强大的机器学习算法和进行各种各样的预定义的环境中测试来比较你的算法。
介绍:Pattern 是Python语言下的一个网络挖掘模块。它为数据挖掘,自然语言处理,网络分析和机器学习提供工具。它支持向量空间模型、聚类、支持向量机和感知机并且用KNN分类法进行分类。
介绍:Fuel为你的机器学习模型提供数据。他有一个共享如MNIST, CIFAR-10 (图片数据集), Google&s One Billion Words (文字)这类数据集的接口。你使用他来通过很多种的方式来替代自己的数据。
介绍:Bob是一个免费的信号处理和机器学习的工具。它的工具箱是用Python和C++语言共同编写的,它的设计目的是变得更加高效并且减少开发时间,它是由处理图像工具,音频和视频处理、机器学习和模式识别的大量软件包构成的。
介绍:Skdata是机器学习和统计的数据集的库程序。这个模块对于玩具问题,流行的计算机视觉和自然语言的数据集提供标准的Python语言的使用。
介绍:MILK是Python语言下的机器学习工具包。它主要是在很多可得到的分类比如SVMS,K-NN,随机森林,决策树中使用监督分类法。 它还执行特征选择。 这些分类器在许多方面相结合,可以形成不同的例如无监督学习、密切关系金传播和由MILK支持的K-means聚类等分类系统。
介绍:IEPY是一个专注于关系抽取的开源性信息抽取工具。它主要针对的是需要对大型数据集进行信息提取的用户和想要尝试新的算法的科学家。
介绍:Quepy是通过改变自然语言问题从而在数据库查询语言中进行查询的一个Python框架。他可以简单的被定义为在自然语言和数据库查询中不同类型的问题。所以,你不用编码就可以建立你自己的一个用自然语言进入你的数据库的系统。现在Quepy提供对于Sparql和MQL查询语言的支持。并且计划将它延伸到其他的数据库查询语言。
介绍:Hebel是在Python语言中对于神经网络的深度学习的一个库程序,它使用的是通过PyCUDA来进行GPU和CUDA的加速。它是最重要的神经网络模型的类型的工具而且能提供一些不同的活动函数的激活功能,例如动力,涅斯捷罗夫动力,信号丢失和停止法。
介绍:它是一个由有用的工具和日常数据科学任务的扩展组成的一个库程序。
介绍:这个程序包容纳了大量能对你完成机器学习任务有帮助的实用程序模块。其中大量的模块和scikit-learn一起工作,其它的通常更有用。
介绍:Ramp是一个在Python语言下制定机器学习中加快原型设计的解决方案的库程序。他是一个轻型的pandas-based机器学习中可插入的框架,它现存的Python语言下的机器学习和统计工具(比如scikit-learn,rpy2等)Ramp提供了一个简单的声明性语法探索功能从而能够快速有效地实施算法和转换。
介绍:这一系列工具通过与scikit-learn兼容的API,来创建和测试机器学习功能。这个库程序提供了一组工具,它会让你在许多机器学习程序使用中很受用。当你使用scikit-learn这个工具时,你会感觉到受到了很大的帮助。(虽然这只能在你有不同的算法时起作用。)
介绍:REP是以一种和谐、可再生的方式为指挥数据移动驱动所提供的一种环境。它有一个统一的分类器包装来提供各种各样的操作,例如TMVA, Sklearn, XGBoost, uBoost等等。并且它可以在一个群体以平行的方式训练分类器。同时它也提供了一个交互式的情节。
介绍:用亚马逊的机器学习建造的简单软件收集。
介绍:这是一个在Python语言下基于scikit-learn的极端学习机器的实现。
介绍:电子书降维方法,此外还推荐、、
介绍:整理的深度学习数据集列表.
介绍:Go语言编写的自然语言处理工具.
介绍:词频模型对词向量的反击,参考。
介绍:预测模型的三个方面.
介绍:斯坦福大学深度学习与自然语言处理课程,部分课程笔记、
介绍:CVPR2015上Google的CV研究列表.
介绍:利用(Metamind)深度学习自动发现篮球赛精彩片段.
感谢 Qix,深度学习准备由此入坑。
,非典型程序猿
从逻辑回开始,将所有梯度求导部分都向量话,然后试着推导并向量话实现feed forward neuralnetwork,如果非常熟悉了bp算法,可以试着完成stanford的两门公开课的作业,将主流dl算法,比如cnn,rnn,lstm等全部向量化实现,当你觉得你能推导并实现任何神经网络的结构时,应该就入门了,个人基本是这么过来的。
知乎用户,computer vision
先了解个大概神经网络肯定是要学习的,主要是BP算法,可以看看PRML3、4、5三章,可先忽略其中的贝叶斯视角的解释。一些主要的算法理解要看具体的论文了,有个Matlab的程序不错,有基本算法的实现,见。有一本系统的介绍深度学习的书,不过还没写完,样稿见。还有评论中提到的UFLDL教程:
,统计套利/算法交易/机器学习/数据科
先看你有没有相关的应用需求,如果有的话就太好了。借助情景学习起来非常快。Tutorial
&- Stanford计算机系的官方tutorial,Andrew Ng执笔。要想了解DL的原理,这个最好用了。
&- 一个导论性质的文章,让你大致了解深度学习是什么,用来干什么的。
&- (Review Article in Nature, May 2015) 三大神 Yann LeCun, Yoshua Bengio, and Geoffrey Hinton的文章,不解释。
&- This technical report provides an overview of deep learning and related techniques with a special focus on developments in recent years. 主要看点是深度学习近两年()的进展情况。
&- Geoffrey Hinton在Coursera开设的MOOC。现在没有重新开课,但里面的资料都有,论坛也开放。
&- Nando de Freitas 在 Oxford 开设的深度学习课程,有全套视频。
&- Yoshua Bengio, Ian Goodfellow and Aaron Courville,目前最权威的DL教材了
几个常见应用领域:
&- finding and/or identifying specific items in videos or images
&- just like it says, cars that drive without humans
&- getting computers to understand human vocal languages
&- A free book chapter on many applications of deep learning
几个常用的深度学习代码库:
&- 一个开源的可扩展的库,支持Java, Python, Scala, and R
&- Java库,整合了Hadoop和Spark
&- Yangqing Jia读研究生的时候开发的,现在还是由Berkeley维护。
&- 最流行的Python库
&- 紧跟深度学习的新闻、研究进展和相关的创业项目。
So,各位加油咯!!!
--------------------------------------------------------补 充--------------------------------------------------------------------------
另外建议看看大神Yoshua Bengio的推荐(左边的链接是论文,右边的是代码),有理论有应用(主要应用于CV和NLP)
知乎用户,CS2EE2CS
CNN的tutorial,楼上各位说的已经很齐全了。But talk is cheap, show me the code。自己徒手撸一遍很重要啊,开源的工具包工程量大,代码还是C++,看的眼花怎么办?没错我就是来打广告的!!!:一个简单的CNN实现(Python)现在有很多深度学习工具包各种C++各种第三方依赖,适合拿来跑实验却不适合拿来入门CNN。所以就用python写了一个简单的CNN,跑一跑mnist、cifar还是可以的。评论区有知友提出im2col比较难看懂的问题,im2col是convolution层的核心操作,使我们可以用矩阵乘代替卷积计算,这样实现上更简单,不过也占用了更多的内存。caffe中的im2col貌似使用了4层for循环,而我是用python实现的,大量的for循环会降低程序的效率,所以做了一些优化,不可避免的降低了代码的可读性。
,Algorithm Engineer@iDST, Alibaba
答案已更新(16.04.13)。其他回答者资料给的很充足了,这里补充点类似于学习路径的东西。一个领域的成功,既要看自身的努力,也要考虑到历史的进程。学习深度学习的一个很好的路线就是跟着历史的进程学习一番。除了一些基础的机器学习知识,在学习和理解Deep Learning之前,需要先对于Neural Network和AutoEncoder这两个模型有所了解,特别是后者,AutoEncoder的隐藏层与输入层的关系、使用AutoEncoder来pre-training一个多层网络。下一步就是要理解『简单的增加神经网络深度』会遇到什么问题。比如diffusion of gradients,比如严重的over-fitting,比如计算时间开销。继续下去,要知道这些问题的原因与解决办法,这一步就映射到神经网络向深度学习的发展过程,比如pre-training(甚至包括大约在10年左右,pre-training技术的变化)、dropout、ReLU等技术的出现以及我们现在有能力(计算能力、相对于以前的大数据量)处理深层网络。到这里,初步理解通常意义的Deep Learning模型就是深度神经网络。但是接下来的才是关键。对于不同的应用方向,有不同的具体的DNN的模型,比如CNN之于图像,RNN之于NLP。这里以CNN为例子。CNN的特殊的一些地方在于:卷积、池化、子采样、白化、权值共享等等非常多的技术。每一个都是一个概念/方法。这是CNN所特有的。如何理解这些技术呢?动手实现一个LeNet然后跑一下Minst数据集的手写识别(或者自己搞点图像数据),学以致用,会帮助建立好的直觉,甚至可能不懂的地方也慢慢理解了。不过一个比较有趣的概念是 卷积。------这个地方说得不是很好,但是我也不知道怎么表达更清楚点------卷积这个东西有很多种理解方式:比如信号处理的理解、数学/物理上的理解、或者我的理解 :-D『个人现在持有的看法是,这些技术都围绕一个重要的观点:减少网络参数(包括卷积也是有这个功能的)。其实每一个技术,都有自己更具体的意义,但是有共性的地方』。对于使用CNN,要知道现在最常用的方法:AlexNet等的pre-training+具体问题的fine-tuning这种手段:一定要读一下一些相关paper。至于RNN,个人的经验是建议大家看一看Neural Network Language Model相关的工作。还有就是一定要动手,关于Deep Learning的库,除了经典的Caffe和Theano,这里推荐大家使用MXNet和TensorFlow。MXNet最令我喜欢的一点就是依赖极少(对我就是这么low。。。),轻便、易用以及丰富的文档和活跃的开发者社区;而TensorFlow,说真的这半年以来让我非常惊讶,具体参见这篇文章:除此之外,关于TensorFlow最近的进展&转自微博&:
TF迭代太快了,性能已经不比别的差了&,这篇文章发时还是用cudnnv2,现在已经是v4了,v5版也在进行中,分布式版本预计下一个release接口会倾向稳定,最近刚加上了一个完全随机森林实现
--04.14更新--昨天刚更新完答案,今早就看到Google最新博客:
Ever since we released TensorFlow as an open-source project, distributed training support has been one of the most requested features. Now the wait is over.&Today, we're excited to release TensorFlow 0.8 with distributed computing support, including everything you need to train distributed models on your own infrastructure.
也就是说:TF的0.8版本中,分布式的支持已经Ready!点评:你大爷还是你大爷...收藏之余,也给个赞吧~
,学生仔la
这个答案是我去年做本科毕业设计写的,那时候连模式识别是个什么概念都不懂。但毕设课题强行选了DL相关,所以给了当时自己看的资料,直接跑深度学习框架,其实并没有技术含量。发现回答以后评论与关注也较多,现在经过一年学习回头来看确实这个答案不适合扎实的新手入门,有一些误导。特此修正。我想让答案尽可能短,看起来不吓人。--------------------------------我入门CV时清华的朋友给的资料,帮助十分大!十分适合新手入门!我是本科EE入门的,所以应该没有底子比我差的了。-------------------------速成的道路---------------0、Andrew Ng的机器学习部分内容(机器学习介绍,回归问题与梯度下降,过拟合欠拟合)英文能力足够推荐英文版:(中文版对应网易公开课)(中英链接里的章节貌似不对应,按内容看)1.UFLDL:&
看这两部分内容
2.CMU Advanced Introduction to Machine Learning PPT:&
这是一门Machine Learning课程中讲到CNN的部分
CAFFE是一个常用的deep learning的软件工具,其页面上有deep learning的tutorial材料,同时想要深入了解具体实现的话可以直接阅读源代码
--------------------------比较全面的道路--------------
一个技术上认识DL(这里说CNN),的顺序是:线性分类-&感知机-&梯度下降-&神经网络-&BP算法-&三层全连接网络-&CNN感悟上认识DL的顺序是:(生物基础)Hubel&Wiesel视通路研究 --&(计算机模拟)神经网络--&神经网络很好骗--&神经网络一定要深吗?--&神经网络一定要深--&混沌理论&量子力学
CNN的入门可以参考今年斯坦福刚开的一门课,slides和一些资料可以从课程主页下载到:
,CS PhD@Bupt, Deep Learning and Compute&
Deep Learning还需要入门?!俺们都是用踹门的!开个小玩笑!如果你想了解理论的东西,可以直接看如果你是在读硕士或博士的话,看完UFLDL教程后,先看看LeNet5那篇文章热热身,然后建议你直接看看Hinton et al &ImageNet classification with deep convolutional neural networks&和最近港文的王小刚老师和FaceBook的杨铭老师的相关工作!都在LFW数据库上得到了很好的效果!而实际代码的东西,目前Caffe&和MatConvNet&都是比较好的框架!前者是基于C++代码,提供了Matlab和python的接口,而后者是Matlab的代码,在学术界的影响力不如caffe!但两者作为入门都绝对够了!而caffe更好的一点在于,它能够让你在大框架不变的情况下,fine-tunning你自己的数据库,得到对应的model。但效果估计不好,主要原因是理想的模型是需要与数据的分布与规模 相match,否则要么over-fitting,要么under-fitting。在看完最基本的DL内容后,这两个框架均不难理解~但对于不同情况下的Train model的生成,如上所述,则是个经验活!
,微信订阅号:黑客与画家
提供一个特别的角度,从代码层面分析深度学习。这只能当辅助材料,基础功还是要找正规的教材系统性学习。我不是专业研究深度学习的,边学边写,发现 bug 请指教。未完待续
所有不学基础理论就先用工具看代码改代码的都是为了短期利益而牺牲长期利益。神经网络都不懂, feed forward, backward propagation, loss function,gradient 都推不明白的,就别先入门 deep learning了。深度学习不是魔术,不是你传个输入,验个输出,再看看改改哪个参数结果更好就行的。如果你的要求只是会用caffe,那你其实也不需要入门。&:UFLDL,理论性强,但是比较抽象,适合数学基础扎实的人&stanford 224d, 文本方面的深度学习&stanford 231n, CV方面的深度学习这两个课程的最大好处是用ipython notebook这个平台来做作业。你需要自己编写最核心的代码,它帮助你实时展示验证你的结果, 你还可以自己定义很多输出方式。而这两个课程都很注重程序的效率,它对factorization的要求之高超乎我的想象。我上完课才发现自己以前写的python都是幼稚园手工。而Andrew Ng 在ML课程里所教的很多东西课程里也有涉及,如何train, validate, test,如何选择参数,如何选择初始化,如何根据图像来判断你的模型参数是否合适等等等

我要回帖

 

随机推荐