机器学习的学习应该看哪些书籍

主题信息(必填)
主题描述(最多限制在50个字符)
申请人信息(必填)
申请信息已提交审核,请注意查收邮件,我们会尽快给您反馈。
如有疑问,请联系
CSDN &《程序员》编辑/记者,投稿&纠错等事宜请致邮
你只管努力,剩下的交给时光!
如今的编程是一场程序员和上帝的竞赛,程序员要开发出更大更好、傻瓜都会用到软件。而上帝在努力创造出更大更傻的傻瓜。目前为止,上帝是赢的。个人网站:。个人QQ群:、
个人大数据技术博客:
作者:徐晗曦
本次转载已获得作者授权,尊重原创,若需转载请联系作者本人。
这个世界不缺少专家,我只是期待他们中有一位能把事情说清楚。
机器学习很火。
机器学习专家很贵。
所有大型互联网公司都驾着机器学习的马车朝着人工智能前进。然而今天哪怕是互联网从业者,大部分也是不知道机器学习到底是什么的。机器如何学习?机器学到的是什么?为什么机器经过学习能够神奇的预测用户的喜好、股票的涨跌?人们好奇又渴望。这里所说的从业者可能是开发工程师,可能是产品经理,也可能是运营,他们与机器学习专家们在同一家公司工作,参与同一个项目,但机器学习算法对他们仍然像黑魔法一样,神秘又疑惑。这样的局面未免让人沮丧,毕竟如果相对论都可以在高等教育中得到普及,有什么领域是复杂到没办法好好说清楚的呢。据我有限的观察,造成这个局面的原因无非两种:
不少专业人士乐于将机器学习包装得晦涩曲折,以享用他人迷惑眼神中的优越感。
很少人把机器学习以直接的、让人容易理解的方式说出来。有那么几个在这样做的人,面向的也是专业领域学习者而非一般的科普受众。
我鄙视第一种人类。我希望所有的写作者都能够追逐Richard Stevens的光芒,把复杂的东西变简单,追求简洁明了,追求直接易懂。这个系列文章,我将试着为开发工程师,产品经理、设计师、所有希望了解学习机器学习的人,介绍机器学习的原理、方法和实战技巧。我追求它尽可能好理解的同时,也会保持它的准确度和实用度。理论方面,以周志华的,林軒田機器學習系列课程(、),Andrew Ng’s
为学习资料,结合我个人的理解及日常与朋友同事的讨论。实用实战方面,我将以手机淘宝中第一款** DAU (Daily Active User) 导购产品——有好货为例子,如果你从事导购或者电商相关工作那么对例子中的场景一定非常熟悉。如果你对导购并不了解也不用担心,讲解的重点仍是机器学习原理和方法的普世应用,理解了原理方法之后可以在任何适合机器学习的场景中进行实践。这是这个系列的第一篇,看完这篇您将知道
什么是机器学习?
机器学到的到底是什么?
什么样的问题适合用机器学习来解决?
2. 什么是机器学习?机器学到的到底是什么?2.1 什么是机器学习?在讨论机器学习之前,我们首先看看人类是如何学习的。如图1上半部分所示,人类通过阅读书籍、查阅资料,观察得到信息,这些信息经过人脑学习,最后习得了某种技能。机器学习也是类似,只不过机器学习的输入是数据(Data),学到的结果叫模型(Model)(备注1)。从数据中学得模型这个过程通过执行某个学习算法(Learning Algorithm)来完成。
数据(Data)
学习算法(Learning Algorithm)
模型(Model)
是机器学习的三个要素。图1:当然,上面的类比可能还比较抽象。下面就以“有好货”这个产品为例子,来理解一下机器学习的概念。首先介绍下有好货(图2所示)。有好货是手机淘宝的一款导购产品,在首页第一屏就能看到产品入口。这款产品在我们用了一年的时间,将每日用户数从xxxx做到了xxxx,成为第一个每日用户数破xxxx的导购产品。这里面的一大秘诀就是将个性化推荐技术、机器学习技术与产品设计做了深层次的融合,以个性化推荐和机器学习为内核驱动产品设计的演进和决策。(有好货的故事我将另写一个系列)这里以有好货的“瀑布流”页面(图2中间)为例。这个页面是一个完全个性化的页面,不同的用户进入到有好货瀑布流页看到的商品推荐是不同的。有限的屏幕空间,我们希望给每个用户展现他最有可能点击的商品。那什么商品是当前用户最可能点击的呢?这个预测就由机器学习完成。类比图一的概念,这个场景下的数据、学习算法和模型分别对应着:数据:输入数据包括:用户对商品的浏览、点击历史行为数据以及相应的用户商品特征数据。这些历史数据记录了什么样的用户点击了什么样的商品,什么样的用户对什么样的商品看了没有点击。我们认为这些历史数据中蕴含了某种规律,希望机器学习能把这种规律挖掘出来,在将来面对新的用户和商品时,就能预测是否会点击。学习算法:机器学习算法有很多,逻辑回归、随机森林都适用于这个场景,但这里我们先不对具体的算法作展开,暂时读者只需要概念性的知道,基于输入数据执行“学习算法”便可产生模型(模型就代表了学习算法从数据中挖掘出的规律)。模型:学得模型之后,面对新的用户和商品,模型就能作出相应的判断,用户会点击还是不会点击。利用模型的这个“技能”,我们便可以做到给每个用户推荐他最感兴趣的商品了。总而言之,机器学习是一门研究“学习算法”的学问,“学习算法”基于历史的经验数据产生模型,进而使计算机有了对新情况进行预判和预测的“技能”(比如预测用户的喜好或股票的涨跌)。2.2 机器学到的到底是什么?理解了机器学习的概念,我们知道机器学习无非三个要素(1)数据,(2)学习算法,(3)模型
数据很好理解,当我们希望预测用户是否会点击某个商品,就把历史上用户对商品的点击浏览行为喂给机器学习算法,希望从历史数据中中挖掘出某种规律。
学习算法有很多,上面提到过的逻辑回归、随机森林只是众多算法中的两种。事实上对各种不同学习算法的讨论是机器学习书籍的重点,一章介绍一种,就厚厚一本书了。读者不必着急,这部分我们将慢慢展开。
在这一小节,我想重点讨论的是,我们说机器学习学得的模型可以预测用户是否会点击某个商品,可是模型在机器内部到底是怎么表示的呢?机器学到的模型到底是什么?许多人觉得机器学习非常神秘,是因为人类习得的技能并没有一个直观的展示形式,因此很难想象机器学到的模型到底是什么,其实答案非常简单:
机器学到的模型是一个映射。
映射,在数学的许多分支就等价于函数(备注2)。而函数,我们再熟悉不过了,给定一个(输入集合中的)元素,函数唯一对应(输出集合的)一个输出值。比如函数f(x)=x2,给定任意实数x,x的平方就是函数的输出。比如函数f(x)=w1*x1+w2*x2+…+wd*xd+b,当w1,w2,…,wd是确定的,那么给定一组x1,x2,…,xd,就能唯一确定一个输出值f(x)。(事实上这个就是最简单的一种机器学习模型——线性模型)。而在有好货的例子中,机器学习学到的模型就是这样一个函数:
给定一个用户和商品,这个函数就能够唯一输出一个分数,表示用户点击该商品的可能性。
这就是机器学习的秘密。3. 什么样的问题适合用机器学习来解决?不少计算机科学专业的同学可能会有些疑惑,计算机科学在本科阶段教授了大量的算法——字符串匹配算法、排序算法、贪心、动态规划,算法导论厚厚一千多页,可这些都不属于机器学习的范畴,机器学习也不是计算机科学本科的必修课。那到底算法导论中的算法跟机器学习算法有什么区别呢?什么样的问题适合用机器学习来解决?什么情况需要使用机器学习呢?答案是:
难以用规则解决的问题,可以尝试用机器学习来解决。(备注3)
算法导论中经典的排序问题,无论解法是快排还是归并排序,解法已经是一个确定的规则。但是机器学习问题,比如垃圾邮件识别,比如辨识一张图片中的物体是不是树叶,就很难用规则来解决。前者的规则难以穷举,后者则根本很难描述辨别树叶的规则。因此,仍然以规则堆砌的观念来看待算法的朋友们注意了,
永远不要跟机器学习专家说:“加条规则呗”
永远不要跟机器学习专家说:“加条规则呗”
永远不要跟机器学习专家说:“加条规则呗”
God Bless You~3.1 适合用机器学习解决的问题的必要条件另外,在2.2节我们提到:当我们希望预测用户是否会点击某个商品,就把历史上用户对商品的点击浏览行为喂给机器学习算法,因为我们认为历史数据中隐藏着用户是否会点击商品的某种规律。这其实道出了能用机器学习解决的问题需要具备这样的必要条件
有大量数据,并且数据中有隐藏的某种规律或模式
如果某些问题没有任何的规律,比如抛硬币,那么无论有多少数据也是不行的。3.2 小测试读到这里,不如试试看你对机器学习理解的怎么样了。判断下面这些问题适不适合用机器学习解决。能不能用机器学习解决。
问题:预测下一次六合彩的中奖号码。
答案:不能用机器学习解决,因为跟投硬币一样摇奖是随机的,并没有规律。
问题:判断一个图形是否是圆。
答案:无需用机器学习解决,因为有明显的规则。
问题:预测股票的涨跌。 答案:可以用机器学习辅助交易并盈利。要是你发现自己能很好的解这个问题,请跟我做朋友吧 :)
问题:预测一个10岁的小朋友长大了会喜欢的女孩子的类型。 答案:可能不能用机器学习解决,因为缺少“大量数据”这点必要条件。
4. 小结和预告这是系列文章的第一篇,我们首先介绍了机器学习的基本概念,机器学习的三个要素:数据,学习算法,还有模型。然后我们揭示了机器学到的模型,本质上就是一个映射,或者函数。最后我们总结了机器学习适合解决的问题,是那些难以用规则解决的问题。并且机器学习的必要前提不仅是有大量的数据,而且需要数据中确实存在隐藏的某种规律,机器学习才能帮的上忙。希望我有把事情说清楚,有任何疑惑或者问题,欢迎留言。我回答后会把FAQ附在每篇文章的后面。下一篇将细化具体的机器学习原理,可能会引出一个入门级的机器学习模型。您有什么希望了解学习的内容,也可以留言。祝开心。备注:
在这个系列文章中,“模型”泛指从数据中学到的结果。 ?
另一种说法是,机器学习求解的问题,都难以用程序控制结构求解——程序控制结构包括顺序、分支、循环、跳转。*&&& 人工智能、机器学习、模式识别、计算机视觉、数据挖掘、信息检索、自然语言处理等作为计算机科学重要的研究分支,不论是学术界还是工业界,有关这方面的研究都在如火如荼地进行着,学习这些方面的内容有一些经典书籍,现总结如下,方便自己和大家以后学习研究:
人工智能:
《Artificial Intelligence: A Modern Approach》,第三版,Russell著,权威、经典的人工智能教材,阐述了人工智能的核心内容,反映了人工智能最近10年来的新进展。
《ProgrammingCollective Intelligence》,Toby Segaran著,本书将带你进入机器学习和统计学的世界,对算法的描述简明清晰,很对代码都可以直接拿去实际应用。
数据挖掘:
《DataMining, Concepts and Techniques》,第三版,Han著,数据挖掘领域最具里程碑意义的经典著作。
《DataMining: Practical Machine Learning Tools and Techniques》,第二版,Witten著,介绍了机器学习的基本理论和实践方法,并提供了一个公开的数据挖掘工作平台Weka,算法部分介绍得很详细。
信息检索:
《An Introductionto Information Retrieval》,Manning著,这是一本介绍信息检索的入门书籍,书中对信息检索的基本概念和基本算法做了介绍,适合初学者。
《Search Engines Information Retrieval in Practice》,Croft著,这本书讲述了搜索引擎的构造方法,通过实际代码展示了搜索引擎的工作原理,对于学生和从事相关领域的工程师,本书都值得一看。
《Managing Gigabytes》,《Mining the Web -Discovering Knowledge from Hypertext Data》
《Information Theory:Inference and Learning Algorithms》。
模式识别和机器学习:
《Pattern Classification 》,第二版,Duda著,模式识别的奠基之作,但对SVM、Boosting几乎没提,有挂一漏万之嫌。
《Pattern Recognition and Machine Learning》,Bishop著,侧重概率模型,详细介绍了Bayesian方法、有向图、无向图理论等,体系完备。
《Kernel Methods for Pattern Analysis》,John Shawe-Taylor著,SVM等统计学的诸多工具里都用到了核方法,可以将将低维非线性空间映射到高维的线性空间中,但同时会引入高维数据的难题。
计算机视觉:
《Computer Vision: A Modern Approach》,第二版,Forsyth著,一本不错的计算机视觉教材,全书理论联系实际,并加入了计算机视觉领域的最新研究成果。
《Computer Vision: Algorithms and Applications》,Richard Szeliski的大作,《数字图像处理》课程老师推荐的一本书籍,这本书我还没有看完,书中对计算机视觉领域最新的一些算法进行了汇编,包括图像分割,特征检测和匹配,运动检测,图像缝合,3D重建,对象识别等图像处理的诸多方面,借助本书我们可以对最新主流图像处理算法有个全局把握。
线性代数:
《Linear Algebra and Its Applications》Fourth Edition, Gilbert Strang的著作,本书详细介绍了向量空间、线性变换、本征值和本征向量等线性代数的重要基本概念,把抽象的线性空间形象地表达出来,适合初学者。
《Introduction to Probability Models》第10版,Ross著,一本书能够发行到第十版,你说是不是很经典呢?
离散数学:
《Discrete Mathematics and Its Applications》,第六版,Rosen著,本书囊括了离散数学推导、组合分析、算法及其应用、计算理论等多方面的内容,适合初学者。
矩阵数学:
《Matrix Analysis》,Horn著,本书无疑是矩阵论领域的经典著作了,风行几十年了。
概率论与数理统计:
《All Of Statistics》,Wasserman著,一本数理统计的简介读本。
《Introductionto Mathematical Statistics》,第六版,Hogg著,本书介绍了概率统计的基本概念以及各种分布,以及ML,Bayesian方法等内容。
《Statistical Learning Theory》Vapnik的大作,统计学界的权威,本书将理论上升到了哲学层面,他的另一本书《The Nature ofStatistical Learning Theory》也是统计学习研究不可多得的好书,但是这两本书都比较深入,适合有一定基础的读者。
《统计学习方法》,李航著,国内很多大学都在用这本书,本书从具体问题入手,由浅入深,简明地介绍了统计学习的主要方法,适合初学者而又想对统计学习理论有一个全局理解的学生。
《The Elements of Statistical Learning-Data Mining, Inference, and Prediction》,第二版,Trevor Hastie著,机器学习方面非常优秀的一本书,较PC和PRML,此书更加深入,对工程人员的价值也许更大一点。
《AnIntroduction to Probabilistic Graphical Models》,Jordan著,本书介绍了条件独立、分解、混合、条件混合等图模型中的基本概念,对隐变量(潜在变量)也做了详细介绍,相信大家在隐马尔科夫链和用Gaussian混合模型来实现EM算法时遇到过这个概念。
《Probabilistic Graphical Models-Principles and Techniques》,Koller著,一本很厚很全面的书,理论性很强,可以作为参考书使用。
最优化方法:
《Convex Optimization》,Boyd的经典书籍,被引用次数超过14000次,面向实际应用,并且有配套代码,是一本不可多得的好书,网址http://www.stanford.edu/~boyd/cvxbook/。
《Numerical Optimization》,第二版,Nocedal著,非常适合非数值专业的学生和工程师参考,算法流程清晰详细,原理清楚。
另外推荐几个博客和网站:
,这是一个由世界顶级大学联合创办的网上在线视频公开课网站,里面有stanford, MIT,CMU等计算机科学一流大学提供的免费教学视频,内容全面,计算机科学方面的资源较网易视频公开课网站(/)内容要新、要全。
,本文的部分内容就是借鉴刘未鹏大神的博客而来的,也正是看过他的那个书单后,我才决定写一个总结归纳性的文章,这样可以方便大家学习,更可以勉励自己多看些有益的经典书籍。
,这是浙大学生张驰原的博客网站,现在他去了MIT,博客里面的很多资源都值得一看,博文的很大一部分都是关于机器学习的,加入了作者自己的理解,深入浅出。
,林达华推荐的几本数学书,转自MIT大牛博客。
本文已收录于以下专栏:
相关文章推荐
From: http://dahua./default.aspx
 1. 线性代数 (Linear
Algebra):
我想国内的大学生都会学过这门课程,...
万事开头难。第一本该介绍哪个,或者第一本该看哪个,实在是不好讲。即使是Amazon上的书评,老外也是理工科两极分化严重,每本都有很多人说适合入门用的,也有很多人说不适合的。但是个人认为,第一本一定要能...
记得2008年初,当我刚接触到数据挖掘的时候,看过一篇文章,介绍了数据挖掘方面有三本经典书籍:
(1) J. Han and M. Kamber, Data Mining: Concepts and...
经常碰到有人问我关于计算机视觉(机器视觉)领域的入门书籍或者相关书籍,下面我就推荐一些自己看的,当然,不见得满足所有人的需求,不过,还是真诚的希望能对你有所帮助。(1)数字图像处理,冈萨雷斯,阮秋琦(...
编辑部的主页:好像没啥用
/product/3.do
每章的代码,github上面的:中文版
...
Table of Contents
BooksCoursesPapersSoftwareDatasetsTutorials and TalksResources for studentsBlog...
****************************************************************************************************...
他的最新文章
讲师:王哲涵
讲师:王渊命
您举报文章:
举报原因:
原文地址:
原因补充:
(最多只允许输入30个字)一些关于机器学习和统计方面值得阅读的书籍
一下著作都是一些经典的英文著作,不是崇洋媚外,大部分的知识都是由人老外提出并发展的,国内一些书籍质量实在不敢恭维,所以在初始的学习时,最好还是选择英文的著作,解除第一手资料,对于启发式的学习很有帮助,也比较容易站在巨人的肩膀上眺望,做出的成果可能也更加具有贡献性
2. Pattern Classification
3. Machine Learning A Probabilistic Perspective Kevin P. Murphy
4. Pattern Recognition and Machine Learning
5. Programming Collective Intelligence
慢慢研究吧!让读书成为一种习惯,读书、思考,带给你强大的力量!
本文已收录于以下专栏:
相关文章推荐
今天给大家介绍一下经典的开源机器学习软件:
编程语言:搞实验个人认为当然matlab最灵活了(但是正版很贵),但是更为前途的是python(numpy+scipy+matplotlib)和C/C++...
今天给大家介绍一下经典的开源机器学习软件:
编程语言:搞实验个人认为当然matlab最灵活了(但是正版很贵),但是更为前途的是python(numpy+scipy+matplotlib)和C/C+...
文章来自:/kshenf/archive//2548708.html
今天给大家介绍一下经典的开源机器学习软件:
编程语言:搞实验...
他的最新文章
讲师:王哲涵
讲师:王渊命
您举报文章:
举报原因:
原文地址:
原因补充:
(最多只允许输入30个字)机器学习实战
Peter Harrington
机器学习是人工智能研究领域中一个极其重要的研究方向,在现今的大数据时代背景下,捕获数据并从中萃取有价值的信息或模式,成为各行业求生存、谋发展的决定性手段,这使得这一过去为分析师和数学家所专属的研究领域越来越为人们所瞩目。
本书第一部分主要介绍机器学习基础,以及如何利用算法进行分类,并逐步介绍了多种经典的监督学习算法,如k近邻算法、朴素贝叶斯算法、Logistic回归算法、支持向量机、AdaBoost集成方法、基于树的回归算法和分类回归树(CART)算法等。第三部分则重点介绍无监督学习及其一些主要算法:k均值聚类算法、Apriori算法、FP-Growth算法。第四部分介绍了机器学习算法的一些附属工具。
全书通过精心编排的实例,切入日常工作任务,摒弃学术化语言,利用高效的可复用Python代码来阐释如何处理统计数据,进行数据分析及可视化。通过各种实例,读者可从中学会机器学习的核心算法,并能将其运用于一些策略性任务中,如分类、预测、推荐。另外,还可用它们来实现一些更高级的功能,如汇总和简化等。
读者好评:
“易学易懂,用处很大。”
—Alexandre Alves,Oracle CEP的架构师
“精心织构的代码完美地诠释出机器学习的核心要义。”
—Patrick Toohey,Mettler-Toledo Hi-Speed软件工程师
“实例很棒!可用于任何领域!”
—John Griffin,Hibernate Search in Action一书的合作者
“叙述循序渐进,巧妙地阐述了算法之间的差异。”
—Stephen McKamey,Isomer Innovations技术实践总监
做健康的长假人,从心到身的改变
其他购买方式?
本书是HTTP及其相关核心Web技术方面的权威著作,主要介绍了Web应用程序是如何工作的,核心的因特网协议如何...
本书是JavaScript超级畅销书的新版。ECMAScript 5 和HTML5在标准之争中双双胜出,使大量...
本书全面而详细地阐述了计算机科学的理论基础,从抽象概念的机械化到各种数据模型的建立,用算法、数据抽象等核心思想...
通过学习本书,你将能够:
掌握最新的语言细节,包括Java 8的变化
使用基本的Java句法学习面向对...
本书作者是世界顶尖的Web性能工程师,他在书中深入浅出地讲解并演示了针对TCP、UDP和TLS协议的性能优化最...
使用Python阐述机器学习概念
介绍并实现机器学习的主流算法
面向日常任务的高效实战内容
1.2 关键术语
1.3 机器学习的主要任务
1.4 如何选择合适的算法
1.5 开发机器学习应用程序的步骤
1.6 Python语言的优势
1.7 NumPy函数库基础
1.8 本章小结
第2章 k-近邻算法
2.2 示例:使用k近邻算法改进约会网站的配对效果
2.3 示例:手写识别系统
2.4 本章小结
第3章 决策树
3.2 在Python中使用Matplotlib注解绘制树形图
3.3 测试和存储分类器
3.4 示例:使用决策树预测隐形眼镜类型
3.5 本章小结
4.6 示例:使用朴素贝叶斯过滤垃圾邮件
4.7 示例:使用朴素贝叶斯分类器从个人广告中获取区域倾向
4.8 本章小结
第5章 Logistic回归
5.3 示例:从疝气病症预测病马的死亡率
5.4 本章小结
第6章 支持向量机
6.3 SMO高效优化算法
6.4 利用完整Platt SMO算法加速优化
6.5 在复杂数据上应用核函数
6.6 示例:手写识别问题回顾
6.7 本章小结
第7章 利用AdaBoost元算法提高分类性能
7.2 训练算法:基于错误提升分类器的性能
7.3 基于单层决策树构建弱分类器
7.4 完整AdaBoost算法的实现
7.5 测试算法:基于AdaBoost的分类
7.6 示例:在一个难数据集上应用AdaBoost
7.7 非均衡分类问题
7.8 本章小结
第二部分 利用回归预测数值型数据
第8章 预测数值型数据:回归
8.5 权衡偏差与方差
8.6 示例:预测乐高玩具套装的价格
8.7 本章小结
第9章 树回归
9.4 树剪枝
9.5 模型树
9.6 示例:树回归与标准回归的比较
9.7 使用Python的Tkinter库创建GUI
9.8 本章小结
第三部分 无监督学习
第10章 利用K-均值聚类算法对未标注数据分组
10.5 本章小结
第11章 使用Apriori算法进行关联分析
11.4 从频繁项集中挖掘关联规则
11.5 示例:发现国会投票中的模式
11.6 示例:发现毒蘑菇的相似特征
11.7 本章小结
第12章 使用FP-growth算法来高效发现频繁项集
12.3 从一棵FP树中挖掘频繁项集
12.4 示例:在Twitter源中发现一些共现词
12.5 示例:从新闻网站点击流中挖掘
12.6 本章小结
第四部分 其他工具
第13章 利用PCA来简化数据
13.3 示例:利用PCA对半导体制造数据降维
13.4 本章小结
第14章 利用SVD简化数据
14.2 矩阵分解
14.3 利用Python实现SVD
14.4 基于协同过滤的推荐引擎
14.5 示例:餐馆菜肴推荐引擎
14.6 示例:基于SVD的图像压缩
14.7 本章小结
第15章 大数据与MapReduce
15.3 在Amazon网络服务上运行Hadoop程序
15.4 MapReduce上的机器学习
15.5 在Python中使用mrjob来自动化MapReduce
15.6 示例:分布式SVM的Pegasos算法
15.7 你真的需要MapReduce吗?
15.8 本章小结
附录A Python入门
A.2 Python入门
A.3 NumPy快速入门
A.4 Beautiful Soup包
A.5 Mrjob
A.6 Vote Smart
A.7 Python-Twitter
附录B 线性代数
附录C 概率论复习
附录D 资源
Peter Harrington 拥有电气工程学士和硕士学位,他曾经在美国加州和中国的英特尔公司工作7年。Peter拥有5项美国专利,在三种学术期刊上发表过文章。他现在是Zillabyte公司的首席科学家,在加入该公司之前,他曾担任2年的机器学习软件顾问。Peter在业余时间还参加编程竞赛和建造3D打印机。
李锐,博士,中科院信息工程研究所助理研究员,研究兴趣为信息检索、机器学习及社交网络分析。
李鹏,博士,中科院信息工程研究所助理研究员,研究兴趣为信息检索、机器学习及社交网络分析。
王斌,博士,博士生导师,中科院计算技术研究所副研究员,中科院信息工程研究所客座研究员,研究兴趣为信息检索、社交网络分析及自然语言处理,《信息检索导论》、《大数据:互联网大规模数据挖掘与分布式处理》译者。
曲亚东,中科院计算技术研究所博士,在信息安全、视频监控等领域均主持过数千万投资的项目。希望能通过本书帮助大家进入机器学习领域。热心助人,有求会应,新浪微博:@大嘴啃四方。
最近我和一对夫妇共进晚餐,他们问我从事什么职业,我回应道:“机器学习。”
妻子回头问丈夫:“亲爱的,什么是机器学习?”
她的丈夫答道:“T-800型终结者。”
在《终结者》系列电影中,T-800是人工智能技术的反面样板工程。不过,这位朋友对机器学习的理解还是有所偏差的。
编者按: 大家期待已经的《机器学习实战》终于送印制了,预计6月初即可上市。在此之前,有发过一篇微博,转发量6百有余,今日,确定了上市信息,立即发出消息与大家分享。如何将数学矩阵描述的机器学习算法转化为可以实际工作的应用程序是本书的主要目的,本书使用Python语言进行编程,希望…...
基于以下三个原因,我们选择Python作为实现机器学习算法的编程语言:(1) Python的语法清晰;(2) 易于操作纯文本文件;(3) 使用广泛,存在大量的开发文档。
可执行伪代码
Python具有清晰的语法结构,大家也把它称作可执行伪代码(executable pseu…...
原文地址:[夜月星][1]
机器学习实战之开篇
首先说点儿题外话,上上周末去了趟杭州参加阿里巴巴2013的ADC技术嘉年华,感觉阿里巴巴的大数据不说牛逼只能说运用的真是淋漓尽致,人家有的是用户资源,这么多财富不充分挖掘真是对不起d对不起gj更对不起自己,期间赶上图灵打折,…...
Peter Harrington,拥有电气工程学士和硕士学位,他曾经在美国加州和中国的英特尔公司工作7年。Peter拥有5项美国专利,在三种学术期刊上发表过文章。他现任HG Data首席科学家。如果说LinedIn跟踪的是人和人之间的商务往来,HG Data则是致力于挖掘公司间…...
从VS2013开始,微软在VS中集成了Python编译环境,最近在看《机器学习实战》这本书,发现Python编译环境是必须的,但是原版的Python2.7用起来实在是有点太麻烦了,看到Dos那样的操作界面就不舒服。
查了一些第三方IDE的资料,看到了比较熟悉的VS2015(其实…...
一、字符串基本操作
字符串是一种序列,所有序列都有如下基本操作:
1. len():求序列长度
2. in :判断元素是否存在于序列中
3. max() :返回最大值
4. min() :返回最小值
5.cmp(str1,str2):比较 2 个序列值是否相同
6. ord()…...

我要回帖

 

随机推荐