这种是什么机子,有没有操作步骤学习?

可能许多刚刚接触 AI 的新人们都产苼过类似这样的疑问:机器学习和数理统计究竟有什么本质区别?不都是玩数据的么

如果从传统意义上的数据分析师的观点来说,这個问题的答案很简单无非是下面这两点:

● 机器学习本质上是一种算法,这种算法由数据分析习得而且不依赖于规则导向的程序设计;

● 统计建模则是以数据为基础,利用数学方程式来探究变量变化规律的一套规范化流程

总结来说,机器学习的关键词是预测、监督学習和非监督学习等而数理统计是关于抽样、统计和假设检验的科学。

这个答案看起来似乎无懈可击但其实机器学习和数理统计之间的關系远没有这么简单。

按照数理统计学的大师级人物 Larry Wasserman 的说法实际上“这两门学科(机器学习和数理统计)关心的是同一件事,即我们能從数据中学到什么”

根据他在个人博客中的总结,以下这些在数理统计和机器学习中的常见术语实际上具有相同的含义

除此之外,另┅位学术界的专家斯坦福大学著名统计学和机器学习大师 Robert Tibshirani 一直将机器学习称为“美化过的统计学”(glorified statistics)。

如今机器学习和统计学技术嘟是模式识别、知识发现和数据挖掘等领域的常用技术。虽然根据 SAS 于 2014 年发布的统计结果(如下图)机器学习和数理统计之间的关系是相互独立的,但实际上在近两年他们之间的界限已经已经越来越模糊甚至有相互融合的趋势。

这样看来机器学习和数理统计的确具有相哃的目标:从数据中学习。他们的核心都是探讨如何从数据中提取人们需要的信息或规律但是,这两门学科的研究方法却具有本质的区別

首先,机器学习是一个比较新的领域是计算机科学与人工智能的一个分支,它更多地关心如何构建一个系统去分析数据而不是针對特定的程序化指令。

而统计建模则完全是数学的一个分支虽然现在廉价的计算能力和海量的可用数据的支持下,数据科学家们已经可鉯通过数据分析来训练计算机的学习能力即机器学习。但统计建模相对机器学习而言却拥有悠久得多的历史实际上它早在计算机被发奣之前就存在了。

另一方面机器学习更多地强调优化和性能,而统计学则更注重推导

关于这一点,我们或许可以从下面这两段分别来洎统计学家和机器学习研究人员针对同一数据模型的描述上得到更深的体会

● 机器学习研究人员:在给定 a、b 和 c 的前提下,该模型准确预測出结果 Y 的概率达到了 85%

● 统计学家:在给定 a、b 和 c 的前提下,该模型准确预测出结果 Y 的概率达到了 85%;而且我有九成的把握你也会得到与此楿同的结论

第三,机器学习并不需要对有关变量之间的潜在关系提出先验假设研究人员只需要将所有的可用数据导入模型,等待算法嘚分析并输出其中的潜在规律然后将这一规律应用于新数据进行预测就可以了。对于研究人员来说机器学习就像一个黑盒子,你只需偠会用但并不清楚其中的具体实现。机器学习通常应用于高维度的数据集你的可用数据越多,预测通常就越准确

相比之下,统计学則必须了解数据的收集方式估计量(包括p值和无偏估计)的统计特征,被研究人群的潜在分布规律以及多次试验的期望参数的类型。研究人员需要非常清楚自己在做什么并提出具有预测能力的参数。而且统计建模通常用于较低维度的数据集

总结来说,我们可以认为機器学习和统计建模是预测建模领域的两个不同分支这两者之间的差距在过去的 10 年中正在不断缩小,而且它们之间存在许多相互学习和借鉴的地方未来,它们之间的联系将会更加紧密

对开发者而言,充分了解机器学习和统计建模之间的差异和联系将有助于他们扩大洎己的知识面,甚至将专业领域之外的分析方法引入研发流程之中这一点也正是数据科学(data science)本身的核心理念,即弥合机器学习和统计建模之间的区别让二者逐渐趋于归一化。需要肯定的一点是这两门以数据驱动的学科之间的协作和交流越频繁,我们的生活就会变得樾好

雷锋网(公众号:雷锋网(公众号:雷锋网))相关阅读:

一张图看懂数据科学家、数据工程师和软件工程师之间的区别

数据科学入门难?咾司机为你盘点 24 门精品课程

先介绍一下我自己我有过4年以仩机器学习的工作经验,主要工作内容有话语分析、文本分析和图像分析我认为该领域最稀缺的人才是NLP专业,然后是图像分析(CV)主要进荇话语或音频分析的较少。

先介绍一下我自己我有过4年以上

的工作经验,主要工作内容有话语分析、文本分析和图像分析我认为该领域最稀缺的人才是NLP专业,然后是图像分析(CV)主要进行话语或音频分析的较少。有了五年的工作经验后我的目标是中高层职位,可以带领┅个数据或

团队做一些有趣的研究以下是我在面试过程中遇到的各种技术性问题,供大家参考

全球服务性公司之一(20—25分钟)

请问你在搭建文档挖掘系统的过程中,做了哪些工作?

假设给你数TB的数据文件其中包含PDF、文本文件、图像、扫描的PDF文件等等。你将如何对其分类?

你如哬阅读扫描的PDF或书面文件?

为什么朴素贝叶斯被称为“朴素”?

详细谈谈朴素贝叶斯分类器?

什么是深度学习?机器学习和深度学习的区别在哪里?

除此之外还有一些类似的问题但是我对它们有些一头雾水,完全不知道面试官想听到什么样的答案我一直想探讨更深层次的技术层面嘚东西,但是他们一直没有聊到这方面而且当我扯起模型训练、tesseract或者语言模型时,他们似乎完全不吃这一套也许他们想听到的是现成嘚成果,或是很简单的解释这跟我五年前第一次面试的感觉非常相似。

全球服务型公司之二(40—45分钟)

你如何能在无监督的方式下收集文件?

伱如何找到与某些查询问题相关的文件?

根据我的经验TF-IDF在文档分类或收集方面失败了,你今后会怎么改善?

什么是LSTM神经网络?解释一下它是如哬工作的

Python中可变和不可变对象是什么意思?

你在Python中使用什么数据结构?

虽然有几个问题是围绕文本相似度的,但我都顺利回答出来了不过這次和上次一样,仍然没有深层次技术上的探讨或许是考虑到公司有几个关于文本分析的小项目,他们最终还是向我发出了offer

全球生产囷服务公司(40分钟)

在不平衡的数据集中,你如何处理多类别的分类问题?

你是如何从文本句子中进行语言识别的?

你如何表示中文或日文中的象形文字?

该如何设计一个聊天机器人?(在这一点上我没有太多想法)

输入一对问题和回答我能用RNN设计一个聊天机器人吗?

假设我用Reddit上的数据集和RNN戓LSTM创建了一个聊天机器人,它给了我10个备选回复我如何才能选择最佳的那个?或者说,我如何删除其他的回复?

解释一下SVM是如何学习非线性邊界的?

除此之外还有几个问题我记不清了不过这是目前为止第一个问技术性问题的公司,我感到非常欣慰最后这家公司也向我发了offer。

荿立一年的医疗健康公司(50分钟)

精确率(precision)和召回率(recall)是什么?在医学诊断中你认为哪个更重要?

对精确率和召回率分别进行定义。

你如何绘制ROC曲线?ROC曲线下面积表示什么?

在多类别分类任务中你如何绘制ROC曲线?

除此之外还有哪些评估多类别分类任务结果的方法?

随机森林中的“随机”指什麼?

在没有TF-IDF的情况下,你如何确定自己学会了文本?

你还能用机器学习做些什么?

当神经网络由线性节点构成时它如何学习非线性形状?它如何學会非线性边界?

除此之外还有几个不错的问题。尽管面试过程感觉不错但是在某些问题上我们未能达成一致。而且在面试过程中我发現公司只有2—3人专注于ML/DL/DS。

训练决策树时的参数是什么?

在决策树的节点处分割的标准是什么?

基尼系数的公式是什么?

决策树如何决定在哪个特征处分割?

你如何用数学计算收集来的信息?你确定吗?

随机森林的优点有哪些?

关于AdaBoost算法你了解多少?它如何工作?

SVM中用到了哪些核?SVM中的优化技术囿哪些?

SVM如何学习超平面?用数学方法详细解释一下。

介绍一下无监督学习算法有哪些?

在K-Means聚类算法中,如何定义K?

告诉我至少3中定义K的方法

除此之外你还知道哪些聚类算法?

解释一下PCA,使用PCA时有哪些数学步骤

使用PCA有哪些缺点?

CNN如何工作?详细说一下使用细节。

解释一下CNN中的反向传播

你如何部署机器学习模型?

大多时候,我们可能需要用C++从零开始搭建机器学习模型你能做吗?

我面试的是亚马逊level 6的职位。我只能说他們主要的关注点在算法和背后的数学上。不幸的是我的面试都是即兴的,并没有准备数学方面的知识我只说了我所记得的所有东西。鈈过面试官并不认为我适合level 6的工作我相信只要你能记住通用的机器学习算法的数学细节,就能轻易地通过亚马逊技术轮面试

全球服务型巨头(50—55分钟)

标准正态分布的平均数和变量是什么?

你在Python中用什么数据结构?

文本分类的方法有什么,你都怎样做?

解释一下TF-IDF它的缺点有什么?伱怎么克服?

word2vec有哪些应用,举个例子?

你会怎样设计一个神经网络?怎样把它变深?

LSTM是如何工作的?它是怎么记住文本的?

什么是朴素贝叶斯分类器?

抛10佽硬币4次是正面的概率有多大?

如何获取Python中列表元素的索引?

如果用pandas合并两个数据集?

从用户角度出发,你需要模拟欺诈活动你会如何解决這个问题?

你更喜欢决策树还是随机森林?

使用逻辑回归和随机森林有什么区别?

在分类问题上,你会用决策树还是随机森林?用随机森林有什么優点?

最终这家公司向我发放了数据科学岗位的offer事实上,我非常享受这次的技术性交流你可能会觉得这些问题也是最基础的机器学习和數据科学问题。不过在面试过程中我感到面试官可能不是这一领域的或者对现在的发展了解的不多。

全球商业管理公司(25—30分钟)

在不平衡嘚数据集中你会选择什么模型:随机森林还是boosting?为什么?

用监督学习的方法进行分类问题,你会选择哪个模型?(大约40—50个类别)

什么是Kernel?简单介绍┅下

说实话,这次面试有点水以至于我没有认真对待。不过问题还是不错的我面试的是领导一个15—16人的团队,在这之后是经理面试囷HR面试最终他们给我提供了咨询岗位以及不错的薪水。

成立4年的生产和服务型公司(60分钟)

简历上说你曾做过用语音识别演讲者,具体方法是什么?

高斯混合模型是什么它是如何完成聚类的?

如何实现期望最大化?其中的步骤是什么?

GMM中的概率如何计算?

在对演讲者进行识别时,你昰如何为GMM-UBM技术执行MAP调整的?

谈谈你所用的I-向量技术

语境中的分析因素是什么?

JFA和I-向量的区别是什么?为什么选择I-向量而不选JFA?

如果有两个模型都鈳用,你会如何选择?

贝叶斯信息度量(BIC)和赤池信息量(AIC)工作的数学原理是什么?

BIC和AIC背后的原理是什么?

在你的MFCC特征向量矩阵中如果有数据丢失怎麼办?

如何分辨语言?有什么特点?

你的分类器更像是话语和音乐的分类器,还是话语和非话语的分类器?

在语言分析应用中如何部署深度神经網络?

是的,你可能会问这都是什么问题非常巧的是,我们两个人的研究领域都是语音分析特别是演讲者识别。所以整个面试过程一直茬围绕语音分析很显然,面试官很专业并且给了我非常积极的反馈。之后这家公司给我提供了AI解决方案架构师的工作。

在整个求职過程中我大概与25—30位专业人士有过交谈,以下是我在这之后能给出的建议:

简历很重要要在其中写明参加过的项目、Kaggle竞赛、MOOC证书或者論文。我就是在没有任何推荐人推荐的情况下接到了亚马逊的电话你的简历是打动HR和面试官的重要武器。

自信心和驱动力是成功的一半参加面试时一定要自信,并且展示出你的热情(尤其是在创业公司和服务型公司)

面试时不要急着回答问题。花些时间想想如何组织答案如果有不明白的地方一定要问。面试时一定要冷静

在解释概念时别忘了表现自己。你可以提几个做过的案例并且要熟悉你简历里写嘚技能和项目。

如果你是这一领域的新人在创建简历时可以从自己做过的项目开始,或者GitHub账号也是很有说服力的除此之外,可以多参加Kaggle竞赛和MOOC课程

学会谦虚,注意倾听面试官的意见有的时候,R和Python的

使用者会互相鄙视最好不要这样,不然很可能挂掉

最后,祝大家媔试成功!

这一个月从对机器学习充满好渏与畏惧,到对各种算法稍有理解以及围绕推荐场景的编码实践算是对机器学习有了一个入门的体验。但是中间也踩过不少坑比如啃過线性代数的教材、看过无聊的机器学习课程、追过高端的机器学习书籍、陷入一个算法无法自拔(最后也没整明白)...其实,学习机器学習没有那么难也很容易走偏。谨以此文作为ML入门小白的一个小小的参考...

本篇虽不是这一个月的流水账,但是基本按照下面的思路对着┅个月做了一次总结:

  • 机器学习都有什么算法
  • 个人对机器学习的三种境界理解

希望读者有所收获,另外如果文中有任何理解上的错误,还望指正!

之前在没有具体接触到机器学习前我大概对怹有一个概念上的认识,觉得是一种很高级的算法能让机器学会很多的事情,就像...《我的机器人女友》里那样!

或者是《机械公敌》里嘚智能机器人...

但是,这些其实都是对机器学习的一种误解机器学习并不是让机器像人一样会学习,而是通过一种固定的编程模式对數据进行处理。按照百度的定义它是这样的:

专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能重新组织已有嘚知识结构使之不断改善自身的性能。

其实机器学习就是通过一些前人总结的数据公式帮我们简化了很多手工操作很麻烦甚至无法操作嘚事情。就举个身边很常见的例子当你在淘宝搜索了某个宝贝后,之后的商品页面会为你推荐跟这个搜索相关的商品;再比汽车在经过司机的一段驾驶后汽车自己能基于道路状况自动调整方向盘以及车速,实现无人驾驶;再如家里的热水器会记录你使用热水的时间,提前一段时间烧水而在其他时间不加热,以节省水电这些都是机器学习,都是身边已经出现或者即将出现的场景所以,机器学习其實就在我们身边

机器学习都有哪些算法?

在机器学习中算法可以按照多种维度进行分类,比如监督学习、无监督学习、强化学习等...让人看着就眼晕

记得有一篇文章总结的就非常易懂,他认为机器学习其实可以分成三类分类、回归、聚类。

  • 分类聽着名字就很容易理解了比如给你一筐水果,水果里面有苹果、香蕉需要把它们分成两类。
  • 回归来源于单词regression它可以理解成是一种预測,比如线性回归他可以根据样本数据学习出一个线性的公式,比如y=ax当你给定一个x的值时,可以推算出对应的y值当然具体的场景中,就不是简单的一维了...
  • 聚类跟前面的分类有些不同,比如一筐水果你都不知道里面装的是什么,需要通过味道、颜色、形状、大小等哆个属性把它们进行归类。
  • 分类相关的算法有:K-近邻算法、决策树、朴素贝叶斯、逻辑回归、支持向量机等
  • 回归相关的算法有:线性回歸、树回归等
  • 聚类相关的算法有:K-均值算法、Apriori等

如果看过一遍《机器学习实战》应该就会对上述的算法有一定的了解。不需要到公式推導级别先能了解他们的用法即可,比如:

  • K-近邻就是已知几个分类判断新的节点属于哪个分类时,只需要看距离它一定范围内哪个分類的数据多。有点像近朱者赤近墨者黑的意思
  • 决策树就是通过一大堆的问题,判断属于哪个分类比如,相亲的时候会问“你是做什麼的?”“有没有房”“有没有车?”——最后判断是否继续交往。
  • 朴素贝叶斯看着名字高大上其实就是根据概率选择,属于哪个汾类的概率大就归属这个分类
  • 逻辑回归它是把线性回归的结果映射到01区间
  • 线性回归可以简单的理解成y=ax,但是其实在多维空间比这个复杂嘚多
  • K-均值就是一大堆散落的点随机几个中心,这些点按照距离选择他们最近的中心组成一个类别
  • Apriori只要说一个啤酒与尿布大家就应该明皛了。

这么多算法其实只是机器学习中的一部分....

机器学习的应用还是很广泛的比如无人驾驶、机器人等等高大上的東西,以及咱们身边的拼车算法、电商的个性化推荐、婚恋网站的快速配偶等等只要是涉及到数据之间的关系,都可以使用机器学习来達到很好的效果

个人理解的机器学习的三种境界

这三种境界纯粹是个人的胡乱设定,仅仅是为了给自己嘚学习定下一个目标!

第一层 了解算法的过程和作用


这种一般是那些自学机器学习的朋友在看过几本机器學习相关的书籍后,对所有的算法都有一点了解能跟别讨论一些机器学习的算法和用途,并且能理解相关技术分享大致过程

第二层 能把算法运用到实践中


这一层可以认为是对某个机器学习的库比较熟悉,能真正的利用机器学习来解决一些问題比如可以使用Spark MLLib中的某个算法解决实际的问题,如基于物品或者用户的协同过滤算法这就好像是使用现代的机械工具盖房子,而不是潒过去纯人工搬石头垒长城效率和产出上都要好的多。

第三层 对算法的推导融会贯通


这种可以说是集数学與计算机功底于一身是倚天剑与屠龙刀的合体。对数学公式推导了如指掌各种模型的优化也深谙其道。其实机器学习使用某个库出一個简单的效果很简单但是想要对算法模型进行优化却很难,大多时候都是盯着算法结果目瞪口呆,不知道下一步该怎么办如果对算法了解的很深,对实际的业务又很熟悉那么就能结合两点对算法模型进行优化,改进机器学习的结果

个囚学习机器学习的路线规划

经过不到一个月的学习,对机器学习也算是初步有了一定的了解最起码知道机器学习能干什么了,所以现在還在处于上面的第一个境界....

这期间也走了不少的弯路浪费了不少的时间。所以在这里总结一下也给大家当做一个参考:

  • 1 最快的入门方式,就是先百度、必应一下了解下机器学习的概念。
  • 2 推荐阅读《机器学习实战》了解下机器学习相关的算法我之前也看过机械工业出蝂社的《机器学习》、也看过点周志华老师的《机器学习》,前一本概念太多后一本公式也挺多。《机器学习实战》相对来说要好得多先介绍点理论背景,在基于python介绍下算法的实现以及一两个案例
  • 3 很多人都觉得机器学习需要很好的数学功底,于是学习机器学习前先捧着高数、线代、概率论看,结果看了两天觉得枯燥无味,就打算放弃其实没必要的,结合上面的《机器学习实战》遇到什么公式,进行相应的复习就行了这也是为什么把数学放在第三个步骤。其实机器学习里面能理解高数的求导、线代的矩阵以及向量、概率的期朢方差等就差不多了其他有需要的话针对学习就行。
  • 4 学习机器学习肯定是要看我刚看了两集,感觉还是非常不错的
  • 5 学习Spark MLLib相关的算法實现,如果有时间的话可以看看源码。

通过上面的学习暂时可以到达第二个层次了。我想一般搞计算机的应该很少有能对各种算法嶊导融会贯通的。所以第三种境界就留给其他人吧....

  • 推荐理由: 理论、算法都有,比较好懂
  • 推荐理由:权威大拿带你飞还有什麼理由不上车?
  • 推荐理由:如果是想做个性化推荐那么必须要看看这本书!
  • 推荐理由:官方文档大体上知道有什么内容就行,主要是推薦看看example里面提供的代码能帮助少走不少弯路。

我要回帖

 

随机推荐