人工智能机器学习和数据挖掘统计学数据挖掘之间有什么区别

数据挖掘与数据分析的主要区别是什么? - 知乎295被浏览48292分享邀请回答261 条评论分享收藏感谢收起7添加评论分享收藏感谢收起查看更多回答3 个回答被折叠()人工智能、机器学习、统计学和数据挖掘有什么区别?
是否可以这样说,它们是利用不同方法解决相似问题的四个领域?它们之间到底有什么共同点和不同点?如果它们之间有层次等级的区分,应该是怎样一回事?
假定题主是想得到一个清晰的图,上面有各个领域清晰的分界线。因此,在这里尝试用最简单的方式来解释这个问题。
机器学习是一门涉及自学习算法发展的科学。这类算法本质上是通用的,可以应用到众多相关问题的领域。
数据挖掘是一类实用的应用算法(大多是机器学习算法),利用各个领域产出的数据来解决各个领域相关的问题。
统计学是一门研究怎样收集,组织,分析和解释数据中的数字化信息的科学。统计学可以分为两大类:描述统计学和推断统计学。描述统计学涉及组织,累加和描绘数据中的信息。推断统计学涉及使用抽样数据来推断总体。
机器学习利用统计学(大多是推断统计学)来开发自学习算法。
数据挖掘则是在从算法得到的结果上应用统计学(大多是描述统计学),来解决问题。
数据挖掘作为一门学科兴起,旨在各种各样的行业中(尤其是商业)求解问题,求解过程需要用到不同研究领域的不同技术和实践。
1960年求解问题的从业者使用术语Data fishing来称呼他们所做的工作。1989年Gregory Piatetsky
Shapiro使用术语knowledge Discovery in the
Database(KDD,数据集上的知识发掘)。1990年一家公司在商标上使用术语数据挖掘来描述他们的工作。现如今现如今数据挖掘和KDD两词可以交换使用。
人工智能这门科学的目的在于开发一个模拟人类能在某种环境下做出反应和行为的系统或软件。由于这个领域极其广泛,人工智能将其目标定义为多个子目标。然后每个子目标就都发展成了一个独立的研究分支。
这里是一张人工智能所要完成的主要目标列表(亦称为AI问题)
1、Reasoning(推理)
2、Knowledge representation(知识表示)
3、Automated planning and scheduling(自动规划)
4、Machine learning(机器学习)
5、Natural language processing(自然语言处理)
6、Computer vision(计算机视觉)
7、Robotics(机器人学)
8、General intelligence or strong AI(通用智能或强人工智能)
正如列表中提到的,机器学习这一研究领域是由AI的一个子目标发展而来,用来帮助机器和软件进行自我学习来解决遇到的问题。
自然语言处理是另一个由AI的一个子目标发展而来的研究领域,用来帮助机器与真人进行沟通交流。
计算机视觉是由AI的目标而兴起的一个领域,用来辨认和识别机器所能看到的物体。
机器人学也是脱胎于AI的目标,用来给一个机器赋予实际的形态以完成实际的动作。
它们之间有层次等级的区分吗,应该是怎样一回事?
解释这些科学和研究层次关系的一个方法是分析其历史。
科学和研究的起源
统计学——1749年
人工智能——1940年
机器学习——1946年
数据挖掘——1980年
统计学的历史公认起源于1749年左右,用来表征信息。研究人员使用统计学来表征国家的经济水平以及表征用于军事用途的物质资源。随后统计学的用途扩充到数据的分析及其组织。
人工智能的历史碰巧存在两种类型:经典的和现代的。经典人工智能可在古时的故事和著作中看得到。然而,1940年当人们在描述用机器模仿人类的思想时才出现了现代人工智能。
1946年,作为AI的分支,机器学习的起源出现了,它的目标在于使机器不通过编程和明确的硬接线进行自我学习来对目标求解。
是否可以这样说,它们是利用不同方法解决相似问题的四个领域?
可以这么来说(统计学,人工智能和机器学习)是高度相互依赖的领域,没有其他领域的引领和帮助,他们不能够单独存在。很高兴能看到这三个领域是一个全局领域而非三个有所隔阂的领域。
正如这三个领域是一个全局领域,它们在解决共同目标时发挥了自己的优势。因此,该方案适用于许多不同领域中,因为隐含的核心问题是一致的。
接下来是该数据挖掘出场了,它从全局获取解决方案并应用到不同的领域(商业、军事、医学、太空)来解决同一隐含本质的问题。这也是数据挖掘扩大其受欢迎程度的时期。
相信这能清晰地帮助任何一个想要理解这四个领域关键点的人们。(伯乐在线)
鼎富大数据
微信号:dinfo_cn
(←长按复制)
中国非结构化大数据领先技术提供商
鼎富科技发明专利DINFO-OEC非结构化大数据分析挖掘平台为行业客户提供了处理非结构化大数据的分析挖掘能力,在金融和政府等行业都得到了广泛的应用。
新浪|腾讯微博:鼎富大数据 &
DINFO Discover
Information
&发现信息价值 服务企业创新
已投稿到:
以上网友发言只代表其个人观点,不代表新浪网的观点或立场。机器学习数据挖掘的区别
数据挖掘受到了很多学科领域的影响,其中数据库、机器学习、统计学无疑影响最大
地说,数据库提供数据管理技术,机器学习和统计学提供数据分析技术。由于统计学界往往醉心于
理论的优美而忽视实际的效用,因此,统计学界提供的很多技术通常都要在机器学习界进一步研究,
变成有效的机器学习算法之后才能再进入数据挖掘领域。从这个意义上说,统计学主要是通过机器
学习来对数据挖掘发挥影响,而机器学习和数据库则是数据挖掘的两大支撑技术。
从数据分析的角度来看,绝大多数数据挖掘技术都来自机器学习领域。但能否认为数据挖掘只
不过就是机器学习的简单应用呢?答案是否定的。一个重要的区别是,传统的机器学习研究并不把
海量数据作为处理对象,很多技术是为处理中小规模数据设计的,如果直接把这些技术用于海量数
据,效果可能很差,甚至可能用不起来。因此,数据挖掘界必须对这些技术进行专门的、不简单的
改造。例如,决策树是一种很好的机器学习技术,不仅有很强的泛化能力,而且学得结果具有一定
的可理解性,很适合数
据挖掘任务的需求。但
传统的决策树算法需要
把所有的数据都读到内
存中,在面对海量数据
时这显然是无法实现
的。为了使决策树能够
处理海量数据,数据挖
掘界做了很多工作,例如通过引入高效的数据结构和数据调度策略等来改造决策树学习过程,而这
其实正是在利用数据库界所擅长的数据管理技术。实际上,在传统机器学习算法的研究中,在很多
问题上如果能找到多项式时间的算法可能就已经很好了,但在面对海量数据时,可能连
都是难以接受的,这就给算法的设计带来了巨大的挑战。
数据挖掘与机器学习的关系(转)
我最近看国外的学校,把机器学习和数据发掘分开了,数据发掘主要是跟数据库打交道,学什么数据仓库,用Oracle软件。而机器学习好像是跟统计更加贴近。
我是个新人,学统计的,挺想在这个方向多学习学习,希望高手前辈们指教指教,看了一些别人的说明,也不太统一~~
统计系和计算机系在数据挖掘上做的工作有很大不同,我的感觉是,统计系把统计方法的一个子集成为数据挖掘(你看大部分数据挖掘的书所讲的不过就是那数十种方法而已),计算机系做的是数据库挖掘(软件、数据库算法);
至于机器学习呢,我引用牛津的Ripley教授的一句玩笑:
To paraphrase provocatively, 'machine learning is statistics minus
any checking of models and
assumptions'.
&&&-- Brian D.
Ripley (about the difference between machine learning and
statistics)
&&&&&&useR!
2004, Vienna (May 2004)
致感觉就是,经典统计学猛推公式猛证明各种模型性质,机器学习不管这些,它的目的是预测性能更好的算法,这些模型(机器)有个特点,就是可以自我学习,提
高预测性能,按字面意思应该这样解释,但实际上并非所有的机器学习算法都有“学习”的特征的。所以,我认为大家只是在给统计学穿外套、做包装。
看过一篇文章认为机器学习是指那些具体算法,而数据挖掘则还包括建立和维护数据库,数据清洗,数据可视化以及结果的使用,要综合使用到数据库、人机交互、统计分析和机器学习的技术。
机器学习和数据挖掘以及统计之间的关系表面上很像,但是也有非常大的区别
相似点在于:都是数据分析的工具,三个领域内都有办法用来分析同一数据,基本原理都很浅显。
不同点在于:
统 计对模型的要求比较苛刻,如谢所引,一定要对模型的各种性质,比如大样本,小样本,是否无偏,有多大的variance,是否达到c-r
bound,是否一致,最后最好还要有model checking.
机器学习很少关心模型在大样本的情况下如何,也不关心estimator的传统的性质--这也可能是因为他们的模型太过复杂,无法从数学上证明,这也从一
个侧面反映了为什么normal
distribution在统计中的用处如此之大(有了它,很多模型的性质的研究就便的容易了),也有可能是因为他们一般都用在数据量大的地方--但是机
器学习却挺关心另一个东西--error,包括empirical error and structural
error。举个简单的例子,我们眼看着神经网络和支持向量机这两种网络模型很流行,很容易懂,很有用,但是很多人却不知道它们来自何处,为什么能具有对
广泛的数据拥有广泛的用途,为什么精度会很高?--背后的原因很简单,它们两分别优化的是这两种error。而机器学习正是着眼于研究这两种error,
通过这两种error的研究垮身为一种具有很浓数学味道的学科--用了大量的分析学--而这一点也是它与数据挖掘的本质区别--数据挖掘只需要设计一张鱼
网(算法),在大量的数据中网到自己需要的模式,很多时候相当的需要运气。所以很多人都说这是渔夫的工作。
统计学习和机器学习的差别不怎
么大。倒是统计建模和机器学习有些差别。2001年Brieman(是这么拼的吗?)写了一篇文章,叫做statistical
modeling:two
cultures,介绍了之间的区别。统计建模是基于数据的概率分布的。因此统计模型中很重视推断inference,这些推断,比如假设检验,置信区
间,都是基于某种分布假设的。而机器学习最近本的问题,便是要最小化预测误差的某种度量。这两种方法对于世界的认知是不同的。统计建模,最终的目的,是获
得数据的概率分布,如果数据产生的分布已知,那么就天下大吉。统计建模认为世界可以用概率分布来逼近。而机器学习不这么认为,它不在乎数据产生于什么分
布,并且认为这个世界运行的方式是无法单纯用概率分布来解释的,比如神经网络。因此,它的目的,是预测的精准性。这是两种建模的方式,而归根结底,是对这
个世界认知的方式。
统计学习更倾向于模型,通常会基于某种已知的模型就行计算。而机器学习更倾向于数据本身,往往会通过某些算法(决策树,聚类,支持向量机,神经网络等)来从数据本身挖掘信息。
《Encyclopedia of Machine Learning》 的观点是,统计学习是机器学习的一个子类:
Inductive Learning
Statistical learning
Definition
Inductive learning is a subclass of machine learning that studies
algorithms for learning knowledge based on statistical
regularities. The learned knowledge typically has no deductive
guarantees of correctness, though there may be statistical forms of
guarantees.
当然这个分类没什么意义,手段都在互相渗透。统计学家喜欢叫统计学习,计算机科学人士喜欢叫机器学习,即使做的内容都差不多。
能讨论下统计学习和机器学习,统计模型和数据挖掘模型的区别吗?以前是听吴喜之老师和马景义老师讲的,当时听得很清楚,但时间太久就给忘了
是忘了怎么说出来,但是心里很明白也会用,唉就是那种感觉,你知道吗就是说不出来,难以言喻,会让人心里痒痒会抓狂的感觉。
要是能再听到一次就好了。
根据我的理解,机器学习是数据挖掘中的一种重要工具。然则数据挖掘不仅仅要研究、拓展、应用一些机器学习方法,还要通过许多非机器学习技术解决数据仓储、大规模数据、数据噪音等等更为实践问题。机器学习的涉及面也很宽,常用在数据挖掘上的方法通常只是“从数据学习”,然则机器学习不仅仅可以用在数据挖掘上,一些机器学习的子领域甚至与数据挖掘关系不大,例如增强学习与自动控制等等。所以我个人认为,数据挖掘是从目的而言的,机器学习是从方法而言的,两个领域有相当大的交集,但不能等同。
以上网友发言只代表其个人观点,不代表新浪网的观点或立场。

我要回帖

更多关于 数据挖掘十大算法介绍 的文章

 

随机推荐