目前机器学习的瓶颈有哪些

目前机器学习的瓶颈有哪些?
可能的改进方式会是怎样的?
按时间排序
不存在普遍适用的模型,每个模型都有自己适用的场景,也就是说只有最适合的模型,那如何根据数据选择模型那就是一门艺术了。。。。
最火的神经网络几乎不具有解释性
现有统计机器学习的模型算法,缺乏通用性,因为过度依赖训练数据,有些模型的训练过程也不透明,实际上没有可靠的复用基础,你无法知道,换一个场景,你现在的工作是否有效。
补充一下上面的观点,从工业应用的角度谈谈:1.
数据量的问题。这个可以分成两类来讨论:
a. 数据太多,那么面临着计算能力和计算成本的问题。
b. 数据太少。数据太少有时候是很客观存在的事情,很多时候工业界在启动一个项目的时候会希望你先做一个pilot。在这种情况下,只有非常少量的数据可以用。对于复杂的问题,还面临着feature的维度很高,在这种情况下模型的预测能力一般都不会太好。老板看到效果不好,这个项目就会被毙掉。2.
模型及预测结果的可解释度。面试的时候我曾被问过一个问题:你怎么跟不具备相同知识背景的人解释你的项目?这个问题对于机器学习的实用性非常重要,因为大部分复杂算法的可解释度都很低。据我观察,在工业界比较流行的是:logistic/linear
regression还有random forest。能解释才是王道。3.
模型过拟合。这个问题也是老生常谈了,但现实生活中我们常常可以看到有同事做出了一个看起来正确率超高的模型,但放到实际过程中完全不能用。虽然有各种方法进行regularization,
dropout, Bayesian learning,但很多时候overfitting还是不可避免。4.
数据预处理(清理,弥补缺失,标准化等)。这个又是属于人云亦云的过程,每个人对于每个数据的处理方法都不相同,大部分都是按照自己的经验来处理。比如Missing
value吧,各种paper提出各种方法但实际效果都不会有哪一个特别牛逼。其实数据本身就是个问题,大部分项目都是 junk in junk out。5.
不可预测性。机器学习的每个过程都充满了不可预测性,比如解释model,比如处理missing
value,也比如将文字转化为vector。按理来说,我们会觉得更复杂的处理效果更好,但大部分时候你会发现bag
of words比skip-gram强多了。大概机器学习的每个环节都存在这种问题,没有唯一的经典的最好的方法。做机器学习就像是猜密码,而且是一个很多位的密码…好在不需要全对我们就可以开锁拿钱。自适应机器学习之类的研究或许可以帮助我们摆脱这种看天吃饭的工作流程。所以就像其他所有人提到的一样,机器学习是一门玄学:)
很难获取高质量数据。
感觉比较重要的一点是机器学习模型的参数依赖于trial and error,而这个调整过程又很依赖于自身的经验,机器学习好的都是调的一手好参。。。
个人稍微抛点砖头,总结几点个人遇到的“坑”:(如有错误,请拍砖指正,不胜感激)1.模型泛化能力,这个涉及trade-off问题。理论方面的解释不足,多采用了grid search的多参数组合求最优模型。解释上的乏力导致了调参侠的诞生……2.大数据量的计算问题。现在有了并行式计算框架的巨大进步,但这仍然是一个限制性的瓶颈问题,涉及到算法的并行优化。(希望能学习到更多的并行化方法,望赐教)3.神经网络的可解释性。有会议已经拒收缺乏可解释性的、调参结果式的paper了。4.数据收集预处理。非常关键的步骤,可惜本人小硕一枚,实在是缺乏经验啊……5.经验经验问题啊,模型选择把握不好啊……
机器学习之所以这么火的原因到底是什么呢?难道真的只是吹牛逼的玄学么?那怎么还有企业整天花钱在倒腾机器学习?机器学习在企业中到底做了什么?我觉得当这些问题都搞明白之后,自然就会想到机器学习该怎么实现?需要解决什么样的问题,还有哪些问题解决不了需要改进,以及机器学习的意义所在。…………………………………………………………………………………………………其他不熟悉的行业不说了,就拿互联网和金融行业来说,表现出来的特点是,信息量庞大,需要决策的场景非常之多且频繁。互联网电商中的广告投放、业绩预测、会员体系、个性化方案,金融市场中的股价波动、市场利率调整、保险产品个性化等一系列问题,让你人力上需要花很大的力气去解决,而且还不一定做的好。…………………………………………………………………………………………………也正是因为这些原因,才主要机器来辅助决策,通过机器学习的方法,第一步先减轻人力工作,第二步才是比人工效果还好。我们在解决实际场景过程中会面临几个方面的问题:1.我们要解决什么样的问题,需要什么样的算法来解决。到底是分类问题,还是预测决策问题,还是只是计算关联的问题。这里面就会存在因为实际业务情况复杂,而存在一般模型解决不了的时候。2.我们需要哪些数据,可以实现这个模型的train,这里面又存在没有数据啦,数据噪音太多啦,数据格式不统一不规范,没有我们想要的数据啦,选择的feature不准确啦。3.在train的过程中,数据都准备好了,会遇到怎么选择抽样比例才能反应客观事实?计算的时间要多久?(你丫的模型跑几天才出来,实际情况可不可行)4.test环节评估模型效果的方式方法是否合理,选择的标准又是哪些?5.因为是机器学习,所以又会涉及到具体的计算资源,代码口径,逻辑复杂度,人力成本,以及最终的效果表现。…………………………………………………………………………………………………基本上,如果你能用一个很轻巧又高效的模型算法,解决一个实际场景比较头疼的问题,那你就牛逼了!就酱紫!
数据预处理
我感觉,现在机器学习的挑战是如何从海量数据中学习目标知识。以下也许是很好的入口:Z.-H. Zhou, N. V. Chawla, Y. Jin, and G. J. Williams. Big data opportunities and challenges: Discussions from data analytics perspectives. IEEE Computational Intelligence Magazine, ): 62-74.
从本质原理来说,目前的机器学习方法和人脑机制差异还是巨大的,更多的是通过大量数据来训练一个可以尽量逼近训练数据分布的模型,这种本质差异决定了机器学习离人脑思考方式还很遥远。最近深度学习和神经网络很火,最常用的卷积神经网络CNN的发明者Yann LeCun都不乐意称呼卷积神经网络这个名字,更乐意称呼深度卷积网络模型等名字,因为他觉得自己在搞的模型和人脑差异太大,不应该用神经网络的名称。从科研角度来说,一般每隔若干年就会有一次技术的质变的突破,然后紧接着一些修补完善。之前火过的SVM、AdaBoost、SIFT等,经过几年的优化后,性能基本达到极限,已经发展不动。这两年火了深度学习,目前还处于各种优化提高阶段,但应该也会到一定瓶颈后发展不动,然后需要更多的质变的突破。从工业应用来说,机器学习的方法应用会越来越多,目前应用的瓶颈主要体现在下面一些地方:1. 经验。机器学习的方法对于一般的工程师并不友好,如果没有了解原理和做过一些实验,这就是一个参数很多的黑盒,弄不好效果就会很差。2. 数据量。效果好的方法大都是有监督训练的,这就需要很多标注数据,数据的质量、归一化方法、分布等,对模型的效果都影响很大。3. 计算能力。很多模型,特别是深度学习模型,训练时间和资源消耗很大,如果需要多次训练调整策略和参数,周期很长。实际部署运行速度也受模型大小和种类影响,速度和效果会有一个权衡。4. 工程实现能力。好的算法要有好的工程实现,才能发挥正常的作用,代码能力不行,再好的模型也不行。5. 算法搭配。实际问题往往不是一个单一的算法可以搞定的,需要多个相关算法合理的搭配组合,具体问题具体分析解决。6. 技术高度。机器学习还比较前沿,效果和应用场景都有天花板,期望未来几年会有更多技术突破。
我觉得ML已经突破瓶颈了,正走在统治世界的路上所谓瓶颈,应该只有一个,自身水平跟不上
现时 strong AI 的问题是: 如何令机器像人脑一样思考?自 90 年代起,机器学习流行 statistical learning (统计学习) 和神经网络,它们已经能学出空间中的任意函数。那为什么我们还未见到强人工智能?原因是,「思维 (reasoning)」的内部结构是逻辑,而逻辑是符号 (symbolic) 运算。 研究者一直企图把神经网络和符号运算统一起来,叫 neural-symbolic integration。 但你会发现这个题目下的发展暂时还未有很大突破。在逻辑的结构下,可以直接从事学习,在假设空间中寻找最佳假设,而那假设空间是全部逻辑句子。 这叫诱发式逻辑学习 (inductive logic programming) 或关系学习 (relational learning)。这就造成了两种很不同的範畴 (paradigm): 一方面是「连续空间」中的学习,例如 SVM 和神经网络。 另一方面是「离散空间」中的搜寻,如 ILP。 前者可以是很快的,后者慢得可怜。 逻辑学习的慢,就正是我们现在还未有强人工智能的主因。说起机器学习,现在人人都会想到统计学习,但其实最早的机器学习是在逻辑结构中搞的,那时是 70 年代。 后来统计学习的流行完全掩盖了逻辑学习,那也是经典 AI (classical AI) 「死寂」了的原因。一般人会觉得离散和连续是两回事,但数学家们知道离散和连续只是一物的两面,这样的例子在数学中不胜枚举。 所以有希望找到逻辑和神经网络的统一,又或者连续和离散学习的统一。P=?NP 的问题也有关,而且有可能 P=NP。 NP 中最经典的问题就是 SAT (satisfiability,逻辑的可满足性问题),它的本质是 combinatorial search (组合性搜寻),很慢,不能用连续方法搜寻。 所谓连续方法的例子就如 Newton method 那些。 但离散的组合性问题,不容易化作连续的方程解问题。Deep learning 是最新的潮流,但它搜寻的空间仍然是神经网络那种连续空间。 如何用深层学习的技巧去搜寻有符号或逻辑结构的离散空间? 这可能是一个很好的发展方向。我现在的研究方向,是将逻辑先转换成抽象代数,然后再去发现由代数通往其他数学分支的桥梁。=============== 2016 年 6 月================噢,上面是 2014 年的答案,我很高兴我已经成功地完成了目标,但结果用的不是代数方法。 因为发觉普通代数的两个运算 + 和 x 不够用,而且还要给它一个甚至多个 & 序关系。 怎样搞也好像符号不够用。(可能是我水平低,我也知道有 3 个运算的代数,和略懂一点 universal algebra 的皮毛,但不懂得怎样应用。)最后,解决办法是放到 vector space 上,但「忽略」那代数结构,而是用机器 learn 出来。 这样的话,不需自己由 bottom-up 设计那代数结构,对我来说很易。 过渡到 vector space 之后真的豁然开朗,因为可以用到动态系统、控制论那些方法、深度神经网络等。 我现在已忙著搞那边的事。在逻辑/代数那边,还有张量代数可以用,其实有很多人研究了用 tensor products 代表自然语言句子,有兴趣可以看看《Quantum mechanics and linguistics》(2013) 这本书。 但这属於我所谓的 bottom-up 方法,亦即是说 explicitly 给出符号逻辑的形式,但在神经网络中似乎可以用 implicit 的方法,让机器 learn 它出来,使用者不知道实际的 representation 是什么。
谢邀。机器学习本身水还是很深,理论瓶颈不敢多谈,估计更多模型的提出和最优化理论方面的突破啥的,但是机器学习能够这么火,还是因为能让工业界让各个水平的人都能用统计方法去解决问题。
在工业界应用主要有算法和对应的系统的开发和算法的使用。算法开发倒也没有什么大的瓶颈,由于有基础的理论做保证(当然也有些理论没能完全保证但是真实效果ok的),更多的是系统的搭建,比如parameter server中优化通信方式,参数分离等等,尤其是数据更大时候更是需要系统设计的好.如果是理论不是特别完备的情况下就可能需要更好地探索。
算法应用的瓶颈一般来说角度会不同,更贴近业务和数据,也没什么瓶颈可言,更多的是tradeoff,如果快速上线一个简单但是可以接受的模型还是长时间开发一个复杂的但是效果更好的模型,如何调参使得效果更好,模型更新采用什么策略等等,更重要的,有没有#资源#做,老板支持不支持,老板的老板看不看重,能不能把应用全套包装好,这里水深多啦!
反正可以看到机器学习在工业界最大的瓶颈还是数据和人...扯远了...赶火车回家去了- -
灌水的好题目…软件算法层面算法的复杂度特别是面对大量数据下的处理。本身很多算法的复杂度不低,造成很多算法的应用范围受到了很大的限制,不是计算时间太慢就是内存需求太大。现在的数据量是越来越大,而且最终的应用效果也是和数据量有很大的关系的,毕竟目前的学习都是通过积累经验获得模型的,数据越多经验才能越多。能否有新的更加优秀的优化方法降低学习时需要的时间和内存很重要。并行化问题并行化目前来看是解决复杂度的重要出路了,大家都希望利用分布式集群更加快速的学习更大规模的模型。集群本身是有物理和资源限制的,集群越大通讯开销自然也会增加,而且本身经济上也是要花钱的。何况,很多算法也很难实现高效的并行,如果加上算法本身复杂度又比较大,基本就没有意义了。通用算法的问题谁都希望能有一个通用的学习算法可以自适应各种不同的任务,虽然这个可能性不大。现在的深度学习和神经网络之所以比较受关注,这方面也可能是部分原因,很多特征都可以通过非监督方法来获得,不需要人工太多干预,在这一方面还是减少了工作量的,而且确实有效果,语音图像方面的测试一直被刷正确率,NLP方面估计也要被刷了。数据层面数据层面比较矛盾,网络上的数据是越来越多,但是可以用来训练的优良数据还是有限。开放和组织标注更大范围的训练数据对机器学习任务的作用是非巨大。对于网上那么多的数据看着用不上也心急,所以也需要非监督的方法,还有Transfer Learning来利用那么多用不上的数据。硬件层面集群的数量限制增加更多的集群,才能组织更大的模型,但是集群本身的建立毕竟也受物理限制。GPU加速/FPGA专用硬件专用硬件用来加速学习肯定比一般的通用硬件要快的。基础科学层面对人类自己的神经系统的研究成果肯定对机器学习的算法和思路有很大的影响,这几年美国貌似在投入研究。这方面的突破会极大的加速机器学习。未来展望利用互联网上的大规模数据进行半监督的学习,完全的无监督学习即使可能效率也没有有监督的高。在学习的过程中肯定还是需要人类的调教。
俺是门外汉,说下个人想法,专家轻拍砖。。对于机器逻辑,最缺的是创新、总结、容错率,即机器只能按固有模型优化,不能自我提升,突破性进阶;有了BUG就当机了,不会自动禁用部分程序做应急处理。破解的难点在于情绪和神经网络,人和动物都是通过情绪反应,来拒绝接受一些信息以维持原有内在逻辑的稳定性的,所以即使有很多BUG依然可以持续运行。所以是不是可以通过多BUG稳定运行来求突破?依照目前的机器逻辑没觉得有可能突破,得有另一套逻辑从底层破解,重新架构才能完成。比如机器人和机器人之间没有记忆延续,而我们通过基因可以直接承载祖辈趋吉避害的信息,从而加快学习进程,比如有人天生怕蛇,有人一直不吃鱼等等。
1.数据,特别是高质量的数据。2.计算能力还不够强大,训练时间长。3.“理解”模型而不是靠猜。这一步很重要,否则一旦实际应用中出现edge case,就会捉襟见肘,因为你无法真正理解模型的在干啥,所以也自然无法找到问题所在。这也是很多看起来很高大上的模型,在实际中并不受欢迎,而一些看起来稀松平常了无惊喜的则大放异彩,比如random forests。
冯诺伊曼计算机结构
已有帐号?
无法登录?
社交帐号登录可能的改进方式会是怎样的?
我不是专家,只能说我自己学习过程中感觉到的瓶颈。1. 计算时间在工业界的训练数据动辄上TB,每天都得train一大批的model。光从计算时间上,就限制了SVM等相对复杂算法的流行程度。个人在微软、亚马逊经常见到的是逻辑回归train天下。偶尔有特殊的问题会用上SVM,但规模很小,且training data不会每天更新。因为只有logistic regression这种程度的方法在计算上是可行的。2. 模型诠释如果是logistic regression来train的model,那么最起码人还能看到每个feature的权重。但若使用SVM、神经网络或更复杂的方法,train出来的结果首先不说,其模型对人而言是很难进行诠释的。这也会限制商业上的应用。因为我作为卖家都不知道自己train出来的model究竟该怎样诠释,外行的买家大概也只能够不明觉厉了吧。3. 过于灵活相当于没有方法面对一个问题,可选择的机器学习模型首先就有很多。即使选定了几种方法,每一种方法还会有n多变种。比如SVM如此多的kernel、神经网络的activation function等。就算把这个选好了,还要去tune model的parameter。最可恨的是,这个流程很难总结出一套系统的经验指导。更多时候都只能trial and error。这相当于面对一个问题,临时去找方法、试各种方法一样。灵活过头了就变成玄学了。正是因为玄之又玄,机器学习养活了一大批论文灌水的人。
1.不知道什么特征是重要特征。所以像deep learning很有用,是因为它能自动学习特征&br&2.现实世界中有label的数据太少,所以限制有监督学习算法。&br&3.计算复杂度和数据量&br&4.局部极小值问题
1.不知道什么特征是重要特征。所以像deep learning很有用,是因为它能自动学习特征 2.现实世界中有label的数据太少,所以限制有监督学习算法。 3.计算复杂度和数据量 4.局部极小值问题
很难获取高质量数据。
很难获取高质量数据。
已有帐号?
无法登录?
社交帐号登录
尼采也死了问题已关闭
非建设性提问
问题应当引发一定主题范围内具体、有深度的讨论,当前提问方式易引发过于宽泛的讨论。
目前机器图像处理领域的技术瓶颈在哪儿?
这个问题比较泛,不是太好回答。我自己觉得图像分析理解/计算机视觉的问题在于:技术难度比较大,短期无法取得巨大进步(比如几年);成熟度不高,无法独立成为成熟的产品并产生价值;同时,由于运算量和存储量都十分大,成本很高;因此,短期无法迅速产生成熟度高好运营的产品。当然,在传统视觉领域,近年来,车牌识别,智能交通,人脸识别,智能视频监控都取得了一定的进步,出现了一些产品,同时,由于互联网的发展,图片分享的增加,基于人脸和图像搜索的应用也不断得到重视。所以,我的观点是想大成很难,但是,作为现有其它成熟产品的补充和亮点,还是很有价值的。至于您说的瓶颈,我觉得从细节角度讲,每个产品的瓶颈是不同的。从总体上看,所有机器学习的瓶颈在于算法无法百分之百正确和确定,总是会有错的情况,这是永远无法避免的。智能算法必须和人工结合才能产生好的 产品和应用,所谓智能人工,而非人工智能,即用智能来帮助人工减轻工作量,同时,用人工来帮助智能降低错误,而不是智能做到一切。
已有帐号?
无法登录?
社交帐号登录最近这几天什么游戏最火?当然是“上街抓皮卡丘”的Pokémon GO游戏。&
这款游戏的亮点,就是把游戏玩家所在的真实地理位置当做游戏中的坐标,而把现实中的世界当做游戏中的地图。因此,可爱的小精灵就会突然出现在你周围的现实世界。&
玩家进入游戏,打开地图和定位之后,就能四处寻找身边隐藏的小精灵。&
等等,皮卡丘游戏和机器学习有什么关系?&
皮卡丘游戏属于虚拟现实的一种。而虚拟现实、无人机、3D打印和机器学习是号称来自未来的四大黑科技。&
无人机技术相对较为成熟,经过市场整合,现在已进入低调的扩张期。3D打印面临着种种技术瓶颈,尚处于技术完善阶段。虚拟现实和机器学习则是目前被媒体热捧的对象。&
1.什么是机器学习
无论你听没听说、或者愿不愿意,我们的生活已经开始被机器学习的技术所影响了。先看几个例子。&
1.1 AlphaGo
它的中文名叫做阿尔法围棋,顾名思义是一款围棋人工智能程序,几个月前因在韩国成功大败世界围棋冠军、职业九段选手李世石而名声大噪。
(本文图片源自网络,图片版权归原作者所有,侵删)&
它的工作原理是“深度学习”,即多层的人工神经网络和训练。每层神经网络会把大量矩阵数字作为输入,通过非线性激活方法取权重,再产生另一个数据集合作为输出。&
简单的说,就是AlphaGo先从十几万份人类6至9段职业棋手的对弈棋谱中,学习和模仿人类常见的落子方式;然后在比赛中对于每一步,预计对手的几种应对方式,估计落子后的形势和赢面,选择其中最有利的一种走法。&
现在,碾压过人类的AlphaGo也没有闲着,正在紧密落鼓的进行三维迷宫游戏Labyrinth学习训练,试图实现下次对人类大脑的碾压。
1.2自动翻译
如果你觉得AlphaGo只是下围棋的,离自己的生活比较远,那么下面这个机器学习的例子,你一定用得上。&
当出国旅游时,最头疼的问题就是语言问题了。&
去英语国家还好,尚可以用蹩脚的英语向路人问问路、聊聊天。&
如果是去非英语国家呢?恐怕连路牌都看不懂,更别说去餐馆点菜了。&
四年前,3M君到法国巴黎旅游,兴致冲冲的冲到某著名牛排店想去吃法式大餐,然而菜单拿上来之后是这样的:&
&不懂法语的我内心是奔溃的,话说你们就不能配些图片在菜单上面吗?&
不配图片也就算了,自傲的法国人总是认为法语是最美的语言,根本不屑于学英语。&
沟通无效,3M君只好根据价格反推哪些条目可能是牛排,然后随机选中几条,一个字母一个字母的敲进手机去查。&
幸好这些单词是拉丁语系,由26个字母组成。如果是日语菜单,谁能告诉我可以用什么输入法、还有怎么把日语敲到手机里?
&不过现在有了机器学习,再也不用担心这个问题了。&
只需要下载Google Translate的APP,然后把手机的摄像头对准某行外文,能在屏幕上实时显示翻译后的语言,像是下图这样。&
&亮点就是无需手动敲入单词,只需要用手机自带的照相机对准菜单即可,然后手机就能自动识别文字,并翻译成中文。
1.3指纹识别
当然,自动翻译的技术现在还没有完全成熟,大多数时候只能给一个大概的意思,并不能完全精确翻译。&
第三个机器学习的例子则是目前已经正在成熟使用的,那就是指纹识别。&
人类的手指指腹上都有凹凸的皮肤所形成的纹路,这些纹路有许多细节特征,例如起点、终点、结合点和分叉点。&
每个人的指纹并不相同,指纹识别就是通过比较这些细节特征的区别来进行鉴别。
&先用海量的指纹对机器进行训练,告诉它什么样的指纹是谁的。然后机器在成千上万次的学习过程中学会了如何提取了指纹的特征值及判断。&
现已成功运用于门禁系统、考勤系统、笔记本电脑、银行交易等。
1.4机器学习与人工智能
看了上面这些例子,是否对机器学习有了一些基本的概念?&
维基百科对机器学习的定义是:从数据中自动分析获得规律,并利用规律对未知数据进行预测的算法。&
不少人可能会把机器学习和人工智能当做一个东西,但其实机器学习只是人工智能里面的一个子学科。&
人工智能核心在逻辑推理,并不一定需要机器学习。比如,GPS导航想寻找两地之间最短的行车路线,如果已经知道路况、流量等参数,只需要搜索路径即可,无需学习。&
但世界上许多事情不是简单的逻辑能够说清楚的,或者说理论推导对解决实际问题不适用,还不如直接的从数据中得到规律更有效。&
机器学习的原理就在于:让计算机模拟人类的学习功能,从一个模型开始,通过实验和犯错来训练它,使其从大量的数据中发现规律,并在实践中不断地完善和增强自我,从而能对测试进行准确预测。&
2.机器学习能干些什么&
除了上面三个例子,机器学习还能干什么?下面详细列举机器学习的用途,都是一些耳熟能详的名词。&
2.1数据挖掘
它是指从数据中提取出隐含的过去未知的有价值的潜在信息。&
定义很抽象是不是?不如再来看例子。最经典的案例要数“啤酒与尿布”的故事。&&
上世纪90年代,美国沃尔玛的高管在分析销售数据时,发现了一个奇怪的现象:在某些时候,“啤酒”与“尿布”这两件看上去八杆子打不着的东东,经常会同时出现在购物篮中。这种现象引起了管理人员的注意,经过后续的调查和分析发现,这种现象主要出现在年轻的父亲身上。
在美国有小宝宝的家庭中,一般是母亲在家中照看婴儿,而父亲则前去超市,购买生活用品,当然包括尿布。年轻的父亲在购买尿布的同时,往往会顺便为自己买一些啤酒,这样就会出现啤酒与尿布这两件看上去不相干的商品,经常会出现在同一个购物篮的现象。
如果这个年轻的父亲在卖场只能买到两件商品之一,则他很有可能会直接放弃购物而到另一家商店,直到可以一次同时买到啤酒与尿布为止。沃尔玛发现了这一独特的现象,开始尝试将啤酒与尿布摆放在相同的地方,让年轻的父亲可以同时找到这两件商品,并很快地完成购物。&
数据挖掘,就是要挖掘出数据之间隐藏着的不知道的关系和信息,以此了解数据中潜在的规律,然后用历史预测未来。
&2.2自然语言处理
简单的说,自然语言处理就是把自然语言转化为计算机程序更易于处理的形式,或者把计算机数据转化为自然语言。热门的运用包括:&
将某种语言自动翻译至另一种语言。比如将中文自动翻译成日语。
和机器人对话,例如Siri.
产生一段文字的摘要,例如产生报纸上某篇长文章的摘要。
自然语言生成
前几年火过一段时间自动写诗词、自动起名字的软件。
此外,还有语音合成、文本朗读、文字校对等。&&
2.3生物特征识别
通过使用数理统计方法对生物体(一般特指人)本身的生物特征进行分析,来区分生物体个体的计算机技术。包括:&&
虹膜和视网膜识别
&2.4语音和手写识别
对着电脑说话,电脑自动讲语音转化为文字。某些输入法目前已经可以做到。
将图像中的文本自动转换成是计算机可以使用的字符代码。
键盘敲击识别
2.5医学诊断
目前的看病诊断模式,一般是由医生等专业人员根据病症、病史(包括家庭病史)、病历或医疗测试结果等资料作出判断。
未来,诊断过程可能会被机器代替。&&
(6)检测信用卡欺诈
首先用持卡人的大量正常交易数据来对机器进行训练。比如一个人通常每周去两次超市,每天中午去食堂吃饭等等。机器和算法学习到这是一个正常的交易序列。&
然后,可以通过运行算法检测每次交易是否为异常交易的概率。如果判断为正常交易,则把这次交易也列为学习案例,从而达到实时状态更新;如果判断为异常交易,立即引发信用卡冻结。&&
此外,机器学习还被广泛运用于:搜索引擎、证券市场分析、DNA序列测序、
战略游戏和机器人等领域、计算机视觉等领域。&
3.目前的瓶颈
由于媒体的热捧,加上过热的创业风,使得机器学习好像是马上要取代人类一样。&
各行各业都表示要转行做机器学习,包括不少IT培训班也把机器学习作为必备培训项目。&
事实上,新技术的发展有条Gartner曲线,先被炒得大热,再跌下来,又慢慢爬坡到稳定的状态。&
&目前的机器学习,还存在不少技术瓶颈:
(1)尽管在某些点有重大突破,但在更多的领域只能处于实验室研究阶段。比如,面部识别在实验室测试时,识别率可以达到98%以上。然而如果你把一台摄像机放到大街上,识别率能达到40%已经是非常不错。&
需要海量的学习数据。两三岁的小孩,只要大人给他指过几次小狗,下次十有八九他都能认出来。然而不论是多强的机器学习模型,也不可能只看几张小狗的图片,就能准确地认识小狗。&
想学习机器学习,需要技术人员学习大量的基础知识和算法。&
4.跳坑之前需要做些什么?
看到这里,如果你还对机器感兴趣,而且看好它,可以试试从下面入手:
基本数学和计算机知识
数学:微积分、线性代数、概率论、数理统计
计算机:Matlab或者Python
(2) Coursera上Machine Learning课程
Andrew Ng是coursera的创始人之一,这是一门入门级课程,涵盖了机器学习的一些基本概念和方法。深入浅出,通俗易懂,逻辑清晰,学完之后可以对机器学习有一个比较全面清晰的认识。&
统计学习方法和机器学习实战
《统计学习方法》比较详细地介绍了算法的原理,从理论层面来研究算法。算法的覆盖面很广,偏重于理论。&
《机器学习实战》介绍了机器学习领域十大算法的原理及应用,但没有深入其背后的数学分析。提供了案例研究问题并用Python代码实例来解决,偏重于实践。&
学到这里,就算正式进入机器学习的大坑了。接下来,还愿不愿意做这个,以及准备具体做什么,就要根据自己的需求制定相关的学习路线了。&
3M君,酷爱Matlab和Python编程,擅长图像识别和多媒体处理。不定时po一些自己在科学、工程计算编程中总结的经验教训、小技巧、实用工具和好玩的东西,欢迎关注~
参考知识库
* 以上用户言论只代表其个人观点,不代表CSDN网站的观点或立场
访问:2762次
排名:千里之外
原创:10篇

我要回帖

 

随机推荐