怎样进行大数据的入门级学习

中国领先的IT技术网站
51CTO旗下网站
数据科学 怎样进行大数据的入门级学习?
数据科学并没有一个独立的学科体系,统计学,机器学习,数据挖掘,数据库,分布式计算,云计算,信息可视化等技术或方法来对付数据。
作者:来源:36大数据| 10:06
数据科学并没有一个独立的学科体系,统计学,机器学习,数据挖掘,数据库,分布式计算,云计算,信息可视化等技术或方法来对付数据。
但从狭义上来看,我认为数据科学就是解决三个问题:
1. data pre-(数据预处理)
2. data interpretation;(数据解读)
3.data modeling and analysis.(数据建模与分析)
这也就是我们做数据工作的三个大步骤:
1、原始数据要经过一连串收集、提取、清洗、整理等等的预处理过程,才能形成高质量的数据;
2、我们想看看数据&长什么样&,有什么特点和规律;
3、按照自己的需要,比如要对数据贴标签分类,或者预测,或者想要从大量复杂的数据中提取有价值的且不易发现的信息,都要对数据建模,得到output。
这三个步骤未必严谨,每个大步骤下面可能依问题的不同也会有不同的小步骤,但按我这几年的经验来看,按照这个大思路走,数据一般不会做跑偏。
这样看来,数据科学其实就是门复合型的技术,既然是技术就从编程语言谈起吧,为了简练,只说说R和Python。但既然是荐数据科学方面的书,我这里就不提R/Python编程基础之类的书了,直接上跟数据科学相关的。
R programming
如果只是想初步了解一下R语言已经R在数据分析方面的应用,那不妨就看看这两本:
R in action:我的R语言大数据101。其实对于一个没有任何编程基础的人来说,一开始就学这本书,学习曲线可能会比较陡峭。但如果配合上一些辅助材料,如官方发布的R basics(),stackoverflow上有tag-R的问题集(),遇到复杂的问题可在上面搜索,总会找到解决方案的。这样一来,用这本书拿来入门学习也问题不大。而且这本书作者写得也比较轻松,紧贴实战。
Data analysis and graphics using R:使用R语言做数据分析的入门书。这本书的特点也是紧贴实战,没有过多地讲解统计学理论,所以喜欢通过情境应用来学习的人应该会喜欢这本入门书。而且这本书可读性比较强,也就是说哪怕你手头没电脑写不了代码,有事没事拿出这本书翻一翻,也能读得进去。
但如果你先用R来从事实实在在的数据工作,那么上面两本恐怕不够,还需要这些:
Modern applied statistics with S:这本书里统计学的理论就讲得比较多了,好处就是你可以用一本书既复习了统计学,又学了R语言。(S/Splus和R的关系就类似于Unix和Linux,所以用S教程学习R,一点问题都没有)
Data manipulation with R:这本书实务性很强,它教给你怎么从不同格式的原始数据文件里读取、清洗、转换、整合成高质量的数据。当然和任何一本注重实战的书一样,本书也有丰富的真实数据或模拟数据供你练习。对于真正从事数据处理工作的人来说,这本书的内容非常重要,因为对于任何研究,一项熟练的数据预处理技能可以帮你节省大量的时间和精力。否则,你的研究总是要等待你的数据。
R Graphics Cookbook:想用R做可视化,就用这本书吧。150多个recipes,足以帮你应付绝大多数类型的数据。以我现在极业余的可视化操作水平来看,R是最容易做出最漂亮的图表的工具了。
An introduction to statistical learning with application in R:这本书算是著名的the element of statistical learning的姊妹篇,后者更注重统计(机器)学习的模型和算法,而前者所涉及的模型和算法原没有后者全面或深入,但却是用R来学习和应用机器学习的很好的入口。
A handbook of statistical analysis using R:这本书内容同样非常扎实,很多统计学的学生就是用这本书来学习用R来进行统计建模的。
Think Python,Think Stats,Think Bayes:这是Allen B. Downey写的著名的Think X series三大卷。其实是三本精致的小册子,如果想快速地掌握Python在统计方面的操作,好好阅读这三本书,认真做习题,答案链接在书里有。这三本书学通了,就可以上手用Python进行基本的统计建模了。
Python For Data Analysis:&作者是pandas的主要开发者,也正是Pandas使Python能够像R一样拥有dataframe的功能,能够处理结构比较复杂的数据。这本书其实analysis讲得不多,说成数据处理应该更合适。掌握了这本书,处理各种糟心的数据就问题不大了。
Introduction to Python for Econometrics, Statistics and Data Analysis:这本书第一章就告诉你要安装Numpy, Scipy, Matplotlib, Pandas, IPython等等。然后接下来的十好几章就是逐一介绍这几个库该怎么用。很全面,但读起来比较枯燥,可以用来当工具书。
Practical Data Analysis:&这本书挺奇葩,貌似很畅销,但作者把内容安排得东一榔头西一棒子,什么都讲一点,但一个都没讲透。这本书可以作为我们学习数据分析的一个索引,看到哪块内容有意思,就顺着它这个藤去摸更多的瓜。
Python Data Visualization Cookbook:&用Python做可视化的教材肯定不少,我看过的也就这一本,觉得还不错。其实这类书差别都不会很大,咬住一本啃下来就是王道。
Exploratory Data Analysis 和 Data Visualization
Exploratory Data Analysis:John Tukey写于1977年的经典老教材,是这一领域的开山之作。如今EDA已经是统计学里的重要一支,但当时还是有很多人对他的工作不屑一顾。可他爱数据,坚信数据可以以一种出人意料的方式呈现出来。正是他的努力,让数据可视化成为一门无比迷人的技术。但这本书不推荐阅读了,内容略过时。要想完整地了解EDA,推荐下一本:
Exploratory Data Analysis with MATLAB:这本书虽然标题带了个MATLAB,但实际上内容几乎没怎么讲MATLAB,只是每讲一个方法的时候就列出对应的MATALB函数。这本书的重要之处在于,这是我读过的讲EDA最系统的一本书,除了对visualization有不输于John Tucky的讲解外,对于高维的数据集,通过怎样的方法才能让我们从中找到潜在的pattern,这本书也做了详尽的讲解。全书所以案例都有对应的MATALB代码,而且还提供了GUI(图形用户界面)。所以这本书学起来还是相当轻松愉悦的。
Visualize This:中译本叫&鲜活的数据&,作者是个&超级数据迷&,建立了一个叫的网页展示他的数据可视化作品,这本书告诉你该选择什么样的可视化工具,然后告诉你怎样visualize关系型数据、时间序列、空间数据等,最后你就可以用数据讲故事了。如果你只想感受一下数据可视化是个什么,可以直接点开下面这个链接感受下吧!A tour through the visualization zoo()
Machine Learning & Data Mining
这一块就不多说了,不是因为它不重要,而是因为它太太太重要。所以这一部分就推两本书,都是&世界名著&,都比较难读,需要一点点地啃。这两本书拿下,基本就算是登堂入室了。其实作为机器学习的延伸和深化,概率图模型(PGM)和深度学习(deep learning)同样值得研究,特别是后者现在简直火得不得了。但PGM偏难,啃K.Daphne那本大作实在太烧脑,也没必要,而且在数据领域的应用也不算很广。deep learning目前工业界的步子迈得比学术界的大,各个domain的应用如火如荼,但要有公认的好教材问世则还需时日,所以PGM和deep learning这两块就不荐书了。
The Element of Statistical Learning:要学机器学习,如果让我只推荐一本书,我就推荐这本巨著。Hastie、Tibshirani、Friedman这三位大牛写书写得太用心了,大厦建得够高够大,结构也非常严谨,而且很有前瞻性,纳入了很多前沿的内容,而不仅仅是一部综述性的教材。(图表也做得非常漂亮,应该是用R语言的ggplot2做的。)这本书注重讲解模型和算法本身,所以需要具备比较扎实的数理基础,啃起这本书来才不会太吃力。事实上掌握模型和算法的原理非常重要。机器学习(统计学习)的库现在已经非常丰富,即使你没有完全搞懂某个模型或算法的原理和过程,只要会用那几个库,机器学习也能做得下去。但你会发现你把数据代进去,效果永远都不好。但是,当你透彻地理解了模型和算法本身,你再调用那几个库的时候,心情是完全不一样的,效果也不一样。
Data Mining: Concepts and Techniques, by Jiawei Han and Micheline Kamber 数据挖掘的教材汗牛充栋,之所以推荐这本韩家炜爷爷的,是因为虽然他这本书的出发点是应用,但原理上的内容也一点没有落下,内容非常完整。而且紧跟时代,更新的很快,我看过的是第二版,就已经加进去了social network analysis这种当时的前沿内容。现在已经有第三版了,我还没看过,但应该也加入了不少新内容。其实这本书并不难读,只是篇幅较长,啃起来比较耗时。
其实这两本书里单拎出来一块内容可能又是几本书的节奏,比如bayesian方法,再拿出两三本书来讲也不为过,我个人用到的比较多,而且也确实有不少好书。但并非是所有data scientist都要用到,所以这一块就不再细说。
还有一些印象比较深刻的书:
Big Data Glossary:&主要讲解大数据处理技术及工具,内容涵盖了NoSQL,MapReduce,Storage,Servers,NLP库与工具包,机器学习工具包,数据可视化工具包,数据清洗,序列化指南等等。总之,是一本辞典式的大数据入门指导。
Mining of Massive Datasets:这本书是斯坦福大学Web Mining的讲义,里面很多内容与韩家炜的Data Mining那本书重合,但这本书里详细地讲了MapReduce的设计原理,PageRank(Google创业时期的核心排序算法,现在也在不断优化更新)讲解得也比较详细。
Developing Analytic Talent:&作者是个从事了十几年数据工作的geek,技术博客写得很有个人风格,写的内容都比较偏门,通常只有具备相关数据处理经验的人能体会出来,丝毫不照顾初学者的感受。比如他会谈到当数据流更新太快时该怎么办,或者MapReduce在什么时候不好用的问题,才不管你懂不懂相关基础原理。所以这本书不太适合初学者阅读。这本书其实是作者的博客文章的集结,用how to become a data scientist的逻辑把他近几年的博客文章串联了起来。
Past, Present and Future of Statistical Science:这本书是由COPSS(统计学社主席委员会,由国际各大统计学会的带头人组成)在50周年出版的一本纪念册,里面有50位统计学家每人分别贡献出的一两篇文章,有的回忆了自己当年如何走上统计学这条路,有的探讨了一些统计学的根本问题,有的谈了谈自己在从事的前沿研究,有的则给年轻一代写下了寄语。非常有爱的一本书。
Harvard Data Science:这是H大的Data science在线课,我没有修过,但口碑很好。这门课需要费用8千刀左右,比起华盛顿大学的4千刀的Data science在线课虽贵一倍,但比斯坦福的14千刀要便宜将近一半(而且斯坦福的更偏计算机)。如果想自学,早有好心人分享了slides: ()和homeworks and solutions: ()
PyData:PyData是来自各个domain的用Python做数据的人每年举行一次的聚会,期间会有各路牛人举行一些规模不大的seminar或workshop,有好心人已经把video上传到github,有兴趣的去认领吧()
R/Python/MATLAB(必备):如果是做数据分析和模型开发,以我的观察来看,使用这三种工具的最多。R生来就是一个统计学家开发的软件,所做的事也自然围绕统计学展开。MATLAB虽然算不上是个专业的数据分析工具,但因为很多人不是专业做数据的,做数据还是为了自己的domain expertise(特别是科学计算、信号处理等),而MATLAB又是个强大无比的Domain expertise工具,所以很多人也就顺带让MATLAB也承担了数据处理的工作,虽然它有时候显得效率不高。Python虽然不是做数据分析的专业软件,但作为一个面向对象的高级动态语言,其开源的生态使Python拥有无比丰富的库,Numpy, Scipy 实现了矩阵运算/科学计算,相当于实现了MATLAB的功能,Pandas又使Python能够像R一样处理dataframe,scikit-learn又实现了机器学习。
SQL(必备):虽然现在人们都说传统的关系型数据库如Oracle、MySQL越来越无法适应大数据的发展,但对于很多人来说,他们每天都有处理数据的需要,但可能一辈子都没机会接触TB级的数据。不管怎么说,不论是用关系型还是非关系型数据库,SQL语言是必须要掌握的技能,用什么数据库视具体情况而定。
MongoDB(可选):目前最受欢迎的非关系型数据库NoSQL之一,不少人认为MongoDB完全可以取代mySQL。确实MongoDB方便易用,扩展性强,Web2.0时代的必需品。
Hadoop/Spark/Storm(可选): MapReduce是当前最著名也是运用最广泛的分布式计算框架,由Google建立。Hadoop/Spark/storm都是基于MapReduce的框架建立起来的分布式计算系统,要说他们之间的区别就是,Hadoop用硬盘存储数据,Spark用内存存储数据,Storm只接受实时数据流而不存储数据。一言以蔽之,如果数据是离线的,如果数据比较复杂且对处理速度要求一般,就Hadoop,如果要速度,就Spark,如果数据是在线的实时的流数据,就Storm。
OpenRefine(可选):Google开发的一个易于操作的数据清洗工具,可以实现一些基本的清洗功能。
Tableau(可选):一个可交互的数据可视化工具,操作简单,开箱即用。而且图表都设计得非常漂亮。专业版1999美刀,终身使用。媒体和公关方面用得比较多。
Gephi(可选):跟Tableau类似,都是那种可交互的可视化工具,不需要编程基础,生成的图表在美学和设计上也是花了心血的。更擅长复杂网络的可视化。
【编辑推荐】【责任编辑: TEL:(010)】
大家都在看猜你喜欢
头条头条热点热点热点
24H热文一周话题本月最赞
讲师:5人学习过
讲师:36人学习过
讲师:5人学习过
精选博文论坛热帖下载排行
本书将介绍如何创建可交互的Web站点,包括从最简单的订单表单到复杂的安全电子商务站点。而且,读者还将了解如何使用开放源代码技术来实现...
订阅51CTO邮刊经常参与各类话题的讨论,发帖内容较有主见
经常帮助其他会员答疑
活跃且尽责职守的版主
为论坛做出突出贡献的会员
积极上进,爱好学习
站长推荐 /6
about云|新出视频,openstack零基础入门,解决你ping不通外网难题
云计算hadoop视频大全(新增 yarn、flume|storm、hadoop一套视频
视频资料大优惠
大数据零基础由入门到实战
阶段1:hadoop零基础入门基础篇
阶段2:hadoop2入门
阶段3:大数据非hadoop系列课程
阶段4:项目实战篇
阶段5:大数据高级系列应用课程
阶段6:工作实用系列教程
等待验证会员请验证邮箱
新手获取积分方法
Powered by您的举报已经提交成功,我们将尽快处理,谢谢!
可以学习《大数据--下一个创新、竞争和生产力的前沿.pdf》、《大数据 大影响》等,网上可以随便搜索到。
最好的用数据库软件编一个程序.处理数据更方便.
其实用vfp就行.
大多数办公室是用EXCEL做电子表格,但在有文、表混排时,还是使用WORD制表以方便排版。
WPS也可以替代EXCEL,目前金山推出的WPS OFFICE20...
是具体学习什么啊,各个公共图书馆办张卡都可以进图书馆的数据库
大家还关注开始用大数据学习吧!这是给新手的一份指南(不看后悔!)_培训杂志_传送门
开始用大数据学习吧!这是给新手的一份指南(不看后悔!)
点击“培训杂志”可直接订阅文/珍妮·迪尔伯恩编译/陈文君
数据可以改变学习和发展,但前提是我们知道该如何去使用它们。有些学习领导者已经成功利用大数据提升了绩效,从他们那里,我收集了一些实用的建议,以及4个有说服力的案例。2013年,艾略特·马西埃在T+D(现已更名为TD) 12月刊发表了一篇文章:《大“学习”数据的未知领域》。这位备受推崇的学习领袖提出了重要的理论——学习领域的大数据及其分析的影响力。所有培训从业人员都应该注意了!大“学习”数据革命正在发生。根据一家致力于提升企业绩效的机构调研,在全球超过1000个雇员的企业中,近1/3正在利用与学习相关的大数据。然而,可供分享的成功案例少之又少,也没有现成的操作指南可供参考。让我们改变这个现状!有些学习领导者已经成功利用大数据提升了学习发展和绩效,从他们那里,我收集了一些实用的建议,以及4个有说服力的案例。SuccessFactors:依据学习数据寻找解决方案那些有远见卓识的首席学习官们正在利用大数据,无论是用它来测量结果、调整计划,还是建设团队,对业务产生的影响都毋庸置疑。事实上,大数据能够产生数百万美元的效益,甚至更多。让我们从SuccessFactors(SAP的一家子公司,是基于云的人力资本管理软件领域的全球供应商)开始。它的学习团队通过因果分析、数据资源分析以及外包,取得了以下成就。分析表明,顶级销售人员正在使用CRM(客户关系管理系统)、LMS (学习管理系统)、绩效管理系统以及员工记录中的数据。于是,我们对其他销售人员培训这些技巧,并招聘具备这些技能的销售人员。奇迹发生了:原先总是不达标的业务代表,现在能超额完成任务,而浪费率几乎为零。通过分析客户呼叫量的驱动因素,我们调整了现有的客户培训,使得客户呼叫量降低了94%,好评也提高了34%。在分析小额交易的数据时,我们发现销售人员从不将产品卖给高层决策者。因此,我们开设了高管也能参与的课程,小额平均交易规模增长了65%。经过数据分析,我们发现了新员工培训项目的不足。通过适当调整培训计划,使得新员工培训比以前节省了50%的时间,减少了80%的浪费。培训从业人员可以依据学习数据,开发有针对性的、准确的解决方案。只要你愿意,就能摆脱“广撒网、碰运气”的学习与发展模式。埃森哲:创建“学习分析仪表盘”埃森哲(Accenture)公司拥有281000名员工,在全球是名副其实的顾问与科技巨头。它在三年里分析了近1000个大客户项目,证明了团队成员培训得越好,企业就越成功。它还得出结论:“‘人’是企业成功的关键,性别、地域、职业水平,甚至假期等变量都是影响因素。”然而,培训能改变这些因素。分析结果表明:在项目开始前的12个月内,如果一定比例的员工接受了培训,这个项目更有可能成功;而且,培训时间越接近,成功可能性就越大;与领导分享这一发现,能重新激发高层来支持培训和发展,降低培训资金的压力。这些分析还促成了预测工具“学习分析仪表盘”的创建,它能测量16个学习变量的最佳阈值。例如在项目期间进行职业培训、在项目开始前的12个月内开展软技能培训等。数据分析还能让管理者知道,何时需要增加培训力度以减少风险。埃森哲在它全球最大的几个子公司部署了“仪表盘”,记录着几十万的员工数据和数以亿计的公司收益。“仪表盘”的影响力十分有前景,也得到了有效的监控。埃森哲公司的能力策略部主任丹·比伦贝格说:“我们正在把培训数据转化为公司领导者所使用的语言。例如领导者们很清楚‘风险’这个术语,它包括政治动荡、客户领导力的变化、金融风暴等,财务总管都必须管理好这些风险的潜在危害,维护客户满意度和盈利能力。”捷飞络:引进“捷飞络大学表盘”技术认证对于捷飞络的成功意义重大,其上岗员工必须得到认证。但这家公司拥有2000家润滑油快捷商店、20000名员工并提供几十项服务。由于缺乏可靠的认证追踪系统,使得捷飞络不可能完全遵守这个标准。在2008年,捷飞络(Jiffy Lube)的学习团队分三个阶段攻克了这些挑战。首先,制定10个目标来实现标准化(对目标完成时间进行量化,例如“入门级认证必须在员工入职30天内完成”),并为标杆商店分配更高的目标。其次,建立一个新的学习管理系统(捷飞络大学引进了“捷飞络大学表盘”),来跟踪员工的认证层级。商店经理、特许经销商、公司领导者们可在线获取一个简易的彩色报表,从中可以看到个人、商店、特许经销商以及地域的完成目标情况:绿色显示的是达到或超过目标的,50%~99%的商店处于黄色区域(与目标接近),小于50%的商店处于红色区域(离目标还有较大差距)。最后,所有学习团队成员以及其他特许经销商,他们的个人业绩目标都要与认证水平挂钩。自2006年起,肯恩·巴伯就担任捷飞络CLO,他说:“我们相信,每个人都想表现得优秀,并采取所需行动进入绿色区域。每位员工都能共享信息,这帮助我们创建了一种意识和行动——不仅要达到认证目标,还要通过控制员工发展,帮助他们达成个人和职业的理想。”确实,捷飞络应用大数据以后的培训时长,是过去三年培训总和的两倍多。如今,76%的商店达到了80%~100%的认证率。最新的分析表明,33%的商店甚至达到100%的认证率,其平均客户销售量比系统平均量还高9%。集团平均收益最高的三个商店创下了100%、90%、80%的培训认证记录。泰勒斯:研发AUGER系统泰勒斯(TELUS)是一家加拿大电信公司,有着42000名员工,它倡导将正式、非正式以及社会化学习融合起来。因此,为传统的课堂培训开发新的计量与报告工具非常必要。“我们需要真正抓住整个企业的活动与计划的核心,而不仅仅是某个地域/时期的活动与计划。”学习合作部门领导庞特弗雷克特及其团队与“记分卡治理委员会”(该委员会是一个涉及人力资源、财务、分析的跨职能团队,帮助学习合作部门确定、评估目标)联手,研发了一个专有测量系统(即AUGER系统),并设计了一份调查表。这个系统自2011年推出以来,每年都会进行回顾和改进。AUGER系统主要从5个方面调研员工学习情况:访问(accessing)——点击、打开、进入使用(usage)——查看、停留、阅读、参与级别(grade)——知识获取级别评估(evaluation)——参与者评估回报(return)——绩效收益为了确定回报率,泰勒斯在每个季度都会任意挑选8000名员工(50%是经理人),对他们过去90天里的学习活动进行调查。受访者表示,AUGER系统给他们带来了较高的学习收益——2012年,员工的平均学习收益是74%,比当年预期目标还高3%,到2013年则升至75%。调研还揭示了不同学习方式的收益,正式学习给员工带来的平均学习收益是80%(以前是76%),非正式学习是85%(以前是78%),社会化学习是59%(以前是53%)。“增加总体学习收益是一方面,但是让正式/非正式/社会化等学习方式都得到传播(每个团队都有40个小时的培训时间),是我们学习文化深厚的证明。”庞特弗雷克特说。泰勒斯的学习团队不仅搜集了AUGER数据,还有一个自带各种追踪系统的客户数据库,同时还掌握了个人、部门、业务单位、集团的报告。任何员工都能进入一个基于维基百科(wiki)的学习仪表盘,它能从团队、部门、地区,甚至学习者的年龄等维度,展示投资、评估结果、分析等情况。“数据的透明度不仅帮助我们建立起高效而有针对性的培训,还帮助我们的合伙人建设他们的团队。”庞特弗雷克特解释说:“当每位员工都能看到公司的费用、敬业度和业绩时,就实现了我们期待的开放领导模式。”真相:我们需要“数据和分析”培训全球的数据分析技巧都很缺乏。根据麦肯锡全球研究院的调研,仅美国就有近20万员工缺乏分析技巧,近150万的经理人还不能基于数据分析做决定。因此,学习领导者们必须找到解决途径,建立、购买或者外包人才数据也不失为一种选择。数据可以改变学习和发展,但只有当我们知道如何使用才行。例如埃森哲正通过一个“数据和分析”培训系列,来帮助学习团队增强数据分析能力。其能力策略部主任比伦贝格说:“虽然我们有资深的数据分析专家,但培训其他员工学会使用数据分析同样重要。”学习数据的旅途中,无论你身在何处,都需要迈出下一步。大“学习”数据就在此时此地,触手可及。本文出自《培训》杂志,转载请注明出处。欢迎更多媒体、个人、组织与我们展开内容合作。联系邮箱 .cn
微信号 pxgc2014往期文章推荐《大数据推送人才管理,仍在路上…》(回复“大数据”获取)《一文教会你管理千禧一代》(回复“千禧”获取)《培养并留住高潜人才,成功企业怎么做?》(回复“高潜”获取)《你的团队需要的是领袖,不是主管》(回复“领袖”获取)
觉得不错,分享给更多人看到
培训杂志 微信二维码
分享这篇文章
培训杂志 最新文章
培训杂志 热门文章

我要回帖

 

随机推荐