哪些大数据相关书籍有哪些好书值得一看看

你当前的位置:&&&正文
《大数据》―― 一本应当从后往前看的好书
作者: 新闻来源: 新闻添加日期:日&新闻点击次
“除了上帝,任何人都必须用数据说话”是《大数据》这本书的核心思想。本书以一个个鲜活的案例,讲述了百年来美国政府、企业对数据的认识和处理的过程。向读者展示了如何做到“治大国如烹小鲜”的具体方法。让读者认识到:未来社会,不论是国家、企业还是个人,都生活在信息当中。而对信息的搜集、分析和提炼更是决定一个国家前途的基本要素。
本书一大特色是:从后往前读体会更深。这是因为在本书的最后,作者通过中美两国的对比,指出中国在数据搜集和处理方面的不足,并借胡适与黄仁宇两位大师之口,表达了对中国的殷切期盼:树立数据意识,建立一个以事实为基础、以数据为核心的精确的国家管理体系。所以此书主体虽是美国,核心却在中国,借美喻中,从后往前看,体会更深。
纵览本书,对我印象最深的有两点:数据意识与信息开放。
数据意识,就是数据的搜集、整理和分析的意识。当前社会环境日趋复杂,各种社会现象层出不穷,给政府管理带来了很大的难度。但是,正如马克思主义所强调的那样,偶然性背后必然隐藏着必然性。只有找出各种社会现象背后的共同因素,才能对症下药解决问题。这就要求我国政府要提高数据意识,完善数据搜集和分析技术,依靠数据来分析问题、处理问题。
“当我们有所怀疑的时候,公开是第一选择。”在以前,政府可以通过信息管制来控制群众的思想和行动,但是在信息分享成为主流的现在,信息管制只会引发群众对政府的怀疑和不满。从三公经费到PM2.5数据再到政府官员财产的公示,群众对政府信息公开的呼声越来越高,希望信息公开的范围也越来越广。一味地忽视这些要求只能加深群众对政府的怀疑,从而引发各种社会问题。只有将权力放在阳光之下,接受群众的监督和批评,政府才能赢得群众的信心,而我党的执政能力、工作效率才能实现跨越式的提高。
相 关 新 闻
点击 282次
添加日期:
点击 329次
添加日期:
添加日期:
点击 103次
添加日期:
添加日期:
热 点 新 闻
推 荐 新 闻
新疆巴音郭楞蒙古自治州国家保密局 版权所有
地址:新疆巴音郭楞蒙古自治州国家保密局
建议使用分辨率浏览网页扫一扫下载手机客户端
扫描我,关注团购信息,享更多优惠
||网络安全
| | | | | | | | | | | | | | | |
||电子电工
汽车交通| | | | | | | | | |
||投资理财
| | | | | | | | | | | | | | | | |
| | | | | | |
| | | | | | | | | | | | | | | | | | | | | | | | | | | | | |
||外语考试
| | | | | | | | |
| 视频教程|
大数据书籍&&&& 所谓大数据处理技术是指从各种各样类型的数据中,快速获得有价值信息的能力。本专区为从事大数据管理和处理分析人员以及对大数据时代感兴趣的人员,推荐关于大数据处理分析技术的书籍,包括大数据分析处理、数据挖掘入门、数据管理等大数据热门畅销经典书籍。&&&& 其中包括涂子沛编著的《大数据》、(美)拉贾拉曼(anand rajaraman)和(美)厄尔曼(jeffrey david ullman)共同编著的《大数据:互联网大规模数据挖掘与分布式处理》等经典畅销热门数据处理分析书籍。&&
数据分析特价图书推荐
【市场价】¥139【PUB价】¥55.6 【市场价】¥59【PUB价】¥44.25 【市场价】¥59【PUB价】¥44.25 【市场价】¥68【PUB价】¥61.2 【市场价】¥20【PUB价】¥18 【市场价】¥49【PUB价】¥37.73 【市场价】¥49.8【PUB价】¥37.35 【市场价】¥79【PUB价】¥59.25 【市场价】¥45【PUB价】¥33.75
数据分析经典图书推荐
【市场价】¥69【PUB价】¥51.75
【市场价】¥35【PUB价】¥30.8
【市场价】¥88【PUB价】¥66
【市场价】¥45【PUB价】¥33.75
【市场价】¥32【PUB价】¥24
【市场价】¥49【PUB价】¥36.75
【市场价】¥59【PUB价】¥44.25
【市场价】¥59【PUB价】¥44.25
【市场价】¥78【PUB价】¥58.5
【市场价】¥139【PUB价】¥122.32
数据分析最新图书推荐
【市场价】¥79【PUB价】¥67.94 【市场价】¥58【PUB价】¥46.4 【市场价】¥59【PUB价】¥51.92 【市场价】¥69【PUB价】¥51.75 【市场价】¥49【PUB价】¥38.22 【市场价】¥56【PUB价】¥43.12 【市场价】¥59【PUB价】¥44.25 【市场价】¥79【PUB价】¥59.25 【市场价】¥45【PUB价】¥36 【市场价】¥49【PUB价】¥36.75
数据分析推荐资讯
? ? ? ? ? ? ? ? ? ?
计算机精彩资讯
? ? ? ? ? ? ? ? ? ?
计算机最新资讯
? ? ? ? ? ? ? ? ? ?
订单处理配送
北京奥维博世图书发行有限公司 china-pub,All Rights Reserved首先声明一点,千万不要以为看了这篇文章就能成为大数据高手了,不然就不会用“修炼”这个词了,要修炼成大数据高手决不是件容易的事,可以说是非常难的一件事。要不也不会连大数据发源地——美国也不超出10个人(也许就5、6个)能达到这个层次,在中国……算了,就不说了。
这篇文章实际是给你指一条过程异常艰辛,但前途异常光明的路。没有毅力的人,看看就好了,千万别认真。(说实在的,就算要看明白这篇文章,也都不是件容易的事。)
言归正传。要想成为大数据高手,首先要从理念上彻底转变,彻底理解大数据思维,并渗透到血液和骨髓中,否则是不可能成为高手的。换句话说,你的世界观要彻底转变!(我知道,你一定会在心里心:有没有这么严重啊?)
而要实现这个转变,必须经过初级、中级和高级三个阶段的学习。
那三个阶段要怎么学习呢?下面我就会告诉你每个阶段所要用的教材,把这些书读透,你就会实现上面的转变了。
初级阶段:《大数据时代》
作者:[英]维克托·迈尔-舍恩伯格,[英]肯尼思·库克耶
翻译:盛杨燕,周涛
浙江人民出版社
不用说了,肯定是这本书。读完这本书,要求你形成大数据的概念,即知道这么几点:
1、绝不是有很多数据就叫大数据;
2、大数据是一种数据分析方式,与传统数据分析方式有着本质上的不同;
3、大数据的特点是“关注相关性,不关注因果”,这是大数据最核心的东西,一定要真正理解,并牢牢记住,不然你就很容易被别人忽悠;
4、大数据采用的是统计的方法;
5、大数据主要是结合人工智能进行机器的自动数据挖掘;
6、大数据主要是用来作预测的。而不是象一般的数据分析,只是分析出历史情况和现状,未来还是要靠人去预测,大数据则是直接告诉你未来的结果。
中级阶段:《失控》
作者:凯文·凯利(KEVIN KELLY),很多人都亲切地叫他KK
翻译:东西文库
新星出版社
为什么是这本书呢?学完初级阶段要记住的几件事还没忘吧?对,用统计的方法,而不是因果的方法,预测未来。ok,下面我们就来看看这本书说了些啥:
第二十二章 预言机
在对预测机制进行剖析的时候,法默最喜欢用这个例子来进行说明:「来,接着!」他说着就朝你扔过来一个棒球。你抓住了球。「你知道你是怎么接住这个球的吗?」,他问道。「通过预测。」
法默坚信你的脑子里有一个关于棒球是如何飞行的模型。你可以采用牛顿的经典力学算式f=ma 来预测一个高飞物体的运动轨迹,但是你的大脑本身却并没有存储这样的基本物理学算式。更确切地说,它直接依照经验数据建立起一个模型。一个棒球手,成千次观察球棒击飞棒球的情景,成千次举起戴着棒球手套的手,成千次利用戴手套的手调整他的预测。不知怎么的,他的大脑就逐渐编制出一个棒球落点的模型——一个几乎跟f=ma 不相上下的模型,只不过适用范围没有那么广而已。这个模型完全建立在过去接球过程中产生的一系列手/眼数据的基础上。在逻辑学领域中,这样的过程统称为归纳,它与导出f=ma 的推演过程截然不同。
一个棒球外野手基于经验形成的空中飞行物的「理论」,很像托勒密行星模型的后期阶段。如果我们解析外野手的「理论」的话,就会发现它是不连贯的,即兴的,复杂的,而且是近似的。但是,它也是可以发展的。这是一个紊乱的理论,但它不仅有效,而且还能提高。如果非要等到每个人都能弄明白f=ma 这个算式(况且,弄明白半个f=ma 还不如什么都不懂)再行动的话,就根本没有人能接住任何东西。就算你现在了解了这个算式,也没什么用。「你可以用f=ma 来求解飞行中的棒球问题,但你不能在外场实时解决问题。」法默说。
几乎可以明确地说,「活系统」——狮群、股票市场、进化中的种群、智能——都是不可预测的。它们所具有的那种混乱的、递归式的因果关系,各个部分之间互为因果的关系,使得系统中的任何一个部分都难以用常规的线性外推法推断未来。不过,整个系统却能够充当分布式装置,对未来做近似的推测。
而世界上绝大多数的复杂系统——包括所有的市场——都是非线性的。
在现实中,影响股票的二维图形轨迹的因素不是几个,而是数千个。
仅仅100 个变量,就可以创造出一群数量巨大无比的可能性。因为每一个变量行为都和其他99 个行为互相影响,所以如果不同时对这个相互作用的群体整体进行考察的话,你根本无法考察其中的任何一个参数。比如说,哪怕是一个简单的只有三个变量的气候模型,也会通过某种奇怪的回路连回到自己身上,从而哺育出某种混沌,让任何一种线性预测都成为不可能。
——摘自《失控》
用f=ma(公式)来预测,或者说线性预测,就是通过因果推理来进行预测,即根据球的质量、加速度等等因素,找出这个球为什么会从那个地方飞到这个地方的原因;
而“归纳”即是“统计”的意思,或者说是较粗略的统计,归纳是不问原因的,接住这个球就完了,管它是什么原因。
你想成为大数据高手,你想用统计的方法来对某些东西进行预测?(我现在来预测下你心里想的某些东西是什么。股票!噢,别夸我,我只不过是归纳了很多人的想法而已。)
好了,现在你来告诉我,还有什么理由不去好好读这本书?(当然,好心如我肯定会提醒你:拿这本书一定要拿稳了,砸脚面上可不是好玩的,因为它有一块砖头那么厚和重)
高级阶段:《复杂性》
作者:[美]尼古拉斯·雷舍尔(NICHOLAS RESCHER)
翻译:吴彤
学完中级阶段,你接触到了一件事,“复杂性”,知道了事情复杂到一定程度,就不可能用寻找因果的方法去进行预测。
那么到底什么是复杂性,它的本质和原理是什么?想成为大数据高手,你不能对此一无所知,因为你将一辈子与复杂甚至是极其复杂的事情打交道。
如果你读完了《失控》,可能此时心理在想:尼玛,《失控》这本书已经够难读懂的了(没错,要不微信老总张小龙也不会说,能读完这本书的可以直接去他公司上班。注意他说的是“读完”,不是“读懂”),那也才是个中级,这个高级不是要把脑子都烧坏吗?(你又预测对了,和这本比起来,《失控》只能算本休闲书)那我能不看这本书吗?它和我想学的东西到底有多大关系?(你这么不听老师话,你爸妈造吗?)
为了你这不听话的学生,老师就透露些内容吧:
不再试图根据事物如何必须按照理论的一般原理发展去解决问题,而是根据事物如何在通常的情况下按照我们能够确定的最好情况去解决问题。与其寻求抽象必然性的一般原理,不如以某种经验主义的精神,在经验——带有它的全部特征偶然性和潜在不完备性——中寻求指引。
被称为科学规律的牛顿世界秩序(Newtonian world order)的狂热爱好者。他们的观点是牛顿、拉普拉斯(Laplace)和达尔文的相应世界观,将世界看作自然规律的有序框架。康德主义因果关系原理(Kantian principle of causality)是他们思维中的最重要部分,世界——自然世界和人类世界——被视为宇宙,每一个事物都是有序的、规律的、理智的、可解释的。实在被视为某种有条理的系统,类似于有条理的花园,排列有序且有整齐的边界。
……爱因斯坦、普朗克、薛定谔(Schrodinger)及其同伴破坏了旧物理学秩序。康托尔(Cantor)、哥德尔、海丁(Heyting)等人打破了旧的数学秩序。量子力学理论造成了因果关系的崩溃。进化论现在郑重强调的不是“适者生存”,而是自然选择不得不在其基础上发挥作用的全然随机的平台。
(然而)机会和混沌的宇宙不是不守秩序的(无政府状态的),而只是复杂的,通过其自然的运转展现着更高阶规律的涌现。而当形式逻辑屈从于它的经典不变性时,一种新的非经典的、多值的(或者“模糊的”)逻辑业已诞生并取而代之。确定性(certainties)也有效地被或然性(probabilities)和似真性(plausibilities)所取代。
鉴于在复杂世界中对行动过程做出理智选择难免是困难的……如果我们是相信统计学结论的学者,用概率统计推断行为的正确性,那么事情就变得更容易处理。
——摘自《复杂性》
好了,读还是不读,你自己看着办吧。
对了,推荐这本书还有个原因。大家都知道大数据是研究数据的相关性,即找出数据之间的关系。当我经历了15年统计学人工智能数据相关性的探索和研究,感觉已经研究得差不多了,但又觉得要解决所有的问题还有不小的距离,这时就感到很迷茫,不知下一步的研究该往何方去,有种路越走越窄的感觉,又有一种达到顶峰的幻觉,直到看到这本书中的一句话:
“可以考虑它们的关系,再考虑这些关系中的关系,如此下去。”
当看到这句话,用醍醐灌顶已不足以形容我当时的感受,简直就是五雷轰顶。就好象原来我以为世界只有自家的一亩三分地,这句话如一道划破夜空的明亮闪电,让我突然看到了无限广袤的宇宙,为我指明了方向,并开辟出一条金光大道。(原谅我用了这么多的有点乱的形容,每当想起这句话,我就抑制不住激动的心情)现在想起来,自己那达到顶峰的幻觉是多么幼稚可笑啊,可笑还不在于我没有达到顶峰,而在于这世上本没有顶峰(挺具有佛性的一句话,不由得让我想起六祖的话:菩提本无树,明镜亦非台,本来无一物,何处惹尘埃)。
大家千万不要小看这句话中的“如此下去”几个字,他指明了一个无穷叠代,即 “关系的关系的……关系”,而智能将在这里涌现,解决复杂性问题预测的关键很可能就在这里,这句话打开了一个非常广阔的前景,将象宇宙一样没有穷尽。
看完这句话后,待心情稍稍平复,我立即把它写成一个函数:
x=f(f(a,b),f(c,d))
然后告诉自己:这就是你后半生要去全力研究的东西!
现在我们接着往下讲,还记得我一开始说过要转变世界观吗?读完这三本书,你已经做好了世界观转变的准备,现在就要来最后一击,完成这个转变!
也就是说,高级阶段你还要读一本书(尼妹,还要不要人活?我帮你说了)。你已经了解了复杂性的原理,但这个世界到底有多复杂,你可能还没有感性的认识。你一定觉得自己经历过很多非常复杂的事,比如你炒过股票、管理过几百上千人、研究过社会学问题等等,但是和这个世界真正最复杂的事比起来,这些都不过是小儿科。
也许你已经猜到了是什么方面的书,对,量子理论。鉴于这个理论实在太难、太复杂,爱因斯坦致死也没把它搞明白,科学家们现在也都还没把它搞明白,我辈就不用费神想去把它真正搞懂了,但由于我们是在探求事物的复杂性,或者也可以说研究事物的本质,那么不可不对此有所了解,因此我给大家的书是这方面的最初级的科普读物。(实在不忍心再吓你们了。
高级阶段(2):量子物理史话
作者:曹天元(没错,中国人)
辽宁教育出版社
你一定有疑问,“这本书就能让我改变世界观?”
那么我们就来看看书中说些什么吧:
量子世界的本质是“随机性”。传统观念中的严格因果关系在量子世界是不存在的,必须以一种统计性的解释来取而代之,波函数ψ就是一种统计,它的平方代表了粒子在某处出现的概率。当我们说“电子出现在x处”时,我们并不知道这个事件的“原因”是什么,它是一个完全随机的过程,没有因果关系。
因果性必须死,因为物理学需要生!
停止争论吧,上帝真的掷骰子!随机性是世界的基石,当电子出现在这里时,它是一个随机的过程,并不需要有谁给它加上难以忍受的条条框框。……而统计规律则把微观上的无法无天抹平成为宏观上的井井有条。
——摘自《量子物理史话》
“统计规律则把微观上的无法无天抹平成为宏观上的井井有条”,这句话实际上就是表明,统计方法可以使极其复杂的随机事件成为可预测。我认为,社会、市场、股票等等与量子世界有着很多相似之处。由于量子理论实际上是从最本质上去研究我们存在于其中的这个世界,因此正如书中的一句话:
“这个世界的本质:它本就是统计性的!
如果你用根深蒂固的唯物主义思想(认为唯心主义绝对是错的)去看量子理论,那么你可能很难理解它,而带着对唯心主义一定程度的理解(不一定非要完全赞同)去看会非常有帮助。因此,我在这里建议大家也可以了解一些佛学,比如看看净空法师说的话,这样会有助于你站在唯心主义的角度去看问题。
不是幡动,也不是风动,而是心动。
佛说:极微细的心动一下,宇宙就出现,森罗万象都现前,同时我也出现了。心动,分三段,第一它动,一动就变,一转变就成能见相,有能见立刻就有所见,所见就出现。能见就是意识,意识出现后,立刻就有所见,即物质出现,故物质是幻象,你想它就现相,物质现相即宇宙,故宇宙的现前是顿现,不是进化的。
——摘自《净空法师说华严经》
量子物理学家说:“意识”使得一切从量子叠加态中脱离,成为真正的现实。即第一个有意识的生物的出现才使得从创生起至那一刹那的宇宙瞬间成为现实,“意识”的参与可以在那一刻改变过去,而这个“过去”甚至包含了那个有意识的生物自身的演化历史。
——摘自《量子物理史话》
感觉到量子理论有多复杂了吗?如果你对上面两段很绕的话没太看明白,我给你个精简版本:
佛说:心动,宇宙就出现,森罗万象现前,同时我也出现;
量子物理学家说:意识使一切从量子叠加态中脱离,使宇宙历史瞬间成现实,其中含有那意识生物自身。
你肯定还是觉得无法理解这些话,没关系,你只需明白一件事就行了,佛祖在两千多年前就预言了量子物理学家现在要说的话。
好了,等看完这本书,你的世界观不改变,你来找我请你吃饭。
另外,还有一本书作为参考书可以读一读(别骂我,参考书,不一定非要读),侯世达(Douglas, R. Hofstardter)的《哥德尔、艾舍尔、巴赫》(比砖头还厚,《失控》只是和砖头一样厚)。
此书的介绍:本书是在英语世界中有极高评价的科普著作。曾获得普利策文学奖。它通过对哥德尔的数理逻辑,艾舍尔的版画和巴赫的音乐三者的综合阐述,引人入胜地介绍了数理逻辑学、可计算理论、人工智能学、语言学、遗传学、音乐、绘画的理论等方面,构思精巧、含义深刻、视野广阔、富于哲学韵味。
数理逻辑学、可计算理论、人工智能学、语言学,这些对你后面要学的东西是有帮助的。
推荐这本书的另外一个原因是,《复杂性》这本书引用了它的内容。
除了《大数据时代》,推荐以上这些书还有一个共同的原因,那就是这些书的作者可以说都是预测的高手(佛祖的功力你刚才已经领教了),让人实在佩服得五体投地。
《失控》写于20年前,据说是史上唯一一本历经20年越来越好卖的书,原因就是人们发现20年前书中说的事,这些年来正在一件件地被实现,人们都在奇怪,KK他是怎么知道的。
《复杂性》也写于近20年前。
《哥德尔、艾舍尔、巴赫》写于30年前。
《量子物理史话》虽然是2008年写的,但是量子理论诞生一百多年了。
《华严经》诞生于两千多年前。
然而它们竟然对今天的大数据有如此的指导意义,我还能说什么?
《复杂性》的作者尼古拉斯·雷舍尔还有一本书(还有?!),别急,这本书你一定会很想看,因为书名干脆就叫《预测未来》。可惜,这本书没有中文版,英语好的同学可以去国外找来看看,如果你能帮我也弄一本,俺将不胜感激!
现在你已转变了世界观,具备了成为一个大数据高手的思想,可以开始学习具体方法了,即学习人工智能。
你一定在想,是不是又要读一大堆书?理论上说:是的,需要学习人工智能基础、自然语言处理、机器学习、统计学人工智能等等。不过,看你们被虐了这么久,我也动了恻隐之心,将给你们指一条捷径,就学习一本书(高兴吧?)。
统计自然语言处理基础
作者:[美]Christopher D. Manning [德]hinrich Schutze
翻译:苑春法 李庆中 王昀 李伟 曹德芳等
电子工业出版社
你可能有一个疑问,为什么是“语言”,这有两个原因:
第一,在计算机专业,数据并不仅仅是指数字,文字、图片、声音、视频等都叫数据;
第二,语言比数字难很多,如果你能处理语言,那处理纯数字就容易很多。(可参看我的另一篇文章,“什么是真正的大数据”,)
你可能还有一个疑问,统计自然语言处理与一般的自然语言处理有什么本质不同之处?
给你讲一个有趣的事,我的一个侄儿,4岁左右,一次去机场第一次看见自动人行道,就是类似商场那种自动扶梯,只不过是放平的,人站在上面就自动往前走,他脱口就说出“平电梯”。很形象,是不是?他之所以能造出这个词,就是因为人有智能。
这里就引出一个小问题,他为什么会把“平”字放在“电梯”的前面?如果用人工智能的一般自然语言处理来解决这个问题,就会从词性、语法、句法等方面着手,中学的时候你一定学过什么偏正结构、主谓结构、动宾结构等等吧?对,经过这一翻分析和处理,找出原因并推导出结果,可能就会知道“平”字应该放在前面;
然而统计自然语言处理的路数不同,经过统计,“平”字大多数时候都是放在前面,比如平均、平等、平台、平的、平时、平坦、平常、平衡、平移、平板电脑……,好吧,那就把“平”字放在前面吧。嗯,就这么简单。
当然,这里只是打个比方,实际不会是这么简单。
但是,这又引出一个问题,我们仔细想想,那个4岁的小孩是怎么处理的,难道他懂什么语法、句法、编正结构吗?肯定不是,所以他一定是用的归纳统计的方法,无数次听到大人说到类似词时都是把平放在前面,所以他就放在前面了,他才不知道是什么原因呢,和接那个棒球是一个道理,他的大脑里并没有那个物理公式。
因此,统计自然语言处理是更接近自然的自然语言处理方式(绕口令?),也就是说更接近我们人的处理方式,甚至可以说就是人或自然的处理方式,只是人的大脑处理方式更复杂而已,但本质是一样的。
关于这一点,也有不同看法,我把不同观点也呈现给你,你可以自己去思考和判断。著名语言学家乔姆斯基就认为“儿童被假定为天生具有适用于所有人类语言的基本语法结构的知识,这种与生俱来的知识通常被称作普遍语法理论。”(摘自百度百科)
自然,我本人是很难苟同这种观点。这一观点也遭到相当一部份语言学家的反对,“认为在尚未对所有人类语言进行研究之前就假设所有人类语言有共同的‘底层语法’,这样做太冒进;而且在应用普遍语法研究未知语言时,不得不假设许多‘空白词类’,在研究基本语法为‘谓主宾’的语言(如爱尔兰盖尔语)时,更不得不假设这些语言的‘底层基本结构’为主谓宾,这种做法本身可能已经违反了描述性原则。也有语言学家(如Michael Evans和Stephan Levinson)主张,普遍语法是基於种族中心主义而得出的假设,而这会对认知科学造成很不良的影响。”
(摘自百度百科)
读完了这本书,不代表你就成为大数据高手了,实际上它只是为你打下基础知识,真正掌握大数据的方法,需要你在这个基础上去探索或者说悟出来。
至此为止,师父领进门、修行在个人,GOOD LUCK!
我写这篇文章其实有两个原因,一个就是为想成为大数据高手的人指一条路;
另一个原因,就是想做一个反击,对反对大数据、怀疑大数据、用小数据当大数据忽悠的人进行反击。注意,我这里绝对没有反对小数据的意思,大数据并不是万能的,传统数据分析方式、抽样数据分析仍然是非常有用的,或至少在相当长的时间里是如此,我只是反对现在很多人把传统数据分析方式当作大数据方式来忽悠大众。如果把这反击浓缩成一句话,那就是:
这个世界的本质是统!计!的!
作者:玻尔兹曼大脑的放逐,大家可以关注他的微博
扫描微信下面二维码,随时了解大数据最新动向,添加36大数据官方微信公共帐号dashuju36:
转载请注明来自36大数据(): &
除非特别注明,本站所有文章均不代表本站观点。报道中出现的商标属于其合法持有人。请遵守理性,宽容,换位思考的原则。您的 IP 地址/地理位置:220.177.198.53江西&&吉安&&联通
当前位置: &
分享:关于数据分析的几本书 13:33:40&|&编辑:hely&|&查看:&|&评论:
对于数据分析的书,本文推荐几本,只做参考。1、统计会犯错——如何避免数据分析中的统计陷阱;2、数据科学与大数据分析——数据的发现 分析 可视化与表示;3、Python数据分析;4、贝叶斯思维:统计建模的Python学习法
对于的书,本文推荐几本,只做参考。
1、统计会犯错&&如何避免中的统计陷阱
【一本值得珍藏、大胆迷人,并将永远改变你对统计看法的书 】
面对充满不确定性的未知世界,人们在科学研究中需要大量使用统计分析方法。但是,如何正确使用统计分析方法充满玄机,即使对那些最优秀和最聪明的人也是如此。读完此书你会惊讶地发现,许多科学家使用的统计方法中其实隐藏着许多谬误和陷阱。
本书简明扼要地指出了现代科学研究中常见的统计谬误,诸如 p 值与基础概率谬误、统计显著性和模型误用等。从这本书中,你将理解什么是统计谬误及其产生的原因,了解如何检查科学研究中隐藏的统计谬误。你还将学会如何正确地使用统计方法,如何在科学研究中避免这些统计谬误。
注:即将在9月25日上架。
2、数据科学与大数据分析&&数据的发现 分析 可视化与表示
数据科学与在当前是炙手可热的概念,关注的是如何通过分析海量数据来洞悉隐藏于数据背后的见解。本书是数据科学领域为数不多的实用性技术图书,它通过详细剖析数据分析生命周期的各个阶段来讲解用于发现、分析、可视化、表示数据的相关方法和技术。
本书共分为12章,主要内容包括大数据分析的简单介绍,数据分析生命周期的各个阶段,使用R语言进行基本的数据分析,以及高级的分析理论和方法,主要涉及数据的聚类、关联规则、回归、分类、时间序列分析、文本分析等方法。此外,本书还涵盖了用来进行高级数据分析所使用的技术和工具,比如MapReduce和Hadoop、数据库内分析等。
本书内容详细,示例丰富,侧重于理论与练习的结合,因此比较适合对大数据分析、数据科学感兴趣的人员阅读,有志于成为数据科学家的读者也可以从本书中获益。
3、Python数据分析
Python是一种多范型编程语言,既适用于面向对象的应用开发,又适合函数式设计模式。Python已经成为数据科学家进行数据分析、可视化以及及机器学习的一种理想编程语言,它能帮助你快速提升工作效率。
本书将会带领新手熟悉Python数据分析相关领域的方方面面,从数据检索、清洗、操作、可视化、存储到高级分析和建模。同时,本书着重讲解一系列开源的Python模块,诸如NumPy、SciPy、matplotlib、pandas、IPython、 Cython、scikit-learn和NLTK等。此外,本书还介绍了数据可视化、信号处理、时间序列分析、数据库、预测性分析和机器学习等主题。通过阅读本书,你将华丽变身数据分析高手。
4、贝叶斯思维:统计建模的Python学习法
这本书帮助那些希望用数学工具解决实际问题的人们,仅有的要求可能就是懂一点概率知识和程序设计。而贝叶斯方法是一种常见的利用概率学知识去解决不确定性问题的数学方法,对于一个计算机专业的人士,应当熟悉其应用在诸如机器翻译,语音识别,垃圾邮件检测等常见的计算机问题领域。
可是本书实际上会远远扩大你的视野,即使不是一个计算机专业的人士,你也可以看到在战争环境下(二战德军坦克问题),法律问题上(肾肿瘤的假设验证),体育博彩领域(棕熊队和加人队NFL比赛问题)贝叶斯方法的威力。怎么从有限的信息判断德军装甲部队的规模,你所支持的球队有多大可能赢得冠军,在《龙与地下城》勇士中,你应当对游戏角色属性的最大值有什么样的期望,甚至在普通的彩弹射击游戏中,拥有一些贝叶斯思维也能帮助到你提高游戏水平。
除此以外,本书在共计15章的篇幅中讨论了怎样解决十几个现实生活中的实际问题。在这些问题的解决过程中,作者还潜移默化的帮助读者形成了建模决策的方法论,建模误差和数值误差怎么取舍,怎样为具体问题建立数学模型,如何抓住问题中的主要矛盾(模型中的关键参数),再一步一步的优化或者验证模型的有效性或者局限性。在这个意义上,这本书又是一本关于数学建模的成功样本。
5、数据科学实战手册(R+Python)
这本书是基于R和Python的数据科学项目案例集锦,内容涵盖了基于数据科学的所有要素,包括数据采集、处理、清洗、分析、建模、可视化以及数据产品的搭建。案例包含了汽车数据分析、股票市场建模、社交网络分析、推荐系统、地理信息分析,以及Python代码的计算优化。通过手把手的案例解析,令读者知其然并知其所以然。
业界的数据分析师、数据挖掘工程师、数据科学家都可以读一读。想要了解实际工作中如何用数据产生价值的在校学生,或者对数据科学感兴趣的人也值得一读。
6、R数据可视化手册
R具有强大的统计计算功能和便捷的数据可视化系统。《R数据可视化手册》重点讲解R的绘图系统,指导读者通过绘图系统实现数据可视化。书中提供了快速绘制高质量图形的150多种技巧,每个技巧用来解决一个特定的绘图需求。读者可以通过目录快速定位到自己遇到的问题,查阅相应的解决方案。同时,作者在大部分的技巧之后会进行一些讨论和延伸,介绍一些总结出的绘图技巧。
《R数据可视化手册》侧重于解决具体问题,是R数据可视化的实战秘籍。《R数据可视化手册》中绝大多数的绘图案例都是以强大、灵活制图而著称的R包ggplot2实现的,充分展现了ggplot2生动、翔实的一面。从如何画点图、线图、柱状图,到如何添加注解、修改坐标轴和图例,再到分面的使用和颜色的选取等,本书都有清晰的讲解。虽然本书的大多数技巧使用的是ggplot2,但是并不仅仅局限于ggplot2的介绍。作者的理念是用合适的工具来完成合适的绘图任务,读者也可以学到许多其他有用的绘图函数和工具,来适应各种复杂的需求。
《R数据可视化手册》是学习R中丰富的数据可视化方法的权威手册,非常适合对R 语言有基本的了解的读者阅读。
相关阅读:
搜索"raincent"或扫描下面的二维码

我要回帖

更多关于 有什么书值得一看 的文章

 

随机推荐