《数据科学实战》(目录+前言 目录+什么是数

苹果/安卓/wp
& 附件下载
《数据科学实战》(美) 舒特.pdf
64.59 MB &
游客无法下载,
熟悉论坛请点击&&&&nbsp
经管之家APP:通过论坛APP下载,免流量费,哇! &
1.下载一个附件当天只会扣除您一次下载次数和一次流量费。
2.论坛支持迅雷和网际快车等p2p多线程软件下载,请在上面选择下载通道&&单击右健下载即可(不会算多次下载次数)。
3.论坛会定期自动批量更新下载地址,所以请不要浪费时间盗链&&论坛资源,盗链地址会很快失效。
4.本站为非盈利性质的学术交流网站,网站资源仅供&&教学、研究使用,请下载后24小时内自行删除。()
哇!统计软件还可以这样学!!!
视频教学+名师在线互动+权威答疑
你也可以成为统计高手
囊括所有常用统计软件培训:
、、、、、、、、等
联系方式:曾老师
: training@pinggu.org
无限扩大经管职场人脉圈!每天抽选10位免费名额,现在就扫& 论坛VIP& 贵宾会员& 可免费加入
&nbsp&nbsp|
&nbsp&nbsp|
&nbsp&nbsp|
&nbsp&nbsp|
&nbsp&nbsp|
&nbsp&nbsp|
如有投资本站或合作意向,请联系(010-);
邮箱:service@pinggu.org
投诉或不良信息处理:(010-)
京ICP证090565号
论坛法律顾问:王进律师热门城市:
关注我们:
数据科学实战手册 R+Python(京东)
移动端下单更多优惠
出版社:人民邮电出版社
参考价:&59
本商品由1号店入驻商家提供
手机购买仅需?,立即扫码购买
已成功提交请点击需求清单完成预定
联系卖家:
店铺动态评分同行业相比
描述相符:
服务态度:
发货速度:
本书涵盖R和Python两种主流语言,其优点在于其结构,每一章的每一节内容都是按照“准备工作—处理流程—工作原理”的方式组织,这种组织形式非常适合一边实践一边学习(learn-by-doing)。
这本书是基于R和Python的数据科学项目案例集锦,内容涵盖了基于数据科学的所有要素,包括数据采集、处理、清洗、分析、建模、可视化以及数据产品的搭建。案例包含了汽车数据分析、股票市场建模、社交网络分析、推荐系统、地理信息分析,以及Python代码的计算优化。通过手把手的案例解析,令读者知其然并知其所以然。业界的数据分析师、数据挖掘工程师、数据科学家都可以读一读。想要了解实际工作中如何用数据产生价值的在校学生,或者对数据科学感兴趣的人也值得一读。
作者简介Tony Ojeda(托尼·奥杰德),华盛顿DC数据社区的联合创始人,一位经验丰富的数据科学家和企业家,他在佛罗里达国际大学获得金融硕士学位,并且在德保罗大学获得了MBA学位。Sean Patrick Murphy(肖恩·派特里克·莫非),华盛顿DC数据社区的联合创始人,曾在约翰霍普金斯大学的应用物理实验室做了15年的高级科学家,他专注于机器学习、信号处理、高性能计算以及建模和模拟。现在他是旧金山、纽约和华盛顿DC多家公司的数据顾问。Benjamin Bengfort(本杰明·班福特),一位非常有经验的数据科学家和Python开发者。他曾在军方、业界和学术界工作过8年。他目前在马里兰大学派克学院攻读计算机博士学位,研究元识别和自然语言处理。他拥有北达科塔州立大学的计算机硕士学位,并是乔治城大学的客座教授。Abhijit Dasgupta(阿布吉特·达斯古普塔),华盛顿DC数据社区的成员,华盛顿DC统计编程社群的创始人和联合组织者,他拥有华盛顿大学生物统计的博士学位,在生物制药行业咨询、商业分析、生物信息以及生物工程咨询方面拥有多年的经验。译者简介郝智恒,甘肃兰州人,南开大学概率统计专业毕业,统计之都活跃会员。目前在阿里巴巴商业智能部任职,擅长数据分析和数据挖掘,喜欢用数据探索商业世界的边界。王佳玮,黄山脚下长大,香港城大-中科大联合培养博士毕业,现于阿里云大数据孵化器团队搬砖,喜欢数据分析和挖掘在社会各领域的应用,目前正致力于用数据和算法解决交通拥堵问题。谢时光,2011年博士毕业于美国弗吉尼亚理工大学工业工程系运筹学专业,毕业后从事数据分析、优化和决策支持相关工作至今。曾先后在安飞士(Avis)、费埃哲(FICO)等行业领先的公司从事从供应链到风险控制等多个应用领域的数据分析和优化决策研究工作。刘梦馨,灵雀云高级软件工程师,专注于容器虚拟化领域,机器学习爱好者。
第1章 准备你的数据科学环境 1简介 1理解数据科学管道 3处理流程 3工作原理 3在Windows、Mac OS X、Linux上安装R 5准备工作 5处理流程 5工作原理 7参考资料 7在R和RStudio中安装扩展包 7准备工作 8处理流程 8工作原理 9更多内容 10参考资料 10在Linux和Mac OS X上安装Python 10准备工作 11处理流程 11工作原理 11更多内容 11参考资料 12在Windows上安装Python 12处理流程 13工作原理 13参考资料 14在Mac OS X和Linux上安装Python数据分析库 14准备工作 14处理流程 14工作原理 15更多内容 16参考资料 16安装更多Python包 17准备工作 17处理流程 17工作原理 18更多内容 18参考资料 18安装和使用virtualenv 19准备工作 19处理流程 19工作原理 21更多内容 21参考资料 22第2章 汽车数据的可视化分析(R) 23简介 23获取汽车燃料效率数据 24准备工作 24处理流程 25工作原理 25为了你的第一个项目准备好R 26准备工作 26处理流程 26工作原理 26参考资料 26将汽车燃料效率数据导入R 27准备工作 27处理流程 27工作原理 28更多内容 29参考资料 30探索和描述燃料效率数据 30准备工作 30处理流程 30工作原理 32更多内容 33进一步分析汽车燃料效率数据 34准备工作 34处理流程 34工作原理 43参考资料 44研究汽车的产量以及车型 44准备工作 44处理流程 44工作原理 46更多内容 47参考资料 47第3章 模拟美式橄榄球比赛数据(R) 48简介 48准备工作 49获取和清洗美式橄榄球比赛数据 49准备工作 50处理流程 50工作原理 53参考资料 53分析和理解美式橄榄球比赛数据 53准备工作 53处理流程 53工作原理 61更多内容 61参考资料 62构建度量攻防能力的指标 62准备工作 62处理流程 62工作原理 64参考资料 65模拟单场由程序决定胜负的比赛 65准备工作 65处理流程 65工作原理 68模拟多场由计算决定胜负的比赛 68准备工作 68处理流程 69工作原理 73更多内容 74第4章 建模分析股票市场数据(R) 75简介 75准备工作 76获取股票市场数据 76处理流程 77描述数据 78准备工作 79工作原理 80更多内容 81清洗和研究数据 82准备工作 82处理流程 82工作原理 87参考资料 87形成相对估值法 87准备工作 87处理流程 88工作原理 91分析历史价格筛选股票 92准备工作 92处理流程 92工作原理 98第5章 就业数据的可视化探索(R) 99简介 99分析前的准备 100准备工作 101处理流程 101工作原理 102参考资料 102将就业数据导入R 103准备工作 103处理流程 103工作原理 104更多内容 104参考资料 105就业数据探究 105准备条件 105处理流程 105工作原理 107参考资料 107获取和合并添加附加信息 107准备工作 107处理流程 108工作原理 109添加地理信息 110准备工作 110处理流程 110工作原理 113参考资料 114获取州和县级水平的薪资和就业信息 114准备工作 114处理流程 114工作原理 116参考资料 117可视化薪资的地理分布特性 117准备工作 118处理流程 118工作原理 120参考资料 121探究各行业工作的地理分布情况 121处理流程 122工作原理 123更多内容 124参考资料 124绘制地理空间的时间序列地图 124准备工作 124处理流程 125工作原理 128更多内容 128函数性能测试和比较 128准备工作 129处理流程 129工作原理 131更多内容 132参考资料 132第6章 运用税务数据进行应用导向的数据分析(Python) 133简介 133应用导向方法简介 134准备高收入数据集的分析 135准备工作 135处理流程 135工作原理 136导入并熟悉世界各国高收入数据集 136准备工作 137处理流程 137工作原理 143更多内容 144参考资料 144分析并可视化美国的高收入数据集 144准备工作 144处理流程 145工作原理 151进一步分析美国的高收入阶层 152准备工作 152处理流程 152工作原理 156用Jinja2汇报结果 157准备工作 157处理流程 157工作原理 162更多内容 162参考资料 163第7章 运用汽车数据进行可视化分析(Python) 164简介 164IPython入门 165准备工作 165处理流程 165工作原理 167参考资料 167熟悉IPython Notebook 167准备工作 168处理流程 168工作原理 170更多内容 170参考资料 171准备分析汽车油耗 171准备工作 171处理流程 171工作原理 173更多内容 173参考资料 174用Python熟悉并描述汽车油耗数据 174准备工作 174处理流程 174工作原理 177更多内容 177参考资料 177用Python分析汽车油耗随时间变化趋势 177准备工作 177处理流程 178工作原理 183更多内容 184参考资料 185用Python调查汽车的制造商和型号 185准备工作 185处理流程 185工作原理 189参考资料 189第8章 社交网络分析(Python) 190简介 190理解图和网络 191准备用Python进行社交网络的分析工作 192准备工作 192处理流程 193工作原理 193更多内容 193导入网络 194准备工作 194处理流程 194工作原理 196探索英雄网络的子图 196准备工作 197处理流程 197工作原理 199更多内容 199找出强关联 200准备工作 201处理流程 201工作原理 203更多内容 204找出关键人物 204准备工作 205处理流程 205工作原理 208更多内容 209调查全网的特征 215准备工作 216处理流程 216工作原理 217社交网络中的聚类和发现社群 217准备工作 217处理流程 218工作原理 221更多内容 221可视化图 222准备工作 222处理流程 222工作原理 224第9章 大规模电影推荐(Python) 225简介 226对偏好建模 227处理流程 227工作原理 228理解数据 229准备工作 229处理流程 229工作原理 231更多内容 231加载电影评分数据 231准备工作 231处理流程 232工作原理 234寻找高评分电影 235准备工作 236处理流程 236工作原理 237更多内容 238参考资料 238提升电影评分系统 238准备工作 238处理流程 238工作原理 239更多内容 240参考资料 240计算用户在偏好空间中的距离 240准备工作 241处理流程 241工作原理 243更多内容 243参考资料 243计算用户相关性 244准备工作 244处理流程 244工作原理 245更多内容 246为特定用户寻找最好的影评人 246准备工作 246处理流程 246工作原理 247预测用户评分 249准备工作 249处理流程 249工作原理 250基于物品的协同过滤 251准备工作 251处理流程 252工作原理 253建立非负矩阵分解模型 254处理流程 255工作原理 255参考资料 256将数据集载入内存 256准备工作 257处理流程 257工作原理 258更多内容 258导出SVD模型至硬盘 259处理流程 259工作原理 260训练SVD模型 261处理流程 261工作原理 262更多内容 263测试SVD模型 264处理流程 264工作原理 264更多内容 264第10章 获取和定位Twitter数据(Python) 266简介 266创建Twitter应用 267准备工作 268处理流程 268工作原理 271参考资料 271了解Twitter API v1.1 271准备工作 272处理流程 272工作原理 273更多内容 274参考资料 275获取粉丝和朋友信息 275准备工作 275处理流程 275工作原理 277更多内容 277参考资料 278提取Twitter用户档案 278准备工作 278处理流程 278工作原理 279更多内容 279参考资料 280避免Twitter速度限制 280准备工作 280处理流程 280工作原理 281存储JSON数据至硬盘 281准备工作 282处理流程 282工作原理 282安装MongoDB 283准备工作 283处理流程 283工作原理 284更多内容 284参考资料 285利用PyMongo将用户信息存入MongoDB 285准备工作 285处理流程 285工作原理 286探索用户地理信息 287准备工作 287处理流程 287工作原理 289更多内容 290参考资料 290利用Python绘制地理分布图 290准备工作 290处理流程 291工作原理 292更多内容 293参考资料 294第11章 利用NumPy和SciPy优化数值计算(Python) 295简介 295了解优化的步骤 297处理流程 297工作原理 297更多内容 298识别代码中常见性能瓶颈 298处理流程 299工作原理 299通读代码 301准备工作 302处理流程 302工作原理 302参考资料 304利用Unix time函数剖析Python代码 305准备工作 305处理流程 305工作原理 306参考资料 306利用Python内建函数剖析Python代码 306准备工作 306处理流程 306工作原理 307参考资料 308利用IPython %timeit函数剖析Python代码 308处理流程 308工作原理 309利用line_profiler剖析Python代码 309准备工作 310处理流程 310工作原理 311更多内容 312参考资料 312摘取低处的(经过优化的)果实 312准备工作 312处理流程 312工作原理 314测试NumPy带来的性能提升 315准备工作 315处理流程 315工作原理 316更多内容 317参考资料 317用NumPy重写函数 317准备工作 317处理流程 318工作原理 320用NumPy优化最内层循环 322准备工作 322处理流程 322工作原理 324更多内容 325
如发现商品介绍信息有误,您可以点击【 】反馈给我们,谢谢。
因厂家更改商品包装、场地、附配件等不做提前通知,以下内容仅供参考!给您带来的不变还请谅解。谢谢
由于商品在各地的价格和库存不同请选择您的收货地
您的号码输入有误,请重新输入
若商品在90日内降价,我们会通过短信和手机客户端来通知您哦~
当商品低于元时,我们会通知您
手机号码:
通知预约成功
若商品在90日内降价,我们会通过邮件短信和手机客户端来通知您哦~~
加微信查订单《数据科学实战》扫描版[PDF]
推荐阅读:
中文名: 数据科学实战作者: (美)舒特(Rachel Schutt)(美) 奥尼尔(Cathy O'Neil)译者: 冯凌秉王群锋图书分类: 网络资源格式: PDF版本: 扫描版出版社: 人民邮电出版社书号: 5发行时间: 日地区: 大陆语言: 简体中文简介:
内容介绍《数据科学实战》脱胎于哥伦比亚大学“数据科学导论”课程的教学讲义它界定了数据科学的研究范畴是一本注重人文精神多角度、全方位、深入介绍数据科学的实用指南堪称大数据时代的实战宝典。本书旨在让读者能够举一反三地解决重要问题内容包括数据科学及工作流程、统计模型与机器学习算法、信息提取与统计变量创建、数据可视化与社交网络、预测模型与因果分析、数据预处理与工程方法。另外本书还将带领读者展望数据科学未来的发展。作者简介Rachel Schutt美国新闻集团旗下数据科学部门高级副总裁、哥伦比亚大学统计系兼职教授、约翰逊实验室高级研究科学家同时也是哥伦比亚大学数据科学及工程研究所教育委员会的发起人之一。她曾在谷歌研究院工作数年负责设计算法原型并通过建模理解用户行为。Cathy O'Neil约翰逊实验室高级数据科学家、哈佛大学数学博士、麻省理工学院数学系博士后、巴纳德学院教授曾发表过大量算术代数几何方面的论文。他曾在全球投资管理公司D.E. Shaw担任对冲基金金融师后加入专门评估银行和对冲基金风险的软件公司RiskMetrics个人博客。备注说明书籍来源于网络转载于网易博客更多书籍可到百度搜索 ntccy2009博客 查找资源自行下载 请支持正版!内容截图
作者介绍 XII关于封面图 XIII前言 XIV第1章 简介什么是数据科学1.1 大数据和数据科学的喧嚣1.2 冲出迷雾1.3 为什么是现在1.4 数据科学的现状和历史1.5 数据科学的知识结构1.6 思维实验元定义1.7 什么是数据科学家1.7.1 学术界对数据科学家的定义1.7.2 工业界对数据科学家的定义第2章 统计推断、探索性数据分析和数据科学工作流程2.1 大数据时代的统计学思考2.1.1 统计推断2.1.2 总体和样本2.1.3 大数据的总体和样本2.1.4 大数据意味着大胆的假设2.1.5 建模2.2 探索性数据分析2.2.1 探索性数据分析的哲学2.2.2 练习探索性数据分析2.3 数据科学的工作流程2.4 思维实验如何模拟混沌2.5 案例学习RealDirect2.5.1 RealDirect是如何赚钱的2.5.2 练一练RealDirect公司的数据策略第3章 算法3.1 机器学习算法3.2 三大基本算法3.2.1 线性回归模型3.2.2 k 近邻模型(k-NN)3.2.3 k 均值算法3.3 练习机器学习算法基础3.4 总结3.5 思维实验关于统计学家的自动化第4章 垃圾邮件过滤器、朴素贝叶斯与数据清理4.1 思维实验从实例中学习4.1.1 线性回归为何不适用4.1.2 k 近邻效果如何4.2 朴素贝叶斯模型4.2.1 贝叶斯法则4.2.2 个别单词的过滤器4.2.3 直通朴素贝叶斯4.3 拉普拉斯平滑法4.4 对比朴素贝叶斯和k 近邻4.5 Bash代码示例4.6 网页抓取API和其他工具4.7 Jake的练习题文章分类问题中的朴素贝叶斯模型第5章 逻辑回归5.1 思维实验5.2 分类器5.2.1 运行时间5.2.2 你自己5.2.3 模型的可解释性5.2.4 可扩展性5.3 逻辑回归一个来自M6D 的真实案例研究5.3.1 点击模型5.3.2 模型背后5.3.3 α和β 的参数估计5.3.4 牛顿法5.3.5 随机梯度下降法5.3.6 操练5.3.7 模型评价5.4 练习题第6章 时间戳数据与金融建模6.1 Kyle Teague与GetGlue公司6.2 时间戳6.2.1 探索性数据分析(EDA)6.2.2 指标和新变量6.2.3 下一步怎么做6.3 轮到Cathy O'Neill了6.4 思维实验6.5 金融建模6.5.1 样本期内外以及因果关系6.5.2 金融数据处理6.5.3 对数收益率6.5.4 实例标准普尔指数6.5.5 如何衡量波动率6.5.6 指数平滑法6.5.7 金融模型的反馈6.5.8 聊聊回归模型6.5.9 先验信息量6.5.10 一个小例子6.6 练习GetGlue提供的时间戳数据第7章 从数据到结论7.1 William Cukierski7.1.1 背景介绍数据科学竞赛7.1.2 背景介绍众包模式7.2 Kaggle模式7.2.1 Kaggle的参赛者7.2.2 Kaggle的客户7.3 思维实验关于作业自动评分系统7.4 特征选择7.4.1 例子留住用户7.4.2 过滤型7.4.3 包装型7.4.4 决策树与嵌入型变量选择7.4.5 熵7.4.6 决策树算法7.4.7 如何在决策树模型中处理连续性变量7.4.8 随机森林7.4.9 用户黏性模型的预测能力与可解释性7.5 David Huffaker谷歌社会学研究的新方法7.5.1 从描述性统计到预测模型7.5.2 谷歌的社交研究7.5.3 隐私保护7.5.4 思维实验如何消除用户的顾虑第8章 构建面向大量用户的推荐引擎8.1 一个真实的推荐引擎8.1.1 最近邻算法回顾8.1.2 最近邻模型的已知问题8.1.3 超越近邻模型基于机器学习的分类模型8.1.4 高维度问题8.1.5 奇异值分解(SVD)8.1.6 关于SVD的重要特性8.1.7 主成分分析(PCA)8.1.8 交替最小二乘法8.1.9 固定矩阵V更新矩阵U8.1.10 关于这些算法的一点思考8.2 思维实验如何过滤模型中的泡沫8.3 练习搭建自己的推荐系统第9章 数据可视化与欺诈侦测9.1 数据可视化的历史9.1.1 Gabriel Tarde9.1.2 Mark 的思维实验9.2 到底什么是数据科学9.2.1 Processing9.2.2 Franco Moretti9.3 一个数据可视化的方案实例9.4 Mark 的数据可视化项目9.4.1 《纽约时报》大厅里的可视化Moveable Type9.4.2 屏幕上的生命Cascade可视化项目9.4.3 Cronkite广场项目9.4.4 eBay与图书网购9.4.5 公共剧场里的"莎士比亚机"9.4.6 这些展览的目的是什么9.5 数据科学和风险9.5.1 关于Square公司9.5.2 支付风险9.5.3 模型效果的评估问题9.5.4 建模小贴士9.6 数据可视化在Square9.7 Ian的思维实验9.8 关于数据可视化第10章 社交网络与数据新闻学10.1 Morning Analytics与社交网络10.2 社交网络分析10.3 关于社交网络分析的相关术语10.3.1 如何衡量向心性10.3.2 使用哪种向心性测度10.4 思维实验10.5 Morningside Analytics10.6 从统计学的角度看社交网络分析10.6.1 网络的表示方法与特征值向心度10.6.2 随机网络的第一个例子Erdos-Renyi模型10.6.3 随机网络的第二个例子指数随机网络图模型10.7 数据新闻学10.7.1 关于数据新闻学的历史回顾10.7.2 数据新闻报告的写作来自专家的建议第11章 因果关系研究11.1 相关性并不代表因果关系11.1.1 对因果关系提问11.1.2 干扰因子一个关于在线约会网站的例子11.2 OK Cupid的发现11.3 黄金准则随机化临床实验11.4 A/B测试11.5 退一步求其次关于观察性研究11.5.1 辛普森悖论11.5.2 鲁宾因果关系模型11.5.3 因果关系的可视化11.5.4 定义因果关系11.6 三个小建议第12章 流行病学12.1 Madigan的学术背景12.2 思维实验12.3 统计学在现代12.4 医学文献与观察性研究12.5 分层法不解决干扰因子的问题12.6 就没有更好的办法吗12.7 研究性实验(OMOP)12.8 最后的思维实验第13章 从竞赛中学到的数据泄漏和模型评价13.1 Claudia作为数据科学家的知识结构13.1.1 首席数据科学家的生活13.1.2 作为一名女数据科学家13.2 数据挖掘竞赛13.3 如何成为出色的建模者13.4 数据泄漏13.4.1 市场预测13.4.2 亚马逊案例学习出手阔绰的顾客13.4.3 珠宝抽样问题13.4.4 IBM 客户锁定13.4.5 乳腺癌检测13.4.6 预测肺炎13.5 如何避免数据泄漏13.6 模型评价13.6.1 准确度重要吗13.6.2 概率的重要性不是非0 即113.7 如何选择算法13.8 最后一个例子13.9 临别感言第14章 数据工程MapReduce、Pregel、Hadoop14.1 关于David Crawshaw14.2 思维实验14.3 MapReduce14.4 单词频率问题14.5 其他MapReduce案例14.6 Pregel14.7 关于Josh Wills14.8 思维实验14.9 给数据科学家的话14.9.1 数据丰富和数据匮乏14.9.2 设计模型14.10 算算Hadoop的经济账
【文明转载,互利你我;原文网址:/ZiLiao/731802,本文版权归90下载所有。】
更多推荐:如何成为一名真正的数据分析师或者数据工程师 - 推酷
如何成为一名真正的数据分析师或者数据工程师
一.入门:高屋建瓴
数据分析的坑很大,一开始走上这条路,就要明确基本的方向,依托于核心的思想,不然只会越走越偏,最后觉得山太高水太深,不了了之。
1.数据与数据分析
数据其实就是对事物特征的定性指称以及量化描述,比如一个人的身份证号,年龄,收入,身高等就构成了一组数据:{id:001,age:45,income:10000,height:176}——如果把很多人的这些数据汇成表,便构成了“
”(也就是比较规整一致)的“
但是呢,有一些或者大部分的数据都不是规整的,也就是分布比较杂乱或者不是按照我们想要的那样分布的(比如一个网页中的文本数据分布),称之为“
数据分析的本质是什么?那就是——将这些结构化或者非结构化的数据,
到指定格式的数据空间里面,然后进行分析——
数据分析的基础就是数据空间的映射
这句话说的比较绕,但是却非常深刻,它告诉我们,数据分析的一个基础(在实践中也是最重要)的一件事情就是寻找合适的数据空间映射方案——某种程度上就是所谓的
2.对于一些工具的看法
沿袭上文,工具则可以分为两种,一是基础性的excel,spss,sas等数据分析软件以及许多数据库管理工具,
它们主要处理的是结构化的数据
,也就是给你把数据弄成了表的规整数据(当然,这些数据很多时候也需要清洗,不过已经不涉及数据空间映射这个问题了);二是编程语言,包括python,R,Java,Ruby等,
这些语言工具主要是处理数据空间映射和清洗工作的
,其中,比较常用的是python和R,前者由于其可扩充性,已经在大多数情况下优于后者了。
3.学习:从天而降
所谓“从天而降”指的是从一个比较高的地方下降来学习的方法,好比是拿着一张总体的地图去探索数据分析与挖掘的世界。推荐阅读:《 数据科学实战 》。
其次,请注意一点:python学习,对于
没有任何计算机基础
的人来说,
基本上是开头容易、越往后面越难!
(python一开始的类似自然语言的结构很友好,但你到了函数与面向对象的学习的时候,还是必须明确引用变量的变化(也就是数据如何在内存中流动)以及作用域的动态变化等对入门者不友好的问题。)
在这种情况下,《head first python》根本不适合,不要用它学习python!
我的建议是,花时间学习一下计算机的基本原理,然后是C语言,Java等,然后再学python,不然你到后面完全是知其然而不知其所以然!
推荐阅读:《 计算机科学概论(第11版 》
以及:《 疯狂Java讲义 》(这本书虽然讲的是java,但对数据在内存中的流转也有讲,可以作为参考,理解程序的运行。)
最后才是:《 Python基础教程(第2版o修订版) 》
然后可以看看入门的统计学教材:《 深入浅出统计学 》(很快就能看完,我当时半天多一点就看完了。)
以及入门与深入理解数据库原理:《 MySQL必知必会 》+《 数据库系统概念 》
有了技术基础了,再看看《 R语言编程艺术 》
另外,入门者不要选择python3.x,选择python2.7吧。为啥?因为很多重要的模块比如pandas还有网上的许多资料现在还是最多支持到2.7的,你选3.X对于入门那是舍近求远。
最后,可以使用《 利用Python进行数据分析 》将所有知识串接起来,感受pandas以及scipy,numpy中的数据计算
是如何体现数据空间映射这个深刻概念的。
二.中阶:理论
中阶主要是理论学习以及一些比较复杂的应用操作。
1.理论基础:书籍
良好的数学基础是进一步学习的支撑条件。
以下是推荐阅读的书目:
1.概率论与数理统计:《 概率论与数理统计 》,进一步学习概率与统计;
2.高等代数:《 高等代数简明教程(上册) 》,“数据空间的映射”的思想就来自于高等代数;
3.最优化:《 最优化理论与方法 》,参考书,中阶不要细读。
4.数据挖掘:《 数据挖掘导论 》,偏数学,《 数据挖掘 》,偏结构化的数据库;
5.信息检索领域入门:《 信息检索导论 》
6.统计学习理论快速俯瞰:《 统计学习方法 》
7.实战之于python:《 集体智慧编程 》+《 机器学习实战 》
8.实战之于Mahout平台:《 Mahout实战 》
2.实战:利用数据库与数据api,实战学习
(1)淘宝上以及很多百度提供的一些
: API Store_为开发者提供最全面的API服务
等,都可以下载到数据进行处理,有一些经典的研究数据库,主要是一些大学构建的,也可以用来训练模型;
(2).学习写
,基于python,爬取文本数据进行分析,其中,文本数据分析可能涉及到中文的自然语言处理,比较麻烦,有一些模块可以直接使用(比如jieba),如果觉得不理想,可以尝试爬取英文页面。另:写爬虫必须首先理解网页的数据空间,建议阅读:《 Head First HTML与CSS、XHTML(中文版) 》;
(3).苦练
的基本功——因为大多数数据工程师的主要工作都在于此,并且在清洗的过程中,深刻理解数据空间的映射。另,清洗数据必备技能:正则表达式。建议阅读:《 正则表达式必知必会 》;
数据可视化
:可以尝试以python为主的混合编程(python+R)以及数据可视化,建议阅读《 ggplot2 》
三.高阶:回归、远行、优化与万法归宗
总的来说,数据挖掘、机器学习相关的工作,看着很新,其实只是很久之前的理论知识的应用罢了,在实战领域,并没有多少新的东西。
所以,从技术上讲,我们需要回归到那些最内核的东西。
什么是最内核的东西,那就是:
算法与数据结构
知乎上有一些言论,说算法与数据结构一般情况下程序员是用不到的,这句话对于一般的写系统的程序员确实受用,但是对机器学习、数据挖掘的程序员,却恰恰相反:我们的主要工作就是在搞算法和数据结构。
比如贝叶斯网络、人工神经网络,本质上其实还是基于图的算法的应用罢了。
推荐一本书,比《算法导论》好读:《 算法(第4版) 》
所谓远行,就是从学习的象牙塔里面走出来,走向实用或者特殊领域,比如:
金融量化分析
传统的投资经理,做的专业投资,本质上根根结底是什么?那就是两个字:
所谓分散,说大白话就是“把鸡蛋放在多个篮子里面”,但至于怎么放,放多少,都是非常复杂的,传统的手段包括建立
马科维兹模型
来作为分散的参考模型。
机器学习也是可以来做分散的,并且,知名的文艺复兴技术公司做的“最大熵模型”比传统的那两大模型还要好,还能够持续跑赢大盘。
如果你对机器学习、数据挖掘相关理论有深刻理解的话,你会发现一个事实:
分散本质上就是在寻找有限条件下的最大组合熵!
最大熵模型之所以有效就是因为它使用了超级大的数据量作为基准,得到了相对于传统分散模型更高的熵。
这个要讲很多,确实也比较高阶,我就点到为止,将来再细谈。
优化主要是对python执行效率的优化——要知道,很多时候,量化分析对时间的要求非常严格,差之毫厘,损失成百上千万。
这个时候,就需要了解如何优化python。
知道吗?python是用C写出来的,
如果你优化的好,你的python可能比C还要快!
优化问题本质上是一个局部最优与全局最优权衡的问题,有空细讲。
优化的另外一个问题是
,包括矩阵的分块计算、并行计算,MapReduce对大量数据的处理等,这也是比较复杂的,有空细讲。
4.万法归宗:信息论
数据处理的的最高境界,其实是对信息论的深刻理解。
算法优化,大量问题都是把指数问题变为对数问题,其实根本原理是信息论;
量化分析,买入卖出的博弈,每一次交易如何暴露出信息的?
投资组合,如何在限制条件内产生最大熵?
文本挖掘、数据压缩,隐马尔科夫链,如何用最少的信息映射原空间?
。。。。(待补充)
推荐阅读:《
信息论基础
已发表评论数()
请填写推刊名
描述不能大于100个字符!
权限设置: 公开
仅自己可见
正文不准确
标题不准确
排版有问题
主题不准确
没有分页内容
图片无法显示
视频无法显示
与原文不一致

我要回帖

更多关于 目录和前言哪个在前 的文章

 

随机推荐