在大数据分析统计基础 pdf方面完全零基础,想学的话应该怎么办

零基础想学习大数据?跟着这几个步骤走_百度文库
两大类热门资源免费畅读
续费一年阅读会员,立省24元!
零基础想学习大数据?跟着这几个步骤走
上传于|0|0|暂无简介
阅读已结束,如果下载本文需要使用1下载券
想免费下载本文?
定制HR最喜欢的简历
你可能喜欢想转行做大数据技术相关的工作,请问需要学习语言还是学什么?-技术博客-@大数据资讯
你好,游客
想转行做大数据技术相关的工作,请问需要学习语言还是学什么?
来源:知乎&
  首先,是个好东西。
  然后,问个3个问题。
  多少数据量,你觉得是大?
  比如能解决什么样的问题?对企业有什么利弊?
  大数据工具hadoop能做的事情,为什么传统的企业数据库比如sql,oracle就不能做?
  弄大数据以前,先思考这3个问题。不要人云亦云。
  就像当年的云计算,外行人吵得好热好热,内行人都在呵呵。技术层面来说,分布式解决方案升级版?
  Hadoop入门及生态系统介绍
  介绍Hadoop的发展,系统架构,相关版本和如何学习Hadoop。
  新一代虚拟技术Docker
  新一代的虚拟技术Docker的基本情况介绍和使用,并利用Docker快速的构建Hadoop的学习环境
  1. 新一代虚拟技术-容器虚拟化
  2. 在Windows上安装使用Docker
  Hadoop学习
  1. Hadoop介绍
  2. Hadoop系统搭建与部属
  a) Hadoop的三种安装方式
  b) Hadoop的Shell命令
  3. Hadoop HDFS组件分析
  a) HDFS架构,SNN及副本放置策略
  b) HDFS API
  4. Hadoop MapReduce工作原理与架构
  a) MapReduce API及工作流程
  b) MapReduce 错误处理,作业调度
  c) MapReduce 重要组件:Combiner
  d) MapReduce 重要组件:Partitioner
  e) MapReduce 重要组件:RecordReader
  5. Hadoop MapReduce 编程
  a) MapReduce 计数器
  b) MapReduce Join
  c) MapReduce Sort
  HBase学习
  基于Hadoop的关系型数据库HBase的学习,学习目标:了解HBase的应用场景,学习如何使用HBase
  1. Hbase介绍
  2. Pig,HBase,Hive三者的关系比较
  3. HBase系统搭建与部属
  4. HBase的Shell操作
  5. HBase的客户端操作
  Hive学习
  基于Hadoop的数据仓库和SQL查询引擎Hive 的学习,学习目标:了解Hive的应用场景,学习如何使用Hive,HQL语句,学习如何利用Hive来做
  1. Hive综述
  2. Hive系统搭建与部属。
  3. Hive的表操作
  4. Hive的数据加载与操作
  5. Hive的查询语句HQL
  6. Hive的窗口函数,分析函数和UDTF操作
  7. Hive自定义函数
  8. Hive HQL的优化
  基于Hadoop的开发实战
  1. 利用SQOOP来做简单的ETL抽取
  2. 日志分析系统
  3. 推荐系统(暂定)
相关新闻 & & &
尊重网上道德,遵守中华人民共和国的各项有关法律法规
承担一切因您的行为而直接或间接导致的民事或刑事法律责任
本站管理人员有权保留或删除其管辖留言中的任意内容
本站有权在网站内转载或引用您的评论
参与本评论即表明您已经阅读并接受上述条款大数据学习路线(自己制定的,从零开始)
时间: 06:15:57
&&&& 阅读:1727
&&&& 评论:
&&&& 收藏:0
标签:&&&&&&&&&&&&&&&&&&&&&&&& 大数据已经火了很久了,一直想了解它学习它结果没时间,过年后终于有时间了,了解了一些资料,结合我自己的情况,初步整理了一个学习路线,有问题的希望大神指点。学习路线Linux(shell,高并发架构,lucene,solr)Hadoop(Hadoop,HDFS,Mapreduce,yarn,hive,hbase,sqoop,zookeeper,flume)机器学习(R,mahout)Storm(Storm,kafka,redis)Spark(scala,spark,spark&core,spark&sql,spark&streaming,spark&mllib,spark&graphx)Python(python,spark&python)&云计算平台(docker,kvm,openstack)名词解释一、Linuxlucene:&全文检索引擎的架构solr:&基于lucene的全文搜索服务器,实现了可配置、可扩展并对查询性能进行了优化,并且提供了一个完善的功能管理界面。二、Hadoophadoop&commonHDFS:&分布式存储系统,包含NameNode,DataNode。NameNode:元数据,DataNode。DataNode:存数数据。yarn:&可以理解为MapReduce的协调机制,本质就是Hadoop的处理分析机制,分为ResourceManager&NodeManager。MapReduce:&软件框架,编写程序。Hive:&数据仓库&可以用SQL查询,可以运行Map/Reduce程序。用来计算趋势或者网站日志,不应用于实时查询,需要很长时间返回结果。HBase:&数据库。非常适合用来做大数据的实时查询。Facebook用Hbase存储消息数据并进行消息实时的分析ZooKeeper:&针对大型分布式的可靠性协调系统。Hadoop的分布式同步等靠Zookeeper实现,例如多个NameNode,active&standby切换。Sqoop:&数据库相互转移,关系型数据库和HDFS相互转移Mahout:&可扩展的机器学习和数据挖掘库。用来做推荐挖掘,聚集,分类,频繁项集挖掘。Chukwa:&开源收集系统,监视大型分布式系统,建立在HDFS和Map/Reduce框架之上。显示、监视、分析结果。Ambari:&用于配置、管理和监视Hadoop集群,基于Web,界面友好。&二、ClouderaCloudera&Manager:&管理&监控&诊断&集成Cloudera&CDH:(Cloudera‘s&Distribution,including&Apache&Hadoop)&Cloudera对Hadoop做了相应的改变,发行版本称为CDH。Cloudera&Flume:&日志收集系统,支持在日志系统中定制各类数据发送方,用来收集数据。Cloudera&Impala:&对存储在Apache&Hadoop的HDFS,HBase的数据提供直接查询互动的SQL。Cloudera&hue:&web管理器,包括hue&ui,hui&server,hui&db。hue提供所有CDH组件的shell界面的接口,可以在hue编写mr。&三、机器学习/RR:&用于统计分析、绘图的语言和操作环境,目前有Hadoop-Rmahout:&提供可扩展的机器学习领域经典算法的实现,包括聚类、分类、推荐过滤、频繁子项挖掘等,且可通过Hadoop扩展到云中。四、stormStorm:&分布式,容错的实时流式计算系统,可以用作实时分析,在线机器学习,信息流处理,连续性计算,分布式RPC,实时处理消息并更新数据库。Kafka:&高吞吐量的分布式发布订阅消息系统,可以处理消费者规模的网站中的所有动作流数据(浏览,搜索等)。相对Hadoop的日志数据和离线分析,可以实现实时处理。目前通过Hadoop的并行加载机制来统一线上和离线的消息处理Redis:&由c语言编写,支持网络、可基于内存亦可持久化的日志型、key-value型数据库。五、SparkScala:&一种类似java的完全面向对象的编程语言。Spark:&Spark是在Scala语言中实现的类似于Hadoop MapReduce的通用并行框架,除了Hadoop MapReduce所具有的优点,但不同于MapReduce的是job中间输出结果可以保存在内存中,从而不需要读写HDFS,因此Spark能更好的适用于数据挖掘与机器学习等需要迭代的MapReduce算法。可以和Hadoop文件系统并行运作,用过Mesos的第三方集群框架可以支持此行为。Spark SQL:&&Spark Streaming:&一种构建在Spark上的实时计算框架,扩展了Spark处理大数据流式数据的能力。Spark MLlib:&MLlib是Spark是常用的机器学习算法的实现库,目前(2014.05)支持二元分类,回归,聚类以及协同过滤。同时也包括一个底层的梯度下降优化基础算法。MLlib以来jblas线性代数库,jblas本身以来远程的Fortran程序。Spark GraphX:&GraphX是Spark中用于图和图并行计算的API,可以在Spark之上提供一站式数据解决方案,可以方便且高效地完成图计算的一整套流水作业。jblas:&一个快速的线性代数库(JAVA)。基于BLAS与LAPACK,矩阵计算实际的行业标准,并使用先进的基础设施等所有的计算程序的ATLAS艺术的实现,使其非常快。Fortran:&最早出现的计算机高级程序设计语言,广泛应用于科学和工程计算领域。BLAS:&基础线性代数子程序库,拥有大量已经编写好的关于线性代数运算的程序。LAPACK:&著名的公开软件,包含了求解科学与工程计算中最常见的数值线性代数问题,如求解线性方程组、线性最小二乘问题、特征值问题和奇异值问题等。ATLAS:&BLAS线性算法库的优化版本。Spark Python:&Spark是由scala语言编写的,但是为了推广和兼容,提供了java和python接口。六、PythonPython:&一种面向对象的、解释型计算机程序设计语言。七、云计算平台Docker:&开源的应用容器引擎kvm:&(Keyboard Video Mouse)openstack:& 开源的云计算管理平台项目&&本文出自 “” 博客,请务必保留此出处标签:&&&&&&&&&&&&&&&&&&
&&国之画&&&& &&&&chrome插件
版权所有 京ICP备号-2
迷上了代码!北京渥瑞达科技发展有限公司 版权所有 京ICP备号 京公网安备随着云计算、大数据迅速发展,亟需用hadoop解决大数据量高并发访问的瓶颈。谷歌、淘宝、百度、京东等底层都应用hadoop。越来越多的企 业急需引入hadoop技术人才。由于掌握Hadoop技术的开发人员并不多,直接导致了这几年hadoop技术的薪水远高于JavaEE及 Android程序员。
Hadoop入门薪资已经达到了 8K 以上,工作1年可达到 1.2W 以上,具有2-3年工作经验的hadoop人才年薪可以达到 30万—50万 。
一般需要大数据处理的公司基本上都是大公司,所以学习hadoop技术也是进大公司的捷径!
中关村被称为中国硅谷,这里有着一群被外界称之为程序员的IT从业者。
但是一眼望去,大多数一线程序员的年龄均在20至30岁左右,40、50岁的人在这个行业内颇为罕见。
为什么在国内没有“老”程序员,而在国外五六十岁仍奋斗在一线岗位的程序员比比皆是?造成这种现象的原因是多方面的。
课程十大目标
课程结束时,帮助学员实现如下目标:
了解Greenplum和Hadoop的历史及目前发展的现状、以及它们的技术特点,从而把握分布式计算框架及未来发展方向,在大数据时代能为企业的技术选型及架构设计提供决策参考。
深入理解Greenplum的技术核心和管理操作,以此为基础,进而掌握MPP架构数据库的使用和调优的思想。
全面掌握Hadoop的架构原理和使用场景,并通过贯穿课程的项目进行实战锻炼,从而熟练使用Hadoop进行MapReduce程序开发。
深入理解Hadoop整体技术架构,包括HBase、Hive、Pig、ZooKeeper、Chukwa等,对Hadoop运作机制有清晰全面的认识,可以独立规划及部署生产环境的Hadoop集群,掌握Hadoop基本运维思路和方法,对Hadoop集群进行管理和优化。
理解什么是云计算和Hadoop在云计算领域的运用,以及理解Hadoop在各个互联网巨头商业环境的运用。
全面掌握Hadoop2.0的架构原理和使用场景,并通过贯穿课程的项目进行实战
掌握YARN以及运行在YARN上的计算框架的原理及应用,包括Spark、Storm、Tez
深入的掌握MapReduce和HBase的高阶应用
全面掌握Hadoop的重要子项目的综合运用,包括Flume、Sqoop、HBase、Hive、Pig等,
掌握机器学习的基础以及使用Mahout运用各种算法解决实际的问题。
讲师迪伦,10年以上IT行业从业经验,某知名500强企业大数据平台架构师,资深大数据
处理专家。熟练掌握和应用多种技术架构和数据库,包括UNIX,Greenplum、
Hadoop、Oracle、Cognos等,以及熟悉数据仓库、ETL、报表、数据分析
等领域的技术运用。
第一阶段:Hadoop基础篇(71课时) - 千里之行,始于足下(赠送课程)
课程一、基于Linux操作系统平台下的Java语言开发(20课时)
本套课程主要介绍了Linux系统下的Java环境搭建及最基础的Java语法知识。学习Linux操作系统下Java语言开发的好处
好处一:不再束缚在Windows操作系统下,开阔眼界。
好处二:熟练Linux操作系统的指令,走出“指指点点”的开发,成为真正的代码程序员。
好处三:增加自己的竞争实力,为自己应聘时加上浓浓的一笔。
安装虚拟机以及Linux操作系统
Linux桌面系统
Linux文件和目录管理
VIM的使用(上)
VIM的使用(下)
Linux终端常用命令
Java开发环境的搭建
Java语言基础(上)
Java语言基础(下)
Java中IO详解(上)
Java中IO详解(下)
Java中容器详解(上)
Java中容器详解(下)
Java中Swing详解(上)
Java中Swing详解(下)
JSP开发环境的搭建
JSP语法详解(上)
JSP语法详解(下)
开发用户登陆,用户注册系统
开发用户管理系统
课程二、零基础实战Mysql数据库应用开发(30课时)
通过本课程的学习,用户可在最短的时间内掌握MySQL的安装配置与使用、MySQL DML特性的高级用法、MySQL常见内置函数的高级用法、MySQL中存储过程写法、视图、用户自定义函数、触发器等高级用法、MySQL中的事务功能。并了解图形化管理工具的使用、字符集及乱码处理、MySQL的数据备份与还原技术、MySQL的安全技术、MySQL的系统管理、MySQL集群的配置。
第一部分:安装配置MySQL数据库(1课时)
第二部分:图形化管理工具(2课时)
第三部分:存储引擎及数据库基本操作(2课时)
第四部分:字符集及乱码处理(2课时)
第五部分:MySQL DML特性的高级用法(5课时)
第六部分:MySQL内置函数(1课时)
第七部分: MySQL 中的存储过程、触发器高级应用(2课时)
第八部分:MySQL中视图与事务高级应用(3课时)
第九部分:MySQL中索引的使用(1课时)
第十部分:MySQL数据库的安全技术(1课时)
第十一部分:系统管理(1课时)
第十二部分:MySQL备份和还原操作(1课时)
第十三部分:性能优化(1课时)
第十四部分:集群的配置及应用(1课时)
课程三、Linux系统管理教程(21课时)
通过此课程的学习,系统全面的了解虚拟机VMWare在各种环境下的安装配置,及Linux系统管理的专业内容。
补1、虚拟机VMWare 在XP下安装视频教程
补2、VMware及Linux安装配置教程
补3、专业Linux系统管理课程
01.对Linux进行简单介绍并安装Linux操作系统包括系统的配置
02.Linux图形界面管理
03.用户和用户组管理(1)
04.用户和用户组管理(2)
05.文件和目录管理(1)
06.文件和目录管理(2)
07.软件包管理
08.磁盘管理(1)
09.磁盘管理(2)
10.文件和目录管理(3)
11.Linux终端命令系统命令
12.常用信息显示命令
13.常用系统管理命令
14.备份打包和压缩(1)
15.备份打包和压缩(2)
16.系统级管理
17.日志和常用软件
18.网络管理
19.系统安全
第二阶段:Hadoop全面深入篇(96课时) -
十年寒窗苦,成名天下知
课程一、 Greenplum 分布式数据库开发入门到精通(41课时)
Greenplum的架构采用了MPP(大规模并行处理)。在 MPP 系统中,每个 SMP 节点也可以运行自己的操作系统、数据库等,它的特点主要就是查询速度快,数据装载速度快,批量DML处理快。而且性能可以随着硬件的添加,呈线性增加,拥有非常良好的可扩展性。因此,它主要适用于面向分析的应用。比如构建企业级ODS/EDW,或者数据集市等等。本课程全面深入地介绍了Greenplum数据库,包括架构特性、部署、管理、开发和调优等,由浅入深,理论结合实战,让同学全面彻底掌握这把大数据利剑。
一、 Greenplum架构
什么是Greenplum
Greenplum体系结构
Greenplum高可用性架构
二、安装Greenplum
安装并初始化GPDB系统
启停数据库
配置GP系统
三、分布式数据库存储
数据是如何存储的
四、 GBDB查询处理
查询命令的执行
SQL查询处理机制
并行查询计划
五、角色权限及客户端认证管理
客户端认证
管理用户和组
六、客户端接口和程序
pgAdmin III
七、定义数据库对象
创建并管理数据库
创建并管理表空间
创建并管理模式
创建并管理表
数据分布与分区
压缩存储与行列存储
序列、索引与视图
八、管理数据
插入、更新、删除记录
空间回收和统计
九、查询数据
使用函数和运算符
十、工作负载及资源管理
GP工作负载管理概述
配置工作负载管理
创建资源队列
分配资源队列
检查资源队列状态
十一、装载和卸载数据
GP装载命令概述
装载数据到GP
从GP卸载数据
格式化数据文件
十二、备份恢复
串行备份和恢复
并行恢复和恢复
十三、性能调优
如何进行调优
常见的性能问题
十四、GP系统配置参数
关于GP的Master参数与本地化参数
设置配置参数
配置参数种类
十五、开启高可用性
GP高可用概述
开启GP的Mirror
获知Segment何时失败
恢复失败的Segment
恢复失败的Master
十六、GP MapReduce
MapReduce基础
GP MapReduce编程
MapReduce作业执行和故障诊断
课程二、全面深入Greenplum Hadoop大数据分析平台(55课时)
大量的半结构化和非结构化信息无法管理和存储,大数据增长速度惊人,每年以几何级数速度增长,需要有专业化的解决方案应对大数据挑战。EMC收购了Greenplum之后,推出的针对Hadoop的Greenplum的数据库软件。采用Greenplum HD技术管理半结构化和非结构化信息,整体TCO更低,除了进行有效存储和管理,可以通过MapReduce技术进行并行的分析和挖掘,把大量的数据存储变成有价值的数据资产。本课程深入阐述了Hadoop的架构原理,Hadoop整体技术架构,包括HBase、Hive、Pig、ZooKeeper、Chukwa等实战运用。另外还介绍了云计算的基础知识和Hadoop在云计算领域的运用,以及剖析了Hadoop在各个互联网巨头商业环境的运用。
一、 Hadoop的起源和体系
Hadoop思想起源:Google
Hadoop子项目家族
Hadoop的架构
二、 Hadoop的安装与配置
准备和配置环境
三种运行模式
完全分布式模式安装
三、 HDFS-大数据存储
HDFS概念与体系结构
HDFS的可靠性
HDFS文件操作
四、 关于MapReduce
MapReduce编程模型
MapReduce的集群行为
MapReduce任务的优化
MapReduce工作机制
错误处理及作业调度机制
五、 MapReduce应用开发
Hadoop Eclipse插件开发
数据筛选程序开发
倒排索引程序开发
六、 Hadoop监控与管理
hadoop备份
七、 HBase数据库
Hbase体系结构
HBase shell
HBase API应用实例
HBase场景应用
HBase模式设计
八、 Hive数据仓库
Hive组件与体系架构
Hive安装配置
Hive的服务接口
HiveQL常用操作
Hive的优化
Hive UDF编程
Hive综合实战
九、 Pig数据分析平台
Pig安装配置
Pig的数据模型
常用Pig Latin操作
Pig UDF编程
Pig数据分析实战
十、ZooKeeper分布式服务框架
ZooKeeper工作原理
ooKeeper设计目标
ZooKeeper的数据结构和组成
ZooKeeper的安装配置
ZooKeeper命令行工具
ZooKeeper API
ZooKeeper实战:Hadoop任务调度
十一、 Chukwa集群监控系统
Chukwa的组成
Chukwa架构和设计
Chukwa安装与配置
常用Chukwa命令
实现自定义数据处理
十二、 Hadoop商业应用案例
云计算概念和特征
云计算服务模式和形态
Hadoop在云计算的运用
十三、 Greenplum Hadoop集群
集成架构的特征
集成架构的优势
配置gphdfs协议使用环境
使用HDFS外部表
第三阶段:Hadoop高阶应用篇(81课时) - 会当临绝顶,一览众山小
课程一:Hadoop2.0/YARN深入浅出(21课时)
详细讲解了Hadoop 2.0架构、部署以及YARN,并讲解了运行在YARN上主要的计算框架,包括Spark、Storm和Tez
一、Hadoop 2.0(6课时)
Hadoop 2.0产生背景
Hadoop 2.0基本构成
二、HDFS 2.0
MapReduce 2.0
Hadoop 2.0安装配置
三、YARN资源管理系统(4课时)
YARN产生背景
YARN基本设计思想
YARN基本架构
YARN工作流程
YARN通信协议
YARN资源调度机制
四、YARN支持的计算框架(Storm,Tez,Spark)(11课时)
以YARN为核心的生态系统
Storm基本概念
Storm流式计算框架
基于YARN的Storm架构
YARN-Storm部署
Storm On YARN服务
Apache Tez介绍
Tez数据处理引擎
DAGAppMaster实现
Tez优化机制
Tez应用场景
什么是Spark
Spark生态系统
Spark的核心--RDD和Lineage
RDD的存储、容错机制、内部设计及数据模型
Spark调度框架
Spark的分布式部署方式
基于Mesos的Spark模式
基于YARN的Spark模式
Spark的独立模式部署
Spark的YARN模式部署
课程二:MapReduce/Hbase进阶提升(29课时)
本部分内容主要针对MapReduce和HBase的高阶应用做深入的讲解和实战演练
一、MapReduce多语言编程(5课时)
MapReduce编程接口
Java编程接口实例解析
Hadoop Streaming实现方式
Hadoop Streaming编程实战(C++,PHP,PYTHON)
Hadoop Streaming原理剖析
Hadoop Pipes的编程实例
Hadoop Pipes的原理剖析
二、MapReduce高阶实现(14课时)
复杂的MapReduce应用
K-means聚类、贝叶斯分类等
工作流编程实例及原理剖析
JobControl、ChainMapper/ChainReducer
Hadoop工作流引擎
常用MapReduce优化技巧
配置多个reducer
设置Stream的处理格式
控制分片的大小
输入格式:文本输入、多种类型输入
输出控制:多个输出、延迟输出
实战:数据分区
MapReduce高级特性
计数器、内置计数器
实例:用户自定义计数器
MapReduce部分排序的实现
实例:MapReduce全排序
Terasort算法分析
实例:MapReduce实现二次排序
连接、Map端连接的实现
实例:Reduce端连接
连接类型、连接策略介绍
重分区连接框架的实现
复制连接框架的实现
实例:半连接
全局作业参数/数据文件传递
三、HBase编程实践及案例分析(10课时)
HBase基础精讲
HBase Java编程实例
HBase多语言编程
Thrift安装、服务配置
HBase C++编程实例
HBase Python编程实例
HBase MapReduce编程基础
实战:HBase MapReduce编程
Hbase案例:OpenTSDB的实现
基于HBase的爬虫调度库
基于HBase的爬虫索引库
银行人民币查询系统
课程三:Hadoop Sqoop/Flume/Avro实战(14课时)
Hadoop Sqoop、Flume、Avro重要子项目的技术实战
一、Sqoop(6课时)
Sqoop产生背景、基本
Sqoop1和Sqoop2架构及特点
Sqoop1安装配置(版本1.4.4)
Sqoop导入介绍
实战:从mysql导入数据到HDFS
实战:从mysql导入数据到Hive
Sqoop导出介绍
实战:将Hive数据导出到Mysql
Sqoop与Hbase结合
Sqoop作业操作
Sqoop作业安全配置
Sqoop2安装配置(版本1.99.3)
Sqoop2使用综合实战
二、Flume日志收集系统(7课时)
Flume概念和特点
Flume OG架构、组成、特点、容错机制设计
日志收集系统综合比较
Flume NG架构、核心概念
Flume OG的安装
Flume OG的配置(Web端、Flume shell)
Flume NG的安装配置、测试
Flume NG模块配置(Source、Channel、Sink)
三、Avro数据序列化系统(1课时)
Avro特性、主要作用
RPC使用Avro
Avro与其他序列化系统的区别
课程四:深入浅出Hadoop Mahout数据挖掘实战(17课时)
1、Mahout数据挖掘工具
2、Hadoop实现推荐系统的综合实战,涉及到MapReduce、Pig和Mahout的综合实战
一、Mahout数据挖掘工具(10课时)
数据挖掘概念、系统组成
数据挖掘常用方法及算法(回归分析、分类、聚类等)
数据挖掘分析工具
Mahout支持的算法
Mahout起源和特点
Mahout安装、配置及测试
实战:Mahout K-means聚类分析
Mahout实现Canopy算法
Mahout实现分类算法
实战:Mahout逻辑回归分类预测
实战:Mahout朴素贝叶斯分类
推荐系统的概念及分类
协同过滤推荐算法概念、分类及应用
实战:实现基于Mahout的电影推荐系统
二、Hadoop综合实战-文本挖掘项目(7课时)
文本挖掘的概念及应用场景
中文分词技术
庖丁分词器的使用
MapReduce并行分词程序的设计与实现
Pig划分数据集
Mahout构建朴素贝叶斯文本分类器
模型应用-计算用户偏好类别
第四阶段:Hadoop实战教学(80课时) -- 是骡子是马,拉出来溜溜
本课程属于迪伦老师的Hadoop课程的升级课程,加入完全实战操作,从零开始搭建Hadoop大数据平台,包含了丰富的实例操作以及错误诊断的案例。
一、Hadoop大数据分析平台(实操部分)
Hadoop的安装与配置
&&HDFS实例操作
&&MapReduce应用开发
&&HBase安装
&&HBase shell操作实例
&&Hive安装
&&HiveQL使用实例
&&Hive UDF编程
&&Hive项目实战
&&Pig Latin实例
&&Pig UDF编程
&&Pig综合实战
Zookeeper安装
&&Chukwa安装及实例配置
二、Hadoop2.0实操部分
Hadoop2.0安装及测试
Storm on YARN部署
Tez部署测试
Spark Standalone部署
Scala编程实例
Spark独立模式HA实现
Spark服务配置及应用实例
Spark On Yarn实战
三、MapReduce&HBase高阶实操部分
Hadoop1.0&2.0-eclipse插件编译
Hadoop2 eclipse配置测试
MapReduce2.0实例
Hadoop Streaming实例
MapReduce高阶编程实例
&&多表连接
&&复杂排序
&&数据库操作实例(hsqldb,mysql)
&&数据去重
&&二次排序
&&反向索引
MapReduce Chain实例(旧API)
MapReduce Chain实例(新API)
&&HBase0.98.5 on Hadoop2部署
&&HBase API编程实例
&&HBase Thrift安装配置
&&HBase Thrift PHP编程实例
&&HBase MapReduce编程实例
四、Sqoop&Flume实操部分
&&Sqoop1.4.5_ Hadoop2&Hive0.13安装配置
&&Sqoop导入实例(涉及mysql,HDFS,HBase,Hive)
&&Sqoop导出实例
&&Sqoop作业操作实例
&&Sqoop1.99.3_Hadoop2安装配置
&&Sqoop2操作实例
&&Flume OG_Hadoop2安装部署
&&Flume OG的节点配置实例(Web端、Flume shell)
&&Flume NG_Hadoop2安装部署
&&Flume NG简单实例(涉及Source、Channel、Sink基本实现等)
&&Flume NG复杂实例(涉及多Agent,Channel复制及多路复用,HBase等)
&&Flume NG综合实战
五、Mahout数据挖掘实操部分
Hadoop2.0安装及测试
Mahout数据挖掘
Mahout安装、配置及测试
K-means聚类分析实例
Canopy算法实例
分类算法实例
贝叶斯分类实例
推荐系统实例:电影推荐系统
六、Hadoop综合项目实战
项目1、文本挖掘项目(运用Mapreduce、pig及mahout)
&&庖丁分词器的使用
&&MapReduce并行分词程序的设计与实现
&&Pig划分数据集
&&Mahout构建朴素贝叶斯文本分类器
&&模型应用-计算用户偏好类别
项目2、搜狗数据分析项目(运用Hive、HBase、Mapreduce及Sqoop)
&&数据预处理
&&构建Hive数据仓库
&&实现数据分析
&&&&1、条数分析
&&&&2、关键字分析
&&&&3、UID分析
&&&&4、用户行为分析
&&分析结果通过sqoop导出到Mysql,导入到Hbase
&&通过HBase API访问数据
问题一、学这个课程需要什么基础?
答,本课程适合于有一定java基础知识,对数据库和sql语句有一定了解,熟练使用linux系统的技术人员,特别适合于想换工作或寻求高薪职业的人士,不过,基础部分我们已经以赠送的方式给出,可以认为本套课程专业零基础
问题二、讲师水平如何?值得信赖吗?
答:讲师迪伦,10年以上IT行业从业经验,某知名500强企业大数据平台架构师,资深大数据处理专家。熟练掌握和应用多种技术架构和数据库,包括UNIX,Greenplum、Hadoop、Oracle、Cognos等,以及熟悉数据仓库、ETL、报表、数据分析等领域的技术运用。
问题三、我该怎么学,如何才能学好这门课程,给些建议 ?
答:1.时间上的安排建议
本课程230讲,建议每天以2-3课程的进度进行学习,并在课后尽量独立完成课堂所讲的实例。
2.学习要求
不要只是做一名忠实的听众,请跟随我一起搭环境、做实验。遇到问题多想多问多尝试,享受解决问题的快感吧!
3.讲师建议
a. 如果没有学习基础,建议先补充一点Linux、Java基础,会更加得心应手;
b. 活学活用,举一反三。只有在熟练掌握各种技术在各种情况下的应用之后,才能掌握实现一个业务需求的最佳路径和最优方案;
c. 学海无涯苦作舟,坚持最重要,让现在的努力成就你不后悔的将来吧!
问题四、课程涉及到哪些技术,版本是多少?
答:A:课程涉及到以下技术,目前基本都是最新版本:
RedHat 5.2
Hbase-hadoop1
Hbase-hadoop2
Hive-hadoop1
Hive-hadoop2
Sqoop-hadoop2
Sqoop-hadoop2
上海千杉网络技术发展有限公司
招聘职位:Hadoop技术工程师
岗位要求:1、 熟悉Linux系统, 熟悉Java/Python编程;
&&&&&&&&&&2、 熟悉传统数据库MySQL;
&&&&&&&&&&3、 有Hadoop/Hive 生产环境工作经验;
&&&&&&&&&&4、 有大规模数据处理和日志处理经验的优先。
北京澳凯富汇科技发展有限公司
招聘职位:Hadoop技术工程师
岗位要求:1、精通Java语言,熟悉网络编程;
&&&&&&&&&&2、熟悉Linux脚本语言与SQL语言;
&&&&&&&&&&3、熟悉Apache Hadoop平台及相关技术;
&&&&&&&&&&4、熟悉Linux操作系统基本配置管理。
上海睿璞企业管理咨询有限公司
招聘职位:Hadoop技术工程师
岗位要求:1、熟悉hadoop分布式存储架构设计;
&&&&&&&&&&2、熟悉mapreduce,no-sql生态环境;
&&&&&&&&&&3.熟悉编程基础知识,
&&&&&&&&&&4、一年以上海量数据存储挖掘开发经验。
上海巨人网络科技有限公司
招聘职位:上海巨人网络科技有限公司
招聘职位:hadoop运维工程师
岗位要求:1、三年以上Linux系统管理工作经验;
&&&&&&&&&&2、具有Hadoop平台管理经验;
&&&&&&&&&&3、熟悉GFS/Hadoop、hive、hbase等开源项目。
周一至周五 9:00-18:00
公司:上海育创网络科技股份有限公司
地址:上海浦东世纪大道1500号东方大厦13、16层
电话:400-
北风学员交流⑤群:&nbsp&nbsp
(已满)&nbsp&nbsp&nbsp
北风网交流⑥群:&nbsp&nbsp
(已满)&nbsp&nbsp&nbsp
北风网交流⑦群:&nbsp&nbsp
&nbsp&nbsp&nbsp

我要回帖

更多关于 数据分析基础 的文章

 

随机推荐