如何使用任务完成券后MapReduce来完成归一化

Spark vs. MapReduce 时间节约66%,计算节约40%-中国学网-中国IT综合门户网站-提供健康,养生,留学,移民,创业,汽车等信息
Spark vs. MapReduce 时间节约66%,计算节约40%
来源:互联网 更新时间: 7:41:07 责任编辑:鲁晓倩字体:
MapReduce为大数据挖掘提供了有力的支持,但是复杂的挖掘算法往往需要多个MapReduce作业才能完成,多个作业之间存在着冗余的磁盘读写开销和多次资源申请过程,使得基于MapReduce的算法实现存在严重的性能问题。后起之秀Spark得益于其在迭代计算和内存计算上的优势,可以自动调度复杂的计算任务,避免中间结果的磁盘读写和资源申请过程,非常适合数据挖掘算法。腾讯TDW Spark平台基于社区最新Spark版本进行深度改造,在性能、稳定和规模方面都得到了极大的提高,为大数据挖掘任务提供了有力的支持。本文将介绍基于物品的协同过滤推荐算法案例在TDW Spark与MapReudce上的实现对比,相比于MapReduce,TDW Spark执行时间减少了66%,计算成本降低了40%。算法介绍互联网的发展导致了信息爆炸。面对海量的信息,如何对信息进行刷选和过滤,将用户最关注最感兴趣的信息展现在用户面前,已经成为了一个亟待解决的问题。推荐系统可以通过用户与信息之间的联系,一方面帮助用户获取有用的信息,另一方面又能让信息展现在对其感兴趣的用户面前,实现了信息提供商与用户的双赢。协同过滤推荐(Collaborative Filtering Recommendation)算法是最经典最常用的推荐算法,算法通过分析用户兴趣,在用户群中找到指定用户的相似用户,综合这些相似用户对某一信息的评价,形成系统对该指定用户对此信息的喜好程度预测。协同过滤可细分为以下三种:User-based CF: 基于User的协同过滤,通过不同用户对Item的评分来评测用户之间的相似性,根据用户之间的相似性做出推荐;Item-based CF: 基于Item的协同过滤,通过用户对不同Item的评分来评测Item之间的相似性,根据Item之间的相似性做出推荐;Model-based CF: 以模型为基础的协同过滤(Model-based
Collaborative Filtering)是先用历史资料得到一个模型,再用此模型进行预测推荐。问题描述输入数据格式:Uid,ItemId,Rating&(用户Uid对ItemId的评分)。输出数据:每个ItemId相似性最高的前N个ItemId。由于篇幅限制,这里我们只选择基于Item的协同过滤算法解决这个例子。算法逻辑基于Item的协同过滤算法的基本假设为两个相似的Item获得同一个用户的好评的可能性较高。因此,该算法首先计算用户对物品的喜好程度,然后根据用户的喜好计算Item之间的相似度,最后找出与每个Item最相似的前N个Item。该算法的详细描述如下:计算用户喜好:不同用户对Item的评分数值可能相差较大,因此需要先对每个用户的评分做二元化处理,例如对于某一用户对某一Item的评分大于其给出的平均评分则标记为好评1,否则为差评0。计算Item相似性:采用Jaccard系数作为计算两个Item的相似性方法。狭义Jaccard相似度适合计算两个集合之间的相似程度,计算方法为两个集合的交集除以其并集,具体的分为以下三步。1)&
Item好评数统计,统计每个Item的好评用户数。2)&
Item好评键值对统计,统计任意两个有关联Item的相同好评用户数。3)&
Item相似性计算,计算任意两个有关联Item的相似度。
找出最相似的前N个Item。这一步中,Item的相似度还需要归一化后整合,然后求出每个Item最相似的前N个Item,具体的分为以下三步。
相关文章:
上一篇文章:下一篇文章:
最新添加资讯
24小时热门资讯
Copyright © 2004- All Rights Reserved. 中国学网 版权所有
京ICP备号-1 京公网安备02号Spark和Hadoop(主要包括HDFS和MapReduce)的MapReduce对比_hadoop吧_百度贴吧
&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&签到排名:今日本吧第个签到,本吧因你更精彩,明天继续来努力!
本吧签到人数:0可签7级以上的吧50个
本月漏签0次!成为超级会员,赠送8张补签卡连续签到:天&&累计签到:天超级会员单次开通12个月以上,赠送连续签到卡3张
关注:10,303贴子:
Spark和Hadoop(主要包括HDFS和MapReduce)的MapReduce对比
MapReduce为大数据挖掘提供了有力的支持,但是复杂的挖掘算法往往需要多个MapReduce作业才能完成,多个作业之间存在着冗余的磁盘读写开销和多次资源申请过程,使得基于MapReduce的算法实现存在严重的性能问题。后起之秀Spark得益于其在迭代计算和内存计算上的优势,可以自动调度复杂的计算任务,避免中间结果的磁盘读写和资源申请过程,非常适合数据挖掘算法。腾讯TDW Spark平台基于社区最新Spark版本进行深度改造,在性能、稳定和规模方面都得到了极大的提高,为大数据挖掘任务提供了有力的支持。本文将介绍基于物品的协同过滤推荐算法案例在TDW Spark与MapReudce上的实现对比,相比于MapReduce,TDW Spark执行时间减少了66%,计算成本降低了40%。算法介绍互联网的发展导致了信息爆炸。面对海量的信息,如何对信息进行刷选和过滤,将用户最关注最感兴趣的信息展现在用户面前,已经成为了一个亟待解决的问题。推荐系统可以通过用户与信息之间的联系,一方面帮助用户获取有用的信息,另一方面又能让信息展现在对其感兴趣的用户面前,实现了信息提供商与用户的双赢。协同过滤推荐(Collaborative Filtering Recommendation)算法是最经典最常用的推荐算法,算法通过分析用户兴趣,在用户群中找到指定用户的相似用户,综合这些相似用户对某一信息的评价,形成系统对该指定用户对此信息的喜好程度预测。协同过滤可细分为以下三种:User-based CF: 基于User的协同过滤,通过不同用户对Item的评分来评测用户之间的相似性,根据用户之间的相似性做出推荐;Item-based CF: 基于Item的协同过滤,通过用户对不同Item的评分来评测Item之间的相似性,根据Item之间的相似性做出推荐;Model-based CF: 以模型为基础的协同过滤(Model-basedCollaborative Filtering)是先用历史资料得到一个模型,再用此模型进行预测推荐。问题描述输入数据格式:Uid,ItemId,Rating (用户Uid对ItemId的评分)。输出数据:每个ItemId相似性最高的前N个ItemId。由于篇幅限制,这里我们只选择基于Item的协同过滤算法解决这个例子。算法逻辑基于Item的协同过滤算法的基本假设为两个相似的Item获得同一个用户的好评的可能性较高。因此,该算法首先计算用户对物品的喜好程度,然后根据用户的喜好计算Item之间的相似度,最后找出与每个Item最相似的前N个Item。该算法的详细描述如下:计算用户喜好:不同用户对Item的评分数值可能相差较大,因此需要先对每个用户的评分做二元化处理,例如对于某一用户对某一Item的评分大于其给出的平均评分则标记为好评1,否则为差评0。计算Item相似性:采用Jaccard系数作为计算两个Item的相似性方法。狭义Jaccard相似度适合计算两个集合之间的相似程度,计算方法为两个集合的交集除以其并集,具体的分为以下三步。1) Item好评数统计,统计每个Item的好评用户数。2) Item好评键值对统计,统计任意两个有关联Item的相同好评用户数。3) Item相似性计算,计算任意两个有关联Item的相似度。找出最相似的前N个Item。这一步中,Item的相似度还需要归一化后整合,然后求出每个Item最相似的前N个Item,具体的分为以下三步。1) Item相似性归一化。2) Item相似性评分整合。3) 获取每个Item相似性最高的前N个Item。基于MapReduce的实现方案使用MapReduce编程模型需要为每一步实现一个MapReduce作业,一共存在包含七个MapRduce作业。每个MapReduce作业都包含Map和Reduce,其中Map从HDFS读取数,输出数据通过Shuffle把键值对发送到Reduce,Reduce阶段以&key,Iterator&value&&作为输入,输出经过处理的键值对到HDFS。其运行原理如图1 所示。图1七个MapReduce作业意味着需要七次读取和写入HDFS,而它们的输入输出数据存在关联,七个作业输入输出数据关系如图2所示。图2基于MapReduce实现此算法存在以下问题:为了实现一个业务逻辑需要使用七个MapReduce作业,七个作业间的数据交换通过HDFS完成,增加了网络和磁盘的开销。七个作业都需要分别调度到集群中运行,增加了Gaia集群的资源调度开销。MR2和MR3重复读取相同的数据,造成冗余的HDFS读写开销。这些问题导致作业运行时间大大增长,作业成本增加。基于Spark的实现方案相比与MapReduce编程模型,Spark提供了更加灵活的DAG(Directed Acyclic Graph) 编程模型, 不仅包含传统的map、reduce接口, 还增加了filter、flatMap、union等操作接口,使得编写Spark程序更加灵活方便。使用Spark编程接口实现上述的业务逻辑如图3所示。图3相对于MapReduce,Spark在以下方面优化了作业的执行时间和资源使用。DAG编程模型。 通过Spark的DAG编程模型可以把七个MapReduce简化为一个Spark作业。Spark会把该作业自动切分为八个Stage,每个Stage包含多个可并行执行的Tasks。Stage之间的数据通过Shuffle传递。最终只需要读取和写入HDFS一次。减少了六次HDFS的读写,读写HDFS减少了70%。Spark作业启动后会申请所需的Executor资源,所有Stage的Tasks以线程的方式运行,共用Executors,相对于MapReduce方式,Spark申请资源的次数减少了近90%。Spark引入了RDD(ResilientDistributed Dataset)模型,中间数据都以RDD的形式存储,而RDD分布存储于slave节点的内存中,这就减少了计算过程中读写磁盘的次数。RDD还提供了Cache机制,例如对上图的rdd3进行Cache后,rdd4和rdd7都可以访问rdd3的数据。相对于MapReduce减少MR2和MR3重复读取相同数据的问题。效果对比测试使用相同规模的资源,其中MapReduce方式包含200个Map和100个Reduce,每个Map和Reduce配置4G的内存; 由于Spark不再需要Reduce资源, 而MapReduce主要逻辑和资源消耗在Map端,因此使用200和400个Executor做测试,每个Executor包含4G内存。测试结果如下表所示,其中输入记录约38亿条。运行模式 计算资源 运行时间(min) 成本(Slot*秒) MapReduce 200 Map+100 Reduce(4G) 120 693872 Spark 200 Executor(4G) 33 396000 Spark 400 Executor(4G) 21 504000 对比结果表的第一行和第二行,Spark运行效率和成本相对于MapReduce方式减少非常明显,其中,DAG模型减少了70%的HDFS读写、cache减少重复数据的读取,这两个优化即能减少作业运行时间又能降低成本;而资源调度次数的减少能提高作业的运行效率。对比结果表的第二行和第三行,增加一倍的Executor数目,作业运行时间减少约50%,成本增加约25%,从这个结果看到,增加Executor资源能有效的减少作业的运行时间,但并没有做到完全线性增加。这是因为每个Task的运行时间并不是完全相等的, 例如某些task处理的数据量比其他task多;这可能导致Stage的最后时刻某些Task未结束而无法启动下一个Stage,另一方面作业是一直占有Executor的,这时候会出现一些Executor空闲的状况,于是导致了成本的增加。小结数据挖掘类业务大多具有复杂的处理逻辑,传统的MapReduce/Pig类框架在应对此类数据处理任务时存在着严重的性能问题。针对这些任务,如果利用Spark的迭代计算和内存计算优势,将会大幅降低运行时间和计算成本。TDW目前已经维护了千台规模的Spark集群,并且会在资源利用率、稳定性和易用性等方面做进一步的提升和改进,为业务提供更有利的支持。
贴吧热议榜
使用签名档&&
保存至快速回贴about云每日一读汇总(第五篇) - about云开发 - Powered by Discuz!
about云开发
标题: about云每日一读汇总(第五篇)
作者: desehawk& & 时间:
标题: about云每日一读汇总(第五篇) 本帖最后由 pig2 于
00:32 编辑
about云日每日一读
每天进步一点点
程序员的技能知识体系真的只能维持五年吗
浅析数据化设计思维在阿里系产品的应用
1、数据在项目中的作用有哪些?
2、数据挖掘中,谁才是最重要的?
3、如何利用数据做日常监控?
openstack【juno】入门 【glance 篇】十:glance初步介绍
1.glance包含哪些组件?
2.glance-api、glance-registry有什么区别?
3.图像文件存储库支持哪些格式?
openstack【juno】入门 【glance 篇】十一:glance安装配置
1.如何创建glance用户?
2.安装glance,需要做哪些准备?
3.如何验证glance数据库同步成功?
4.修改配置文件的过程中,有哪些需要注意的地方?
5.nano编辑器如何使用?
openstack【juno】入门 【glance 篇】十二:glance安装配置验证及相关操作
Docker到底影响了什么?
1、docker与我们哪些应用息息相关?
2、docker对DevOps的影响有哪些?
3、如何看待docker有哪些不足?
ML Pipelines:Spark 1.2中一个用于MLlib的High-Level API
1、什么是High-Level API?
2、如何查看更多SchemaRDD特性?
3、如何理解ML算法?
spark的外排:AppendOnlyMap与ExternalAppendOnlyMap
1、什么是AppendOnlyMap?
2、如何理解spark的外排?
3、如何实现外排?
搭建环境在配置网络时遇到疑问,有关eth0与eth1
项目组hadoop实战之归一化:每天更新中
about云日每日一读
每天进步一点点
solr空间索引原理及源码分析
1、如何理解solr空间索引?
2、你是如何使用solr索引的?
3、如何分析solr源码?
让年轻程序员少走弯路的14个忠告
OpenStack企业云平台监控实践
1、OpenStack企业云平台监控有哪些方案?
2、如何有效进行日志分析?
3、你是如何实施监控的?
展望2015:数据中心行业的十大预测
1、展望2015,数据中心行业会有哪些预测?
2、你如何看待2015相关技术的发展?
<font color="#ff15年,你准备好了吗?
Hadoop log4j日志配置介绍
1.自定义修改hadoop/conf/log4j.properties,需要添加哪些内容?
2.需要修改那个类?
3.修改后,如何生效?
windows7+eclipse+hadoop2.5.2环境配置
1.本文是如何编译eclipse插件?
2.如何创建mapreduce项目?
NoSQL数据库-CAP-BASE-最终一致性
[HiC2011]大云NoSQL系统设计思考【22页】
Mac Maven 环境下 hadoop job 执行时抛出 ExitCodeException exitCode=1: chmod:
hbase shell查询 或者用Java api查询 怎么能按时间戳排序,这样可以查到最早存入
Hadoop 配置Log4J只生成文件,没有内容
如何使用MapReduce来完成归一化
请教一个问题,关于mapreduce的shuffle过程
1、shell脚本解决hadoop2+zookeeper+hbase集群start
2、shell脚本解决hadoop2+zookeeper+hbase集群stop
HadoopIPC包源码分析
about云日每日一读
每天进步一点点
拍案而起,十问大数据
1、你如何看待大数据?
2、大数据和云计算、物联网是什么关系?
3、后大数据时代的技术趋势是什么?
openstack【juno】入门 【keystone篇】六::Keystone使用及遇到问题解决办法
1.keystone的ADMIN_TOKEN该如何填写?
2.如何查看keystone数据库?
3.同步数据库遇到问题,可能有哪些原因?
4.keystone创建demo租户,是否还需要创建user及role?
openstack【juno】入门 【keystone篇】七:创建 service entity 和 API endpoint
1.如何查看创建的服务?
2.通过哪个命令可以删除服务?
3.看图API endpoints中包含了哪些?
openstack【juno】入门 【keystone篇】八:新手操作篇(验证操作篇)
1.openstack的环境变量的作用是什么?
2.openstack不配置环境变量如何执行命令?
3.非管理员租户是否具有查看user的权限?
openstack【juno】入门 【keystone篇】九:创建openstack客户端环境变量脚本
1.环境变量一般为什么格式?
2.不同用户环境变量端口是否一致?
3.openstack环境变量都需要配置哪些信息?
4.如何才能保证配置信息生效?
OpenStack云第四天
1.如何确定Image Service是否安装成功?2.KVM和Xen是如何运行的?
OpenStack云第五天
1.OpenStack对象存储需要工作在什么文件系统上?2.代理服务器都承担了哪些工作?
hadoop rpc客户端初始化和调用过程详解
hadoop rpc服务端初始化和调用过程详解
openstack 快照分析
1、什么是snapshot?
2、OpenStack如何进行snapshot?
3、OpenStack快照涉及哪些技术?
如何针对不同的数据需求构建OpenStack存储云
1、OpenStack存储有哪些主流技术支持?
2、你如何看待OpenStack的备份?
3、如何提供一种整合的解决方案来保护OpenStack环境中的数据?
Docker源码分析(七):Docker Container网络 (上)
1、docker网络有哪些模式?
2、docker的强大功能实现,基于了哪些Linux内核技术?
3、什么是none模式?
Spark中文手册-编程指南
1.Spark 如何访问集群?
2.有哪几种方式创建 RDDs?
云IDE成云应用开发融入云利器?
about云日每日一读
每天进步一点点
让你真正明白Linux NTP(包括历史、参数解释、安装配置)
1.如何查看ntp是否配置成功?
2.如何了解ntp列出的参数的含义?
3.restrict关键字的作用是什么?
Spark中文手册-快速上手
1、Spark如何快速上手?
2、如何运行你的Spark 应用程序?
3、学习Spark,你有怎样的见解?
openstack juno版安装1: Ubuntu14.04远程连接(ssh安装)
ubuntu14.04 ssh如何安装?
1. Ubuntu14.04与ubuntu12.04 ssh有什么区别?
2.远程连接,为什么安装ssh
openstack juno安装2:NTP安装
1.如何查看ntp是否配置成功?
2.如何了解ntp列出的参数的含义?
3.restrict关键字的作用是什么?
openstack juno安装3:mysql(MariaDB)安装及遇到问题解决办法
1.MariaDB与mysql的关系是什么?
2.遇到Checking for corrupt, not cleanly closed and upgrade needing tables.该如何解决?
openstack juno安装4:RabbitMQ 安装
openstack juno(ubuntu14.04)安装5:Keystone部署及介绍
1.如何让keystone数据库,任何客户端都能访问,包括本地?
2.如何配置keystone?
openstack外篇之认识mysql授权及一些操作
1.对于创建的数据库,如何允许本地访问?2.对于创建的数据库,如何实现远程访问?3.mysql中%表示的含义是什么?
扩展你的云 ——详解 Nova 中的 Region, Cell, Availability Zone, Host Aggregate
1、怎样扩展你的云?
2、如何设置 flavor 属性?
3、什么是Cell?
Keystone 高可靠性部署与性能测试
1、如何理解Keystone 高可靠性?
2、怎样实现Keystone 高可靠性?
3、Keystone 高可靠性有哪些重要概念?
idea上运行local的spark sql hive
1、idea上运行local的spark sql hive流程是怎样的?
2、如何安装配置安装 remote metastore?
3、如何解决org.apache.spark的问题?
云IDE成云应用开发融入云利器?
1.如何理解云IDE?云IDE是干什么的?
2.云IDE的前景怎么样?
原创OpenStack icehouse版安装教程,详细!
移动互联网行业概况介绍
大数据小算法:用户行为研究方法(25页面)
机器学习:斯坦福ML公开课笔记
spark源码分析(39页)
日志管理分析系统架构设计求助!!
hadoop2.x版本下,chukwa支持吗?
请问下新的api怎么处理skip mode跳过坏记录
about云日每日一读
每天进步一点点
如何实现同一OpenStack集群同时支持多种虚拟化技术
1、什么是Mutil-Hypervisor?
2、如何配置Openstack Mutil-Hypervisor 环境?
3、如何在Esxi node上创建VM?
公司的大数据业务为什么都基于Hadoop方案
1、企业选择Hadoop的原因是什么?
2、为什么可以降低成本?
3、你如何看待Hadoop的应用?
一个基于大数据的精准邮件营销的案例
1.什么是邮件营销?2.京东邮件精准营销为什么会成功?
openstack juno版安装必备: Ubuntu14.04远程连接(ssh安装)
ubuntu14.04 ssh如何安装?
1. Ubuntu14.04与ubuntu12.04 ssh有什么区别?
2.远程连接,为什么安装ssh
斯坦福ML公开课笔记14——主成分分析
1.PCA解决的是什么问题?2.怎么定义PCA模型?
斯坦福ML公开课笔记15—隐含语义索引、奇异值分解、独立成分分析
1.隐含语义索引是一种什么方式?2.怎么理解鸡尾酒宴会问题?
Hadoop的辉煌还能延续多久?
Openstack 性能测试 Rally
1、什么是Rally?
2、如何进行测试?
一个问题,困扰一个星期了,请达人解答
在win7下用eclipse运行hadoop的问题
求助:在Eclipse下运行MapReduce,只运行了Map函数Reduce函数不能执行
about云日每日一读
每天进步一点点
Flume(NG)架构设计要点及配置实践
1、什么是Flume NG?
2、如何理解Flume的架构核心概念?
3、如何配置Agent?
HDFS读文件过程分析:获取文件对应的Block列表
1、如何理解HDFS读文件过程?
2、怎样对Block列表进行排序?
3、如何创建FSDataInputStream流对象?
人工智能、机器智能技术详解
1、人工智能现在发展如何?
2、商业模式有哪些?
3、人工智能会对人类社会产生哪些影响?
解读云计算的8项核心技术
1、你是如何理解云计算的?
2、云计算有哪些核心技术?
3、如何让云计算更绿色?
使用Fuel安装OpenStack juno安装OpenStack
史上最详细的大数据安装文档(零基础hadoop)
cloudstack4.4.2+xenserver6.2简单网络部署视频及资料
Apache Pig入门不错学习文档
hadoop安装问题
about云日每日一读
每天进步一点点
双倍提升Apache Spark排序性能
1.spark shuffle都有哪些操作?2.本文spark shuffle分为哪两组任务?3.从1.1版本开始,Spark引入了“sort-based shuffle”实现原因是什么?
大数据智能分析:外滩踩踏事故背后
1、如何理解大数据智能分析的应用?
2、如何使用大数据智能分析来建设智慧城市?
3、你如何理解大数据智能分析与我们的生活?
大数据时代引发安全问题,应增强身份管理
1、什么是SSH通信安全?
2、如何保障大数据安全?
3、如何运用M2M身份管理?
Yarn简单介绍及内存配置
1、Yarn对MRv1的改进有哪些?
2、怎样对Yarn简单的内存配置?
3、如何理解Yarn的资源抽象container?
Hadoop YARN常见问题以及解决方案
1、Hadoop YARN常见问题有哪些?
2、你是如何解决这些问题的?
nova network-create 使用这个命令创建时提示error
nova network三种网络模式介绍
about云日每日一读
每天进步一点点
美团推荐算法实践
1、什么是推荐系统?
2、如何理解子策略融合?
3、simrank的计算使用什么方式?
深入浅出数据仓库中SQL性能优化之Hive篇
1、如何理解数据仓库中SQL之Hive整体优化?
2、怎样对Job整体优化?
3、如何减少Job数?
Hadoop上的中文分词与词频统计实践
1.本文使用的是什么框架?2.IKAnalyzer与中文分词方法有什么不同?
一个分布式服务器集群架构方案
1.分布式和集群是如何提升效率的?2.HAProxy有哪些优点?
OpenStack云第二天
1.OpenStack目前支持哪些平台?2.对于对象存储,所有的文件如何展现?
基于Redis+Srcache_nginx服务器缓存
1.redis处理服务器缓存有什么优点?
2.Web应用层缓存如何起作用?
在2015年,我们会看到SaaS怎样的转变?
1、SaaS的发展趋势轨迹会是什么?
2、SaaS会有哪五大发展趋势?
3、SaaS有哪些技术?
备份基于Docker的PostgreSQL数据库
1、怎样备份基于Docker的PostgreSQL数据库?
2、如何直接在PostgreSQL的容器中制作包含pg_dump容器?
3、你是如何使用Docker的?
NameNode is still loading. Redirecting to the Startup Progress page
关于分布式文件系统抽象块好处的疑问
Openstack 网络问题
hive 运行select count(*) from xx 出错
问:hdfs中可以存在隐藏文件吗?
about云日每日一读
每天进步一点点
准确测量机器学习模型的误差
1、如何看待误差测量?
2、如何理解测试集?
3、随机森林与人工神经网络等模型均无法应用哪些方法?
在HDInsight中开始使用Hadoop与Hive来分析移动手机使用
1、如何分析移动手机使用?
2、怎样在HDInsight中使用Hadoop与Hive?
3、如何在门户网站运行简单实例?
Openstack cinder初学入门命令
1.如何使用cinder帮助命令?
2.如何查看用户的所有资源?
3. cinder credentials命令的作用是什么?
windows 下编译及使用flume
1.编译flume需要哪些步骤?
2.flume如何在window下使用?
数据建模相关介绍
拿下国家自然科学奖的“透明计算”是什么?
1、什么是透明计算?
2、透明计算和云计算等有哪些不同?
3、如何看待透明计算的发展?
Docker编排工具Fig介绍
1、什么是编排?
2、如何安装和使用Fig?
3、如何更好的搭建开发环境?
eclipse上运行简单hadoop2程序出错
求助,在cinder中添加云硬盘超过10G 添加失败
openstack cinder-不能创建云磁盘(时间不同步NTP问题)
windows下使用flume-ng
【求教】Flume+Hive中数据完整性的问题
修改Cinder的Volume配额
stanford segmenter中文分词怎么支持为分布式
about云日每日一读
每天进步一点点
Hadoop 2.0 上深度学习的解决方案
1.什么是深度信任网络?2.如何理解DBN层次?
Big data is better data
1.你如何理解大数据这个概念?2.坐姿数据有何开发意义?
OpenStack云第一天
1.openstack哪个节点提供与管理网络虚拟机实例?2.OpenStack有什么运用价值?
成为优秀高级程序员的10个要点
1.软件工程师的职业生涯要历经几个阶段?
2.作者觉得重构有何重要意义?
Spark技术解析及其在百度最大单集群1300台的应用实践
1、如何理解Spark技术的运用?
2、百度开放云BMR有哪些技术运用?
3、如何看待Enhanced in-memory columnar storage?
Spark技术解析及其在百度最大单集群1300台的应用实践2
1、Spark技术有哪些热点?
2、如何更好的使用Tachyon?
3、Tachyon在百度实践中遭遇的挑战有哪些?
百度开发超级计算机 用于深度学习算法研究
1、如何进行深度学习算法?
2、如何将超级计算机用于深度学习算法研究?
神经网络简史
1、如何看待深度学习?
2、神经网络历经了哪些发展?
3、深度学习发展趋势如何?
ceilometer中 /etc/ceilometer/sources.json
hadoop2.6的datanode不能启动,请帮助
怎样将云桌面上的文件下载到本地
about云日每日一读
每天进步一点点
Java及Web程序调用hadoop2.6
1、配置过程中会遇到哪些问题,如何解决?
2、Java调用Hadoop2.6 ,运行MR程序需要做哪些配置?
3、如何通过Web程序调用Hadoop?
OpenvSwitch概念和原理
1、什么是OpenvSwitch?
2、OVS的主要作用是什么?
3、OpenvSwitch的组成部分有哪些?
淘宝联合新浪微博:大数据挖掘继续改善
1、如何利用淘宝资源做广告?
2、新浪微博利用淘宝资源做广告,失误在哪里?
3、大数据挖掘有哪些值得继续改善?
年轻程序员最需要学什么?自律!
1.文章中的自律具体体现在什么地方?2.你觉得年轻程序员最需要学什么?
大数据入行新手如何进行机器学习
1.为什么说机器学习是简单数据检索与存储的合理扩展?2.Apache Mahout项目的目的是什么?
亿级用户下的新浪微博平台架构
1.微博平台的第三代技术体系是怎样的?2.微博平台在服务层使用最为广泛的两个框架是什么?
在Ubuntu上部署CloudFoundry Server指导
1.从源码安装会遇到什么问题?
2.如何通过PPA源安装?
3.本文提供了几种安装方式?
Docker网络详解及pipework源码解读与实践
1.Docker的4种网络模式分别是什么?2.如何将Docker容器配置到本地网络环境中?
1、如何看待Spark生态系统?
2、为什么比MapReduce快呢?
3、如何走进弹性分布式数据集RDD?
我在笔记本上安装了虚拟机 虚拟机装了Ubuntu系统 如何安装cf
hadoop2.6.0作业恢复问题
Mahout 协同过滤算法
【求助】keystone的用户、租户、角色的疑问
about云日每日一读
每天进步一点点
程序员为什么值得写博客
1、你写过博客么?
2、你觉得程序员为什么值得写博客?
3、写博客,需要一种什么精神?
Quora 问答:不懂算法却善于开发,如何去大公司工作呢?
1.你怎么看“行为艺术”般的面试题?2.自我反省,你是否能有逻辑思维技巧去学习新的技术,去理解它们,并像曾经开发iOS和安卓应用那样的去制作漂亮的应用呢?
英国数据分析师讲故事:我是如何走上数据分析之路的?
1.什么是定量分析?2.什么是SAS Enterprise Miner?
机器学习和计算机视觉相关的数学
1.最具有代表性的Machine Learning中主流的两大类方法分别是什么?2.什么是李群?
与数据挖掘有关或有帮助的R包和函数的集合
1.数据挖掘有关或者有帮助的R包有哪些?2.数据挖掘有关或者有帮助的函数有哪些?
DOCKER源码分析(六):DOCKER DAEMON网络
1、Docker网络主要包含哪些部分?
2、如何理解Docker Daemon网络?
3、createBridge函数实现过程主要步骤有哪些?
Heat Ha介绍
1、什么是Heat Ha ?
2、怎么通过配置模板实现Heat的HA?
3、关于HA,有哪些后续思考?
混合云将是未来必然趋势 五大原因来证明
1、如何看待云技术的发展?
2、云技术的发展会是怎样的趋势?
急急急!!!菜鸟求助!win7下如何将hadoop源文件成功导入eclispe中
Hadoop-2.6.0在Eclipse中如何安装插件问题
openstack 通讯网络有几种?
about云日每日一读
因网站升级暂时耽搁,后面继续每日一读
每天进步一点点
通过Mahout构建推荐系统--通过IDRescorer扩展评分规则
1.IDRescorer接口规定了哪些个必须实现的方法?
2.如何定义过滤规则?
Ubuntu14 server + Hadoop2.2.0环境下Sqoop1.99.3部署记录
1.如何解决log4j包冲突问题?
2.如何配置sqoop环境变量?
Docker源码分析(五):Docker Server的创建
1、什么是Docker Server?
2、如何添加路由记录?
3、怎样创建listener监听实例?
spark RDD keyvalue操作
1、涉及shuffle的操作有哪些?
2、如何理解combineByKey的操作流程?
3、flatMapValues作用是什么?
Spark Streaming小结
1.Spark Streaming有哪些优势?
2.Discretized Stream在Spark中起到哪些作用?
Docker源码分析(四):Docker Daemon之NewDaemon实现
1、NewDaemon作用是什么?
2、如何理解Docker 的核心实现原理?
3、怎样 创建Docker网络设备?
数据挖掘概念与技术第二版和第三版(包含课后答案)【英文】
Hadoop2.5集群安装成功,运行wordcount出错
about云日每日一读
每天进步一点点
面试过程中经常被问道的问题记录
一个简单的基于内容的推荐算法
1.基于内容的推荐算法原理大本文分了哪三步?
2.什么是“Item”?
3.什么是“Item Profiles”?
Hadoop 2.0 (YARN)中的安全机制介绍
1.本文认为安装机制是有那两部分组成的?
2.Hadoop 2.0中的认证机制采用哪两种方案?
总结数据挖掘预测分类中的样本筛选和特征处理
1.做样本训练前需要哪些准备工作?2.解决正负样本不平衡问题的手段主要有哪些?
定向展示广告投放中的点击率预估模型简介
1.展示广告的排序公式都有哪些?
2.定向广告预估点击率模型是什么?
HBase随机宕机事件处理 & JVM GC回顾
1.JVM主要内存区域分为哪几部分?
2.Java可配置的垃圾收集器有哪几种类型?
Hadoop安全机制介绍
1.安全认证和安全授权有什么区别?
2.user与Service分别是什么?
3.Hadoop 一直缺乏安全机制主要表现在哪方面?
开发Hive自定义UDF,生成32位字母数字随机串
1.“生成随机串的逻辑只被执行了一遍,所有行的该字段字符串都是一样的,并不会像预想的那样,即每行一个随机串。“遇到此问题该怎么办?
2.如何理解基于自定义UDF类创建自定义函数?
hadoop安全机制汇总
数据挖掘的知识类型
1、什么是关联模式挖掘?
2、数据挖掘中有哪些是非常重要的任务?
3、如何理解偏差检测?
Hive读取不到Flume正在写入的HDFS临时文件的解决办法
1.本文的应用场景是什么?
2.Hive读取不到Flume正在写入的HDFS临时文件,该如何解决?
玩转Docker镜像
1、docker镜像是如何命名的?
2、如何通过设置Registry Mirror克服网络延时?
3、怎样配置Registry Mirror?
OpenStack服务启动故障排除经验
1、如何排除OpenStack服务启动故障?
2、你是如何排除OpenStack故障的?
什么是Memcache及使用Yum安装Memcache
1.什么是memcached
1.使用什么命令验证安装memcached是否成功?
2.如何重启memcached服务?
hadoop及云计算介绍一套小教程
【已解决】如何彻底删除openvswitch的一个port?
【求助】关于实时指标的业务实现
【已解决】ssh-keygen密码
求教,HBase中块缓存的作用?
有人解决过flume写hdfs不刷新的问题么?
about云日每日一读
每天进步一点点
技术篇:微博推荐引擎体系结构介绍
1.微博推荐本文分了几层?
2.通用推荐框架(CRF, common recommon framework)的作用是什么?
3.推荐计算层的职责是什么?
微博背后的大数据原理:微博推荐算法简述
1.为什么会产生推荐系统?
2.本文是如何将微博推荐的目标和需要解决的问题,抽样为一系列的数学问题的?
3.如何将微博内容转化为结构化向量,包括词语切分、词语信息标注、内容核心词/实体词提取、语义依存分析等?
微博背后用了哪些算法
1.如何衡量用户之间的相似度呢?
2.用户与好友的兴趣相似度都有哪些标准?
3.微博中用户影响力是如何计算的?
程序员应该关注的一些事儿
搜索推广中的查询词扩展
1.搜索广告一般的做法是怎样的?
2.还有哪些查询扩展的方式?
Python 利用pexpect和paramiko模块进行远程服务器的监控
1.Python怎样实现对远程服务器进行监控?2.pexpect模块和paramiko模块,如何进行多台远程服务器的监控?
漫谈搜素引擎的排序模型
1.什么是朴素贝叶斯算法原理?
2.Lucene默认的排序算法是怎样的?
从两个例子看 Python【map、reduce、filter】内置函数的使用
1.Map函数怎样输出执行结果?2.Reduce函数的调用有什么特点?
OpenStack Ceilometer数据存储与API源码解析
1、如何理解MongoDB对Collections的存取?
2、怎样合理的利用和分析采集到的数据?
2、如何进行二次开发?
OpenStack Ceilometer中的Pipeline机制
1、如何定义Pipeline?
2、了解Ceilometer的数据流?
3、Pipeline机制在Ceilometer中的作用是什么?
OpenStack Nova内部机制
1、如何学习Openstack源码?
2、怎样对OpenStack提交贡献?
3、Openstack源码布局和基础架构是怎样的?
【分享】openstack 命令行管理
Apache Flume Distributed Log Collection for Hadoop(中文版)
阿里、京东、IBM大数据文档
cinder backup工作原理
如何把Weka集成在Hadoop框架里?
有谁试过用storm直接向HDFS写数据?
【求助】通过Dashboard启动云主机后无法连接
about云日每日一读
每天进步一点点
机器学习、大数据面试问题及答题思路
数据挖掘:Mahout推荐算法编程实践
1.创建好数据模型后,第二步为什么需要指定一种计算“距离”的方法?
2.Mahout推荐算法编程实现包含哪些步骤?
HBase 0.94之后Split策略
1.而在0.94版本之后,默认split策略修改为了什么?
2.这种策略有什么好处?
HBase Memstore配置
1.memstore有哪些好处?
2.memstore是什么以及它如何工作?
Hbase写数据,存数据,读数据的详细过程
1.怎样理解Hbase写数据和存数据的过程?
2.关于版本的控制,如何让多台服务器上的时间都同步?
Hbase WAL原理学习
1.客户端往RegionServer端提交数据的时候,WAL日志起什么作用?
2.WAL的实现类是什么?并且是怎么实现的?
0.98.9版本HBase中存储元数据的表说明
hbase存储结构介绍及hbase各种概念
1.HBase中的存储包含哪些存储概念?
2.HMaster及HRegionServer的作用是什么?
2014年值得关注的十个Hadoop大数据创业公司
值得关注的12大Hadoop厂商
HBase数据到底是怎么存储的?
新手学docker遇到的几个问题
【已解决】创建subnet迟迟没有响应
请教dashboard的问题
hive补丁文件如何使用
【已解决】创建的云主机存到哪里了?
【已解决】qpidd要装在控制节点?还是各个节点都要装?
【已解决】启动云主机时,No valid host was found.
HFileOutputFormat生成HFile后Region数量问题
【求助】Tenant Virtual Router有一个口是DOWN的
about云日每日一读
每天进步一点点
Flume-ng生产环境实践(一)Flume-ng生产环境编译
1.Flume-ng生产环境如何搭建?
2.flume-ng分布式日志是用来干什么的?
Flume-ng生产环境实践(二)flume-ng 测试过程中event丢失部分body数据
1.source端单event的body如何处理大于16字节的数据的?
2.具体的方法是如何实现的?
Flume-ng生产环境实践(三)实现文件sink,按照固定格式目录输出
1.文件sink使用时,如何配置?
2.文件sink又有哪些依赖包?
Flume-ng生产环境实践(四)实现log格式化interceptor
1.filesink中数据如何传输?
2.event中header的键值对是怎样起作用的?
hadoop基础:两种SharePoint 身份验证的选择--Kerberos .vs. NTLM
1.什么是NTLM?
2.什么是Kerberos?
SDN的选择:OpenFlow、虚拟机、OpenStack和VXLAN/NVGRE
1、你如何看待当前流行的SDN?
2、VXLAN和NVGRE的两种方案都是为了解决什么问题?
3、OpenFlow有哪些注意事项?
kvm性能优化方案---cpu/内存/磁盘/网络
1、kvm性能优化有哪些内容?
2、网络虚拟化有哪些实现方案?
3、你如何对KVM优化的?
VXLAN学习整理
1、什么是VXLAN?
2、VXLAN网络和非VXLAN网络区别是什么?
3、如何在你的环境中使用VXLAN?
hadoop新手入门必读经典帖子汇总
hbase的案例、编程、应用场景
hadoop Kerberos配置问题
hadoop 重新编译,提示如下错误,怎么个意思了?
JobTracker会调用NameNode的方法吗?
请教关于hbase的强一致模型的理解
一道面试题的疑惑
about云日每日一读
每天进步一点点
什么是数据可视化及微博数据的可视化分析
1.微博为什么有可视化现实需要?
2.什么是数据可视化?
大数据:盈利的秘诀
1、如何理解合作机制优化?
2、一个典型的消费者在消费行为路径中会有哪些步骤?
3、社交活动和线上活动适合哪里?
埃博拉病毒——大数据时代的疫情防控
1、如何看待大数据分析的重要性?
2、如何理解数据分析已然成为人类征服自然界和适应自然界的重要力量?
3、如何看待数据分析在埃博拉抗击中的作用?
大数据的未来之路
1、如何看待大数据的未来之路?
2、未来企业数据中心的作用是什么?
2、企业盈利之路,可以有哪些?
漫谈云计算攻击模式
1、如何看待云计算攻击的种类/方法?
2、谈谈自己关于云计算安全的防御之道?
配置Zookeeper Kerberos认证介绍
1.如何生成zookeeper.keytab?
2. zookeeper 配置文件需修改哪些内容?
3.ZooKeeper Client配置 keytab需要哪些步骤?
国家对大数据的重视:国务院副总理汪洋--谈大数据感悟
about云日每日一读
每天进步一点点
总结内容分发平台个性化推荐系统
1.推荐系统架构为什么包含在线和离线部分?
2.在推荐过程中都需要考虑什么问题?
Openstack弹性块存储服务Cinder
1、如何看待Cinder的主要组成组件?
2、如何查看qpid当前活跃的queue?
3、目前Cinder-scheduler支持的filter包括哪些?
如何用OpenStack命令行工具管理虚拟机
1、如何用命令行工具创建虚拟机?
2、如何停止、暂停和清除虚拟机?
3、如何用命令管理VM的生命周期?
Openstack cinder配置iscsi存储专用网络
1、为什么需要配置iscsi的专用网络?
2、如何配置iscsi的专用网络?
Yarn Container计算和MapReduce的内存配置
1.YARN中处理能力的基本单元是什么?
2.什么是保留内存?
<font color="#ff到8G Container建议多少M?
给OpenStack创建Windows XP镜像
1、如何创建Windows XP镜像?
2、怎样才能让创建的Windows VM能上网?
Storm-kafka【接口实现】-1 DynamicBrokersReader
1.DynamicBrokersReader的作用是什么?
2.DynamicBrokersReader实现了哪些功能?
云计算与数据挖掘
云计算--划时代的技术
2014年11月中华架构师大会关于大数据云技术文档分享
关于container内存设置的问题??
安装CDH5,启动yarn服务失败问题
about云日每日一读
每天进步一点点
docker都可以用来干什么--八个Docker的真实应用场景
1.docker在开发工作方面解决了哪些问题?
2.docker在环境隔离方面有哪些应用?
3.Google和Facebook都看重了docker那个特性?
今天去面试的笔试题
遗传算法入门介绍
1.什么是遗传算法?
2.遗传算法思想 是什么?
MapReduce与遗传算法、MapReduce与粒子群算法结合与实现
1.粒子群算法的MapReduce如何通过代码实现?
2.MapReduce如何与遗传算法结合?
GRE、PPTP、L2TP隧道协议
1.什么是GRE?
2.GRE有什么优点和缺点?
Google Kubernetes设计文档之服务篇
1、如何理解Kubernetes中的服务?
2、portals有哪些缺点?
3、portal的未来在哪里?
Nova Baremetal Driver深入分析
1、什么是Nova BareMetal?
2、如何分析baremetal?
3、如何使用BareMetal Driver?
Openstack Keystone LDAP后端配置
1、什么是LDAP?
2、LDAP和keystone结合有什么优势?
3、完全删除LDAP的命令是什么?
cloudstack 高级网络配置手册
Hbase的辅助索引问题
Centos6.5+Hive-0.14+mysql5.6搭建中异常信息解决
spark执行任务报错 java.net.ConnectException
storm-kafka 整合项目测试
about云日每日一读
每天进步一点点
spark入门教程及经验总结
1.cluster mode 模式运行包含哪些流程?
2.yarn mode 运行模式有什么特点?
3..在关闭http file server进程时,遇到什么错误?
优酷hadoop,mapred面试题及答案
kafka详解一、Kafka简介
1.Kafka有何特性?
2.Kafka有哪些组件?
Kafka详解二、如何配置Kafka集群
1.Kafka有哪几种配制方法?
2.如何启动一个Consumer实例来消费消息?
kafka详解三:开发Kafka应用
1.Kafka系统由什么组成?
2.Kafka中和producer相关的API是什么?
kafka详解四:Kafka的设计思想、理念
1.Kafka的设计基本思想是什么?
2.Kafka消息转运过程中是如何确保消息的可靠性的?
Kafka详解五、Kafka Consumer的底层API- SimpleConsumer
1.Kafka如何实现和Consumer之间的交互?
2.使用SimpleConsumer有哪些弊端呢?
一个阿里巴巴程序员的心路历程
NewSQL、NoSQL与OldSQL之混合部署应用方案
1、大数据架构的模式有哪些?
2、目前在国内市场上,都有哪些国产数据库?
3、行业大数据应用中使用哪种部署?
打造顶级大数据团队的几个偏方
1、如何理解数据分析团队多元化的优势?
2、你准备向数据分析系统提出什么样的问题?
3、什么是分析方法/算法?
数据挖掘中易犯的几大错误
1、数据挖掘,几大易犯错误包括哪些?
2、如何理解数据挖掘,最核心的是人?
OpenStack在天河二号的大规模部署实践
1、如何看待OpenStack大规模部署所遭遇的挑战?
2、为提高服务的性能,做了哪些参数调整?
3、OpenStack,一次性能同时启动多少个VM?
storm英文书籍:Getting Started with Storm
eclipse-plugin-2.6.0.jar插件下载
开发高效的Hive程序
hadoop2伪分布,调试,全布安装及配置详解
一张细化了的hbase存储结构图
spark读取hbase数据报错java.io.NotSerializableException: org.apache.hadoop.hba
如何知道执行shell命令是成功还是失败
hbase数据快速导入方案--bulkload
【求助】 我的CDH中不产生Container日志
spark任务 在spark-shell上能跑,但是在spark-submit上报错
[求助]spark程序正常运行,最后报个nio的错误
HBaseAdmin创建很慢
about云日每日一读
每天进步一点点
2015年薪酬最高的五个IT职位(大数据居首)
Docker入门教程汇总
Docker入门教程(五)Docker安全
1.运行容器应该使用哪个命令?
2.Control Groups是非常重要的组件,具有哪些功能?
Docker入门教程(六)另外的15个Docker命令
1.如何用命令管理容器的后台进程?
2.如何来构造一个镜像?
Docker入门教程(七)Docker API
1.Docker提供了很多的API以便用户使用,这些API包含哪些方面?
2.特殊的library仓库都有哪些需要管理员权限的命令?
Docker入门教程(八)Docker Remote API
1.什么是Docker Remote API?
2.什么是cURL?可以用它来干什么?
Docker入门教程(九)10个镜像相关的API
1.镜像有几种创建方式?
2.本文讲了对镜像哪些操作?
HBase常见问题汇总
1.Scanner的Caching与Batch有什么区别?
2.Region个数越多越好吗?
3.WAL操作日志的开销有多大?
4.Rowkey中包含时间戳导致空Region有什么问题?
NoSQL性能对比测试,SequoiaDB、MongoDB以及Cassandra三家各有千秋
1、NoSQL性能对比测试有哪些指标?
2、SequoiaDB、MongoDB以及Cassandra有哪些不同的表现?
Kmeans++和KNN算法比较
1、什么是K-Means?
2、KNN和K-Means的区别有哪些?
3、K-Means有哪些缺陷?
聚类算法总结
1、聚类算法的种类有哪些?
2、聚类分析研究的主要内容有哪些?
3、传统聚类方法中存在哪些问题?
请教个问题,hdfs有自定义资源分配吗?
impala文档
impala 2.0的一些相关介绍
openstack视频
HFile中hbase块的存储问题
读《Hbase权威指南》的一个疑问
about云日每日一读
每天进步一点点
Openstack工程的持续集成实践
1、什么是持续集成(CI)?
2、直接使用keystone自带的tox.ini,会遇到哪些问题?
3、openstack的持续集成包括哪些内容?
Docker入门教程(一)介绍
1.Docker特性主要包括哪些?
2.Docker有哪些组件和哪些基本元素?
Docker入门教程(二)命令
1.忘记了docker命令,可以用哪个命令查看有关docker的命令?
2.docker镜像一般存储在哪儿?用什么命令进行查看?
Docker入门教程(三)DockerFile
1.什么是Dockerfile?
2.它能够做什么事情?
Docker入门教程(四)Docker Registry
1.什么是Docker Registry?
2.Docker Registry有哪些角色?分别是什么?
Apache Spark源码走读汇总
Hive基于搜狗搜索的用户日志行为分析
1.本文是如何学习大数据的?
2.用户查询中包含的中文、英文字数的平均个数,本文提出哪两个思路?
3.用户访问应用的时间特点如何使用hive实现统计的?
Cloudera Manager和Managed Service的数据库及监控数据的存储
1.怎样配置外部表?
2.Cloudera Manager5为什么使用levelDB数据库?
3.Host Monitor 默认数据存储在什么位置?
Cloudera hadoop配置文件地址和修改配置属性方法
1.cloudera 的配置文件路径默认在什么位置?
2.如何通过cloudera manager web UI修改配置文件?
Cloudera Manager 入门:安装详解
1.cloudera manager本文讲了几种方式?
2.这三种方式分别如何安装?
Azure的NoSQL技术
1、如何理解nosql兴起的背景?
2、Hadoop软件给了我们分析这种数据提供了哪些可能?
3、如何理解nosql的不同存储?
Windows Azure的混合云时代
1、如何看待公有云和私有云的发展?
2、Azure公有云提供了哪些体验?
3、Azure混合云当前有哪些企业应用?
MongoDB对手——NoSQL数据库SequoiaDB正式开源
1、SequoiaDB和MongoDB有何不同?
2、如何理解SequoiaDB开源的背后?
Lucene搜索引擎
Hadoop YARN基本框架和发展趋势文档分享
clouderaManager出现HostMonitor异常,求大虾指点
往Cloudfoundry上发布APP时Checking 报错
关于return code X from org.apache.hadoop.hive.ql.exec.mr.MapredLocalTask
hadoop如何添加第三方jar包
如何将Hadoop API 引入到 Servlet Tomcat
Cloudera bin和lib在什么位置
hadoop如何读取压缩包内的文件内容
about云日每日一读
每天进步一点点
整合Kafka到Spark Streaming——代码示例和挑战
1.什么是Spark Streaming?2.本文如何性能调优的?3.本文讲的那个例子?
以亲身体验解说:Docker到底解决了什么问题
1.使用Docker带来哪些好处?
思考及解决:
1.为什么通过Docker可以简单快速部署一个满足自己需求的电商网站?
2.Docker技术可以完美解决服务打包的问题?
Hortonworks:2015年Hadoop即将爆发
1、如何看待Hadoop的企业应用?
2、什么是数据湖?
3、眼下大数据增长最快的需求来自于什么?
从无到有,搭建一个简单版的JAVA PAAS云平台
1、怎样搭建一个入门的PAAS云平台?
2、如何设置多台宿主机路由?
3、设置PAAS路由,需要做哪些准备?
Docker Image管理学习笔记
1、Docker火热的原因是什么?
2、docker run命令实际的执行主要分为哪些?
3、docker是如何对镜像管理的?
Apache Spark源码走读之24 -- Sort-based Shuffle的设计与实现
1.sort-based shuffle算法会产生哪些中间文件?
2.如果是使用SORT,效果如何呢?
解析IntelliJ IDEA内部设计
1.Intellij IDEA的设计和实现使用了哪些模式?
2.Intellij IDEA为什么以模块化的方式组织?
视频推荐与大数据架构介绍(23页)
pig编程英文版【222页】
Apache Mahout入门【英文版45页】
大数据相关22文档(spark、pig、Cassandra、Redis、Shark、hive、hbase)等英文资料
Scala编程英文版第一版第二版
storm的上下文对象TopologyContext如何获取
hbase中一行数据可以跨region存储吗?
hadoop HA 中的standby namenode问题
security hadoop持续认证失败
Pig脚本执行后2个map但是一直很慢
有没有关于cloudera 源码的相关网址
about云日每日一读
每天进步一点点
互联网三巨头(BAT)大战解析:百度亏本挑战阿里推出一分钱购买活动
Apache Spark源码走读之22 -- 浅谈mllib中线性回归的算法实现
1.机器学习算法基本遵循怎样的思路?
2.如何求得损失函数的最优解?
Apache Spark源码走读之23 -- Spark MLLib中拟牛顿法L-BFGS的源码实现
1.牛顿法有哪些优点体现?
2.L-BFGS算法中使用到的正则化方法是什么?
12306:分布式内存数据技术为查询提速75倍
1、可以将计算架构分为哪几代?
2、当前计算架构的瓶颈在哪里?
3、如何理解分布式内存数据技术?
大数据到底有没有作用:美国农场主Kip Tom年投资回报率从14%提高到了21.2%
YARN内存使用优化配置
1.Yarn集群的内存分配配置在哪个文件中配置?
2.如何配置每个map及reduce内存?
3.单个任务最小内存该如何配置?
ceilometer的数据采集机制入门
1.ceilometer负责什么事情?
2.ceilometer 有哪些概念?
3.ceilometer 如何采集hardware?
【Hadoop学习】CDH5.2安装部署
1、CDH5.2安装部署,需要哪些条件?
2、需要将哪些文件复制到集群中的所有主机上?
3、如何测试YARN?
Apache Spark源码走读之21 -- WEB UI和Metrics初始化及数据更新过程分析
1.http server是如何启动的?
2.页面中的数据是从哪里获取到的?
聊聊云计算和虚拟化
1、云计算和虚拟化有何不同?
2、云计算和虚拟化有哪些特点?
美团数据仓库的演进
openstack 六文档分享
zookeeper英文书籍(238页)
CloudStack_4.4_安装(24页)
mirantis openstack(version 5.1.1) user guid(95页)
关于hive的一个分区添加数据问题
hive如何获取shell当天日期,并创建分区表
使用ceilometer监控,获取虚拟机的memory失败
Yarn为什么没有根据电脑配置进行任务分配
hbase0.96.0以后的endpoint介绍
hadoop 2.x升级异常
用oracle VM virtualbox安装linux系统每次完成安装后reboot,就会弹出“oracle VM
about云日每日一读
每天进步一点点
HBase基本数据操作详解【精品】
1.hbase创建表如何指定版本?
2.通过哪个对象设置列族的特性?
3.hbase如何获取单行数据?
Apache Spark源码走读之18 -- 使用Intellij idea调试Spark源码
1.如果出现提示内容&is waiting for .sbt.ivy.lock&,该怎么办?
2.怎么解决sbt/sbt gen-idea的时候没有很好的解决依赖关系?
Apache Spark源码走读之19 -- standalone cluster模式下资源的申请与释放
1.构成Standalone cluster部署模式的四大组成部件有哪些?分别有什么功能?
2.WorkerInfo在schedule函数中会被使用到,schedule函数处理逻辑是怎样的?
Apache Spark源码走读之20 -- ShuffleMapTask计算结果的保存与读取
1.Shuffle数据的写入和读取过程是怎样的?
2.HashShuffleReader中的read函数的具体实现是怎样的?
新浪对移动云定义
1.移动云是什么?
2.移动云能做什么?
HBase(0.96以上版本)过滤器Filter详解及实例代码
1.ColumnRangeFilter作用是什么?
2.列值过滤器--SingleColumnValueFilter的作用是什么?
3.当需要根据行键特征查找一个范围的行数据时,使用哪种查询方法会更高效?
关于hbase中RowLock的说明
【已解决】使用hbase shell 命令get_counter的问题
mapreduce同时读取mysql和hdfs文件
CDH5.x的Maven依赖从哪里可以找到
about云日每日一读
每天进步一点点
中国的程序员为什么自嘲为码农?
互联网的两个时代:拉信息时代和推信息时代
1.拉取信息主要用来做什么?2.推信息,主要推什么信息?
大数据翻页的难点和技巧
1.List数据访问模型常见的有哪两种方式?
2.本文提出的方案有什么不足?
hbase入门、原理总结
1.Zookeeper在hbase中到底为我们干了什么?
2.本文如何讲解HBase的工作原理?
3.Hadoop、ZooKeeper和HBase之间启动和关闭顺序?
hive统计信息通过sqoop导入mysql
如何学习openstack及SDN and openstack文档下载
zeromq的安装问题
about云日每日一读
每天进步一点点
Apache Spark源码走读之15 -- Standalone部署模式下的容错性分析
1.standalone部署方式下的包含哪些主要节点?
2.Standalone集群的启动以及应用提交时,各节点之间有哪些消息交互?
Apache Spark源码走读之16 -- spark repl实现详解
1.scala是需要编译才能执行的语言,但提供的scala repl可以实现代码的实时交互式执行,这是为什么呢?
2.既然scala已经提供了repl,为什么spark还要自己单独搞一套spark repl,这其中的缘由到底何在?
Apache Spark源码走读之17 -- 如何进行代码跟读
1.Spark基于Akka来进行消息交互,那如何知道谁是接收方呢?
2.对代码作了修改之后,如果并不想提交代码,那该如何将最新的内容同步到本地呢?
[HBase]Region location
1.如何某一个row对应的region是在哪台Region server上?
2.&&-ROOT-、.META.表作用是什么?
OpenStack的数据库开发基础 — SQLAlchemy
1.OpenStack 是否为 Python 开发的项目?
2.为什么使用SQLAlchemy?
3.SQLAlchemy 架构包含哪些内容?
dashboard上无法启动云主机
CDH 5.2 :Impala和Hive集成Sentry
新年第一问,关于hbase的数据版本问题
数据可视化问题
about云日(新年快乐)每日一读
每天进步一点点
Storm实战常见问题及解决方案
Apache Spark源码走读之12 -- Hive on Spark运行环境搭建
如何搭建Hive On Spark的测试环境?
Apache Spark源码走读之13 -- hiveql on spark实现详解
1.Hive中有几种数据模型?
2.HiveQL的执行过程是怎样的?
Apache Spark源码走读之14 -- Graphx实现剖析
1.什么是图的并行化处理?
2.为什么要引入triplets?
HDFS snapshot操作实战
1.Snapshot有哪些用处?
2.如何利用Snapshot进行hdfs文件系统备份?
HDFS NFS网关
1.如何启停NFS网关服务?
2.如何有效挂载NFS?
storm入门英文:Apache Storm Architecture and Integration
中谷python中文视频教程(全38集)
HBase云存储(37页ppt)
数据挖掘一套视频
HBase HA (多HMaster)
storm tuple的概念
作者: june_fu& & 时间:
good job ,thanks
欢迎光临 about云开发 (/)
Powered by Discuz! X3.2

我要回帖

更多关于 dnf使用任务完成卷 的文章

 

随机推荐