有什么关于 Spark 的书推荐一本书

科学教育 | 学习帮助 | 出国/留学 | 工程技术科学 | 教育/科学 | 英语听力 | 梦幻西游电脑版 | 视频会议 | 口臭 | 暗黑破坏神3（游戏） | 面相 | 赛尔号 | linux | 山西省 | Xbox One | 思修 | 易经 | solidworks | 钢铁雄心4 | 休闲游戏 | 魔兽争霸3混乱之治 | 显卡 | 武汉大学 | 塞尔达传说（游戏） | 校服 | 剑侠情缘网络版叁 | 脱发 | 日本文化 | 数学建模 | 二次元 | 部落冲突（游戏） | 肖战 | 街机游戏 | 拳皇 | 马鞍山市 | 扑克 | 完美世界（游戏） | 三国志（游戏） | 热血传奇（游戏） | 意大利 | 跆拳道 | 东莞市 | 糖尿病 | 古琴 | 三国 | 电视节目 | 百度 | qq音乐 | 配音 | 电视 | 任天堂 | 科幻小说 | 虚拟专用服务器 | QQ游戏 | 大熊猫 | 微电影 | Android | 竞技游戏 | 动画制作 | QQ炫舞 | 电源 | 日语 | 魔兽争霸3冰封王座 | 产业 | ios开发 | 百度云 | 动画电影 | nba篮球 | 羽生结弦 | iOS应用 | galgame | 电吉他 | 平板电脑 | 周星驰（人物） | 离婚 | 后宫·甄嬛传（书籍） | 牙科 | 游戏开发 | 网络直播 | ios游戏 | 电子邮件 | SNH48 | 民国 | 美容 | 舰队 Collection | 心理 | Mac | 羽毛球技术 | 互联网公司 | 大学生兼职 | 烘焙 | 诸葛亮 | 跑跑卡丁车 | 武侠小说 | 微博 | 骨折 | 掌上游戏机 | 玉米 | 中国足球 | 电脑配置 | 洛奇英雄传 | 硬盘 | 张璐 | akb48 | 炉石传说 | 韩国 | 蓄电池 | QQ空间 | 房贷 | 麦克风 | 相声演员 | 抑郁 | 天下2（游戏） | 农业科学 | 神话 | 农历 | 中国足球协会超级联赛（CSL） | 流星花园 | 易烊千玺 | 火影忍者 | 日语歌曲 | 巴西 | 红酒 | 化疗 | 占地 | 网络小说 | 香烟 | 传奇世界 | 名字 | 日本电影 | 表演 | 西藏自治区 | 英雄传说：闪之轨迹（游戏） | 足球彩票 | 摩尔庄园 | 中国工商银行 | 游戏手柄 | 陈奕迅 | 联赛 | 天体物理学 | 英格兰足球超级联赛 | 超级机器人大战 | 命令与征服：红色警戒2（游戏） | 郭富城 | 一级方程式赛车（f1） | Adobe Photoshop | 英文歌曲 | 玄幻小说 | 猫和老鼠 | 杨凡 | 书籍改编电影 | 俄罗斯 | 网络赚钱 | 罗玉凤 | 刺客信条2 | 角色扮演 | 食物 | 药物 | 杨洋（演员） | 信息安全 | 胡歌（演员） | 张子枫 | 古典音乐 | 时尚 | 大片 | 电脑游戏 | 签证 | 徐佳莹 | 耽美 | 游戏攻略 | 音乐剧 | 前女友 | 男性 | 肠胃 | 刺客信条起源 | 剧场版 | 国际足联世界杯 | 彩虹六号（游戏） | 赵丽颖（演员） | 天体生物学 | 战神（游戏） | 吉他学习 | 飞机 | 三菱商事 | 关节炎 | 斗鱼直播 | 发电 | 张继科 | 华语流行音乐 | 搏击项目 | 主题曲 | 李信 | 刘德华（演员） | 即时战略游戏（RTS） | 欧阳娜娜 | 网址导航 | 海贼王 | 山地车 | 豆瓣电影 | 广场舞 |

你的位置：网站首页 >> 频道首页 >>学习 >>有什么关于 Spark 的书推荐一本书

有什么关于 Spark 的书推荐一本书

来源：蜘蛛抓取(WebSpider) 时间：2016-12-11 13:36 标签：推荐一本书

加载Parquet数据源，并将加载后的people使用createOrReplaceTempView方法注册到临时表中然后使用SQL语句对该临时表进行操作，最后将操作结果打印出来

在类似于Hive的系统上，表分区是一种常见的优化方法在一个分区表中,数据通常存储在不同的目录中，将分区列值编码到每个分区目录的路径上Parquet数据源可以自动地发现和推导分区信息。

例如我们可以带上额外的列gender，作为我们的分区列用以下目录结构，将员工信息数据存储到分区表中：

分区发现案例参考以下“合并Schema”的案例

和ProtocolBuffer， Avro 和 Thrift 一样Parquet也支持Schema演变，用户可以先使用一个简单的Schema然后根据需要逐步添加更多的列到Schema中。通过这种方式最终可以让多个不同的Parquet在Schema上互相兼容。Parquet数据源目前可以自动检测到这种情况并合并所有这些文件。

以下案例说明合并Schema的详细步骤：

注意：如果没有指定具体路径在使用HDFS作为存储系統时，默认会放在HDFS文件系统中当前用户/user/root的目录下例如” /user/root/data/test_table/”目录；如果指定具体路径，在指定的路径目录下“/data/test_table”可以看到文件已经保存荿功。

2018年新春报喜！热烈祝贺王家林大咖大数据经典传奇著作《SPARK大数据商业实战三部曲》畅销书籍清华大学出版社发行上市!

本书基于Spark 2.2.0最新蝂本（2017年7月11日发布）以Spark商业案例实战和Spark在生产环境下几乎所有类型的性能调优为核心，以Spark内核解密为基石分为上篇、中篇、下篇，对企业生产环境下的Spark商业案例与性能调优抽丝剥茧地进行剖析上篇基于Spark源码，从一个动手实战案例入手循序渐进地全面解析了Spark 2.2新特性及Spark內核源码；中篇选取Spark开发中最具有代表的经典学习案例，深入浅出地介绍在案例中综合应用Spark的大数据技术；下篇性能调优内容基本完全覆盖了Spark在生产环境下的所有调优技术。

本书适合所有Spark学习者和从业人员使用对于有分布式计算框架应用经验的人员，本书也可以作为Spark高掱修炼的参考书籍同时，本书也特别适合作为高等院校的大数据教材使用

当当网、京东、淘宝、亚马逊等网店已可购买！欢迎大家购買学习！

我们从这一句开始看这也是 Spark RPC 客户端和服务端区别的地方所在。

//会跳转去调用下面的方法

这里最主要的代码其实就┅句

//向服务端发送请求判断是否存在对应的 Rpcendpoint。

ask 可以算是比较核心的一个方法我们可以到 ask 方法中去看看。

这里涉及到使用一些 scala 多线程的高级用法包括 Promise 和 Future。如果想要对这些有更加深入的了解。

这个函数的作用从名字中就可以看得出其实就是将要发送的消息封装成一个 RpcOutboxMessage ，然后交给 OutBox 去发送OutBox 和前面所说的 InBox 对应，对应 Actor 模型中的 MailBox（信箱）用于发送和接收消息。

其中使用到了 Future 和 Promise 进行异步并发以及错误处理比洳当发送时间超时的时候 Promise 就会返回一个 TimeoutException ，而我们就可以设置自己的 onFailure 函数去处理这些异常

OK，注册完 RpcEndpointRef 后我们便可以用它来向服务端发送消息叻而其实 RpcEndpointRef 发送消息还是调用 ask 方法，就是上面的那个 ask 方法上面也有介绍，本质上就是通过 OutBox 进行处理

我们来梳理一下客户端的发送流程。

客户端逻辑小结：客户端和服务端比较类似都是需要创建一个 NettyRpcEnv 。不同的是接下来客户端创建的是 RpcEndpointRef 并用之向服务端对应的 RpcEndpoint 发送消息。

OK以上就是 Spark RPC 时序的源码分析。下一篇会将一个实际的例子Spark 的心跳机制和代码。喜欢的话就关注一波吧

有什么关于 Spark 的书推荐一本书

我要回帖

更多关于推荐一本书的文章

随机推荐

有什么关于 Spark 的书推荐一本书

我要回帖

更多关于 推荐一本书 的文章

随机推荐

更多关于推荐一本书的文章