如何在 Spark 机器学习中应用 scikit-learn

CDA数据分析师认证培训春季班开始招生了,国内最火的数据分析师认证课程,培养学员超过上千人!报名热线
详情连接:/class/detailcontent/?hid=326&tid=100074
> 基于scikit-learn的机器学习简介
基于scikit-learn的机器学习简介
作者:陆勤(专注机器学习研究和应用)
基于scikit-learn的机器学习简介,包括以下内容:
机器学习:问题集
装载实例数据
学习和预测
模型持久性
机器学习:问题集
一般而言,一个学习问题会考虑n个样本数据集,并尝试着预测不知道数据的特性。每个样本可能包含多个属性,称之为维度或者变量或者特征。可以用一个数据矩阵来描述,行表示一个个实例,列表示一个个特征。
机器学习可以粗略地划分为:
监督学习,包括分类和回归,都属于预测问题的范畴,前者预测实例中所关注的某个定性变量,即分类;后者预测实例中所关注的某个定性变量,即回归。
无监督学习,包括聚类、密度估计和降维。聚类揭示实例的相似性;密度估计描述数据的分布情况;降维删除那些不重要的或者不相关的特征。
训练数据集和测试数据集
因为我们要对模型进行评估,因而我们把已有的数据进行划分,分为训练数据集,用来训练模型;测试数据集,用来测试模型。
装载实例数据
Python机器学习库scikit-learn已经提供了一些标准的数据集,供我们使用,比方说iris数据集和digits数据集,可以研究分类;boston的房价数据集,可以研究回归。
在IPython环境下,装载iris数据集和digits数据集,代码清单如下:
实例的目标变量在.target的数据集中,其他变量在.data的数据集中。
学习和预测
使用支持向量机模型,对数据集进行学习和预测,代码清单如下:
模型的持久性
使用pickle库把模型进行保存,基于iris数据集的一个Demo实例,代码清单如下:
使用pickle库把模型进行保存,实现模型持久性,代码清单如下:
或者使用joblib库同样解决模型持久性,代码清单如下
这种方法针对大数据更有效。
这种约定俗成可以让操作更有效。
代码清单如下。
这个clf.predict()函数返回值是整数类型。
这个clf.predict()函数返回值是字符类型。
重置或者更新参数
代码清单如下。
第一种和参数是线性。
下面设置核函数为RBF,代码清单如下:
参考资料:
2 书籍:《Python学习手册(第四版)》第8章列表与字典
转载请注明: &
or分享 (0)基于Spark的机器学习
知识量:10
授课水平:9.4
实用性:8.2
课程设计:10
难度:一般
开始时间:时间自主
持续时间:2.0周/每周5.0-8.0小时
这是国内外至今为止第一门系统性的介绍Spark框架为支持机器学习推出的算法库MLlib、 GraphX图计算算法原理的及其使用,这门课程系统性的介绍了各种机器学习算法、图算法在分布式系统中的工程实现。不多说了,互联网公司招人最敢开offer的职位之一,如果学不死,往死里学吧!课程大纲:第一章 课程简介及入门基础Spark基础知识机器学习基础知识图计算基础知识Spark,MLlib,以及GraphX的操作示例第二章 广义线性模型逻辑回归线性回归SVMLASSO岭回归广义线性模型代码及示例(如手写数字识别)第三章 推荐算法及系统ALS算法奇异值分解Mahout与MLlib的对比分析推荐系统的搭建示例(依赖PredictionIO)第四章 聚类算法k-meansLDA高斯混合模型Power Iteration聚类聚类算法应用示例(如主题建模及地理位置聚类)第五章 流式机器学习Lambda架构参数服务器from Freeman labs提供的流式算法应用示例(如斑马鱼实验)第六章 机器学习流水线Scikit-learn的流水线(包括Pandas等对比)Spark的流水线(如DataFrame以及ML组件)特征提取与变换应用示例及对比(待定)第七章 机器学习中的科学计算矩阵计算中的注意事项矩阵计算的组件(in C/Fortran and Java)MLlib中的矩阵计算MLlib中的统计方法科学计算的示例(待定)第八章 图计算模型GraphX进阶GraphX中的图算法再议LDA与ALS算法图模型的示例(如网络中的社团聚类)第九章 决策树与组合学习MLlib中的决策树随机森林算法Gradient-Boosted Trees实践中的组合学习(如Kaggle)组合模型的示例(待定)第十章 机器学习算法评测评测方法Cross validation与Grid SearchMLlib中的实现在线、离线测评方法第十一章 优化算法并行化常用的优化算法优化算法的串行基因计算模型:从BSP到BSP+再到SSP未来的趋势第十二章课程拾遗以及框架再思考课程拾遗机器学习/数据分析的一般步骤实践机器学习的再思考多系统对比(Mahout、Oryx、VM以及一些python的包,SparkR,PySpark等)
第二周主要介绍广义线性模型(Generalized Linear Model)的推导和以及其在MLlib中的实现方法。
Apache Spark
第一周的内容主要分为三个overviews: Spark Overview, Machine...
Generalized Linear Model
Logistic regression
训练模型的3中方法:
Learn a classifer
Learn a conditional probabili...
http://yinxusen.github.io/
1.intro the schedule for the whole learning
12 weeks long, ...
1.机器学习的三个问题:来由,问题和基本方法。
由专家指导转变为机器学习收集问题领域的输入和输出,总结背后逻辑,模拟出...
机器学习三个方法:
Learn a classifier;
example:Perceptron(感知器)(人工神经...
沙发居然还空着?!速抢!热门推荐:
新智元编译
作者:Swati Kashyap
翻译:刘小芹
  :COO、执行总编、主编、高级编译、主笔、运营总监、客户经理、咨询总监、行政助理等 9 大岗位全面开放。
  简历投递:j.cn
  HR 微信:
  新智元为COO和执行总编提供最高超百万的年薪激励;为骨干员工提供最完整的培训体系、高于业界平均水平的工资和奖金。
  加盟新智元,与人工智能业界领袖携手改变世界。
  【新智元导读】2016 年就要过去了,关于机器学习的知识储备你觉得自己做得如何?下面是 Analytics Vidhya 网站发表的文章,汇集了 2016 年机器学习经典视频、教材和课程,分类整理,初学者、进阶级还是资深研究员,都可以从中发现适合的材料。视频只做了展示截图,观看的话请复制文中的链接哦。
  第一部分:机器学习入门
怎样在 6 个月内成为数据科学家
CMU统计机器学习课程
滑铁卢大学机器学习课程
Python 应用机器学习课程
导论:Python 数据科学
SciPy 机器学习导论课
Python Pandas 数据分析
CS50 机器学习课程
Pandas 初学者的数据分析和处理教程
什么是人工智能
Azure ML 初学者的机器学习教程
  第二部分:机器学习提高
机器学习方法
Scikit-Learn:机器学习与文本
骇客机器学习
Apache Spark MLlib 机器学习导论
Python 时间序列分析
  第三部分:机器学习应用
机器学习的突破性进展
机器学习与艺术
计算机如何学习创造性
机器学习解码基因组
Pinterest 的机器学习应用
GrabTaxi 如何使用机器学习预测出租车空车情况
Amazon ML 入门
Amazon Go:最先进的购物技术
必看的10个基于机器学习的产品
AI游戏革命
机器学习的医疗应用
构建自己的智能应用程序
机器学习:Google的愿景
  机器学习入门
  1. 怎样在 6 个月内成为数据科学家
  时长:56分24秒
  地址:/watch?v=rIofV14c0tc
  这个视频中,Tetiana Ivanova 分享了她在短短 6 个月内成为数据科学家的经验。参与黑客马拉松是她开始学习机器学习的契机。如果你犹豫过是去上研究生课程还是自学成为数据科学专家,那么这个视频一定不容错过。Tetiana 分享了她转职的经历,高等教育背后的艰苦现实。不管你是初学者还是正欲转职做数据科学相关工作的人,我都建议你看看这个视频,一定会让你有所启发。
  2. CMU统计机器学习课程
  时长:24 Lectures
  地址:/watch?v=zcMnu-3wkWo&index=1&list=PLTB9VQq8WiaCBK2XrtYn5t9uuPdsNm7YE
  CMU 的这门课程将带你了解机器学习和统计建模的基础。主要内容包括:参数和非参数回归、聚类、提升、图形分析、极大极小理论、降维等。本课程最适合已有统计学和数学基础的学生。此外,课程还提供作业任务和解决方法。
  3. 滑铁卢大学机器学习课程
  时长:23 Lectures
  地址:/watch?list=PLFze15KrfxbH8SE4FgOHpMSY1h5HiRLMm&v=b5NlRg8SjZg
  滑铁卢大学的这门机器学习课程将带你了解机器学习的基础概念和前沿理论。这是一个理论性质的课程,将带领你探讨机器学习算法中的数学关系。本课程有包括《理解机器学习》的作者 Shai Ben David 在内的多名教授,涵盖的主题包括线性回归、贝叶斯、树、聚类、神经网络、集成、隐马尔可夫模型等。
  4. Python 应用机器学习课程
  时长:57 Lectures
  地址:/watch?list=PLQVvvaa0QuDfKTOs3Keq_kaG2P55YRn5v&v=OGxgnH8y2NM
  本课程为所有寻找机器学习基础课程的 Python 使用者设计。课程涵盖监督学习、无监督学习和深度学习算法的理论和实践。在这系列视频中,你将能够了解线性回归、K-最近邻法、支持向量机(SVM)、扁平聚类、层次聚类和神经网络。本课程还讨论了使用实际数据集,每个算法在现实生活中的应用。此外,通过使用代码重建每个算法,你将能够了解它们的工作原理。本课程将帮助你全面了解算法的工作原理,以及如何应用。
  5. 导论:Python 数据科学
  时长:6 Lectures
  地址:/watch?list=PL2-dafEMk2A6QKz1mrk1uIGfHkC1zZ6UU&v=T5pRlIbr6gg
  这是另一个 Python 数据科学教程。如果你由于工作忙碌无法抽出时间系统学习数据科学,那么这系列的视频是不二之选。这系列一共6个视频,每个时长7分钟,涵盖的主题包括情感分析、推荐系统、预测股票价格等数据科学应用,以及如何使用 Python 和 TensorFlow 构造神经网络,介绍遗传算法等。本课程要求对 Python 有基本的了解。
  6. SciPy 机器学习导论课
  时长:3小时
  地址:/watch?v=OB1reY6IX-o
  这是 Sebastian Raschka 和 Andreas Muller 在2016年7月的 SciPy 大会上的专门课程。本课程中,Sebastian 介绍了机器学习和 Scikit 学习及其应用实例,以及 Python 的多种计算工具:NumPy,SciPy 和 matplotlib。Sebastian 还解释了使用 Iris 数据集实践机器学习的数据呈现。Andreas 介绍了监督学习中的分类和回归算法,Sebastian 接着解释了用于无监督学习的聚类。本课程能让你熟悉 scikit-learn 接口,scikit-learn 是广泛使用的一个 Python 库。本课程还提供了使用 Titanic 数据集建立预测模型的实践指导。
  7. Python Pandas数据分析
  时长:31 Lectures
  地址:/watch?list=PL5-da3qGB5ICCsgW1MxlZ0Hq8LL5U3u9y&v=yzIMircGU5I
  Pandas 是一个用于数据分析、处理和可视化的全功能 Python 库。由于其易读性和多用途性,Python 通常是初学者开始数据科学学习的热门选择。本教程面向希望了解大量数据及开始使用数据科学的 Python 使用者。本系列共31个视频,将介绍 Pandas 及其用途,演示数据分析中的每个步骤。
  8. CS50 机器学习课程
  时长:1小时30分
  地址:/watch?v=G-kiewt438M&t=560s
  这是哈佛大学和耶鲁大学的 CS50 机器学习课程中的一节。这个视频介绍了机器学习及其应用。对所有程序员来说,这是最好的一个教程,将让你开始使用 Python 进行机器学习。该视频介绍了机器学习的基本概念以及机器学习如何影响我们今天的生活,将让你了解机器学习如何应用于构建搜索引擎、图像识别、语音识别和自然语言处理,教你使用 Python 和文本聚类进行图像分类。
  9. Pandas 初学者的数据分析和处理教程
  时长:3小时30分
  地址:/watch?v=6ohWS7J1hVA
  如前所述,Pandas 是流行的 Python 库。这个教程将带你使用 Pandas,用 Python 进行数据分析和处理。Pandas 生态系统正在扩大,它的用户友好性质使得数据分析更简单。本教程面向任何想要开始使用 Python 进行数据分析的初学者,使用气候数据集演示 Pandas。
  10. 什么是人工智能
  时长:9分21秒
  地址:/watch?v=kWmX3pd1f10
  人工智能是使机器变聪明,聪明得足以自主采取行动的一种方法。人们关于人工智能的争论很多,最常见的问题是“什么是人工智能?”这个短视频将带你了解人工智能的根源,了解人工智能是如何变成今天的主流话题,以及人工智能的各种应用如何改变了世界,了解什么是专家系统,了解图像识别、机器人、深度学习等与 AI 的相互联系。
  11. Azure ML 初学者的机器学习教程
  时长:2小时35分
  地址:/watch?v=xmvEGS5Xbpg
  Azure ML 是微软今年早些时候推出的机器学习平台,这个课程由微软的分析专家讲解,将让你了解 Azure ML 的使用方法及其如何为机器学习的大规模消费化做出贡献。本课程分四个部分。第一部分介绍机器学习的优势和 AzureML studio;第二部分介绍 AzureML 及如何使用 AzureML 构造推荐系统解决方案;第三部分介绍如何使用 Azure Marketplace 获利,Azure Marketplace 托管各种使用 ML 的 API,包括必应语音识别控件,微软翻译 API,必应同义词 API 和必应搜索 API 等,到今天为止,Azure Marketplace 有25种机器学习 API。
  机器学习提高
  1. 机器学习方法
  时长:7 Lectures
  地址:/watch?v=cKxRvEZd3Mw&list=PLOU2XLYxmsIIuiBfYad6rFYQU_jL2ryal&index=7
  机器学习使系统变得越来越聪明,越来越接近人类智能。这系列一共7个10分钟的视频将让你了解机器学习的各种应用。观看第一个视频,你应该就能写出第一个代码。这些视频介绍决策树可视化、scikit-learn、TensorFlow,怎样构建自己的分类器,你的模型中哪些是最准确的特征,以及更多有趣的概念。该课程使用的语言是 Python,视频信息量非常大,对数据科学中级学习者来说是必看的。
  2. Scikit-Learn:机器学习与文本
  时长:2小时40分
  地址:/watch?v=ZiKMIuYidY0
  虽然在 Python 中数字数据很管用,但大多数人类知识实际上是原始的、非结构化的文本。通过学习如何将文本转换为机器学习模型可用的数据,可以大幅增加模型能够学习的数据量。本教程介绍了如何使用 scikit-learn 从现实世界文本中构造和评估预测模型。学完本教程,你应该能够利用文本数据构造预测模型,以及特征提取、模型构造和模型评估。这个教程在 PyCon 2016 发布。
  3. 骇客机器学习
  时长:9 Lectures
  地址:/watch?v=2FOXR16mLow&index=1&list=PL2-dafEMk2A4ut2pyv0fSIXqOzXtBGkLj
  曾经好奇过 Netflix 是怎样根据你的观看记录为你推荐节目,或亚马逊是如何给你推荐产品的吗?对任何机器学习从业者来说,这些问题都很好理解。这个教程介绍了机器学习的基本概念,以及如何使用机器学习解决各种问题,构造基于 AI 的游戏以及许多其他 ML 应用程序。这个教程不只是介绍这些应用,你还将学会如何构造电影推荐系统、聊天机器人、AI 游戏、AI 阅读&写作程序等。这个教程为机器学习骇客设计,要求对机器学习概念先有一个总体的理解。
  4. Apache Spark MLlib 机器学习导论
  时长:42分19秒
  地址:/watch?v=qKYpMPPL-fo
  Spark MLlib 是一个用于在大型数据集上执行机器学习及相关任务的库。使用 MLlib,只需要几行代码就能将一个机器学习模型拟合到10亿次观察。在这个教程中,Cloudera 的高级数据科学家从头开始介绍 Apache Spark,你将了解 Spark 的工作原理和它的执行模型。教程使用了几个例子解释 Spark 提供的交互性,也介绍了如何使用 Spark 的数据组 API 进行快速的数据操作,以及使用机器学习管道使模型的开发和优化过程更容易。
  5. Python 时间序列分析
  时长:3小时
  地址:/watch?v=JNfxr4BQrLk&t=1432s
  这个教程将让你了解为什么要使用时间序列以及时间序列分析的重要性。教程先是用10分钟快速介绍了 Pandas,可以作为复习。然后你将了解时间序列如何运作,并学习如何在 Pandas 中处理日历。你将了解不同的时间标记数据,如 US-GIS,NIH,FRB 等,以及了解常用的时间序列分析工具,用时间序列进行预测和分类。
  机器学习应用
  1. 机器学习的突破性进展
  时长:28分26秒
  地址:/watch?v=sphFCJE1HkI
  机器学习使得各种小工具和机器更加智能,Siri 和 Cortona 正是机器学习的一些重大进步的结果。但是,这些产品的创造背后有什么?这个谷歌数据科学团队的视频能让我们了解机器学习最新的一些突破。团队从语音识别机器背后的机制讲起,介绍了如何在图形上使用机器学习,机器学习如何使图像分类和智能回复成为可能。这是一个有趣的视频,揭示了谷歌为三个主要机器学习应用开发的机器学习平台的所有后端操作。
  2. 机器学习与艺术
  时长:42分35秒
  地址:/watch?v=egk683bKJYU
  机器学习的最新进展令人感佩,其应用似乎无穷无尽。神经网络是令人难以置信的工具,它让艺术家不仅能够分析艺术作品,而且能够处理和生成图像、视频和音乐。这个视频中,演讲者介绍了谷歌的文化部门如何将机器学习用于艺术和文化,带你了解机器学习所能做到的各种有趣的任务,例如训练机器玩超级马里奥游戏,使用机器学习创造精巧的艺术拼贴画,创造图像和影像。这是一个非常有趣的视频,必看推荐。
  3. 计算机如何学习创造性
  时长:17分34秒
  地址:/watch?v=uSUOdu_5MPc
  这是我看过的有关机器学习应用的非常令人震撼的视频之一。深度学习是人工智能的一个子领域。使用深度学习,数据科学家们的目标是使机器具有与人类的大脑相同的功能。这是谷歌首席科学家 Blaise Ag&era y Arcas 的 Ted 演讲,他分享了机器学习算法和神经网络如何用于构建机器感知。在视频中,他展示了训练于识别图像的神经网络如何可以反向作用,生成相同的图像。
  4. 机器学习解码基因组
  时长:9分53秒
  地址:/watch?v=lX76DzZdjvQ
  机器学习也可以用于解码人类基因组,揭开一个全新的药物世界。在这段视频中,斯坦福大学遗传学和计算机科学助理教授 Anshul Kundaje 解释了机器学习如何用于这一目的,以及健康个体的基因组如何与有特定疾病的家庭成员进行比较以鉴定疾病相关的遗传变异。我认为这可能是检测遗传性疾病,如阿尔茨海默病和癌症的早期症状的重要应用。
  5. Pinterest 的机器学习应用
  时长:23分54秒
  地址:/watch?v=mN6MrzL1i78
  在这个视频中,Pinterest 的首席科学家 Jure Leskovec 解释了 Pinterest 如何使用机器学习。它对机器学习如何改变互联网企业是一个激励。Jure 解释了 Pinterest 的各个部门如何利用机器学习影响新的用户体验、兴趣推荐、内容类型、用户行为预测等。Jure 还分享了他们的收获以及经验教训。
  6. GrabTaxi 如何使用机器学习预测出租车空车情况
  时长:11分24秒
  地址:/watch?v=XGyEVWTpJ20&t=2s
  就我个人而言,了解机器学习如何解决不同层次的商业问题是令人惊讶的。一个例子是 Grab Taxi 如何使用机器学习来解决出租车空车率的问题。Grab 开发了一个竞价系统,投标最快的司机能被分配乘客。观看完整视频了解他们如何使用机器学习构建司机投标概率的预测模型,并使用实时数据来解决这个问题。
  7. Amazon ML 入门
  时长:54分43秒
  地址:/watch?v=6a4CTf5uc5c
  亚马逊机器学习(Amazon ML)是让任何技术水平的开发人员都能轻松使用机器学习的服务。 Amazon ML 的强大算法通过在现有数据中查找模式来创建机器学习模型。在本教程中,你将学会如何使用机器学习与已有的数据来创建准确、可行的预测模型,即创建智能应用程序。教程解释了如何使用 Amazon ML 或把 Amazon ML 集成到自己的应用程序以利用云上的预测分析。
  8. Amazon Go:最先进的购物技术
  时长:1分49秒
  地址:/watch?v=NrmMk1Myrxc
  我认为这是最令人着迷的技术之一。亚马逊利用计算机视觉、机器学习、深度学习算法和传感器的组合,提供了前所未有的购物体验。需要说明一下的是,我不是想宣传 Amazon Go,只是想让大家了解机器学习能做到的各种事情。
  9. 必看的10个基于机器学习的产品
  时长:18分35秒
  地址:/watch?v=dcZvhP-IqY4
  为了了解机器学习的魔力,可以观看这个视频,这些产品是机器人学和人工智能以及计算机视觉的结合。这些机器人的表现已经类似人类,能执行可能之前你认为机器不可能做到的任务。这个视频是有关机器人如何在未来替代人类的预示。
  10. 知识图谱
  时长:48分41秒
  地址:/watch?v=PAumnCRZuMY
  连接图是最佳的商业策略,也是当今世界经济增长的关键。连接图是利用相互关联的数据来理解任何用户或客户之间的关系的能力。在这个视频中,演讲者解释了使用AI、机器学习和深度学习的图形数据库技术。你将了解连接图的基础知识及其工作原理,AI 如何作为这些连接图的基础,以及知识图谱的常用例。
  11. AI 游戏革命
  时长:10分30秒
  地址:/watch?v=Xhec39dVGDE
  AI 驱动下的计算机如今很聪明,似乎可以在任何新游戏中击败人类。AlphaGo 今年初在围棋对弈中赢得人类专业棋士时获得了极大的关注。但问题在于它们的大脑,它们是如何表现得这么好的?在这个视频中,你将了解让AI游戏成为现实的启发式方法(Heuristics)、生产系统( production system),以及深度神经网络。
  12. 机器学习的医疗应用
  时长:17分56秒
  地址:/watch?v=Nj2YSLPn6OY
  每个行业都认识到机器学习的潜力。在这个视频中,将机器学习应用到医疗行业的演讲者解释了如何使用机器学习检测疾病的早期症状。基本上这是通过使用医院提供的大量数据来分析数据中的模式实现的。想象一下,如果医院都开始使用机器学习,将挽救多少生命。
  13. 构建自己的智能应用程序
  时长:42分32秒
  地址:/watch?v=Ja2hxBAwG_0
  Google 相册和 Google 翻译是机器学习应用的另一个例子。这个 Google 团队的视频将让你了解开发人员如何利用机器学习开发功能强大的app。了解曾获奥斯卡奖的工作室如何利用云经济学和 Google 的随需运算来实现他们的创意,并利用这种数字媒体来讲故事。
  14. 机器学习:Google的愿景
  时长:44分44秒
  地址:/watch?v=Rnm83GqgqPE
  Google 如何使用机器学习?这个视频中,Google 的机器学习团队介绍他们如何使用机器学习构造此前我们无法想象的产品。这个视频将让你详细了解 Google 对机器学习和 AI 的理解,此外,Google 已在许多产品中注入了实用的 AI 技术,让终端用户更接近该技术。
  原文链接:/blog/-top-videos-tutorials-courses-on-machine-learning-artificial-intelligence-from-2016/
新智元招聘
  职位 运营总监
  职位年薪:36- 50万(工资+奖金)
  工作地点:北京-海淀区
  所属部门:运营部
  汇报对象:COO
  下属人数:2人
  年龄要求:25 岁 至 35 岁
  性别要求:不限
  工作年限:3 年以上
  语 言:英语6级(海外留学背景优先)
  职位描述
负责大型会展赞助商及参展商拓展、挖掘潜在客户等工作,人工智能及机器人产业方向
擅长开拓市场,并与潜在客户建立良好的人际关系
深度了解人工智能及机器人产业及相关市场状况,随时掌握市场动态
主动协调部门之间项目合作,组织好跨部门间的合作,具备良好的影响力
带领团队完成营业额目标,并监控管理项目状况
负责公司平台运营方面的战略计划、合作计划的制定与实施
  岗位要求
大学本科以上学历,硕士优先,要求有较高英语沟通能力
3年以上商务拓展经验,有团队管理经验,熟悉商务部门整体管理工作
对传统全案公关、传统整合传播整体方案、策略性整体方案有深邃见解
具有敏锐的市场洞察力和精确的客户分析能力、较强的团队统筹管理能力
具备优秀的时间管理、抗压能力和多任务规划统筹执行能力
有广泛的TMT领域人脉资源、有甲方市场部工作经验优先考虑
有媒体广告部、市场部,top20公关公司市场拓展部经验者优先
  新智元欢迎有志之士前来面试,更多招聘岗位请访问新智元公众号。
请先登录再操作
请先登录再操作
微信扫一扫分享至朋友圈
知名IT评论人,曾就职于多家知名IT企业,现是科幻星系创建人
未来在这里发声。
新媒体的实践者、研究者和批判者。
立足终端领域,静观科技变化。深入思考,简单陈述。
智能硬件领域第一自媒体。Open Cloud 2015--Spark实战培训
Spark实战培训
随着大数据相关技术和产业的逐渐成熟,单个组织内往往需要同时进行多种类型的大数据分析作业:批量计算、各种机器学习算法为代表的迭代型计算、流式计算、社交网络中常用的图计算、SQL关系查询、交互式即席查询等。在Spark出现前,要在一个组织内同时完成以上数种大数据分析任务,就不得不与多套独立的系统打交道,一方面引入了不容小觑的运维复杂性,另一方面还免不了要在多个系统间频繁进行代价高昂的数据转储。
作为Apache的顶尖项目Spark是发源于美国加州大学伯克利分校AMPLab的集群计算平台,它立足于内存计算,性能超过Hadoop百倍,从多迭代批量处理出发,兼收并蓄数据仓库、流处理和图计算等多种计算范式,是罕见的全能选手。
通过这次培训,将可以帮助您快速走进Spark的世界,了解Spark的编程模型及其内核,Spark如何支持SQL交互,基于Spark的机器学习算法库MLlib及其向量模型、矩阵模型,优化并行等
课程:Spark经典实战技术解析
深入Spark内核,基于Spark的结构化数据分析和机器学习
本次培训适合人群: 业务主管,IT高管,架构师,研发经理,软件工程师等
本次培训特约合作伙伴:小象学院
小象学院()是北京小象科技旗下的在线教育服务平台,专注于互联网技术的普及和推广。依托于中国最活跃的大数据云计算人才和智慧聚集地&&ChinaHadoop社区,小象学院向全国以及海外华人提供最新、最快、最专业的在线课程和在线实验室云服务。目前,小象学院的课程体系包括:大数据平台、大数据应用、云计算等,已经为数千家企业、高校、产业园区提供服务。小象学院于2013年12月份正式上线,小象学院的目标是成为中国互联网技术职业教育的&黄埔军校&!
Spark编程模型、内核及Spark Streaming
4月17日上午
一、Spark编程模型
& Spark生态系统概述
& 缓存策略介绍
& transformation
& 容错处理
& 宽依赖与窄依赖
& 集群配置
二、Spark内核剖析
& Spark术语解释
& 集群概览
& 核心组件
& 数据本地性
& 任务调度(DAGScheduler ,TaskScheduler)
& Task细节
& 广播变量
& 性能调优
三、Spark Streaming流式计算
& 无状态transformation与有状态transformation
& checkpoint
13:30-15:30
基于Spark的结构化数据分析
一、Spark SQL
& DataFrame API
& Hive交互
& 外部数据源API
& 与Spark其他组件的交互
& Catalyst查询优化器
基于Spark的机器学习实现
15:40-17:40
一、Spark MLlib
& MLlib最新进展简介
& 模型表示 --& MLlib的向量模型与矩阵模型
& 优化并行 --& 同步方式、优化调度、以及模型存储
& 计算模式 --& MLlib与GraphX
& 数据承载 --& MLlib与SparkSQL
& 实例分析 --& MLlib与Scikit-learn
主题 / 时间
Spark编程模型、内核及Spark Streaming
09:00-12:00
一、Spark编程模型
& Spark生态系统概述
& 缓存策略介绍&
& transformation
& 容错处理&
& 宽依赖与窄依赖&
& 集群配置
二、Spark内核剖析
& Spark术语解释
& 集群概览
& 核心组件&
& 数据本地性
& 常用RDD&
& 任务调度(DAGScheduler ,TaskScheduler)
& Task细节&
& 广播变量
& 性能调优&
三、Spark Streaming流式计算
& 无状态transformation与有状态transformation
& checkpoint
基于Spark的结构化数据分析
13:30-15:30
& DataFrame API
& Hive交互
& 外部数据源API
& 与Spark其他组件的交互
& Catalyst查询优化器&
基于Spark的机器学习实现
15:40-17:40
Spark MLlib
& MLlib最新进展简介
& 模型表示 --& MLlib的向量模型与矩阵模型
& 优化并行 --& 同步方式、优化调度、以及模型存储&
& 计算模式 --& MLlib与GraphX
& 数据承载 --& MLlib与SparkSQL
& 实例分析 --& MLlib与Scikit-learn
Spark技术培训票
Spark技术培训门票
原价:1800元/张
现价:1260元/张
非大会参会者购买培训门票
现价:1800元/张
Spark技术培训票
Spark技术培训门票
大会参会者
非大会参会者
注: 参会者可参加4月17日spark实战培训课程、同时包含展区参观、大会资料和当天午餐 购票咨询热线:010-
七牛云存储技术总监
近年来,陈超一直专注于分布式计算与机器学习相关领域,是国内最早的Spark研究与使用者。 目前专注于Spark平台的大数据处理,尤其精通Scala语言,Machine Learning ,实时计算和图计算,并将实践成果快速应用于大数据相关的业务和产品。
Intel中国研究院 高级工程师 资深Spark技术实践者和研究者
对Spark、Mahout、GraphLab等开源项目有深入研究和理解,并从优化层向下,系统层向上对并行算法及平台做出社区贡献。 对Spark底层架构及其原理有全面深入的认识,尤其熟悉基于Spark的机器学习相关内容,同时对自然语言处理、推荐系统等有丰富的实践经验。 目前正全力致力于基于Spark的机器学习算法并行、凸优化层面的算法优化问题,以及Spark大数据平台性能调优。
Databricks工程师,Apache Spark Committer ,Spark SQL主要开发者之一
曾就职于网易杭州研究院、百度及Intel物联技术研究院。感兴趣的技术方向主要包括数据库、分布式系统及函数式编程语言。

我要回帖

 

随机推荐