资源详情
炼数成金 Spark大数据分析平台 8课
spark介绍:
2015年, Spark只用了一年多时间,已实现开源到火爆 ,亦逐渐显露出与通用大数据平台Hadoop的分庭抗争之势。在这个大背景下,在大数据领域时代,谁将是独领风马蚤?Spark无疑是最大的竞争者,无论是 2015 Spark技术峰会 ,还是国内的大数据大会,可以看到中国力量正在崛起,Spark最大的集群来自腾讯——8000个节点,单个Job最大分别是阿里巴巴和Databricks——1PB,震撼人心!同时,截止2015年6月,Spark的Contributor比2014年涨了3倍,达到730人;总代码行数也比2014年涨了2倍多,达到40万行,不但大量的互联网企业已经在使用或者正准备使用Spark,而且大量的电信、金融、证券和传统企业已经开始引入了Spark。授课对象:
有JA危a开发经验或Scala开发经验,最好了解Hadoop,Hive等使用经验。课程对于Spark初学者,Spark开发人员及Spark运维人员都具有比较大的学习价值。收获预期:
深入理解Spark的运行原理
学会搭建Spark,hadoop集群环境
完全掌握Spark编程基础,了解Spark运维的基础知识
完成大数据入门,可逐渐转岗大数据相关职位。Spark版本:Spark1.4
准备环境:
CentOS,eclipse或IntelliJ IDEA, Scala,JDK,MA危en,sbt,Hadoop,hive,建议三台虚拟机。
然而作为一个高速发展中的开源项目,其部署过程中存在的门槛和挑战亦不可谓不大,本课程将主要介绍Spark1.4.0,引领大家进入大数据Spark入门。课程目录:
1、Spark生态和安装部署
什么是Spark
Spark有什么
安装部署
Spark安装简介
Spark的源码编译
Spark Standalone安装
Spark Standalone HA安装
Spark工具
Spark交互式工具spark-shell
Spark应用程序部署工具spark-submit
2、Spark编程模型和解析
Spark的编程模型
RDD的特点、操作、依赖关系
缓存策略
广播变量和累加器
Spark编程环境搭建
Spark编程实例
3、Spark运行架构和解析
Spark的运行架构
基本术语
运行架构(DAGScheduler、TaskSeduler、Task、容错忄生、推测机制、数据本地忄生)
Spark on Standalone运行过程
Spark on YARN 运行过程
Spark实例演示
Spark on Standalone实例演示
Spark on YARN实例演示
4、不得不说的hive
hive的运行架构
hive的安装
hive的实例演示
shark的简介
5、SparkSQL原理和实践
Spark的运行架构
Catalyst
sqlontext
hiveContext
ThriftServer和CLI
ThriftServer
CLI
SparkSQL的实例演示和编程
spark-shell实例演示
spark-sql实例演示
SparkSQL的编程
6、SparkStreaming原理和实践
SparkStreaming原理
SparkStreaming的原理
SparkStreaming的运行方式
DStream的特点和操作
SparkStreaming实例演示
网络数据演示
文本实例演示
Window操作演示
7、MLlib入门
什么是机器学习
MLlib的架构
Mllib实例演示
聚类算法演示
推荐系统演示
8、GraphX入门
图论基础
GraphX的架构
GraphX实例演示
图的基本操作
PageRank演示