培训目标
|
本课程将为大家全面而又深入的介绍Spark平台的构建流程,涉及Spark系统基础知识,概念及架构, Spark实战技巧,Spark经典案例等。
通过本课程实践,帮助学员对Spark生态系统有一个清晰明了的认识;理解Spark系统适用的场景;掌握Spark等初中级应用开发技能;搭建稳定可靠的Spark集群,满足生产环境的标准;了解和清楚大数据应用的几个行业中的经典案例,包括阿里巴巴,腾讯,百度等互联网行业,中国移动和联通等运营商。
Spark大数据架构概述及案例简介
|
1.1 介绍Spark大数据层级架构及各层软件设计要求,包括数据收集,大数据存储,大数据计算框架, 大数据应用等
1.2 Hadoop与Spark区别与关系
1.3 Spark生态系统概述以及版本演化,并给出spark版本选择建议
1.4 Spark典型案例简介(简要介绍案例,具体在后面各节会详细介绍)
Spark商品推荐系统、用户标签系统 |
Spark产生动机与基本概念 |
2.1 Spark产生背景,与MapReduce对比,其优缺点是什么
2.2 Spark核心概念
(1)RDD
(2)基本操作: transformation与 action
2.2 Spark程序架构
(1)Driver/executor
(2)容错机制 |
Spark安装部署 |
3.1 Spark运行模式简介、standlone模式、Spark on yarn模式
3.2 搭建一个spar |
Spark程序设计实例 |
4.1 Scala语言基础,常用语法以及库函数
4.2 Spark程序设计方法
(1)DSpark程序基本构成,SparkContext, RDD,transformation/action
(2)Spark API介绍
(a)如何创建RDD (scala集合,HDFS文件,HBase文件等)
(b)如何基于RDD进行数据处理,介绍常见的分布式算子
(c)如何保存处理结果 (返回到driver端,写入hdfs等)
(d)广播变量与累加器
4.3 Spark程序设计实例
(1)分布式Pi估算程序
(2)K-means分类算法实现
(3)逻辑回归算法实现
|
Spark内部原理 |
5.1 Spark程序运行流程概述
介绍Spark从提交,到调度,到最后执行完成整个过程
5.2 Spark内部执行流程
介绍Spark程序内部的逻辑查询计划,物理查询计划,调度等几个环节
5.3 Spark shuffle实现
介绍Spark shuffle发展史及实现逻辑
5.4 Spark算子的内部机制
以reduce By Key和 group By Key为例介绍spark算子的内部实现原理 |
Spark与外部系统整合 |
6.1 Spark与Kafka和flume结合
介绍如何使用kafka和flume 将数据导入hadoop中,以便使用spark处理
6.2 Spark与Storm结合
介绍如何使用spark实时处理数据
6.3 Spark与HBase和HDFS结合
介绍Spark如何与HBase和HDFS实现数据的读写交互
6.4 Spark与关系型数据库和hive结合
介绍如何使用spark与关系型数据库和hive结合 |
Spark调优方法 |
Spark调优思想、方法 |
Spark案例分析 |
基于Spark的商品推荐系统,包括:项目背景、项目架构、项目实施
|
Spark Streaming应用及案例分析 |
8.1 Spark Streaming产生动机
8.2 Spark Streaming程序设计
(1)创建DStream
(2)基于DStream进行流式处理
8.3 Spark Streaming容错与性能优化
(1)Spark Streaming容错机制
(2)如何对spark Streaming进行优化
8.4 Spark Streaming案例分析
基于Spark Streaming的用户标签系统,内 容包括项目背景,项目架构以及实施方法
|
Spark SQL |
9.1 Spark SQL定位
9.2 如何使用SparkSQL处理数据
(1)使用SparkSQL处理HDFS上数据
(2)使用SparkSQL处理Hive中的数据
9.3 Spark SQL与 Spark及 Spark Streaming结合
|
MLlib |
10 介绍Spark的数据挖掘库MLlib,重点介绍其内部的几个分类算法,聚类算法和推荐算法,包括逻辑回归,K-Means,协同过滤等 |
GraphX |
11. 介绍Spark内部的图计算框架GraphX,重点介绍它的基本原理及使用方法 |
|
如果您想学习本课程,请
预约报名
如果没找到合适的课程或有特殊培训需求,请
订制培训
除培训外,同时提供相关技术咨询与技术支持服务,有需求请发需求表到邮箱soft@info-soft.cn,或致电4007991916
技术服务需求表下载请点击
服务优势:
丰富专家资源,精准匹配相关行业,相关项目技术精英,面向用户实际需求,针对性培训或咨询,互动式交流,案例教学,精品小班,实际工程项目经验分享,快捷高效,节省时间与金钱,少走弯路与错路。
专家力量:
中国科学院相关研究所高级研究人员
西门子,TI,vmware,MSC,Ansys,MDI,Mentor, candence,Altium,Atmel 、Freescale,达索,华为等
大型公司高级工程师,项目经理,技术支持专家
中科信软培训中心,资深专家或讲师
大多名牌大学,硕士以上学历,相关学历背景专业,理论素养高
多年实际项目实践,大型复杂项目实战案例分享,热情,乐于技术分享
针对客户实际需要,真实案例演示,互动式沟通,学有所值