Spark大数据处理案例分析与实践培训课程
培训特色
Spark已经被不少互联网公司采用,大部分数据挖掘算法和迭代式算法在逐步MapReduce平台迁移到Spark平台中,包括阿里巴巴(广告系统),腾讯(广点通精准推荐),百度,优酷土豆,360,支付宝等互联网公司已经在线上产品中使用spark,且取得了令人满意的效果,另外,部分省份的运营商也正在尝试使用spark解决数据挖掘和分析问题,部分银行,如工商银行,也正在尝试spark平台。
目标收益
本课程将为大家全面而又深入的介绍Spark平台的构建流程,涉及Spark系统基础知识,概念及架构, Spark实战技巧,Spark经典案例等。
通过本课程实践,帮助学员对Spark生态系统有一个清晰明了的认识;理解Spark系统适用的场景;掌握Spark等初中级应用开发技能;搭建稳定可靠的Spark集群,满足生产环境的标准;了解和清楚大数据应用的几个行业中的经典案例,包括阿里巴巴,腾讯,百度等互联网行业,中国移动和联通等运营商。
培训对象
各类 IT/软件企业和研发机构的软件架构师、软件设计师、程序员。对于怀有设计疑问和问题,需要梳理解答的团队和个人,效果最佳。
学员基础
1) 了解Java语言(Scala语言会作为课程内容进行介绍);
2) 了解Linux系统;
课程大纲
主题 |
内容 |
Spark大数据架构概述及案例简介
|
1. 1介绍Spark大数据层级架构及各层软件设计要求,包括数据收集,大数据存储,大数据计算框架,大数据应用等
1.2. Hadoop与Spark区别与关系
1.3. Spark生态系统概述以及版本演化,并给出spark版本选择建议
1.4. Spark典型案例简介(简要介绍案例,具体在后面各节会详细介绍)
Spark商品推荐系统、用户标签系统
|
Spark产生动机与基本概念
|
2.1 Spark产生背景,与MapReduce对比,其优缺点是什么
2.2 Spark核心概念
(1)RDD
(2)基本操作:transformation与 action
2.2 Spark程序架构
(1)Driver/executor
(2)容错机制
|
Spark安装部署
|
3.1 Spark运行模式简介、standlone模式、Spark on yarn模式
3.2 搭建一个spark on yarn集群、搭建yarn集群、运行第一个spark程序
|
Spark程序设计实例
|
4.1 Scala语言基础,常用语法以及库函数
4.2 Spark程序设计方法
1.Spark程序基本构成,SparkContext,RDD,transformation/action
2.Spark API介绍
(1) 如何创建RDD(scala集合,HDFS文件,HBase文件等)
(2)如何基于RDD进行数据处理,介绍常见的分布式算子
(3)如何保存处理结果(返回到driver端,写入hdfs等)
(4)广播变量与累加器
4.3 Spark程序设计实例
(1)分布式Pi估算程序
(2)K-means分类算法实现
(3)逻辑回归算法实现
|
Spark内部原理
|
5.1 Spark程序运行流程概述
介绍Spark从提交,到调度,到最后执行完成整个过程
5.2 Spark内部执行流程
介绍Spark程序内部的逻辑查询计划,物理查询计划,调度等几个环节
5.3 Spark shuffle实现
介绍Spark shuffle发展史及实现逻辑
5.4 Spark算子的内部机制
以reduce By Key和group By Key为例介绍spark算子的内部实现原理
|
Spark与外部系统整合
|
6.1 Spark与Kafka和flume结合
介绍如何使用kafka和flume将数据导入hadoop中,以便使用spark处理
6.2 Spark与Storm结合
介绍如何使用spark实时处理数据
6.3 Spark与HBase和HDFS结合
介绍Spark如何与HBase和HDFS实现数据的读写交互
6.4 Spark与关系型数据库和hive结合
介绍如何使用spark与关系型数据库和hive结合
|
Spark调优方法
|
Spark调优思想、方法
|
Spark案例分析
|
基于Spark的商品推荐系统,包括:项目背景、项目架构、项目实施
|
Spark Streaming应用及案例分析
|
8.1 Spark Streaming产生动机
8.2 Spark Streaming程序设计
(1)创建DStream
(2)基于DStream进行流式处理
8.3 Spark Streaming容错与性能优化
(1)Spark Streaming容错机制
(2)如何对spark Streaming进行优化
8.4 Spark Streaming案例分析
基于Spark Streaming的用户标签系统,内容包括项目背景,项目架构以及实施方法
|
Spark SQL
|
9.1 Spark SQL定位
9.2 如何使用SparkSQL处理数据
(1)使用SparkSQL处理HDFS上数据
(2)使用SparkSQL处理Hive中的数据
9.3 Spark SQL与Spark及Spark Streaming结合
|
MLlib
|
10. 介绍Spark的数据挖掘库MLlib,重点介绍其内部的几个分类算法,聚类算法和推荐算法,包括逻辑回归,K-Means,协同过滤等
|
GraphX
|
11. 介绍Spark内部的图计算框架GraphX,重点介绍它的基本原理及使用方法
|
如果您想学习本课程,请
预约报名
如果没找到合适的课程或有特殊培训需求,请
订制培训
除培训外,同时提供相关技术咨询与技术支持服务,有需求请发需求表到邮箱soft@info-soft.cn,或致电4007991916
技术服务需求表下载请点击
服务优势:
丰富专家资源,精准匹配相关行业,相关项目技术精英,面向用户实际需求,针对性培训或咨询,互动式交流,案例教学,精品小班,实际工程项目经验分享,快捷高效,节省时间与金钱,少走弯路与错路。
专家力量:
中国科学院相关研究所高级研究人员
西门子,TI,vmware,MSC,Ansys,MDI,Mentor, candence,Altium,Atmel 、Freescale,达索,华为等
大型公司高级工程师,项目经理,技术支持专家
中科信软培训中心,资深专家或讲师
大多名牌大学,硕士以上学历,相关学历背景专业,理论素养高
多年实际项目实践,大型复杂项目实战案例分享,热情,乐于技术分享
针对客户实际需要,真实案例演示,互动式沟通,学有所值