培训目标:
|
- 理解并掌握Spark 整体架构设计与编程模型
- 能够编写并部署Spark程序与测试代码
- 掌握能够将kafka结合Spark streaming使用的方法
- 掌握Spark与HDFS、HBase的结合使用方法
- 理解Spark与Zookeeper结合高可用性部署方案
- 能够对Spark进行优化(内存、并发等)
- 了解在以往经验中容易出现错误的地方以及相应的解决方案
- 了解Spark MLlib的使用
- 了解Hadoop MapReduce与Spark的关系与差异
Spark概述
|
- 大数据起源
- 离线分析、在线分析与流计算
- 开源大数据包Spark概述
- Spark的扩展包SQL、MLLib和GraphX
- 开源社区的组织结构与开源条款
- 案例解析:一个跨国IT企业的开源包使用法务流程与风险规避
|
Scala编程原理
|
- Scala:函数式编程
- 安装Scala集成开发环境
- 使用Scala分析北京汽车摇号结果
- 将MapReduce程序迁移到Spark上
- 实战练习:在本机上使用scala进行简单的spark编程
|
Spark Streaming流计算
|
- Spark Streaming概述
- Kafka概述
- 基于Kafka数据源的Spark Stream练习
- 在本机上使用scala进行简单地Spark Streaming编程,数据源使用Kafka
|
Spark的分布式存储
|
- Standalone Spark集群配置
- HDFS集群配置
- 编写Scala程序访问HDFS
- 实战练习:在本机上使用scala进行简单的HDFS数据访问
|
Spark与NOSQL
|
- NOSQL存储特征与数据格式
- 使用Scala进行HBase数据分析示例
- 实战练习:在本机上使用scala进行HBase数据访问
|
Spark与Yarn
|
- Spark on Yarn集群配置
- Spark on Yarn与standalone相比的优势
- 案例分析:某巨型互联网公司基于Spark on Yarn的超大规模集群部署案例分析
|
Spark与MapReduce
|
- Spark计算模型和MapReduce的对比
- Spark与MapReduce的相同点
- Spark与MapReduce的差异
|
Spark性能
|
- Spark资源调度方法
- CPU、内存、网络与存储配置对性能的影响及常用调优参数
- 案例解析:一个跨国IT企业的spark集群构建方法与参数选择
|
Spark与MLlib
|
- 机器学习的常用算法
- 使用Spark MLlib实现机器学习算法
|
Spark与ZooKeeper
|
|
Spark的案例
|
- 一个基于Spark与Hadoop的实时分析系统架构设计与实现—某银行的大数据体系介绍以及spark在其中扮演的角色
- 方案设计
- 分析算法确定
- 分析算法与数据流设计
- 技术实现演示
|
|
如果您想学习本课程,请
预约报名
如果没找到合适的课程或有特殊培训需求,请
订制培训
除培训外,同时提供相关技术咨询与技术支持服务,有需求请发需求表到邮箱soft@info-soft.cn,或致电4007991916
技术服务需求表下载请点击
服务优势:
丰富专家资源,精准匹配相关行业,相关项目技术精英,面向用户实际需求,针对性培训或咨询,互动式交流,案例教学,精品小班,实际工程项目经验分享,快捷高效,节省时间与金钱,少走弯路与错路。
专家力量:
中国科学院相关研究所高级研究人员
西门子,TI,vmware,MSC,Ansys,MDI,Mentor, candence,Altium,Atmel 、Freescale,达索,华为等
大型公司高级工程师,项目经理,技术支持专家
中科信软培训中心,资深专家或讲师
大多名牌大学,硕士以上学历,相关学历背景专业,理论素养高
多年实际项目实践,大型复杂项目实战案例分享,热情,乐于技术分享
针对客户实际需要,真实案例演示,互动式沟通,学有所值