课程培训
Spark案例实践课程大纲是什么?

   目标收益

  本次Spark培训将为大家全面而又深入的介绍Spark、Hadoop平台的构建流程,涉及Spark、Hadoo系统基础知识,概念及架构, Spark、Hadoo实战技巧,Spark、Hadoo经典案例等。

  通过本课程实践,帮助学员对Spark、Hadoo生态系统有一个清晰明了的认识;理解Spark、Hadoo系统适用的场景;掌握Spark、Hadoo等初中级应用开发技能;搭建稳定可靠的Spar、Hadoo k集群,满足生产环境的标准;了解和清楚大数据应用的几个行业中的经典案例,包括阿里巴巴,华为等。

  培训对象

  各类 IT/软件企业和研发机构的软件架构师、软件设计师、程序员。对于怀有设计疑问和问题,需要梳理解答的团队和个人,效果最佳。

  学员基础

  了解Linux系统及相关语言环境

  课程大纲

  Spark

  生态介绍

   Mapreduce、storm和spark模型的比较和使用场景介绍

   Spark产生背景

   Spark(内存计算框架)

   SparkSteaming(流式计算框架)

   Spark SQL(ad-hoc)

   Mllib(MachineLearning)

   GraphX(bagel将被代)

   DlinkDB介绍

   SparkR介绍

  Spark

  安装部署

   Spark安装简介

   Spark的源码编译

   Spark Standalone安装

   Spark Standalone HA安装

   Spark应用程序部署工具spark-submit

   Spark的高可用性部署

  Spark

  运行架构和解析

   Spark的运行架构

  • 基本术语

  • 运行架构

  • Spark on Standalone运行过程

  • Spark on YARN 运行过程

   Spark运行实例解析

  • Spark on Standalone实例解析

  • Spark on YARN实例解析

  Spark

  scala编程

  • Scala基本语法

  • Scala开发环境搭建

  • Scala开发Spark应用程序

  • 使用java编程

  • 使用scala编程

  • 使用python编程

  Spark

  编程模型和解析

   Spark的编程模型

  • Spark编程模型解析

  • RDD的特点、操作、依赖关系

  • Spark应用程序的配置

  Spark Streaming原理和实践

   Spark Streaming与Strom的区别

   Kafka的部署

   Kafka与Spark Streaming的整合

   Spark Streaming原理

  • Spark流式处理架构

  • DStream的特点

  • Dstream的操作和RDD的区别

  • Spark Streaming的优化

   Spark Streaming实例

  • 文本实例

  • 网络数据处理

  • Kafka+Spark Streaming实现日志的实时分析案例

  Spark

  SQL原理和实践

   Spark SQL原理

  • Spark SQL的Catalyst优化器

  • Spark SQL内核

  • Spark SQL和Hive

   Spark SQL的实例和编程

  • Spark SQL的实例操作demo

  • Spark SQL的编程

  • DataFrame架构和原理

  • DataFrame支持的统计和数学函数介绍

  • 从RDD创建DataFrame

  • 从Hive表创建DataFrame

  • 从数据源创建DataFrame

  Spark的数据源

   Spark与HDFS的整合

   HDFS RDD原理和实现

   Spark与Hbase的整合

   Spark与Cassendera整合

   Hbase RDD的分区读取

   Hbase RDD的原理和实现

   Spark parallelism RDD的工作机制

  Spark 数据挖掘

   Mllib的介绍

   graphX核心原理

   table operator和graph operator区别

   vertices、edges和triplets介绍

   构建一个graph

   SparkR原理

   SparkR实战

  典型项目

  案例实战

   基于spark日志分析

   个性化推荐系统:带你揭开其神秘面纱

   在线投放引擎

   揭开淘宝点击推荐系统的神秘面纱

   淘宝数据服务架构—实时计算平台

  Spark的优化

   序列化优化——Kryo

   Spark参数优化实战

   Spark 任务的均匀分布策略

   Partition key倾斜的解决方案

   Spark任务的监控

   GC的优化

   Spark Streaming吞吐量优化

   Spark RDD使用内存的优化策略

   Spark在使用中的感想分享




如果您想学习本课程,请预约报名
如果没找到合适的课程或有特殊培训需求,请订制培训
除培训外,同时提供相关技术咨询与技术支持服务,有需求请发需求表到邮箱soft@info-soft.cn,或致电4007991916
技术服务需求表下载请点击

服务优势:
丰富专家资源,精准匹配相关行业,相关项目技术精英,面向用户实际需求,针对性培训或咨询,互动式交流,案例教学,精品小班,实际工程项目经验分享,快捷高效,节省时间与金钱,少走弯路与错路。

专家力量:
中国科学院相关研究所高级研究人员
西门子,TI,vmware,MSC,Ansys,MDI,Mentor, candence,Altium,Atmel 、Freescale,达索,华为等
大型公司高级工程师,项目经理,技术支持专家
中科信软培训中心,资深专家或讲师
大多名牌大学,硕士以上学历,相关学历背景专业,理论素养高
多年实际项目实践,大型复杂项目实战案例分享,热情,乐于技术分享
针对客户实际需要,真实案例演示,互动式沟通,学有所值
报名表下载
联系我们 更多>>

咨询电话010-62883247

                4007991916

咨询邮箱:soft@info-soft.cn  

 

微信号.jpg

  微信咨询

随时听讲课

聚焦技术实践

订制培训 更多>>