培训目标:
|
- 大数据计算
- 大数据存储
- 大数据挖掘
-
-
分布式技术体系概述 |
1.分布式计算、并行计算、云计算、大数据概述
2.分布式产品hadoop、zookeeper、hbase概述 |
分布式并行计算原理和设计 |
1、最初想到的master-slave结构
2、“包工头-职介所-手工仓库-工人”简化模式
3、基于消息中枢的计算模式
4、基于网状直接交互的计算模式
5、并行结合串行模式
6、批量多阶段处理模式
7、计算集群模式和兼容遗留计算系统
8、工人计算的服务化模式
9、storm流处理计算架构解析
10、简化的实时流处理计算模式
11、跟hadoop map/reduce的区别
12、初级应用:动手跑一个基本例子(动手)
13、中级应用:计算节点互相交互的完整例子(动手)
14、高级应用:使用并行计算大幅提升算法效率例子(动手)
15、相关架构探讨(需求、运维、故障、优化等) |
分布式协调原理和设计 |
1、协调架构原理简介
2、权限机制
3、相对于zookeeper的区别
4、与paxos算法的区别
5、实践应用:领导者选举和应用(动手)
6、统一配置管理(动手)
7、集群管理(动手)
8、分布式锁(动手)
9、相关架构探讨(需求、运维、故障、优化等) |
分布式消息队列的实现 |
1、jms的两种经典模式
2、如何实现发送接收的队列模式
3、如何实现主题订阅模式 |
|
主题2:大数据存储(8-9小时)
主要讲解大数据存储的技术架构原理和实践:聚焦业界,并重点剖析分布式缓存、分布式文件存储、k/v存储,一般互联网企业的分布式存储系统都是个大平台,系统复杂、代码庞大,而且只适合公司的业务,工程师很难下载安装到自己的电脑里学习和吃透。本课程从作者多年实战经验出发,对分布式存储技术进行了大量归纳和总结,并动手搭建分布式存储环境,用最基本的程序实现分布式存储功能,你会感慨原来分布式存储可以如此简单的实现,如此轻松的上手... |
分布式缓存架构和实现 |
1、小型网站或企业应用的缓存实现架构
2、大型分布式缓存系统实现过程
3、 一致性哈希算法的原理、改进和实现
4、解决任意扩容的问题
5、 解决扩容后数据均匀的问题
6、分布式session的架构设计和实现
7、按日期取模无迁移扩容算法
8、相关架构探讨(需求、运维、故障、优化等) |
分布式文件系统架构和实现 |
1、简化的分布式文件系统架构
2、如何设计和利用集群分布式文件解决计算数据存储问题
3、访问集群文件根目录
4、访问和操作远程文件(动手)
5、集群内文件复制和并行复制(动手)
6、读写远程文件(动手)
7、解析远程文件(动手)
8、并行读写远程文件(动手)
9、批量并行读写远程文件和事务补偿处理(动手)
10、相关架构探讨(需求、运维、故障、优化等) |
分布式k/v数据库存储技术的变革 |
数据库作为企业信息系统的最基础软件,面临着分布式存储、nosql、k/v、并行数据库等创新技术的冲击,如何实现百万吞吐量的数据库帮助加速大数据的计算分析和实时查询。
1、从关系数据库架构到k/v数据库架构
2、缓存和持久存储在越来越接近
3、kv nosql数据库和文档nosql数据库
4、redis架构分析
5、Aerospike+SSD持久化架构分析
6、淘宝Tair架构分析
7、LevelDB架构分析
8、Tokyo Cabinet架构分析
9、KyotoCabinet架构分析
10、CouchDB&Membase&Couchbase架构分析
11、百万吞吐量的新型并行数据库CoolHash架构
12、动手体验(易用性、功能、性能)
13、相关架构探讨(需求、运维、故障、优化等) |
|
主题3:大数据挖掘(8-9小时)
数据挖掘和机器学习是属于大数据的核心技术之一,以科学严谨的数据依据帮助企业做分析决策,同时其高深的理论门槛也阻挡了广大工程师的学习上手,在大数据时代,如何进行基于海量数据在成百上千的机器进行分布式数据挖掘更是需要解决的难题,本课程从实战角度出发,基于企业实际需求,深入浅出的讲解数据挖掘最常用的算法和企业场景,让工程师通俗易懂的掌握,并且进行编程落地实践培训,让抽象的算法公式完全落地为工程化的程序为企业所用。详细内容参考课程提纲: |
大数据分析挖掘技术介绍 |
1、map/reduce
2、mahout数据挖掘
3、sql on hadoop
4、spark生态体系
5、R语言
6、MPI并行计算
7、GPU并行计算(深度学习)
8、java并行计算框架 |
常用机器学习算法原理 |
1、决策树
2、随机森林
3、协同过滤推荐算法(余弦相似、修正余弦)
4、Jaccard算法
5、朴素贝叶斯算法
6、k-means聚类算法
7、pagerank算法
8、逻辑回归
9、图计算 |
大数据挖掘业务场景和生产平台 |
1、互联网金融业务—如何构建阿里金融系统
2、银行客户需求业务
3、大数据分析生产平台
4、推荐/广告系统的原理、架构、模型、验证等。
5、基于GBDT的组合模型架构 |
编程实践(动手) |
1、迭代类机器学习编程入门-求圆周率
2、pagerank的并行化实现(*)
3、逻辑回归算法的java实现
4、决策树c45,id3的java实现
5、随机森林和全树并行化实现
6、训练数据和结果模拟器
7、模型结果规则化处理
8、协同过滤java实现
9、基于图计算的推荐java实现 |
|
|
如果您想学习本课程,请
预约报名
如果没找到合适的课程或有特殊培训需求,请
订制培训
除培训外,同时提供相关技术咨询与技术支持服务,有需求请发需求表到邮箱soft@info-soft.cn,或致电4007991916
技术服务需求表下载请点击
服务优势:
丰富专家资源,精准匹配相关行业,相关项目技术精英,面向用户实际需求,针对性培训或咨询,互动式交流,案例教学,精品小班,实际工程项目经验分享,快捷高效,节省时间与金钱,少走弯路与错路。
专家力量:
中国科学院相关研究所高级研究人员
西门子,TI,vmware,MSC,Ansys,MDI,Mentor, candence,Altium,Atmel 、Freescale,达索,华为等
大型公司高级工程师,项目经理,技术支持专家
中科信软培训中心,资深专家或讲师
大多名牌大学,硕士以上学历,相关学历背景专业,理论素养高
多年实际项目实践,大型复杂项目实战案例分享,热情,乐于技术分享
针对客户实际需要,真实案例演示,互动式沟通,学有所值