小象学院HadoopSpark企业应用实战 9课,全套视频教程学习资料通过百度云网盘下载

资源详情

                      
课程介绍：

本课程会介绍Hadoop/Spark各组件的架构，但不会涉及任何安装的内容，安装的教程、录像视频什么的网上到处都是，讲安装太浪费时间~Hadoop/Spark环境的安装请大家自行解决，建议用ClouderaCDH或者HortonworksHDP。



课程目录：

第一周：企业级Hadoop/Spark应用概述，Hadoop/Spark生态系统与现有企业级应用的整合

1.企业级集群部署、数据管理、任务调度、集群监控

2.Hadoop架构介绍、Spark/Shark介绍

3.Spark与Hadoop的关系

4.现有Hadoop架构的种种问题和限制，HA

5.企业数据仓库的选型，Hadoop世界与EDW世界中的TPC(TPCDS与TPCH)

6.Hadoop世界中的DBA

7.成本考量——人?物?物是人非



第二周：HadoopEcoSystem进阶应用基础知识

1.HDFS/MapReduce/Yarn/Hive/Impala/Oozie进阶应用、资源分配及调优

2.玩转HiveETL高级应用：权限管理、externaltable、partition、中文支持、HiveServer2JDBC接口

3.Hive的WindowingandAnalyticsFunctions

4.Hive0.13的新功能

5.Impala与Hive对比，各种Hints：Hive的MapJoin，Impala的SHUFFLEJoin(partitionedjoin)



第三周：进阶应用实例—物流/广告/电商/零售/互联网行业Hadoop大数据应用

1.企业级应用实例1：物流行业—订单跟踪

2.Hive通过externaltable、partition、动态partition与NFS结合使用创建数据表，避免LOADDATA

3.Hive和Impala的Join优化Hints，MapJoin、ShuffleJoin实例

4.企业级应用实例2：广告行业—基于用户行为分析的用户归类标签(客户画像)

5.Hive复合数据类型array

6.array与collect_set、collect_list、array_contains、sort_array

7.impala的group_concat

8.array与lateralview、LATERALVIEWOUTER

9.企业级应用实例3：电商/零售行业—简单的推荐系统RecommenderSystem实现(基于用户标签/客户画像)

10.Hive复合数据类型map、str_to_map、map_keys、map_values，map与lateralview

11.通过Hive、Impala转换函数进行数据保护，确保企业应用信息安全(通过translate进行简单数据脱敏DataMasking)

12.HiveServer2JDBC接口实例应用、中文支持Bug纠错

13.Hive的窗口和分析函数入门(row_number、rank、dense_rank等)

14.企业级应用实例4：互联网行业—访问量业绩报表

15.Hive的窗口和分析函数进阶(NTILE、CUME_DIST、PERCENT_RANK、LEAD、LAG、FIRST_VALUE、LAST_VALUE等)

16.ROWSBETWEEN...AND...(CURRENTROW，rowsPRECEDING，rowsFOLLOWING)

17.本周总结——物流/广告/电商/零售/互联网行业Hadoop企业级大数据应用方案经验教训总结



第四周：Hadoop&Spark/Shark进阶应用基础知识

1.HBase/ZooKeeper/Sqoop/Graphite/Ganglia进阶应用及调优，Spark/SparkSQL/Shark简介

2.HBaseShell与HBaseRESTAPI应用

3.HBase的Region进阶应用Compact、Split与Merge

4.HBase进阶脚本应用：jrubyscript

5.HBase与Hive的整合高级应用：binary(byte)value，lateralviewexplode

6.Hive0.13：posexplode

7.Spark/SparkSQL/Shark架构介绍、SparkScala/Python开发介绍



第五周：进阶应用实例—Hadoop/Spark平台企业级开发框架

1.Hadoop生态系统中为企业级开发提供的测试框架应用实例

2.Spark实现“物流行业—订单跟踪SLA”的实例，Scala语言及Python语言实现，SparkSQL+Parquet文件实现，SparkScalaMA危en项目实例

3.HBase开发实例：RESTAPI使用、JRuby脚本编写、Region进阶应用

4.与ContinuousIntegration系统整合的可能

5.——软件/互联网行业Hadoop企业级开发框架



第六周：Hadoop&Spark/Shark企业级应用整合

1.HBase与Hive整合的大坑

2.HBasePython客户端happybase使用介绍、编程实例

3.HBaseCoprocessor与HBase+Hive特征特点比较、分别适用的场景

4.企业中应用HBase，Hive，Impala，Spark/Shark的注意事项，资源分配

5.Hadoop与现有企业级BI平台的整合

6PentahoPDI/Kettle

7.OracleorIn-MemoryDatabase

8.MicroStrategy/Tableau



第七周：进阶应用实例—Hadoop/Spark企业级大数据BI应用整合

1.互联网行业时间序列(timeseriesdata)数据处理实例——整合HBase与Hive：增量数据与全量数据，冷数据与热数据分治

2.互联网行业时间序列(timeseriesdata)数据处理实例——整合Sp

，Scala语言处理HBase返回值Result类中KeyValue对象的ByteBuffer/ByteArray

4.通过Kettle/Spoon工具整合Hadoop与现有RDBMS的企业级BI解决方案

5.其它整合Hadoop与RDBMS构建企业级BI应用平台的可能(如使用PostgreSQLFDW，使用Presto的JDBCconnector等)

6.——互联网行业Hadoop企业级大数据BI应用整合方案



第八周：总结与展望

1.企业级大数据应用总结

2.构建企业大数据团队探讨

3.Hadoop方面工作面试秘籍：应用开发方向、数据分析方向、技术架构方向、团队带头人

4.现有几大Hadoop平台比较：ClouderaCDH，HortonworksHDP，MapR

5.Hadoop大数据还能干什么?通过Spark整合Streaming与Batchprocessing?

6.金融/工业/能源/智慧城市/医疗行业/SmartData

7.德国汽车、新能源行业的大数据创新项目分享

8.德国医疗行业大数据应用现状

9.Hadoop大数据企业应用面临的问题
下载地址

链接 http://pan.baidu.com/s/1pLK6OYJ 密码 m9c0