大数据大纲

LINUX理论	Linux入门	Linux常用命令通讲	Linux用户管理
大数据
大数据不只是一个独立的学科了，架构师会用到很多分布式技术，来自于大数据生态，数据分析师必然基于大数据生态技术，测试工程师必然对接大数据生态技术之上，机器学习、人工智能离不开大数据的优质数据源，2016年国文红头文件《大数据发展计划纲要》后，政府项目，高等院校大数据专业，企税优策等都在扩大大数据技术的落地，因为大数据是刚需，是现代互联网的融合点，是每个人每个专业都要学习的技术！我们讲述hadoop生态技术原理源码，数据加工治理，数据质量，数据仓库、ETL，实时计算，技术选型，企业级大数据平台搭建，kylin、flink、nifi等热点技术详解，附赠机器学习算法和部分人工智能算法，整合出量化投资项目，从理论到实践，为每个IT人规划最精准的必经之路！
	Linux简介、VMWare workstation安装 Linux系统安装+基本配置 MySQL、Python、Java等常用软件环境安装	常用基本命令介绍与使用、扩展命令选项含义 Linux高级命令通讲 VI VIM AWK等 Linux常用及高级命令快捷键	Linux用户和组账户管理介绍 Linux 用户的管理 Linux组管理实践、批量用户管理操作
	Linux磁盘管理	Linux RPM安装包	Linuxyum源
	Linux文件系统介绍、Linux文件系统常用命令 Linux lvm逻辑卷、NFSs详解 Linux系统文件权限管理介绍、操作	Linux的RPM包的介绍 Linux RPM包安装、卸载 ...	yum简单使用、各大互联网公司的yum源介绍配置开源的yum源搭建私有yum源
	Linux网络	Linux Shell脚本	负载均衡LVS
	Linux网络的介绍、网络类型的区分与详解 Linux网络的介绍、网络类型的详解 Linux网络的配置与维护	Shell脚本的介绍及运行原理 Shell脚本的基本语法 Shell脚本运行的多种方式	Lvs负载均衡介绍、Lvs负载均衡的负载算法 Lvs负载均衡的NAT模式、直接路由模式(DR)... 第七层负载均衡-Nginx、Apache

编程语言	Scala环境安装及基本语法	Scala类与面向对象	Scala并发编程（Actor）
	Scala语法介绍、数据类型 Scala的条件表达式数组、set、list、元组等集合操作	Scala的类，包括辅助构造器、主构造器 Scala的对象、单例对象、伴生对象、扩展类... Scala的操作符、Scala的高阶函数...	Actor简介及应用场景 ActorSystem的层次结构 Actor和ActorSystem介绍及基本使用
	Python环境安装及基本语法	Python类与面向对象	IO编程
	Python、Anaconda运行环境安装及使用 Python数据类型、集合类型、集合高级特性... ...	类和实例、访问限制继承和多态、多重继承枚举类	文件读写、StringIO和BytesIO 操作文件和目录、序列化 ...

分布式存储	Hadoop技术栈概念及历史	HDFS分布式文件系统	HDFS分布式文件系统
	Hadoop生态环境介绍、云计算中的位置和关系 Hadoop应用场景、案例介绍、发展历史 Hadoop生态圈的架构及重要组件介绍	HDFS介绍及分布式存储的核心思想、伪分布... 采用HDFS shell的方式管理HDFS... HDFS的架构模型、存储模型、副本放置策略	HDFS Federation机制、HDFS读写流程 HA-HDFS介绍、HA集群搭建、HDFS... HDFS中心缓存管理介绍及缓存适用场景....
	HDFS分布式文件系统	HDFS分布式文件系统
	HDFS快照概念及相关命令、内部的快照管理... 坏盘检测服务、目录扫描服务 HDFS-VolumeScanner磁盘目录扫描服务	HDFS块检查命令fsck HDFS如何检测并删除多余副本块 HDFS的流量处理、读写限流方案

分布式数据库	HBase集群搭建	HBase表设计及优化	Hive介绍及搭建模式
	关系型数据库的极限及HBase数据的必要性搭建HBase的伪分布式、完全分布式 HBase WebUI控制台、HBase操作命令及...	HBase树形表、一对多表、多对多表设计针对不同业务场景，rowKey设计方案表级优化、读写数据优化	数据仓库基础知识、Hive定义及架构的介绍基于derby、MySQL的本地搭建模式... HQL DDL、DML与CLI客户端演示
	Python环境安装及基本语法	Hive数据类型、表类型、索引	Hive函数
	HDFS Federation机制、HDFS读写流程 HA-HDFS介绍、HA集群搭建、HDFS... HDFS中心缓存管理介绍及缓存适用场景....	内部表、外部表、临时表、分区表、分桶表 Hive创建、重建、显示、删除索引 ...	Hive内置函数 Hive自定义UDF、UDAF、UDTF函数 ...

分布式集群协调工具	Zookeeper	Zookeeper	Zookeeper
	集群角色、会话、数据节点、版本、watcher... 集群环境、单机环境、伪集群、选举算法详解 ZooKeeper 服务的启动和停止及常见异常	客户端对于ZooKeeper节点的CRUD JAVA API完成创建会话、节点、删除节点... ZkClient 和 Curator 的使用方法	zkClient 的节点修改、权限管理等使用方法 Curator 的会话创建、节点创建、节点删除... Curator 的节点修改、权限管理等使用方法
	Zookeeper	yarn	yarn
	Zookeeper RMI高可用分布式集群开发... Mycat的简介和安装、Mycat架构模型 Mycat概念详解、Mycat主键自增	YARN的起源、架构、任务提交流程 ResourceManager、NodeManager ApplicationMaster、Container重要组件详解	Oozie安装配置、HPDL语言学习、流程定义 Oozie工作流配置、Oozie元数据库定义 Oozie定时任务调度、Oozie API操作

分布式缓存	Redis Cluster	Redis Cluster	Redis Cluster
分布式缓存	Redis应用场景、Redis集群、Redis shell使用 Redis的数据类型、事务、访问Redis数据库 Redis的管道、持久化(AOF+RDB)、性能优化	Redis的主从复制、Sentinel哨兵高可用架构... Redis与Codis整合、Redis cluster 海量数据... RedisCluster去中心化系统架构	操作Redis、RedisCluster集群事务管理器 SpringDataRedis、Redis 企业级备份方案... 分布式系统中的数据一致性模型

消息中间件	Kafka
消息中间件	Kafka架构介绍、Kafka配置详解 Kafka体系结构、存储策略、分区、发布与订阅 Kafka的存储策略、分区特点、发布与订阅

数据融合工具	Sqoop	Flume
数据融合工具	Sqoop的安装、将RDBMS表数据导入到Hive表导入parquet、sanppy格式的数据使用query自定义导入数据	Flume部署方式、source相关配置及测试 sink相关配置及测试、selector相关配置及测试 Sink Processors、Interceptors相关配置...

分布式批处理	MapReduce	MapReduce	SparkCore
	分布式计算的背景、MapReduce分布式计算... huffle的流程、shuffle中Partitioner Sort、Group、Combiner原理	MapReduce shuffle、Mapper计算原理... Reducer计算原理以及源码剖析 Mapreduce案例-二次排序、倒排序索引...	Spark与MapReduce的对比 Spark中RDD的五大特性详解、数据本地化... Standalone集群的架构介绍，集群运行原理
	SparkCore	SparkCore	SparkCore
	集群的搭建、配置信息详解,监控管理集群 Transformation类的算子特点及使用 Action类的算子特点及使用	精解Spark的任务提交流程、任务运行流程 cache持久化、persist持久化持久化级别、持久化的注意事项	Client与Cluster两种提交方式区别、适应场景配置Standalone集群客户端的必要性 spark-submit提交任务命令的选项详解...
	SparkCore	SparkCore	SparkCore
	RDD的依赖关系宽依赖窄依赖的区别... Stage的运行原理、Spark pipeline计算揭秘 DAGScheduler、TaskScheduler对象的作用	任务调度的重试机制、Spark任务调度重试机制控制重试机制的配置信息，以及配置方式推测执行原理、判定拖后腿的task的标准	推测执行带来的问题以及解决方案任务调度源码分析-Master资源调度源码分析 Worker资源管理分析、Driver任务调度分析
	SparkCore	SparkCore	负载均衡LVS
	Executor运行源码分析、Task运行源码分析修改开源框架源码的三种方式以及优劣对比 Spark常用的两种Shuffle-HashShuffle的原理	Executor运行源码分析、Task运行源码分析修改开源框架源码的三种方式以及优劣对比 Spark常用的两种Shuffle-HashShuffle的原理	搭建Standalond的HA集群集群WEBUI详解如何通过WEBUI查找任务的性能问题
	SparkSQL	Flume
	什么是SparkSQL，Shark与SparkSQL的区别 DataSet与RDD的区别、SparkSQL运行原理处理json、parquet格式文件、RDD转成...	自定义UDF、自定义UDAF 开窗函数的使用方式解决Spark数据倾斜方案-数据预处理...

分布式流式处理	Storm	Storm	Storm
	流式处理与批处理的区别 Storm的基本概念、应用场景搭建Storm集群、Storm配置文件详解	集群搭建常见问题以及注意事项 Storm常用组件Topology、Spout Bolt、Storm API编程流程、Storm分组策略	Storm事物处理、Storm消息可靠性 Storm容错原理、Storm Trident概念 Trident state原理、Trident开发实例
	Storm	SparkStreaming	SparkStreaming
	Storm DRPC(分布式远程调用)介绍实战讲解、Storm on Yarn实战、Storm+Kafka的必要性 Kafka和Storm的整合	精解Spark的任务提交流程、任务运行流程 cache持久化、persist持久化持久化级别、持久化的注意事项	Client与Cluster两种提交方式区别、适应场景配置Standalone集群客户端的必要性 spark-submit提交任务命令的选项详解...
	SparkStreaming	SparkStreaming	Flink
	RDD的依赖关系宽依赖窄依赖的区别... Stage的运行原理、Spark pipeline计算揭秘 DAGScheduler、TaskScheduler对象的作用	任务调度的重试机制、Spark任务调度重试机制控制重试机制的配置信息，以及配置方式推测执行原理、判定拖后腿的task的标准	推测执行带来的问题以及解决方案任务调度源码分析-Master资源调度源码分析 Worker资源管理分析、Driver任务调度分析
	Flink	Flink	Flink
	Executor运行源码分析、Task运行源码分析修改开源框架源码的三种方式以及优劣对比 Spark常用的两种Shuffle-HashShuffle的原理	SortShuffle的原理、合并机制的原理 SortShuffle bypass机制的原理... BlockManager原理、Shuffle的优化	搭建Standalond的HA集群集群WEBUI详解如何通过WEBUI查找任务的性能问题

数据分析平台	Hue	Hue
数据分析平台	Hue vs zeppelin、Hue环境需求 Hue编译安装、Hue关联HDFS Hue基于MySQL的metadata管理	HBase、MapReduce、Hive+测试 Hue关联Spark生态圈组件+测试 Hue关联Oozie+测试、Hue配置信息介绍

集群管理平台	CDH	CDH
集群管理平台	国内外大数据平台介绍、Cloudera产品介绍集群基础设施配置、什么是cloudera manager cloudera manager框架原理、部署CDH...	管理集群服务、管理实例、监控资源什么是cloudera manager service cloudera manager service图表使用和创建...

机器学习算法+人工智能	机器学习	机器学习	机器学习
	机器学习的应用场景、机器学习的原理及思想机器学习和人类思考的类比线性回归算法的介绍、应用场景	目标函数推导、使用优化算法来优化目标函数模型的欠拟合与过拟合的区别防止过拟合问题的方案	简单线性回归算法与多元线性回归算法的区别使用多元线性回归算法来预测保险的费用使用Spark MLlib来训练线性回归算法模型
	机器学习	机器学习	机器学习
	KMeans聚类算法的介绍，以及算法原理 KMeans算法的缺陷以及优化方式使用Python numpy来实现KMeans算法	使用Python scikit-learn机器学习... 密度聚类DBScan算法原理及使用谱聚类算法原理及使用	朴素贝叶斯算法、拉普拉斯估计 GBDT迭代决策树算法原理、优化 Xgboost安装、原理、使用方式
	机器学习	机器学习	机器学习
	支持向量机SVM算法原理及使用 PCA主成分分析算法、LDA降维优化... 逻辑回归分类算法原理、公式推导	目标函数的推导、求导，以及最优值的求解使用优化算法(梯度下降法)来优化目标函数逻辑回归算法优化	ROC AUC测试模型的准确率 KNN算法来实现数字识别决策树算法原理、Python numpy实现决策树算法
	机器学习	机器学习
	决策树算法的缺点-随机森林 Spark MLlib训练决策树、随机森林算法模型 TensorFlow安装、训练线性回归算法模型	神经网络模型、TensorBoard可视化 DNN深度神经网络手写图片识别卷积神经网络深入、AlexNet模型实现