大数据
大数据不只是一个独立的学科了,架构师会用到很多分布式技术,来自于大数据生态,数据分析师必然基于大数据生态技术,测试工程师必然对接大数据生态技术之上,机器学习、人工智能离不开大数据的优质数据源,2016年国文红头文件《大数据发展计划纲要》后,政府项目,高等院校大数据专业,企税优策等都在扩大大数据技术的落地,因为大数据是刚需,是现代互联网的融合点,是每个人每个专业都要学习的技术!我们讲述hadoop生态技术原理源码,数据加工治理,数据质量,数据仓库、ETL,实时计算,技术选型,企业级大数据平台搭建,kylin、flink、nifi等热点技术详解,附赠机器学习算法和部分人工智能算法,整合出量化投资项目,从理论到实践,为每个IT人规划最精准的必经之路!
LINUX理论 Linux入门 Linux常用命令通讲 Linux用户管理
  • Linux简介、VMWare workstation安装
  • Linux系统安装+基本配置
  • MySQL、Python、Java等常用软件环境安装
  • 常用基本命令介绍与使用、扩展命令选项含义
  • Linux高级命令通讲 VI VIM AWK等
  • Linux常用及高级命令快捷键
  • Linux用户和组账户管理介绍
  • Linux 用户的管理
  • Linux组管理实践、批量用户管理操作
  • Linux磁盘管理 Linux RPM安装包 Linuxyum源
  • Linux文件系统介绍、Linux文件系统常用命令
  • Linux lvm逻辑卷、NFSs详解
  • Linux系统文件权限管理介绍、操作
  • Linux的RPM包的介绍
  • Linux RPM包安装、卸载
  • ...
  • yum简单使用、各大互联网公司的yum源介绍
  • 配置开源的yum源
  • 搭建私有yum源
  • Linux网络 Linux Shell脚本 负载均衡LVS
  • Linux网络的介绍、网络类型的区分与详解
  • Linux网络的介绍、网络类型的详解
  • Linux网络的配置与维护
  • Shell脚本的介绍及运行原理
  • Shell脚本的基本语法
  • Shell脚本运行的多种方式
  • Lvs负载均衡介绍、Lvs负载均衡的负载算法
  • Lvs负载均衡的NAT模式、直接路由模式(DR)...
  • 第七层负载均衡-Nginx、Apache
  • 编程语言 Scala环境安装及基本语法 Scala类与面向对象 Scala并发编程(Actor)
  • Scala语法介绍、数据类型
  • Scala的条件表达式
  • 数组、set、list、元组等集合操作
  • Scala的类,包括辅助构造器、主构造器
  • Scala的对象、单例对象、伴生对象、扩展类...
  • Scala的操作符、Scala的高阶函数...
  • Actor简介及应用场景
  • ActorSystem的层次结构
  • Actor和ActorSystem介绍及基本使用
  • Python环境安装及基本语法 Python类与面向对象 IO编程
  • Python、Anaconda运行环境安装及使用
  • Python数据类型、集合类型、集合高级特性...
  • ...
  • 类和实例、访问限制
  • 继承和多态、多重继承
  • 枚举类
  • 文件读写、StringIO和BytesIO
  • 操作文件和目录、序列化
  • ...
  • 分布式存储 Hadoop技术栈概念及历史 HDFS分布式文件系统 HDFS分布式文件系统
  • Hadoop生态环境介绍、云计算中的位置和关系
  • Hadoop应用场景、案例介绍、发展历史
  • Hadoop生态圈的架构及重要组件介绍
  • HDFS介绍及分布式存储的核心思想、伪分布...
  • 采用HDFS shell的方式管理HDFS...
  • HDFS的架构模型、存储模型、副本放置策略
  • HDFS Federation机制、HDFS读写流程
  • HA-HDFS介绍、HA集群搭建、HDFS...
  • HDFS中心缓存管理介绍及缓存适用场景....
  • HDFS分布式文件系统 HDFS分布式文件系统
  • HDFS快照概念及相关命令、内部的快照管理...
  • 坏盘检测服务、目录扫描服务
  • HDFS-VolumeScanner磁盘目录扫描服务
  • HDFS块检查命令fsck
  • HDFS如何检测并删除多余副本块
  • HDFS的流量处理、读写限流方案
  • 分布式数据库 HBase集群搭建 HBase表设计及优化 Hive介绍及搭建模式
  • 关系型数据库的极限及HBase数据的必要性
  • 搭建HBase的伪分布式、完全分布式
  • HBase WebUI控制台、HBase操作命令及...
  • HBase树形表、一对多表、多对多表设计
  • 针对不同业务场景,rowKey设计方案
  • 表级优化、读写数据优化
  • 数据仓库基础知识、Hive定义及架构的介绍
  • 基于derby、MySQL的本地搭建模式...
  • HQL DDL、DML与CLI客户端演示
  • Python环境安装及基本语法 Hive数据类型、表类型、索引 Hive函数
  • HDFS Federation机制、HDFS读写流程
  • HA-HDFS介绍、HA集群搭建、HDFS...
  • HDFS中心缓存管理介绍及缓存适用场景....
  • 内部表、外部表、临时表、分区表、分桶表
  • Hive创建、重建、显示、删除索引
  • ...
  • Hive内置函数
  • Hive自定义UDF、UDAF、UDTF函数
  • ...
  • 分布式集群协调工具 Zookeeper Zookeeper Zookeeper
  • 集群角色、会话、数据节点、版本、watcher...
  • 集群环境、单机环境、伪集群、选举算法详解
  • ZooKeeper 服务的启动和停止及常见异常
  • 客户端对于ZooKeeper节点的CRUD
  • JAVA API完成创建会话、节点、删除节点...
  • ZkClient 和 Curator 的使用方法
  • zkClient 的节点修改、权限管理等使用方法 
  • Curator 的会话创建、节点创建、节点删除...
  • Curator 的节点修改、权限管理等使用方法 
  • Zookeeper yarn yarn
  • Zookeeper RMI高可用分布式集群开发...
  • Mycat的简介和安装、Mycat架构模型
  • Mycat概念详解、Mycat主键自增
  • YARN的起源、架构、任务提交流程
  • ResourceManager、NodeManager
  • ApplicationMaster、Container重要组件详解
  • Oozie安装配置、HPDL语言学习、流程定义
  • Oozie工作流配置、Oozie元数据库定义
  • Oozie定时任务调度、Oozie API操作
  • 分布式缓存 Redis Cluster Redis Cluster Redis Cluster
  • Redis应用场景、Redis集群、Redis shell使用
  • Redis的数据类型、事务、访问Redis数据库
  • Redis的管道、持久化(AOF+RDB)、性能优化
  • Redis的主从复制、Sentinel哨兵高可用架构...
  • Redis与Codis整合、Redis cluster 海量数据...
  • RedisCluster去中心化系统架构
  • 操作Redis、RedisCluster集群事务管理器
  • SpringDataRedis、Redis 企业级备份方案...
  • 分布式系统中的数据一致性模型
  • 消息中间件 Kafka
  • Kafka架构介绍、Kafka配置详解
  • Kafka体系结构、存储策略、分区、发布与订阅
  • Kafka的存储策略、分区特点、发布与订阅
  • 数据融合工具 Sqoop Flume
  • Sqoop的安装、将RDBMS表数据导入到Hive表
  • 导入parquet、sanppy格式的数据
  • 使用query自定义导入数据
  • Flume部署方式、source相关配置及测试
  • sink相关配置及测试、selector相关配置及测试
  • Sink Processors、Interceptors相关配置...
  • 分布式批处理 MapReduce MapReduce SparkCore
  • 分布式计算的背景、MapReduce分布式计算...
  • huffle的流程、shuffle中Partitioner
  • Sort、Group、Combiner原理
  • MapReduce shuffle、Mapper计算原理...
  • Reducer计算原理以及源码剖析
  • Mapreduce案例-二次排序、倒排序索引...
  • Spark与MapReduce的对比
  • Spark中RDD的五大特性详解、数据本地化...
  • Standalone集群的架构介绍,集群运行原理
  • SparkCore SparkCore SparkCore
  • 集群的搭建、配置信息详解,监控管理集群
  • Transformation类的算子特点及使用
  • Action类的算子特点及使用
  • 精解Spark的任务提交流程、任务运行流程
  • cache持久化、persist持久化
  • 持久化级别、持久化的注意事项
  • Client与Cluster两种提交方式区别、适应场景
  • 配置Standalone集群客户端的必要性
  • spark-submit提交任务命令的选项详解...
  • SparkCore SparkCore SparkCore
  • RDD的依赖关系 宽依赖 窄依赖的区别...
  • Stage的运行原理、Spark pipeline计算揭秘
  • DAGScheduler、TaskScheduler对象的作用
  • 任务调度的重试机制、Spark任务调度重试机制
  • 控制重试机制的配置信息,以及配置方式
  • 推测执行原理、判定拖后腿的task的标准
  • 推测执行带来的问题以及解决方案
  • 任务调度源码分析-Master资源调度源码分析
  • Worker资源管理分析、Driver任务调度分析
  • SparkCore SparkCore 负载均衡LVS
  • Executor运行源码分析、Task运行源码分析
  • 修改开源框架源码的三种方式以及优劣对比
  • Spark常用的两种Shuffle-HashShuffle的原理
  • Executor运行源码分析、Task运行源码分析
  • 修改开源框架源码的三种方式以及优劣对比
  • Spark常用的两种Shuffle-HashShuffle的原理
  • 搭建Standalond的HA集群
  • 集群WEBUI详解
  • 如何通过WEBUI查找任务的性能问题
  • SparkSQL Flume
  • 什么是SparkSQL,Shark与SparkSQL的区别
  • DataSet与RDD的区别、SparkSQL运行原理
  • 处理json、parquet格式文件、RDD转成...
  • 自定义UDF、自定义UDAF
  • 开窗函数的使用方式
  • 解决Spark数据倾斜方案-数据预处理...
  • 分布式流式处理 Storm Storm Storm
  • 流式处理与批处理的区别
  • Storm的基本概念、应用场景
  • 搭建Storm集群、Storm配置文件详解
  • 集群搭建常见问题以及注意事项
  • Storm常用组件Topology、Spout
  • Bolt、Storm API编程流程、Storm分组策略
  • Storm事物处理、Storm消息可靠性
  • Storm容错原理、Storm Trident概念
  • Trident state原理、Trident开发实例
  • Storm SparkStreaming SparkStreaming
  • Storm DRPC(分布式远程调用)介绍
  • 实战讲解、Storm on Yarn实战、Storm+Kafka的必要性
  • Kafka和Storm的整合
  • 精解Spark的任务提交流程、任务运行流程
  • cache持久化、persist持久化
  • 持久化级别、持久化的注意事项
  • Client与Cluster两种提交方式区别、适应场景
  • 配置Standalone集群客户端的必要性
  • spark-submit提交任务命令的选项详解...
  • SparkStreaming SparkStreaming Flink
  • RDD的依赖关系 宽依赖 窄依赖的区别...
  • Stage的运行原理、Spark pipeline计算揭秘
  • DAGScheduler、TaskScheduler对象的作用
  • 任务调度的重试机制、Spark任务调度重试机制
  • 控制重试机制的配置信息,以及配置方式
  • 推测执行原理、判定拖后腿的task的标准
  • 推测执行带来的问题以及解决方案
  • 任务调度源码分析-Master资源调度源码分析
  • Worker资源管理分析、Driver任务调度分析
  • Flink Flink Flink
  • Executor运行源码分析、Task运行源码分析
  • 修改开源框架源码的三种方式以及优劣对比
  • Spark常用的两种Shuffle-HashShuffle的原理
  • SortShuffle的原理、合并机制的原理
  • SortShuffle bypass机制的原理...
  • BlockManager原理、Shuffle的优化
  • 搭建Standalond的HA集群
  • 集群WEBUI详解
  • 如何通过WEBUI查找任务的性能问题
  • 数据分析平台 Hue Hue
  • Hue vs zeppelin、Hue环境需求
  • Hue编译安装、Hue关联HDFS
  • Hue基于MySQL的metadata管理
  • HBase、MapReduce、Hive+测试
  • Hue关联Spark生态圈组件+测试
  • Hue关联Oozie+测试、Hue配置信息介绍
  • 集群管理平台 CDH CDH
  • 国内外大数据平台介绍、Cloudera产品介绍
  • 集群基础设施配置、什么是cloudera manager
  • cloudera manager框架原理、部署CDH...
  • 管理集群服务、管理实例、监控资源
  • 什么是cloudera manager service
  • cloudera manager service图表使用和创建...
  • 机器学习算法+人工智能 机器学习 机器学习 机器学习
  • 机器学习的应用场景、机器学习的原理及思想
  • 机器学习和人类思考的类比
  • 线性回归算法的介绍、应用场景
  • 目标函数推导、使用优化算法来优化目标函数
  • 模型的欠拟合与过拟合的区别
  • 防止过拟合问题的方案
  • 简单线性回归算法与多元线性回归算法的区别
  • 使用多元线性回归算法来预测保险的费用
  • 使用Spark MLlib来训练线性回归算法模型
  • 机器学习 机器学习 机器学习
  • KMeans聚类算法的介绍,以及算法原理
  • KMeans算法的缺陷以及优化方式
  • 使用Python numpy来实现KMeans算法
  • 使用Python scikit-learn机器学习...
  • 密度聚类DBScan算法原理及使用
  • 谱聚类算法原理及使用
  • 朴素贝叶斯算法、拉普拉斯估计
  • GBDT迭代决策树算法原理、优化
  • Xgboost安装、原理、使用方式
  • 机器学习 机器学习 机器学习
  • 支持向量机SVM算法原理及使用
  • PCA主成分分析算法、LDA降维优化...
  • 逻辑回归分类算法原理、公式推导
  • 目标函数的推导、 求导,以及最优值的求解
  • 使用优化算法(梯度下降法)来优化目标函数
  • 逻辑回归算法优化
  • ROC AUC测试模型的准确率
  • KNN算法来实现数字识别
  • 决策树算法原理、Python numpy实现决策树算法
  • 机器学习 机器学习
  • 决策树算法的缺点-随机森林
  • Spark MLlib训练决策树、随机森林算法模型
  • TensorFlow安装、训练线性回归算法模型
  • 神经网络模型、TensorBoard可视化
  • DNN深度神经网络手写图片识别
  • 卷积神经网络深入、AlexNet模型实现