课程说明
课程级别 | 入门级 |
培训周期 | 2-3个月 |
上课时间 | 全日制 |
上课地址 | 济南市槐荫区西元大厦2号楼1308 |
课程简介
大数据开发工程师是指专门从事大数据开发工作的技术工程师,他们可以通过各种工具和技术,对数据进行收集、存储、处理和分析。他们往往需要掌握一些计算机科学和数据技术相关的知识,如数据建模、数据库编程和数据算法等。同时,大数据开发工程师还需要具备解决复杂数据问题的能力,这些问题可能要求这些工程师们具备丰富的编程技能和数据分析能力。
01
数据处理三阶段
- 数据获取大数据开发工程师需要从数据源获取数据。他们需要了解一些数据存储技术,如Hadoop,同时还需要掌握一些数据库技术来将数据存储在数据库中。
- 数据处理在数据处理阶段,大数据开发工程师需要懂得如何编写大数据算法,并通过使用这些算法,将数据转换成更有用和易于分析的格式。
- 数据展示在数据展示阶段,大数据开发工程师需要设计和实现可视化工具,帮助分析师和客户以更直观的方式为数据注入新的解释。
02
需要掌握的技能
- 核心技术大数据开发工程师需要掌握一些核心技术,如大数据存储技术、数据挖掘技术和新兴技术。大数据存储技术包括Hadoop、NoSQL和列数据库等。数据挖掘技术包括机器学习、聚类和分类等核心技术。新兴技术包括云计算、容器化和分布式技术等。
- 软技能大数据开发工程师不仅需要具备技术能力,还需要具备一些软技能,如团队合作,沟通能力和时间管理等。因为大数据开发的过程往往是由多个开发团队协作完成的。
03
培训课程内容
LINUX | 基本命令 常见配置文件 文件操作命令和权限 安装软件 Shell脚本 AWK和sed脚本 内核加载流程 Docker介绍和操作 服务器调优项 |
分布式储存 | Hadoop概述 HBase背景、简介以及系统架构和原理 HBase逻辑模型:行键、列族、timeStamp,HBase物理模型。 HBase环境搭建:伪分布式安装、完全分布式安装 HBase Shell 、HBase客户端API 、HBase表结构设计 HBase之Mapreduce、HDFS数据导入HBase HBase二级索引、WAL机制、HBase集群迁移方案、导入方案、协处理器 HBase性能调优:JVM优化、查询优化、写优化、配置参数优化 |
Zookeeper | Zookeeper概述 Zookeeper系统架构 Zookeeper数据模型 Zookeeper写数据流程 Zookeeper安装部署 Zookeeper中shell操作 Zookeeper选举机制 Zookeeper监 听操作 Zookeeper 分布式锁实践 Zookeeper应用场景 API操作 |
纱 | YARN介绍 YARN系统架构 YARN作业提交流程 YARN三种调度策略 YARN队列配置 YARN的Node Label机制 |
MapReduce培训 | MapReduce介绍 MapReduce基础案例 MapReduce分片 MapReduce运行流程及shuftle MapReduce案例 MapReduce相关参数 |
Scala培训 | Scala介绍 Scala基础语法 数组和集合 泛型 隐式转换 IO操作 |
Spark培训 | Spark概述、整体架构、Spark vs Mapreduce 、Spark vs Hive 、Spark Streaming vs Storm等 Spark 环境搭建:hive搭建、kafka搭建、安装apark Spark 核心编程:基本工作原理、RDD弹性数据集 开发wordcount程序 Spark 创建RDD、各种算子操作(Transformation、Actions)、共享变量(广播、累加) 复杂一些的Spark编程:、二次排序、TopN分析 Spark架构分析:宽窄依赖、基于YARN的提交模式、SparkContext原理剖析、注册机制原理、Executor原理剖析、Task原理剖析、shuffer优化、BlockManager原理剖析、CacheManager原理剖析、Checkpoint原理剖析等 Spark Core调优:内存、判断耗时、优化数据结构、RDD与checkpoint、序列化、JVM、提高并行度、广播共享等 SparkSql 概述、Spark SQL与DataFrame 常用操作 RDD转换DataFrame的两种方式:反射方式、编程方式 通用的load和save操作 数据源:Parquet数据源、JSON数据源、Hive数据源、JDBC数据源 各种复杂案例 Spark Streaming 简介概述 与storm和spark对比、helloword StreamingContext、DStream与Receiver DStream基于数据源与HDFS的实时程序 DStream之Kafka数据源、Direct模式 、Transformation操作、与SparkSQL结合使用 |
Hive培训 | Hive背景、介绍 Hive环境安装:内嵌模式、独立模式 Hive 的DDL Hive 的 DML Hive常见内置函数 Hive数据类型 Hive窗口函数 Hive自定义函数(UDF、UDAF、UDTF) Hive 分区表、桶操作 Hive数据装载与导出 Hive动态分区、Hive查询、Hive索引、Hive视图 Hive之IO负载策略、HIVE sql优化、压缩、分布式缓存 |
数据采集 | Sqoop介绍 Sqoop导入和导出命令 Sqoop增量和全量操作 Sqoop优化 Flume介绍 Flume离线采集、实时采集、多路采集 Flume拦截器 Flume优化 |
离线数仓 | 某大型电商项目数据仓库介绍 数据仓库规范 数据粒度 数据仓库模型以及分层 建模介绍 维度建模(维度建模和范式建模) 事实、星座模型 数据需求分析介绍 数据应用操作 数据抽取 数据清洗 数据转化 数据加载 |
调度 | Azkaban介绍 Azkaban系统结构 Azkaban定时案例 Azkaban性能优化 |
课程内容以实际授课为准
温馨提示