Cloudera 授权 Hadoop 管理员培训
课程目标
专门为系统管理员和其他技术人员量身定做的课程,以进行用于产品或开发测试环境中的 Hadoop 机群的安装部署,管理和优化,为企业进行海量数据存储和分析搭建经济高效和高可靠的系统平台。
课程内容
• Hadoop 分布式文件系统(HDFS)和 MapReduce 的工作原理
• 如何优化 Hadoop 机群所需要的硬件配置
• 搭建 Hadoop 机群所需要考虑的网络因素
• 如何利用 Hadoop 配置选项进行系统性能调优
• 如何利用 FairScheduler 为多用户提供服务级别保障
• Hadoop 机群维护和监控
• 如何使用 Flume 从动态生成的文件加载数据到 Hadoop
• 如何使用 Sqoop 从关系型数据库加载数据
• 使用其他 Hadoop 相关系统工具(诸如 Hive,Pig 和 HBase)所涉及到的系统管理问题
参训相关信息
课程时间:3 天
学员基础
具备基本 Linux 系统管理经验。不需要事先掌握 Hadoop 相关知识。
授课形式
采取教师讲解和学员上机操作相结合的形式。上机实验有机地穿插在重要课题讲解后,学员能马上学以致用,巩固刚刚所学的概念和知识,转化为自身的技能应用到实战中。我们鼓励学员在课堂上大胆自由地提问,和授课教师进行互动,获得最大的收益。
认证考试
Cloudera Apache Hadoop 资格管理员考试提供业界进行 Hadoop 安装部署及管理调优领域里唯一且最具权威性、并得到全球认可的认证。为企业提供了高质量可以依赖的 Hadoop 管理员,保障了海量数据存储和处理计算平台系统的高质量;为工程师技术人员提供了最新的技术装备,开拓了职业发展。
课程内容纲要
Hadoop 和 HDFS 入门
• 为什么使用 Hadoop?
• HDFS 介绍
• MapReduce介绍
• Hive, Pig, HBase 和其他 Hadoop 生态系统项目
• 上机实验
Hadoop 机群规划
• 一般考虑因素
• 选择合适的硬件
• 网络考虑
• 配置节点
配置和部署 Hadoop 机群
• 部署种类
• 安装 Hadoop
• 使用 Cloudera Manager 进行简易安装
• 典型配置参数
• 机柜配置(Rack Awareness)
• 使用配置管理工具
• 上机实验
管理调度任务
• 管理运行的任务
• 上机实验
• 先进先出调度器(FIFO Scheduler)
• 公平调度器(FairScheduler)
• 配置公平调度器
• 上机实验
Hadoop 维护
• 检查 HDFS 状态
• 上机实验
• Hadoop 机群之间的数据拷贝
• 增减 Hadoop 机群节点
• Hadoop 机群数据负载平衡
• 上机实验
• 名字节点(NameNode)元数据(Metadata)的备份
• 机群升级
Hadoop 机群监控和故障排除
• 一般性系统监控
• 管理 Hadoop 日志文件
• 使用 NameNode 和 JobTracker 的 Web UI
• 上机实验
• 使用 Ganglia 来监控机群
• 常见故障问题
• 用基准测试工具测试机群性能
为 Hadoop 机群加载外部数据源
• Flume 概述
• 上机实验
• Sqoop 概述
• 导入数据的最佳实践
安装和管理其他 Hadoop 项目
• Hive
• Pig
• 上机实验
• HBase