bannerHadoop2

Cloudera 授权 Hadoop 管理员培训

课程目标

专门为系统管理员和其他技术人员量身定做的课程,以进行用于产品或开发测试环境中的 Hadoop 机群的安装部署,管理和优化,为企业进行海量数据存储和分析搭建经济高效和高可靠的系统平台。

课程内容

• Hadoop 分布式文件系统(HDFS)和 MapReduce 的工作原理
• 如何优化 Hadoop 机群所需要的硬件配置
• 搭建 Hadoop 机群所需要考虑的网络因素
• 如何利用 Hadoop 配置选项进行系统性能调优
• 如何利用 FairScheduler 为多用户提供服务级别保障
• Hadoop 机群维护和监控
• 如何使用 Flume 从动态生成的文件加载数据到 Hadoop
• 如何使用 Sqoop 从关系型数据库加载数据
• 使用其他 Hadoop 相关系统工具(诸如 Hive,Pig 和 HBase)所涉及到的系统管理问题

参训相关信息

课程时间:3 天

学员基础

具备基本 Linux 系统管理经验。不需要事先掌握 Hadoop 相关知识。

授课形式

采取教师讲解和学员上机操作相结合的形式。上机实验有机地穿插在重要课题讲解后,学员能马上学以致用,巩固刚刚所学的概念和知识,转化为自身的技能应用到实战中。我们鼓励学员在课堂上大胆自由地提问,和授课教师进行互动,获得最大的收益。

认证考试

Cloudera Apache Hadoop 资格管理员考试提供业界进行 Hadoop 安装部署及管理调优领域里唯一且最具权威性、并得到全球认可的认证。为企业提供了高质量可以依赖的 Hadoop 管理员,保障了海量数据存储和处理计算平台系统的高质量;为工程师技术人员提供了最新的技术装备,开拓了职业发展。

课程内容纲要

Hadoop 和 HDFS 入门

• 为什么使用 Hadoop?
• HDFS 介绍
• MapReduce介绍
• Hive, Pig, HBase 和其他 Hadoop 生态系统项目
• 上机实验

Hadoop 机群规划

• 一般考虑因素
• 选择合适的硬件
• 网络考虑
• 配置节点

配置和部署 Hadoop 机群

• 部署种类
• 安装 Hadoop
• 使用 Cloudera Manager 进行简易安装
• 典型配置参数
• 机柜配置(Rack Awareness)
• 使用配置管理工具
• 上机实验

管理调度任务

• 管理运行的任务
• 上机实验
• 先进先出调度器(FIFO Scheduler)
• 公平调度器(FairScheduler)
• 配置公平调度器
• 上机实验

Hadoop 维护

• 检查 HDFS 状态
• 上机实验
• Hadoop 机群之间的数据拷贝
• 增减 Hadoop 机群节点
• Hadoop 机群数据负载平衡
• 上机实验
• 名字节点(NameNode)元数据(Metadata)的备份
• 机群升级

Hadoop 机群监控和故障排除

• 一般性系统监控
• 管理 Hadoop 日志文件
• 使用 NameNode 和 JobTracker 的 Web UI
• 上机实验
• 使用 Ganglia 来监控机群
• 常见故障问题
• 用基准测试工具测试机群性能

为 Hadoop 机群加载外部数据源

• Flume 概述
• 上机实验
• Sqoop 概述
• 导入数据的最佳实践

安装和管理其他 Hadoop 项目

• Hive
• Pig
• 上机实验
• HBase