bannerHadoop1

Cloudera 授权 Hadoop 开发者培训

课程目标

适用于使用 Apache Hadoop 来创建开发强大的数据处理应用的各类 Hadoop 开发技术人员。通过本课程的学习,学员将掌握开启海量数据处理技术大门的金钥匙,为企业提供前所未有的从所有不同类型数据里挖掘商业价值的机会。

课程内容

• Hadoop 分布式文件系统(HDFS)和 MapReduce 的工作原理
• 如何利用 JAVA API 或者其他编程语言来开发 MapReduce 应用
• MapReduce 任务开发中的注意事项
• 如何在 Hadoop 上实现常见算法
• Hadoop 开发和调试的最佳实用经验
• 如何利用其他 Hadoop 相关技术,包括 Apache Hive, Apache Pig, Sqoop 和 Oozie 等
• 满足解决实际数据分析问题的高级 Hadoop API

参训相关信息

课程时间:4 天

学员基础

具备编程经验的开发人员(最好是面向对象高级编程语言,譬如 Java)。不需要事先掌握 Hadoop 相关知识。

授课形式

采取教师讲解和学员上机操作相结合的形式。上机实验有机地穿插在重要课题讲解后,学员能马上学以致用,巩固刚刚所学的概念和知识,转化为自身的技能应用到实战中。我们鼓励学员在课堂上大胆自由地提问,和授课教师进行互动,获得最大的收益。

认证考试

Cloudera Apache Hadoop 资格开发员考试提供 Hadoop 上软件开发在业界唯一且最具权威性、并得到全球认可的认证。为企业提供高质量保证的 Hadoop 开发人员;为工程师技术人员提供了最新的技术装备,开拓了职业发展。

课程内容纲要

Hadoop 的来源和动机

• 传统大规模系统存在的问题
• 对一种新的解决方案的需求

Hadoop 基本概念

• Hadoop 概述
• Hadoop 分布式文件系统
• 上机实验
• MapReduce 工作原理
• 上机实验
• Hadoop 机群剖析
• Hadoop 生态系统

编写 MapReduce 程序

• MapReduce 流程
• 剖析一个 MapReduce 程序
• 基本 MapReduce API 概念
• 驱动代码
• Mapper
• Reducer
• Hadoop 流 API
• 使用 Eclipse 进行快速开发
• 上机实验
• 新 MapReduce API

集成 Hadoop 到现有工作流

• 关系数据库管理系统
• 存储系统
• 利用 Sqoop 从关系型数据库系统中导入数据到 Hadoop
• 上机实验
• 利用 Flume 导入实时数据到 Hadoop
• 使用 FuseDFS 和 Hoop 访问 HDFS

Hadoop API 深入探讨

• ToolRunner 介绍
• 使用 MRUnit 进行测试
• 利用 Combiners 来减少中间数据
• 使用 Configure 和 Close 方法来进行 Map/Reduce 设置和关闭
• 编写 Partitioner 来优化负载平衡
• 上机实验
• 直接访问 Hadoop 分布式文件系统(HDFS)
• 使用分布式缓存(Distributed Cache)
• 上机实验

常见 MapReduce 算法

• Hadoop 概述
• Hadoop 分布式文件系统
• 上机实验
• MapReduce 工作原理
• 上机实验
• 如何利用其他 Hadoop 相关技术,包括 Apache Hive, Apache Pig, Sqoop 和 Oozie 等
• 满足解决实际数据分析问题的高级 Hadoop API

使用 Hive 和 Pig

• Hive 基础
• Pig 基础
• 上机实验

实用开发技巧

• 排序和搜索
• 索引
• 上机实验
• 用 Mahout 进行机器学习
• Term Frequency – Inverse Document Frequency
• Word Co-Occurrence
• 上机实验

使用 Hive 和 Pig

• Hive 基础
• Pig 基础
• 上机实验

实用开发技巧

• 调试 MapReduce 代码
• 使用 LocalJobRunner 模式进行轻松调试
• 利用计数器来检索任务信息
• 日志
• 可分割文件格式
• 如何确定最优的 Reducer 数目
• 只使用 Mapper 的 MapReduce 任务
• 上机试验

高级 MapReduce 编程

• 定制 Writables 和 WritableComparables
• 使用 SequenceFiles 和 Avro 文件保存二进制数据
• 创建 InputFormats 和 OutputFormats
• 上机实验

用 MapReduce 合并数据集

• 在 Map 方的合并
• 辅助排序在 Reducer 方的合并

图的操作

• 图论简介
• 用 Hadoop 表示图
• 一个图算法的实现:单源最短路径

使用 Oozie 创建工作流

• 使用 Oozie 的动机
• Oozie 工作流定义格式
• 上机实验