cloudera 授权 Hive 和 Pig 培训

Cloudera Training for Hive & Pig

cloudera-hadoop-training

Cloudera 的 Apache Hadoop 培训和认证使你的知识迈上新台阶

专门为数据分析和数据挖掘人员量身定做的培训科目。学员将学习和掌握使用高级脚本语言或类 SQL 语言来编写 MapReduce 任务,而无需掌握 Java 编程语言和熟悉 Hadoop API。通过掌握 Hive 和/或 Pig,将极大缩短数据分析人员设计编写和调试常见数据分析问题的周期,提高工作效率;从而为企业节省费用,缩短分析结果市场化的周期。

主要内容

Hive 如何扩展 MapReduce
如何使用 Hive 创建和操作表
Hive 基本和高级数据类型
对数据进行分区和分组
高级 Hive 特性
如何用 Pig 加载和操作数据
PigLatin 编程语言的特性
用 Pig 解决实际数据分析问题

参训相关信息

课程时长:2天

学员基础

应具备基本 SQL 或者高级脚本语言编程经验;对 Hadoop 组成和工作原理有基本了解。

授课形式

采取教师讲解和学员上机操作相结合的形式。上机实验有机地穿插在重要课题讲解后,学员能马上学以致用,巩固刚刚所学的概念和知识,转化为自身的技能应用到实战中。我们鼓励学员在课堂上大胆自由地提问,和授课教师进行互动,获得最大的收益。

课程内容纲要

Hive 导引

什么是 Hadoop
Hive 的动机

将数据导入到 Hive

Hive 体系结构
创建 Hive 表
导入数据
创建不同的数据库
上机实验

Hive 数据操作

使用 SELECT 语句检索数据
合并表格
将查询结果存入 HDFS
基本 Hive 函数
上机实验

对数据进行分区和分组

数据分区
数据分组
上机实验

Hive 高级特性

更多高级 HiveQL 表
Hive 变量
创建用户自定义函数
跟踪调试 Hive 查询

Hive 最佳实践

配置共享元数据
处理日期
使用 SerDes

Pig 读写数据

加载数据
Pig 数据结构
写数据
上机实验

PigLatin 深入

数据过滤
数据分组和排序
Pig 表达式和函数
合并多个数据集
验证数据集
高级性能(例如 COGROUP 和 STREAM)
上机实验

调试 Pig 代码

调试 Pig 程序策略
处理坏数据
使用 ILLUSTRATE

Pig 最佳实践

一般性实战经验
产品化 Pig 代码性能优化

发挥 Hive 和 Pig 优势

什么情况下使用 Hive
什么情况下使用 Pig