cloudera 授权 Hive 和 Pig 培训
Cloudera Training for Hive & Pig
Cloudera 的 Apache Hadoop 培训和认证使你的知识迈上新台阶
专门为数据分析和数据挖掘人员量身定做的培训科目。学员将学习和掌握使用高级脚本语言或类 SQL 语言来编写 MapReduce 任务,而无需掌握 Java 编程语言和熟悉 Hadoop API。通过掌握 Hive 和/或 Pig,将极大缩短数据分析人员设计编写和调试常见数据分析问题的周期,提高工作效率;从而为企业节省费用,缩短分析结果市场化的周期。
主要内容
Hive 如何扩展 MapReduce
如何使用 Hive 创建和操作表
Hive 基本和高级数据类型
对数据进行分区和分组
高级 Hive 特性
如何用 Pig 加载和操作数据
PigLatin 编程语言的特性
用 Pig 解决实际数据分析问题
参训相关信息
课程时长:2天
学员基础
应具备基本 SQL 或者高级脚本语言编程经验;对 Hadoop 组成和工作原理有基本了解。
授课形式
采取教师讲解和学员上机操作相结合的形式。上机实验有机地穿插在重要课题讲解后,学员能马上学以致用,巩固刚刚所学的概念和知识,转化为自身的技能应用到实战中。我们鼓励学员在课堂上大胆自由地提问,和授课教师进行互动,获得最大的收益。
课程内容纲要
Hive 导引
什么是 Hadoop
Hive 的动机
将数据导入到 Hive
Hive 体系结构
创建 Hive 表
导入数据
创建不同的数据库
上机实验
Hive 数据操作
使用 SELECT 语句检索数据
合并表格
将查询结果存入 HDFS
基本 Hive 函数
上机实验
对数据进行分区和分组
数据分区
数据分组
上机实验
Hive 高级特性
更多高级 HiveQL 表
Hive 变量
创建用户自定义函数
跟踪调试 Hive 查询
Hive 最佳实践
配置共享元数据
处理日期
使用 SerDes
Pig 读写数据
加载数据
Pig 数据结构
写数据
上机实验
PigLatin 深入
数据过滤
数据分组和排序
Pig 表达式和函数
合并多个数据集
验证数据集
高级性能(例如 COGROUP 和 STREAM)
上机实验
调试 Pig 代码
调试 Pig 程序策略
处理坏数据
使用 ILLUSTRATE
Pig 最佳实践
一般性实战经验
产品化 Pig 代码性能优化
发挥 Hive 和 Pig 优势
什么情况下使用 Hive
什么情况下使用 Pig