培训受众:
具备基本Linux系统管理经验,无需具备掌握Hadoop相关知识。
课程收益:
学习系统管理的概念和Apache Hadoop的最佳实践,从安装和配置到负载均衡和调优。这个4天的的课程通过动手时间来赋予你部署的经验,以及更多的安全方面的经验和故障排除。课程结束后,学员可以去参加Cloudera和Apache Hadoop管理员(CCAH)考试来验证和认证他们的Hadoop经验。
培训颁发证书:
Cloudera ApacheHadoop资格管理员考试提供业界进行Hadoop安装部署及管理调优领域里唯一且最具权威性、并得到全球认可的认证。为企业提供了高质量可以依赖的Hadoop管理员,保障了海量数据存储和处理计算平台系统的高质量;为工程师技术人员提供了最新的技术装备,开拓了职业发展。
课程摘要:
• Hadoop分布式文件系统(HDFS)和MapReduce的工作原理
• 如何优化Hadoop机群所需要的硬件配置
• 搭建Hadoop机群所需要考虑的网络因素
• 如何利用Hadoop配置选项进行系统性能调优
• 如何利用FairScheduler为多用户提供服务级别保障
• Hadoop机群维护和监控
• 如何使用Flume从动态生成的文件加载数据到Hadoop
• 如何使用Sqoop从关系型数据库加载数据
• 使用其他Hadoop相关系统工具(诸如Hive,Pig和H)所涉及到的系统管理问题
课程大纲:
1)为什么使用Hadoop?
• HDFS介绍
• MapReduce介绍
• Hive, Pig, H和其他Hadoop生态系统项目
• 上机实验
2)Hadoop机群规划
• 一般考虑因素
• 选择合适的硬件
• 网络考虑
• 配置节点
3)配置和部署Hadoop机群
• 部署种类
• 安装Hadoop
• 使用Cloudera Manager进行简易安装
• 典型配置参数
• 机柜配置(Rack Awareness)
• 使用配置管理工具
• 上机实验
4)管理调度任务
• 管理运行的任务
• 上机实验
• 先进先出调度器(FIFO Scheduler)
• 公平调度器(FairScheduler)
• 配置公平调度器
• 上机实验
5)Hadoop维护
• 检查HDFS状态
• 上机实验
• Hadoop机群之间的数据拷贝
• 增减Hadoop机群节点
• Hadoop机群数据负载平衡
• 上机实验
• 名字节点(NameNode)元数据(data)的备份
• 机群升级
6)Hadoop机群监控和故障排除
• 一般性系统监控
• 管理Hadoop日志文件
• 使用NameNode和JobTracker的Web UI
• 上机实验
• 使用Ganglia来监控机群
• 常见故障问题
• 用基准测试工具测试机群性能
7)为Hadoop机群加载外部数据源
• Flume概述
• 上机实验
• Sqoop概述
• 导入数据的最佳实践
8)安装和管理其他Hadoop项目
• Hive
• Pig
• 其他上机实验