对hadoop初学者来说,或者说正在使用hadoop的开发者来说,hadoop环境的搭建不是一件省心的事,甚至很多博客上都重要的事说三便“不要花精力在搭建环境之上”,可见很多人在搭建环境时会遇到很多问题,并且会花费很多时间,本文将把所有的“玩法”都过一下,相信看完之后,你心里就有数了,将会依据自己的需求来选择合适的搭建方式。
部署方式 |
优势 |
不足 |
适合场合 |
Apache Hadoop 单机 |
单台机器即可 简单 所需组件少 |
一般不用于生产 无HA 无法体现分布式 |
初学 开发测试 小规模试用 |
Apache Hadoop 集群 |
灵活的版本选择 自主可控性较好 应用场景广泛 |
需专业人员管理 组件间兼容性差 配置、运维复杂 |
学习 开发测试 生产环境 |
CDH或 HDP |
Web管理和监控 开源厂商支持 兼容性和稳定高 |
仍需大量配置 受制于厂商 更新版本稍慢 |
开发测试 生产环境 |
其它厂商类CDH |
有自己扩展特性 厂商支持 |
非免费 严重受制于厂商 |
生产环境 |
编写shell部署运维脚本 |
自控性好 配置简单 灵活性好 |
需编写脚本 测试费时 需不断完善 |
学习 开发测试 生产环境 |
通过上面的对比,总结如下:
-
初学hadoop,希望快速开始,采用第一种apache单机,无基础的情况下1个小即可完成,有linux基础除掉安装虚拟机、linux的时间,10分钟可完成;
-
用于生产环境或测试环境,采用第三种cdh方式,管理集群都是图形化,但是缺少了对内部深层次的了解;
-
对于深入学习者,已经有一定经验和积累了,可以选最后一种,不断可以深入的了解内部各进程依赖关系,还可以提升shell脚本文件编程水平。
关于每一种环境的详细搭建方式,将会分几个章节在后面分别介绍,另外如果可能也会录制一些免费视频,详细的讲解一下操作步骤。