随着大数据时代的到来,数据量日益增长,数据处理任务也变得越来越复杂。Hadoop作为流行的大数据处理框架,已经成为广大企业及个人处理大数据的首选。Hadoop能够平滑地处理海量数据,并且在数据丢失时通过备份保护数据。
Hadoop提供了大量的API、工具和算法,可以处理各种类型的大数据,并且具有高可靠性、易扩展和灵活性。本文将介绍如何在服务器电脑上安装Hadoop系统。
1. 确认Java版本
在安装Hadoop前,必须确认Java版本是否为1.8.x。Hadoop需要运行在Java环境中,因此Java版本必须正确,否则安装过程可能会失败。在命令行中运行以下命令来检查Java版本:
java -version
如果Java版本过低或过高,请升级或降级Java版本。
2. 下载Hadoop安装包
从Hadoop官方网站(https://hadoop.apache.org/releases.html#Download)下载最新的Hadoop安装包,选择最新的稳定版本。下载完成后,解压缩该文件。
3. 修改配置文件
修改Hadoop的配置文件以便适应本机环境。主要修改以下文件:
1)hadoop-env.sh
在这个文件中,需要设置JAVA_HOME到Java的安装路径。在文件中添加以下内容:
export JAVA_HOME=/path/to/java/installation
2)core-site.xml
在这个文件中,需要设置Hadoop的默认文件系统。添加以下内容:
fs.defaultFS
hdfs://localhost:9000
3)hdfs-site.xml
在这个文件中,需要设置Hadoop的数据存储路径和复制数量。添加以下内容:
dfs.replication
1
dfs.namenode.name.dir
/path/to/name/dir
dfs.datanode.data.dir
/path/to/data/dir
4)mapred-site.xml.template
将该文件重命名为mapred-site.xml,并添加以下内容:
mapreduce.framework.name
yarn
5)yarn-site.xml
在这个文件中,需要设置YARN环境管理器的更大容器数。添加以下内容:
yarn.nodemanager.resource.memory-mb
2023
4. 格式化HDFS文件系统
在HDFS上运行Hadoop之前要格式化HDFS文件系统。格式化命令如下:
./bin/hdfs namenode -format
5. 启动Hadoop
执行以下命令启动Hadoop:
./in/start-all.sh
该命令将启动Hadoop的所有服务,包括NameNode、DataNode、ResourceManager和NodeManager等。
6. 验证安装结果
通过在浏览器中输入http://localhost:50070,可以打开Hadoop的web界面。如果成功安装,可以在该页面上查看如下信息:
Hadoop的DFS健康状态;
节点信息;
Hadoop的各种应用程序等。
通过在终端输入以下命令,可以查看Hadoop是否运行正常:
jps
如果出现如下输出,则表示Hadoop系统已成功启动:
DataNode
NameNode
SecondaryNameNode
NodeManager
ResourceManager
本文详细介绍了如何在服务器电脑上安装Hadoop系统。遵循以上步骤,可以顺利地实现Hadoop的安装和配置。Hadoop的强大和灵活性,使其已经成为大数据处理的首选框架。
相关问题拓展阅读:
- 如何在ubuntu上安装hadoop
- 怎样在windows电脑上安装Hadoop集群?
如何在ubuntu上安装hadoop
hadoop官方网站对其安装配置hadoop的步骤太粗略,在这篇博客中,我会详细介绍在ubuntu中如何安装hadoop,并处理可能出现的一些问题。这里介绍的方法是用一台机器虚拟多个节点,这个方法已在如下环境中测试通过:
OS: Ubuntu 13.10
Hadoop: 2.2.0 (2.x.x)
个人认为在其他版本上安装Hadoop 2.x.x的方法基本相同,因此如果严格按照我给的步骤,应该不会有问题。
前提
安装 jdk 和 openssh
$ sudo apt-get install openjdk-7-jdk
$ java -version
java version “1.7.0_55”
OpenJDK Runtime Environment (IcedTea 2.4.7) (7u55-2.4.7-1ubuntu1~0.13.10.1)
OpenJDK 64-Bit Server VM (build 24.51-b03, mixed mode)
$ sudo apt-get install openssh-server
openjdk的默认路径是 /usr/lib/jvm/java-7-openjdk-amd64. 如果你的默认路径和我的不同,请再后面的操作中替换此路径。
添加Hadoop用户组和用户
$ sudo addgroup hadoop
$ sudo adduser –ingroup hadoop hduser
$ sudo adduser hduser sudo
然后切换到hduser账户
配置SSH
现在你在hduser账户中。 请注意下面命令中 ” 是两个单引号 ‘
$ ssh-keygen -t rsa -P ”
将public key加入到authorized_keys中,这样hadoop在运行ssh时就不需要输入密码了
$ cat ~/.ssh/id_rsa.pub >> ~/穗租冲.ssh/authorized_keys
现在我们测试一下ssh
$ ssh localhost
如果你被询问是否确认连接,输入yes。如果你发现在即不需要输密码,cool — 至少到目型历前位置你是正确的。否则,请debug。
$ exit
下载Hadoop 2.2.0 (2.x.x)
$ cd ~
$ wget
$ sudo tar -xzvf hadoop-2.2.0.tar.gz -C /usr/local
$ cd /usr/local
$ sudo mv hadoop-2.2.0 hadoop
$ sudo chown -R hduser:hadoop hadoop
配置Hadoop环境
$ cd ~
$ vim .bashrc
将下面的内容复制到.bashrc中
#Hadoop variables
export JAVA_HOME=/usr/lib/jvm/猜歼java-7-openjdk-amd64
export HADOOP_INSTALL=/usr/local/hadoop
export PATH=$PATH:$HADOOP_INSTALL/bin
export PATH=$PATH:$HADOOP_INSTALL/in
export HADOOP_MAPRED_HOME=$HADOOP_INSTALL
export HADOOP_COMMON_HOME=$HADOOP_INSTALL
export HADOOP_HDFS_HOME=$HADOOP_INSTALL
export YARN_HOME=$HADOOP_INSTALL
###end of paste
$ cd /usr/local/hadoop/etc/hadoop
$ vim hadoop-env.sh
将下面的三行加入到hadoop-env.sh中,删除原来的 “export JAVA_HOME”那行
# begin of paste
export JAVA_HOME=/usr/lib/jvm/java-7-openjdk-amd64/
export HADOOP_COMMON_LIB_NATIVE_DIR=”/usr/local/hadoop/lib/native/”
export HADOOP_OPTS=”$HADOOP_OPTS -Djava.library.path=/usr/local/hadoop/lib/”
### end of paste
配置Hadoop
$ cd /usr/local/hadoop/etc/hadoop
$ vim core-site.xml
将下面的内容复制到 标签内
fs.default.name
$ vim yarn-site.xml
将下面的内容复制到 标签内
yarn.nodemanager.aux-services
mapreduce_shuffle
yarn.nodemanager.aux-services.mapreduce.shuffle.class
org.apache.hadoop.mapred.ShuffleHandler
$ mv mapred-site.xml.template mapred-site.xml
$ vim mapred-site.xml
将下面的内容复制到 标签内
mapreduce.framework.name
yarn
$ mkdir -p ~/mydata/hdfs/namenode
$ mkdir -p ~/mydata/hdfs/datanode
$ vim hdfs-site.xml
将下面的内容复制到 标签内
dfs.replication
1
dfs.namenode.name.dir
file:/home/hduser/mydata/hdfs/namenode
dfs.datanode.data.dir
file:/home/hduser/mydata/hdfs/datanode
格式化 namenode
之一次启动hadoop服务之前,必须执行格式化namenode
$ hdfs namenode -format
启动服务
$ start-dfs.sh && start-yarn.sh
使用jps查看服务
$ jps
如果一切顺利,你会看到:
17785 SecondaryNameNode
17436 NameNode
17591 DataNode
18096 NodeManager
17952 ResourceManager
23635 Jps
当执行start-dfs.sh的时候,你可能会看到 WARN util.NativeCodeLoader: Unable to load native-hadoop library for your platform… using builtin-java classes where applicable ,不用担心,其实可以正常使用,我们会在trouble shooting那一节谈到这个问题。
测试并运行示例
$ cd /usr/local/hadoop
$ hadoop jar ./share/hadoop/mapreduce/hadoop-mapreduce-client-jobclient-2.2.0-tests.jar TestDFSIO -write -nrFiles 20 -fileSize 10
$ hadoop jar ./share/hadoop/mapreduce/hadoop-mapreduce-client-jobclient-2.2.0-tests.jar TestDFSIO -clean
$ hadoop jar ./share/hadoop/mapreduce/hadoop-mapreduce-examples-2.2.0.jar pi 2 5
网页界面
Cluster status:
HDFS status:
Secondary NameNode status:
Trouble-shooting
1. Unable to load native-hadoop library for your platform.
这是一个警告,基本不会影响hadoop的使用,但是在之后我们还是给予解决这个warning的方法。通常来讲,出现这个warning的原因是你在64位的系统上,但是hadoop的package是为32位的机器编译的。在这种情况下,确认你不要忘记在hadoop-env.sh中加入这几行:
export HADOOP_COMMON_LIB_NATIVE_DIR=”/usr/local/hadoop/lib/native/”
export HADOOP_OPTS=”$HADOOP_OPTS -Djava.library.path=/usr/local/hadoop/lib/”
否则你的hadoop不能正常工作。如果你用的系统和hadoop的package相符(32位),这两行是不必要的。
我们不希望有warning,如何解决?方法是自己重新编译源代码。重新编译其实很简单:
安装 maven
$ sudo apt-get install maven
安装 protobuf-2.5.0 or later
$ curl -# -O
$ tar -xzvf protobuf-2.5.0.tar.gz
$ cd protobuf-2.5.0
$ ./configure –prefix=/usr
$ make
$ sudo make install
$ cd ..
现在并编译hadoop源代码,注意编译之前需要先给源代码打个补丁
$ wget
$ tar -xzvf hadoop-2.2.0-src.tar.gz
$ cd hadoop-2.2.0-src
$ wget
$ patch -p0
$ mvn package -Pdist,native -DskipTests -Dtar
现在到 hadoop-dist/target/ 目录下, 你会看到 hadoop-2.2.0.tar.gz or hadoop-2.2.0, 他们就是编译后的hadoop包。 你可以使用自己编译的包,同样按照之前的步骤安装64位的hadoop。如果你已经安装了32位的hadoop,只需要替换 /usr/local/hadoop/lib/native 目录,然后将如下两行从hadoop-env.sh中移除即可:
export HADOOP_COMMON_LIB_NATIVE_DIR=”/usr/local/hadoop/lib/native/”
export HADOOP_OPTS=”$HADOOP_OPTS -Djava.library.path=/usr/local/hadoop/lib/”
2. datanode 不能被启动
一个常用的方法是先删掉datanode对应的文件夹试试,注意这样做可能会丢失你的数据。另一种方法是到 /usr/local/hadoop/logs/hadoop-hduser-datanode-*.log 中检查原因并对症下药。
怎样在windows电脑上安装Hadoop集群?
网迅老段族页链亩燃升接
之一步、安装虚余卖手拟机(可以用vmware) 第二步、安装linux系统(可以用centos) 第三步、搭建hadoop集群(建配信议直接搭完全分布式), 去八斗学竖嫌院看
关于作为服务器的电脑怎么安装hadoop的介绍到此就结束了,不知道你从中找到你需要的信息了吗 ?如果你还想了解更多这方面的信息,记得收藏关注本站。