引言
Hadoop作为一款开源的大数据处理框架,在处理海量数据方面具有显著优势。本文将详细讲解如何在CentOS系统上搭建Hadoop集群,从基础安装到集群配置,助您轻松入门Hadoop。
准备工作
在开始之前,请确保您的CentOS系统满足以下要求:
- 操作系统:CentOS 7
- 硬件环境:至少2GB内存
- 网络环境:确保网络畅通
安装Java
Hadoop依赖于Java运行环境,因此首先需要安装Java。
- 安装Java开发包:
sudo yum install java-1.8.0-openjdk-devel
- 验证Java版本:
java -version
安装Hadoop
- 下载Hadoop安装包:
wget http://mirrors.cnnic.cn/apache/hadoop/common/hadoop-3.3.4/hadoop-3.3.4.tar.gz
- 解压安装包:
tar -zxvf hadoop-3.3.4.tar.gz -C /opt/hadoop/
- 配置环境变量:
echo 'export HADOOP_HOME=/opt/hadoop/hadoop-3.3.4' >> ~/.bash_profile
echo 'export PATH=$PATH:$HADOOP_HOME/bin:$HADOOP_HOME/sbin' >> ~/.bash_profile
source ~/.bash_profile
配置Hadoop
- 修改
hadoop-env.sh
:
cd $HADOOP_HOME/etc/hadoop
vi hadoop-env.sh
添加以下内容:
export JAVA_HOME=/usr/lib/jvm/java-1.8.0-openjdk-1.8.0.252.x86_64
- 修改
core-site.xml
:
vi core-site.xml
添加以下内容:
<configuration>
<property>
<name>fs.defaultFS</name>
<value>hdfs://master:9000</value>
</property>
<property>
<name>hadoop.tmp.dir</name>
<value>/opt/hadoop/hadoop-3.3.4/tmp</value>
</property>
</configuration>
- 修改
hdfs-site.xml
:
vi hdfs-site.xml
添加以下内容:
<configuration>
<property>
<name>dfs.replication</name>
<value>1</value>
</property>
</configuration>
- 修改
yarn-site.xml
:
vi yarn-site.xml
添加以下内容:
<configuration>
<property>
<name>yarn.resourcemanager.hostname</name>
<value>master</value>
</property>
</configuration>
- 修改
mapred-site.xml
:
vi mapred-site.xml
添加以下内容:
<configuration>
<property>
<name>mapreduce.framework.name</name>
<value>yarn</value>
</property>
</configuration>
- 配置slaves文件:
vi slaves
添加以下内容:
slave1
slave2
格式化HDFS
hdfs namenode -format
启动Hadoop服务
start-dfs.sh
start-yarn.sh
验证集群
- 进入HDFS:
hdfs dfs -ls /
- 进入YARN资源管理器:
yarn cluster -status
结语
通过以上步骤,您已经成功在CentOS系统上搭建了Hadoop集群。接下来,您可以开始使用Hadoop进行大数据处理了。祝您学习愉快!