CentOS轻松搭建Hadoop集群：从入门到实战

引言

Hadoop作为一款开源的大数据处理框架，在处理海量数据方面具有显著优势。本文将详细讲解如何在CentOS系统上搭建Hadoop集群，从基础安装到集群配置，助您轻松入门Hadoop。

准备工作

在开始之前，请确保您的CentOS系统满足以下要求：

操作系统：CentOS 7
硬件环境：至少2GB内存
网络环境：确保网络畅通

安装Java

Hadoop依赖于Java运行环境，因此首先需要安装Java。

安装Java开发包：

sudo yum install java-1.8.0-openjdk-devel

验证Java版本：

java -version

安装Hadoop

下载Hadoop安装包：

wget http://mirrors.cnnic.cn/apache/hadoop/common/hadoop-3.3.4/hadoop-3.3.4.tar.gz

解压安装包：

tar -zxvf hadoop-3.3.4.tar.gz -C /opt/hadoop/

配置环境变量：

echo 'export HADOOP_HOME=/opt/hadoop/hadoop-3.3.4' >> ~/.bash_profile
echo 'export PATH=$PATH:$HADOOP_HOME/bin:$HADOOP_HOME/sbin' >> ~/.bash_profile
source ~/.bash_profile

配置Hadoop

修改hadoop-env.sh：

cd $HADOOP_HOME/etc/hadoop
vi hadoop-env.sh

添加以下内容：

export JAVA_HOME=/usr/lib/jvm/java-1.8.0-openjdk-1.8.0.252.x86_64

修改core-site.xml：

vi core-site.xml

添加以下内容：

<configuration>
    <property>
        <name>fs.defaultFS</name>
        <value>hdfs://master:9000</value>
    </property>
    <property>
        <name>hadoop.tmp.dir</name>
        <value>/opt/hadoop/hadoop-3.3.4/tmp</value>
    </property>
</configuration>

修改hdfs-site.xml：

vi hdfs-site.xml

添加以下内容：

<configuration>
    <property>
        <name>dfs.replication</name>
        <value>1</value>
    </property>
</configuration>

修改yarn-site.xml：

vi yarn-site.xml

添加以下内容：

<configuration>
    <property>
        <name>yarn.resourcemanager.hostname</name>
        <value>master</value>
    </property>
</configuration>

修改mapred-site.xml：

vi mapred-site.xml

添加以下内容：

<configuration>
    <property>
        <name>mapreduce.framework.name</name>
        <value>yarn</value>
    </property>
</configuration>

配置slaves文件：

vi slaves

添加以下内容：

slave1
slave2

格式化HDFS

hdfs namenode -format

启动Hadoop服务

start-dfs.sh
start-yarn.sh

验证集群

进入HDFS：

hdfs dfs -ls /

进入YARN资源管理器：

yarn cluster -status

结语

通过以上步骤，您已经成功在CentOS系统上搭建了Hadoop集群。接下来，您可以开始使用Hadoop进行大数据处理了。祝您学习愉快！