引言

Hadoop作为一款开源的大数据处理框架,在处理海量数据方面具有显著优势。本文将详细讲解如何在CentOS系统上搭建Hadoop集群,从基础安装到集群配置,助您轻松入门Hadoop。

准备工作

在开始之前,请确保您的CentOS系统满足以下要求:

  • 操作系统:CentOS 7
  • 硬件环境:至少2GB内存
  • 网络环境:确保网络畅通

安装Java

Hadoop依赖于Java运行环境,因此首先需要安装Java。

  1. 安装Java开发包:
sudo yum install java-1.8.0-openjdk-devel
  1. 验证Java版本:
java -version

安装Hadoop

  1. 下载Hadoop安装包:
wget http://mirrors.cnnic.cn/apache/hadoop/common/hadoop-3.3.4/hadoop-3.3.4.tar.gz
  1. 解压安装包:
tar -zxvf hadoop-3.3.4.tar.gz -C /opt/hadoop/
  1. 配置环境变量:
echo 'export HADOOP_HOME=/opt/hadoop/hadoop-3.3.4' >> ~/.bash_profile
echo 'export PATH=$PATH:$HADOOP_HOME/bin:$HADOOP_HOME/sbin' >> ~/.bash_profile
source ~/.bash_profile

配置Hadoop

  1. 修改hadoop-env.sh
cd $HADOOP_HOME/etc/hadoop
vi hadoop-env.sh

添加以下内容:

export JAVA_HOME=/usr/lib/jvm/java-1.8.0-openjdk-1.8.0.252.x86_64
  1. 修改core-site.xml
vi core-site.xml

添加以下内容:

<configuration>
    <property>
        <name>fs.defaultFS</name>
        <value>hdfs://master:9000</value>
    </property>
    <property>
        <name>hadoop.tmp.dir</name>
        <value>/opt/hadoop/hadoop-3.3.4/tmp</value>
    </property>
</configuration>
  1. 修改hdfs-site.xml
vi hdfs-site.xml

添加以下内容:

<configuration>
    <property>
        <name>dfs.replication</name>
        <value>1</value>
    </property>
</configuration>
  1. 修改yarn-site.xml
vi yarn-site.xml

添加以下内容:

<configuration>
    <property>
        <name>yarn.resourcemanager.hostname</name>
        <value>master</value>
    </property>
</configuration>
  1. 修改mapred-site.xml
vi mapred-site.xml

添加以下内容:

<configuration>
    <property>
        <name>mapreduce.framework.name</name>
        <value>yarn</value>
    </property>
</configuration>
  1. 配置slaves文件:
vi slaves

添加以下内容:

slave1
slave2

格式化HDFS

hdfs namenode -format

启动Hadoop服务

start-dfs.sh
start-yarn.sh

验证集群

  1. 进入HDFS:
hdfs dfs -ls /
  1. 进入YARN资源管理器:
yarn cluster -status

结语

通过以上步骤,您已经成功在CentOS系统上搭建了Hadoop集群。接下来,您可以开始使用Hadoop进行大数据处理了。祝您学习愉快!