Hadoop集群部署

一、硬體配置

為確保Hadoop高效運行，需要一定的硬體配置。基本要求如下：

1、每個節點的CPU最好是多核的

2、每個節點至少8GB的內存（推薦16GB）

3、每個節點至少有2塊硬碟（一塊用於操作系統和軟體的安裝，一塊用於存儲數據）

二、環境準備

在確保硬體滿足以上要求後，需要進行以下環境準備：

1、安裝Java JDK，並設置環境變數

export JAVA_HOME=/usr/java/latest
export PATH=$JAVA_HOME/bin:$PATH

2、安裝SSH服務，並在所有節點上生成SSH秘鑰

ssh-keygen -t rsa

3、設置所有節點的主機名和IP地址

vi /etc/hosts
192.168.0.101 node1
192.168.0.102 node2
192.168.0.103 node3

三、Hadoop安裝

1、下載Hadoop壓縮包並解壓

wget http://mirrors.tuna.tsinghua.edu.cn/apache/hadoop/common/hadoop-2.10.1/hadoop-2.10.1.tar.gz
tar -zxvf hadoop-2.10.1.tar.gz

2、配置hadoop-env.sh文件

vi hadoop-2.10.1/etc/hadoop/hadoop-env.sh
export JAVA_HOME=/usr/java/latest

3、配置core-site.xml文件

vi hadoop-2.10.1/etc/hadoop/core-site.xml
<configuration>
  <property>
    <name>fs.defaultFS</name>
    <value>hdfs://node1:9000</value>
  </property>
</configuration>

4、配置hdfs-site.xml文件

vi hadoop-2.10.1/etc/hadoop/hdfs-site.xml
<configuration>
  <property>
    <name>dfs.replication</name>
    <value>3</value>
  </property>
  <property>
    <name>dfs.namenode.name.dir</name>
    <value>/data/hadoop/namenode</value>
  </property>
  <property>
    <name>dfs.datanode.data.dir</name>
    <value>/data/hadoop/datanode</value>
  </property>
</configuration>

5、配置yarn-site.xml文件

vi hadoop-2.10.1/etc/hadoop/yarn-site.xml
<configuration>
  <property>
    <name>yarn.nodemanager.aux-services</name>
    <value>mapreduce_shuffle</value>
  </property>
  <property>
    <name>yarn.resourcemanager.address</name>
    <value>node1:8032</value>
  </property>
  <property>
    <name>yarn.resourcemanager.scheduler.address</name>
    <value>node1:8030</value>
  </property>
  <property>
    <name>yarn.resourcemanager.resource-tracker.address</name>
    <value>node1:8031</value>
  </property>
  <property>
    <name>yarn.resourcemanager.admin.address</name>
    <value>node1:8033</value>
  </property>
  <property>
    <name>yarn.nodemanager.resource.memory-mb</name>
    <value>4096</value>
  </property>
</configuration>

6、在所有節點上分別設置環境變數

export HADOOP_HOME=/data/hadoop/hadoop-2.10.1
export PATH=$HADOOP_HOME/bin:$PATH

7、在主節點上格式化HDFS文件系統

hdfs namenode -format

四、啟動Hadoop

1、啟動HDFS

start-dfs.sh

2、啟動YARN

start-yarn.sh

3、在瀏覽器中訪問http://node1:50070/，可以查看HDFS的狀態

4、在瀏覽器中訪問http://node1:8088/，可以查看YARN的狀態

五、運行MapReduce示常式序

1、上傳測試用的文件到HDFS

hdfs dfs -mkdir /input
hdfs dfs -put $HADOOP_HOME/etc/hadoop/* /input

2、運行WordCount示常式序

hadoop jar $HADOOP_HOME/share/hadoop/mapreduce/hadoop-mapreduce-examples-2.10.1.jar wordcount /input /output

3、將輸出文件從HDFS中下載到本地

mkdir output
hdfs dfs -get /output/* output/

六、關閉Hadoop

1、關閉YARN

stop-yarn.sh

2、關閉HDFS

stop-dfs.sh

原創文章，作者：VFBQM，如若轉載，請註明出處：https://www.506064.com/zh-tw/n/371049.html