一、硬體配置
為確保Hadoop高效運行,需要一定的硬體配置。基本要求如下:
1、每個節點的CPU最好是多核的
2、每個節點至少8GB的內存(推薦16GB)
3、每個節點至少有2塊硬碟(一塊用於操作系統和軟體的安裝,一塊用於存儲數據)
二、環境準備
在確保硬體滿足以上要求後,需要進行以下環境準備:
1、安裝Java JDK,並設置環境變數
export JAVA_HOME=/usr/java/latest
export PATH=$JAVA_HOME/bin:$PATH
2、安裝SSH服務,並在所有節點上生成SSH秘鑰
ssh-keygen -t rsa
3、設置所有節點的主機名和IP地址
vi /etc/hosts
192.168.0.101 node1
192.168.0.102 node2
192.168.0.103 node3
三、Hadoop安裝
1、下載Hadoop壓縮包並解壓
wget http://mirrors.tuna.tsinghua.edu.cn/apache/hadoop/common/hadoop-2.10.1/hadoop-2.10.1.tar.gz
tar -zxvf hadoop-2.10.1.tar.gz
2、配置hadoop-env.sh文件
vi hadoop-2.10.1/etc/hadoop/hadoop-env.sh
export JAVA_HOME=/usr/java/latest
3、配置core-site.xml文件
vi hadoop-2.10.1/etc/hadoop/core-site.xml
<configuration>
<property>
<name>fs.defaultFS</name>
<value>hdfs://node1:9000</value>
</property>
</configuration>
4、配置hdfs-site.xml文件
vi hadoop-2.10.1/etc/hadoop/hdfs-site.xml
<configuration>
<property>
<name>dfs.replication</name>
<value>3</value>
</property>
<property>
<name>dfs.namenode.name.dir</name>
<value>/data/hadoop/namenode</value>
</property>
<property>
<name>dfs.datanode.data.dir</name>
<value>/data/hadoop/datanode</value>
</property>
</configuration>
5、配置yarn-site.xml文件
vi hadoop-2.10.1/etc/hadoop/yarn-site.xml
<configuration>
<property>
<name>yarn.nodemanager.aux-services</name>
<value>mapreduce_shuffle</value>
</property>
<property>
<name>yarn.resourcemanager.address</name>
<value>node1:8032</value>
</property>
<property>
<name>yarn.resourcemanager.scheduler.address</name>
<value>node1:8030</value>
</property>
<property>
<name>yarn.resourcemanager.resource-tracker.address</name>
<value>node1:8031</value>
</property>
<property>
<name>yarn.resourcemanager.admin.address</name>
<value>node1:8033</value>
</property>
<property>
<name>yarn.nodemanager.resource.memory-mb</name>
<value>4096</value>
</property>
</configuration>
6、在所有節點上分別設置環境變數
export HADOOP_HOME=/data/hadoop/hadoop-2.10.1
export PATH=$HADOOP_HOME/bin:$PATH
7、在主節點上格式化HDFS文件系統
hdfs namenode -format
四、啟動Hadoop
1、啟動HDFS
start-dfs.sh
2、啟動YARN
start-yarn.sh
3、在瀏覽器中訪問http://node1:50070/,可以查看HDFS的狀態
4、在瀏覽器中訪問http://node1:8088/,可以查看YARN的狀態
五、運行MapReduce示常式序
1、上傳測試用的文件到HDFS
hdfs dfs -mkdir /input
hdfs dfs -put $HADOOP_HOME/etc/hadoop/* /input
2、運行WordCount示常式序
hadoop jar $HADOOP_HOME/share/hadoop/mapreduce/hadoop-mapreduce-examples-2.10.1.jar wordcount /input /output
3、將輸出文件從HDFS中下載到本地
mkdir output
hdfs dfs -get /output/* output/
六、關閉Hadoop
1、關閉YARN
stop-yarn.sh
2、關閉HDFS
stop-dfs.sh
原創文章,作者:VFBQM,如若轉載,請註明出處:https://www.506064.com/zh-tw/n/371049.html