Hadoop集群部署

一、硬體配置

為確保Hadoop高效運行,需要一定的硬體配置。基本要求如下:

1、每個節點的CPU最好是多核的

2、每個節點至少8GB的內存(推薦16GB)

3、每個節點至少有2塊硬碟(一塊用於操作系統和軟體的安裝,一塊用於存儲數據)

二、環境準備

在確保硬體滿足以上要求後,需要進行以下環境準備:

1、安裝Java JDK,並設置環境變數

export JAVA_HOME=/usr/java/latest
export PATH=$JAVA_HOME/bin:$PATH

2、安裝SSH服務,並在所有節點上生成SSH秘鑰

ssh-keygen -t rsa

3、設置所有節點的主機名和IP地址

vi /etc/hosts
192.168.0.101 node1
192.168.0.102 node2
192.168.0.103 node3

三、Hadoop安裝

1、下載Hadoop壓縮包並解壓

wget http://mirrors.tuna.tsinghua.edu.cn/apache/hadoop/common/hadoop-2.10.1/hadoop-2.10.1.tar.gz
tar -zxvf hadoop-2.10.1.tar.gz

2、配置hadoop-env.sh文件

vi hadoop-2.10.1/etc/hadoop/hadoop-env.sh
export JAVA_HOME=/usr/java/latest

3、配置core-site.xml文件

vi hadoop-2.10.1/etc/hadoop/core-site.xml
<configuration>
  <property>
    <name>fs.defaultFS</name>
    <value>hdfs://node1:9000</value>
  </property>
</configuration>

4、配置hdfs-site.xml文件

vi hadoop-2.10.1/etc/hadoop/hdfs-site.xml
<configuration>
  <property>
    <name>dfs.replication</name>
    <value>3</value>
  </property>
  <property>
    <name>dfs.namenode.name.dir</name>
    <value>/data/hadoop/namenode</value>
  </property>
  <property>
    <name>dfs.datanode.data.dir</name>
    <value>/data/hadoop/datanode</value>
  </property>
</configuration>

5、配置yarn-site.xml文件

vi hadoop-2.10.1/etc/hadoop/yarn-site.xml
<configuration>
  <property>
    <name>yarn.nodemanager.aux-services</name>
    <value>mapreduce_shuffle</value>
  </property>
  <property>
    <name>yarn.resourcemanager.address</name>
    <value>node1:8032</value>
  </property>
  <property>
    <name>yarn.resourcemanager.scheduler.address</name>
    <value>node1:8030</value>
  </property>
  <property>
    <name>yarn.resourcemanager.resource-tracker.address</name>
    <value>node1:8031</value>
  </property>
  <property>
    <name>yarn.resourcemanager.admin.address</name>
    <value>node1:8033</value>
  </property>
  <property>
    <name>yarn.nodemanager.resource.memory-mb</name>
    <value>4096</value>
  </property>
</configuration>

6、在所有節點上分別設置環境變數

export HADOOP_HOME=/data/hadoop/hadoop-2.10.1
export PATH=$HADOOP_HOME/bin:$PATH

7、在主節點上格式化HDFS文件系統

hdfs namenode -format

四、啟動Hadoop

1、啟動HDFS

start-dfs.sh

2、啟動YARN

start-yarn.sh

3、在瀏覽器中訪問http://node1:50070/,可以查看HDFS的狀態

4、在瀏覽器中訪問http://node1:8088/,可以查看YARN的狀態

五、運行MapReduce示常式序

1、上傳測試用的文件到HDFS

hdfs dfs -mkdir /input
hdfs dfs -put $HADOOP_HOME/etc/hadoop/* /input

2、運行WordCount示常式序

hadoop jar $HADOOP_HOME/share/hadoop/mapreduce/hadoop-mapreduce-examples-2.10.1.jar wordcount /input /output

3、將輸出文件從HDFS中下載到本地

mkdir output
hdfs dfs -get /output/* output/

六、關閉Hadoop

1、關閉YARN

stop-yarn.sh

2、關閉HDFS

stop-dfs.sh

原創文章,作者:VFBQM,如若轉載,請註明出處:https://www.506064.com/zh-tw/n/371049.html

(0)
打賞 微信掃一掃 微信掃一掃 支付寶掃一掃 支付寶掃一掃
VFBQM的頭像VFBQM
上一篇 2025-04-23 00:48
下一篇 2025-04-23 00:48

相關推薦

  • 使用Go-Redis獲取Redis集群內存使用率

    本文旨在介紹如何使用Go-Redis獲取Redis集群的內存使用率。 一、Go-Redis簡介 Go-Redis是一個用於連接Redis伺服器的Golang客戶端。它支持Redis…

    編程 2025-04-28
  • Redis5.0集群擴容用法介紹

    Redis是一個內存資料庫,越來越受到開發者的歡迎。在開發中,我們經常需要考慮Redis集群的擴容問題。而Redis5.0針對集群擴容方面進行了多項優化和改進,本文將從多個方面詳細…

    編程 2025-04-27
  • Linux上安裝Hadoop

    一、安裝Java 在安裝Hadoop前,需要先安裝Java。可以通過以下命令檢查本機是否已安裝Java: java -version 如果已安裝,則輸出Java的版本信息。如果未安…

    編程 2025-04-24
  • 淺談Docker集群

    一、Docker簡介 Docker可以理解為是一種容器技術,可以將應用程序及其所有依賴項打包在一個標準化單元中,以便在不同的計算機上交付。這種單元被稱為容器。相比於傳統的虛擬機技術…

    編程 2025-04-24
  • 如何配置hadoop環境變數

    一、下載和安裝 首先,我們需要下載和安裝hadoop。可以從官方網站上下載最新版本的hadoop,也可以使用鏡像站點下載。下載完成後,解壓縮文件並安裝。以下是在Ubuntu系統上使…

    編程 2025-04-24
  • Docker Redis 集群詳解

    一、Docker Redis 集群簡介 Docker Redis 集群是一種通過 Docker 容器實現的分散式 Redis 資料庫解決方案。通過將 Redis 資料庫實例分散在多…

    編程 2025-04-24
  • 詳解Quartz集群

    隨著業務量的增長,單機版Quartz已經難以應對分散式任務管理的需求,此時集群版Quartz就迎刃而解了。集群版Quartz的優點是可以將多台機器作為工作節點來執行任務,這個方案可…

    編程 2025-04-23
  • ClickHouse集群:從入門到精通

    ClickHouse是一個面向列存儲的分散式資料庫管理系統。它的設計目標是在大規模數據集下提供快速查詢和數據插入功能。 一、概述 ClickHouse集群由多個節點組成,每個節點通…

    編程 2025-04-23
  • Hadoop安裝教程

    Hadoop是一個分散式計算框架,它能夠快速地處理海量數據。在這裡,我們將詳細講述如何在Ubuntu系統上安裝和配置Hadoop。 一、安裝Java 在安裝Hadoop之前,我們需…

    編程 2025-04-23
  • MySQL集群搭建詳解

    一、背景介紹 MySQL是一款輕量級的開源關係型資料庫,常被用於Web應用的開發和數據存儲。在企業級應用中,為了提高MySQL的可用性和數據安全性,很多公司都會搭建MySQL集群。…

    編程 2025-04-22

發表回復

登錄後才能評論