Hadoop是一個分布式計算框架,它能夠快速地處理海量數據。在這裡,我們將詳細講述如何在Ubuntu系統上安裝和配置Hadoop。
一、安裝Java
在安裝Hadoop之前,我們需要先安裝Java運行環境。Ubuntu系統默認安裝的是OpenJDK,但是Hadoop官方推薦使用Oracle JDK。因此,我們需要先安裝Oracle JDK。
$sudo add-apt-repository ppa:webupd8team/java $sudo apt-get update $sudo apt-get install oracle-java8-installer
安裝完成後,我們可以通過以下命令驗證Java版本:
$java -version
如果輸出了Java版本信息,則說明Java安裝成功。
二、安裝Hadoop
從官網下載Hadoop二進制文件(tar.gz格式),並解壓到合適的目錄:
$tar -zxvf hadoop-3.2.1.tar.gz $sudo mv hadoop-3.2.1 /usr/local/hadoop
然後配置Hadoop環境變量:
$echo "export HADOOP_HOME=/usr/local/hadoop" >> ~/.bashrc $echo "export PATH=\${PATH}:\${HADOOP_HOME}/bin:\${HADOOP_HOME}/sbin" >> ~/.bashrc $source ~/.bashrc
三、配置Hadoop
接下來,我們需要配置Hadoop的相關文件。
1. 配置hadoop-env.sh
在Hadoop的根目錄下找到hadoop-env.sh文件,將以下代碼添加到文件末尾:
export JAVA_HOME=/usr/lib/jvm/java-8-oracle
2. 配置core-site.xml
在Hadoop的conf目錄下創建core-site.xml文件,並將以下代碼添加到文件中:
<?xml version="1.0" ?> <configuration> <property> <name>fs.defaultFS</name> <value>hdfs://localhost:9000</value> </property> </configuration>
3. 配置hdfs-site.xml
在Hadoop的conf目錄下創建hdfs-site.xml文件,並將以下代碼添加到文件中:
<?xml version="1.0" ?> <configuration> <property> <name>dfs.replication</name> <value>1</value> </property> <property> <name>dfs.namenode.name.dir</name> <value>/var/lib/hadoop/namenode</value> </property> <property> <name>dfs.datanode.data.dir</name> <value>/var/lib/hadoop/datanode</value> </property> </configuration>
4. 配置mapred-site.xml
在Hadoop的conf目錄下複製一份mapred-site.xml.template並命名為mapred-site.xml,然後將以下代碼添加到文件中:
<?xml version="1.0" ?> <configuration> <property> <name>mapreduce.framework.name</name> <value>yarn</value> </property> </configuration>
5. 配置yarn-site.xml
在Hadoop的conf目錄下創建yarn-site.xml文件,並將以下代碼添加到文件中:
<?xml version="1.0" ?> <configuration> <property> <name>yarn.nodemanager.aux-services</name> <value>mapreduce_shuffle</value> </property> <property> <name>yarn.nodemanager.aux-services.mapreduce.shuffle.class</name> <value>org.apache.hadoop.mapred.ShuffleHandler</value> </property> <property> <name>yarn.resourcemanager.hostname</name> <value>localhost</value> </property> </configuration>
四、啟動Hadoop
先格式化Hadoop的文件系統:
$hadoop namenode -format
啟動Hadoop:
$start-dfs.sh $start-yarn.sh
驗證Hadoop服務狀態:
$jps
如果輸出以下內容,則說明Hadoop服務已經啟動成功:
111 NameNode 222 SecondaryNameNode 333 DataNode 444 ResourceManager 555 NodeManager
現在,你已經成功地安裝和配置了Hadoop。你可以通過Hadoop web管理界面訪問http://localhost:9870來查看Hadoop的文件系統信息。
原創文章,作者:BMDGH,如若轉載,請註明出處:https://www.506064.com/zh-hant/n/370938.html