Hadoop運行模式詳解

一、獨立模式

Hadoop最簡單的運行模式是獨立模式，該模式下，所有的Hadoop守護進程都在運行Hadoop的同一台機器上。在獨立模式下使用HDFS和MapReduce是為了測試，演示以及使用的方便。

在獨立模式下，除了Hadoop守護進程所需的少量操作系統資源，幾乎不需要分配資源。Hadoop守護進程可以使用用戶憑據運行，不需要運行在超級用戶下。

在核心站點或開發測試環境中使用獨立模式很方便，因為所有的進程共享相同的文件系統。例如，在與其他人合作之前可以很容易地使用Hadoop分配測試數據。

sbin/start-all.sh # 啟動所有Hadoop守護進程，包括NameNode、DataNode和JobTracker、TaskTracker
sbin/stop-all.sh # 關閉所有Hadoop守護進程，包括NameNode、DataNode和JobTracker、TaskTracker

二、偽分布式模式

偽分布式模式是指Hadoop可以運行在一台機器上，但是它像在一個正確的分布式環境中運行一樣。

在偽分布式模式下，所有守護進程都在一台機器上運行，但是它們在每個節點上運行。在本例中，工作流程在多個進程之間進行切換，而不是在多個機器之間進行切換。這個時候的HDFS是跨越多個磁盤分散存儲數據的，而且可以使用JobTracker和TaskTracker，因此偽分布式模式可以模擬真正的分布式環境。

修改conf/core-site.xml文件中的hadoop.tmp.dir和fs.default.name屬性，然後啟動hadoop和yarn：
- hadoop namenode -format
- sbin/start-dfs.sh
- sbin/start-yarn.sh

三、完全分布式模式

在完全分布式模式下，Hadoop守護進程在多台機器上運行。在完全分布式模式下，Hadoop有足夠的資源和處理能力來每個節點獨立運行MapReduce任務。完全分布式模式需要額外的配置和管理工作。

在完全分布式模式下，有一個主機扮演集群管理器的角色，它能夠控制整個集群。Hadoop集群管理器名稱為YARN(Resource Manager)，它負責啟動各種應用程序，並協調各個節點上的Node Manager、Container和Application Master。

完全分布式模式可以使用Hadoop集群處理大容量數據，因為它允許在許多物理和/virtual主機之間分隔工作負載，並使得在群集中添加或刪除計算器更加容易。

為一個完全分布式Hadoop集群配置的流程，大致應該包括如下步驟：
1. 安裝jdk和hadoop
2. 配置各項參數（core-site.xml、hdfs-site.xml、yarn-site.xml、mapred-site.xml）
3. 格式化NameNode（hadoop namenode -format）
4. 啟動相關服務（start-dfs.sh、start-yarn.sh）
5. 驗證

四、基於容器的完全分布式模式

基於容器的完全分布式模式是最新的Hadoop運行模式之一。在YARN的基礎上，Hadoop引入了基於容器（也稱為Linux Control Groups）的隔離技術來進一步增強相對資源預測和對多租戶的支持。

在基於容器的模式下，每個MapReduce任務都運行在獨立的容器中。YARN的管理器可以在設定的資源限制下運行這個容器。每個容器都被分配給一個JobTracker，這個JobTracker根據需要啟動任務容器並管理調度。因此，每個容器都是JobTracker的一個實例。

為了方便使用，Hadoop引入了Docker容器技術和Docker容器映像，以便在遠程集群中部署MapReduce應用程序。這意味着可以利用Docker容器來包裝MapReduce應用程序並在基於容器的模式下運行它們。

yarn-site.xml中需要設置值為yarn.container-executor.class屬性，配置位於yarn-site.xml中，容器間隔離由Linux內核提供，因此沒有特別的軟件包需要安裝或其他配置。
容器的資源隔離和預測是由Linux Control Groups（cgroups）提供的。啟動以下命令即安裝：
$ sudo apt-get install cgroup-bin libcgroup1

五、總結

在不同的Hadoop運行模式之間進行選擇基於不同的應用場景。從簡單的獨立模式到真正的分布式環境下的偽分布式模式、完全分布式模式、基於容器的完全分布式模式，這是Hadoop運行模式的從簡單到複雜的演變過程，也是Hadoop開發者和用戶應該了解的基礎知識。

在使用不同的Hadoop運行模式之前，請提前了解每個運行模式下所涉及的配置和準備工作。通過適當的配置，各種配置實現可以使Hadoop在不同的環境中進行部署和開發。

原創文章，作者：小藍，如若轉載，請註明出處：https://www.506064.com/zh-hant/n/272290.html