一、獨立模式
Hadoop最簡單的運行模式是獨立模式,該模式下,所有的Hadoop守護進程都在運行Hadoop的同一台機器上。在獨立模式下使用HDFS和MapReduce是為了測試,演示以及使用的方便。
在獨立模式下,除了Hadoop守護進程所需的少量操作系統資源,幾乎不需要分配資源。Hadoop守護進程可以使用用戶憑據運行,不需要運行在超級用戶下。
在核心站點或開發測試環境中使用獨立模式很方便,因為所有的進程共享相同的文件系統。例如,在與其他人合作之前可以很容易地使用Hadoop分配測試數據。
sbin/start-all.sh # 啟動所有Hadoop守護進程,包括NameNode、DataNode和JobTracker、TaskTracker sbin/stop-all.sh # 關閉所有Hadoop守護進程,包括NameNode、DataNode和JobTracker、TaskTracker
二、偽分散式模式
偽分散式模式是指Hadoop可以運行在一台機器上,但是它像在一個正確的分散式環境中運行一樣。
在偽分散式模式下,所有守護進程都在一台機器上運行,但是它們在每個節點上運行。在本例中,工作流程在多個進程之間進行切換,而不是在多個機器之間進行切換。這個時候的HDFS是跨越多個磁碟分散存儲數據的,而且可以使用JobTracker和TaskTracker,因此偽分散式模式可以模擬真正的分散式環境。
修改conf/core-site.xml文件中的hadoop.tmp.dir和fs.default.name屬性,然後啟動hadoop和yarn: - hadoop namenode -format - sbin/start-dfs.sh - sbin/start-yarn.sh
三、完全分散式模式
在完全分散式模式下,Hadoop守護進程在多台機器上運行。在完全分散式模式下,Hadoop有足夠的資源和處理能力來每個節點獨立運行MapReduce任務。完全分散式模式需要額外的配置和管理工作。
在完全分散式模式下,有一個主機扮演集群管理器的角色,它能夠控制整個集群。Hadoop集群管理器名稱為YARN(Resource Manager),它負責啟動各種應用程序,並協調各個節點上的Node Manager、Container和Application Master。
完全分散式模式可以使用Hadoop集群處理大容量數據,因為它允許在許多物理和/virtual主機之間分隔工作負載,並使得在群集中添加或刪除計算器更加容易。
為一個完全分散式Hadoop集群配置的流程,大致應該包括如下步驟: 1. 安裝jdk和hadoop 2. 配置各項參數(core-site.xml、hdfs-site.xml、yarn-site.xml、mapred-site.xml) 3. 格式化NameNode(hadoop namenode -format) 4. 啟動相關服務(start-dfs.sh、start-yarn.sh) 5. 驗證
四、基於容器的完全分散式模式
基於容器的完全分散式模式是最新的Hadoop運行模式之一。在YARN的基礎上,Hadoop引入了基於容器(也稱為Linux Control Groups)的隔離技術來進一步增強相對資源預測和對多租戶的支持。
在基於容器的模式下,每個MapReduce任務都運行在獨立的容器中。YARN的管理器可以在設定的資源限制下運行這個容器。每個容器都被分配給一個JobTracker,這個JobTracker根據需要啟動任務容器並管理調度。因此,每個容器都是JobTracker的一個實例。
為了方便使用,Hadoop引入了Docker容器技術和Docker容器映像,以便在遠程集群中部署MapReduce應用程序。這意味著可以利用Docker容器來包裝MapReduce應用程序並在基於容器的模式下運行它們。
yarn-site.xml中需要設置值為yarn.container-executor.class屬性,配置位於yarn-site.xml中,容器間隔離由Linux內核提供,因此沒有特別的軟體包需要安裝或其他配置。 容器的資源隔離和預測是由Linux Control Groups(cgroups)提供的。啟動以下命令即安裝: $ sudo apt-get install cgroup-bin libcgroup1
五、總結
在不同的Hadoop運行模式之間進行選擇基於不同的應用場景。從簡單的獨立模式到真正的分散式環境下的偽分散式模式、完全分散式模式、基於容器的完全分散式模式,這是Hadoop運行模式的從簡單到複雜的演變過程,也是Hadoop開發者和用戶應該了解的基礎知識。
在使用不同的Hadoop運行模式之前,請提前了解每個運行模式下所涉及的配置和準備工作。通過適當的配置,各種配置實現可以使Hadoop在不同的環境中進行部署和開發。
原創文章,作者:小藍,如若轉載,請註明出處:https://www.506064.com/zh-tw/n/272290.html