Hadoop運行模式詳解

一、獨立模式

Hadoop最簡單的運行模式是獨立模式,該模式下,所有的Hadoop守護進程都在運行Hadoop的同一台機器上。在獨立模式下使用HDFS和MapReduce是為了測試,演示以及使用的方便。

在獨立模式下,除了Hadoop守護進程所需的少量操作系統資源,幾乎不需要分配資源。Hadoop守護進程可以使用用戶憑據運行,不需要運行在超級用戶下。

在核心站點或開發測試環境中使用獨立模式很方便,因為所有的進程共享相同的文件系統。例如,在與其他人合作之前可以很容易地使用Hadoop分配測試數據。

sbin/start-all.sh # 啟動所有Hadoop守護進程,包括NameNode、DataNode和JobTracker、TaskTracker
sbin/stop-all.sh # 關閉所有Hadoop守護進程,包括NameNode、DataNode和JobTracker、TaskTracker

二、偽分布式模式

偽分布式模式是指Hadoop可以運行在一台機器上,但是它像在一個正確的分布式環境中運行一樣。

在偽分布式模式下,所有守護進程都在一台機器上運行,但是它們在每個節點上運行。在本例中,工作流程在多個進程之間進行切換,而不是在多個機器之間進行切換。這個時候的HDFS是跨越多個磁盤分散存儲數據的,而且可以使用JobTracker和TaskTracker,因此偽分布式模式可以模擬真正的分布式環境。

修改conf/core-site.xml文件中的hadoop.tmp.dir和fs.default.name屬性,然後啟動hadoop和yarn:
- hadoop namenode -format
- sbin/start-dfs.sh
- sbin/start-yarn.sh

三、完全分布式模式

在完全分布式模式下,Hadoop守護進程在多台機器上運行。在完全分布式模式下,Hadoop有足夠的資源和處理能力來每個節點獨立運行MapReduce任務。完全分布式模式需要額外的配置和管理工作。

在完全分布式模式下,有一個主機扮演集群管理器的角色,它能夠控制整個集群。Hadoop集群管理器名稱為YARN(Resource Manager),它負責啟動各種應用程序,並協調各個節點上的Node Manager、Container和Application Master。

完全分布式模式可以使用Hadoop集群處理大容量數據,因為它允許在許多物理和/virtual主機之間分隔工作負載,並使得在群集中添加或刪除計算器更加容易。

為一個完全分布式Hadoop集群配置的流程,大致應該包括如下步驟:
1. 安裝jdk和hadoop
2. 配置各項參數(core-site.xml、hdfs-site.xml、yarn-site.xml、mapred-site.xml)
3. 格式化NameNode(hadoop namenode -format)
4. 啟動相關服務(start-dfs.sh、start-yarn.sh)
5. 驗證

四、基於容器的完全分布式模式

基於容器的完全分布式模式是最新的Hadoop運行模式之一。在YARN的基礎上,Hadoop引入了基於容器(也稱為Linux Control Groups)的隔離技術來進一步增強相對資源預測和對多租戶的支持。

在基於容器的模式下,每個MapReduce任務都運行在獨立的容器中。YARN的管理器可以在設定的資源限制下運行這個容器。每個容器都被分配給一個JobTracker,這個JobTracker根據需要啟動任務容器並管理調度。因此,每個容器都是JobTracker的一個實例。

為了方便使用,Hadoop引入了Docker容器技術和Docker容器映像,以便在遠程集群中部署MapReduce應用程序。這意味着可以利用Docker容器來包裝MapReduce應用程序並在基於容器的模式下運行它們。

yarn-site.xml中需要設置值為yarn.container-executor.class屬性,配置位於yarn-site.xml中,容器間隔離由Linux內核提供,因此沒有特別的軟件包需要安裝或其他配置。
容器的資源隔離和預測是由Linux Control Groups(cgroups)提供的。啟動以下命令即安裝:
$ sudo apt-get install cgroup-bin libcgroup1

五、總結

在不同的Hadoop運行模式之間進行選擇基於不同的應用場景。從簡單的獨立模式到真正的分布式環境下的偽分布式模式、完全分布式模式、基於容器的完全分布式模式,這是Hadoop運行模式的從簡單到複雜的演變過程,也是Hadoop開發者和用戶應該了解的基礎知識。

在使用不同的Hadoop運行模式之前,請提前了解每個運行模式下所涉及的配置和準備工作。通過適當的配置,各種配置實現可以使Hadoop在不同的環境中進行部署和開發。

原創文章,作者:小藍,如若轉載,請註明出處:https://www.506064.com/zh-hant/n/272290.html

(0)
打賞 微信掃一掃 微信掃一掃 支付寶掃一掃 支付寶掃一掃
小藍的頭像小藍
上一篇 2024-12-17 13:55
下一篇 2024-12-17 13:55

相關推薦

  • 手機安全模式怎麼解除?

    安全模式是一種手機自身的保護模式,它會禁用第三方應用程序並使用僅限基本系統功能。但有時候,安全模式會使你無法使用手機上的一些重要功能。如果你想解除手機安全模式,可以嘗試以下方法: …

    編程 2025-04-28
  • Qt State Machine與狀態機模式

    本文將介紹Qt State Machine和狀態機模式在Qt中的實現。Qt提供了QStateMachine和QState兩個類,可以方便地實現狀態機模式,並且能有效地處理複雜的、多…

    編程 2025-04-27
  • 顯示C++設計模式

    本文將詳細介紹顯示C++設計模式的概念、類型、優點和代碼實現。 一、概念 C++設計模式是在軟件設計階段定義,用於處理常見問題的可重用解決方案。這些解決方案是經過測試和驗證的,並已…

    編程 2025-04-27
  • Centos7進入單用戶模式的解釋

    本文將介紹如何在Centos7中進入單用戶模式,並從以下幾個方面進行詳細的闡述。 一、Centos7進入單用戶模式的解答 在Centos7中進入單用戶模式需要執行以下步驟: 1. …

    編程 2025-04-27
  • 神經網絡代碼詳解

    神經網絡作為一種人工智能技術,被廣泛應用於語音識別、圖像識別、自然語言處理等領域。而神經網絡的模型編寫,離不開代碼。本文將從多個方面詳細闡述神經網絡模型編寫的代碼技術。 一、神經網…

    編程 2025-04-25
  • Linux sync詳解

    一、sync概述 sync是Linux中一個非常重要的命令,它可以將文件系統緩存中的內容,強制寫入磁盤中。在執行sync之前,所有的文件系統更新將不會立即寫入磁盤,而是先緩存在內存…

    編程 2025-04-25
  • Java BigDecimal 精度詳解

    一、基礎概念 Java BigDecimal 是一個用於高精度計算的類。普通的 double 或 float 類型只能精確表示有限的數字,而對於需要高精度計算的場景,BigDeci…

    編程 2025-04-25
  • MPU6050工作原理詳解

    一、什麼是MPU6050 MPU6050是一種六軸慣性傳感器,能夠同時測量加速度和角速度。它由三個傳感器組成:一個三軸加速度計和一個三軸陀螺儀。這個組合提供了非常精細的姿態解算,其…

    編程 2025-04-25
  • Linux修改文件名命令詳解

    在Linux系統中,修改文件名是一個很常見的操作。Linux提供了多種方式來修改文件名,這篇文章將介紹Linux修改文件名的詳細操作。 一、mv命令 mv命令是Linux下的常用命…

    編程 2025-04-25
  • 詳解eclipse設置

    一、安裝與基礎設置 1、下載eclipse並進行安裝。 2、打開eclipse,選擇對應的工作空間路徑。 File -> Switch Workspace -> [選擇…

    編程 2025-04-25

發表回復

登錄後才能評論