深入探究Spark DAG

一、DAG概述

DAG（Directed Acyclic Graph）有向無環圖，Spark中的DAG是表示Spark作業執行的有向無環圖。

Spark把作業分解為階段，每個階段包含若干個任務，階段之間是有依賴關係的，可以形成成本最小的執行計劃。

二、DAG生成過程

Spark作業的DAG可以分為邏輯DAG和物理DAG兩個層次：

1. 邏輯DAG

邏輯DAG是指根據RDD間的轉化依賴關係創建的有向無環圖。在這個圖中，每個RDD都是一個定點，每個轉化操作就是一條邊。

例如：val rdd1 = sc.parallelize(Seq((1,”a”),(2,”b”),(3,”c”)))
val rdd2 = rdd1.filter(_._1 > 1)

以上代碼創建了一個包含三條記錄的RDD rdd1，然後對 rdd1 進行了一個篩選操作生成了 rdd2。從邏輯DAG上看，rdd2 通過依賴於 rdd1 和 filter 操作，組成了一張邏輯DAG.

2. 物理DAG

物理DAG表示的是邏輯DAG在集群上的運行軌跡。在這個過程中，Spark會對邏輯DAG進行分析和優化，轉化成為物理計劃。物理DAG的節點對應的是Stage，即運行任務的一段過程。

三、DAG調度過程

Spark運行過程中的任務調度由TaskScheduler及其下屬的不同的SchedulerBackend完成的。調度流程分為兩個階段：

1. DAG Schedule

DAG Schedule的主要功能是把邏輯DAG分解為不同Stages，這個階段只會對RDD依賴關係進行優化分析，不會有任務真正地運行。

2. Task Schedule

Task Schedule是真正把運行任務分配到不同節點的階段，盡量保證任務盡量均勻地分布在各節點上。這個階段的主要任務是負責管理不同節點上的任務調度，分配資源等。

四、DAG可視化

Spark提供了Web界面來展示DAG的運行過程。通過Spark Web UI，可以清楚地看到每個Stage間的依賴關係，每個Task在哪個節點上運行，運行時佔用CPU、內存等情況。我們可以同時觀察Job、Stage、Task的情況，有效地優化Spark任務的運行效率。

五、DAG API示例

1. 創建RDD

val rdd1 = sc.parallelize(Seq((1,"a")))
val rdd2 = sc.parallelize(Seq((1,"b")))

2. 轉化操作

val rdd3 = rdd1.union(rdd2)
val rdd4 = rdd3.filter(_._1 > 1)

3. 行動操作

rdd4.collect()

六、DAG優化建議

1. 避免shuffle操作

在Spark中執行shuffle操作是十分昂貴的，會引發磁碟I/O，內存消耗嚴重。尤其是在大數據集情況下，shuffle操作會嚴重影響性能。

2. 使用Broadcast變數

對於需要廣播的變數，使用broadcast變數可以避免數據的重複傳送，從而降低了網路帶寬的壓力。

3. 跳過不必要的轉化操作

當某些數據集在後續不會被用到時，應該優化掉這些不必要的中間結果，避免對運行性能的影響。

七、總結

以上就是我們對Spark DAG深入探究的詳細介紹。Spark的DAG是Spark執行計劃的核心組成部分，理解它的生成過程、調度過程以及優化策略，將有助於我們更好地優化Spark計算任務，提升運行效率。

原創文章，作者：小藍，如若轉載，請註明出處：https://www.506064.com/zh-tw/n/181450.html