sparkonyarn配置详解

一、Spark on YARN 配置

Apache Hadoop YARN（Yet Another Resource Negotiator）是Hadoop中的一个集群资源管理器，它负责管理和协调集群中各种应用程序的资源。Spark on YARN是Spark在YARN上的一种部署模式，相对于Standalone模式，这种模式使得Spark能够利用Hadoop上的资源调度和集群管理功能，且能够与Hadoop生态系统无缝集成。在这种模式下，YARN负责资源分配、任务调度和容错处理，而Spark Executor运行在YARN Container中。

在Spark on YARN模式下，主要的配置分为两个部分：Spark的配置和YARN的配置。

Spark的配置主要包括以下内容：
1. Spark Driver的内存设置：spark.driver.memory
2. Spark Executor的默认内存设置：spark.executor.memory
3. Spark Executor的个数设置：spark.executor.instances
4. Spark Executor的核数设置：spark.executor.cores
5. Spark Driver的Java选项设置：spark.driver.extraJavaOptions
6. Spark Executor的Java选项设置：spark.executor.extraJavaOptions
7. Spark的Shuffle的内存分配比例设置：spark.shuffle.memoryFraction

YARN的配置主要包括以下内容：
1. ResourceManager的内存设置：yarn.scheduler.minimum-allocation-mb，yarn.scheduler.maximum-allocation-mb
2. NodeManager的内存设置：yarn.nodemanager.resource.memory-mb
3. NodeManager的Core设置：yarn.nodemanager.resource.cpu-vcores
4. YARN默认内存设置：yarn.scheduler.minimum-allocation-mb，yarn.scheduler.maximum-allocation-mb
5. 用户队列设置：yarn.scheduler.capacity.root.queues
6. 每个队列资源占比设置：yarn.scheduler.capacity.root.{queue-name}.capacity

<property>
 <name>spark.driver.memory</name>
 <value>4g</value>
</property>
<property>
 <name>spark.executor.memory</name>
 <value>2g</value>
</property>
<property>
 <name>spark.executor.instances</name>
 <value>2</value>
</property>

二、Spark on YARN两种模式

Spark on YARN存在两种模式：client mode和cluster mode。两种模式的最大区别在于Driver程序的运行位置。

在client mode中，Driver程序运行在客户端，它向YARN提交一个应用，YARN在集群中找到可用的Executor进行任务的执行。在应用结束后，Driver会收集所有Executor的结果，然后输出结果并退出。

在cluster mode中，Driver程序运行在一个随机选中的Executor中，可以理解为Driver程序和Executor程序在同一个容器中，Driver会向YARN提交应用，然后分配给另外的Executor进行任务的执行，Driver扮演队伍的调度员，负责任务的分配和结果的收集。

三、Spark on YARN工作原理

在YARN上运行的Spark应用包含Spark应用程序运行所需的所有资源和配置信息，YARN负责资源的分配和管理。每个Spark应用程序由一个Driver程序和多个Executor程序组成。Driver程序运行在一个容器中，而Executor程序则运行在多个容器中。容器是YARN用来分配资源的基本单位，每个容器由一个NodeManager管理，它包含一定的CPU和内存资源。

在运行Spark应用程序之前，首先要使用bin/spark-submit脚本将Spark应用程序提交到YARN，然后YARN会创建一个ApplicationMaster，由它来协调Driver程序和Executor程序的启动、执行以及资源分配的工作。在ApplicationMaster启动之后，Driver程序通过ApplicationMaster申请资源，ApplicationMaster将资源请求发送给ResourceManager来获取资源。如果ResourceManager能够分配容器成功，ApplicationMaster就向NodeManager发送启动请求，启动容器中的Executor程序，Executor程序随后开始执行任务。

spark-submit \
--class com.example.spark.app \
--master yarn-client \
--deploy-mode client \
--num-executors 2 \
--executor-cores 2 \
--executor-memory 2g \
./path/to/your/app.jar

四、Spark on YARN的本质

Spark on YARN的本质是将Spark应用程序部署到YARN联合管理的Hadoop集群中，利用Hadoop集群的分布式资源调度和管理功能来获取Executor的资源，运行Spark应用程序，提高集群的资源利用率和效率。

作为一种分布式计算框架，Spark on YARN具有高度的灵活性和可伸缩性，它可以根据应用程序的需要，动态分配资源并进行任务调度和容错处理，从而保证了应用程序的稳定性和吞吐量。此外，Spark on YARN还可以和Hadoop的其他组件（如HDFS、HBase等）无缝集成，实现了数据处理和分析的一体化平台。

在实际应用中，通过对Spark on YARN的合理配置，我们可以提高Spark应用程序的性能和资源利用率，从而更好地处理和分析大规模数据。

原创文章，作者：BXVNG，如若转载，请注明出处：https://www.506064.com/n/325023.html

sparkonyarn配置详解

一、Spark on YARN 配置

二、Spark on YARN两种模式

三、Spark on YARN工作原理

四、Spark on YARN的本质

相关推荐

发表回复