一、SparkSession的作用
SparkSession是Spark 2.x版本中最主要的入口点,是操作全局上下文的核心对象,它允许用户轻松访问Spark核心功能并操作数据集。在Spark中使用SparkSession可以进行处理数据的读取、操作、转换和查询等各种操作,同时还支持Spark SQL、Spark Streaming和Machine Learning等模块的使用。
二、SparkSession的功能有
SparkSession提供了以下几个主要功能:
1. 它是处理数据的入口点,可以连接不同的数据源。
2. 它可以用于执行各种查询操作,包括SQL查询和数据集操作。
3. 它可以进行数据的读取、转换和处理等各种操作。
4. 它支持Spark SQL、Spark Streaming和Machine Learning等模块的使用。
三、创建SparkSession
1. 通过SparkConf创建SparkSession
SparkConf conf = new SparkConf().setAppName("appName").setMaster("local"); SparkSession sparkSession = SparkSession.builder().config(conf).getOrCreate();
这个方法需要传入一个SparkConf对象,该对象用于设置一些运行时的环境变量,如应用名、部署方式等。使用SparkConf创建SparkSession时,如果已经存在一个SparkSession对象,则返回该对象,否则将创建一个新的SparkSession实例。
2. 直接创建SparkSession
SparkSession sparkSession = SparkSession.builder() .appName("appName") .config("spark.master", "local") .getOrCreate();
该方法直接通过SparkSession.builder()来创建一个SparkSession实例,并且可以在builder中通过.config()方法来设置一些参数,如应用名、master节点等。
四、SparkSession.SQL
SparkSession.SQL是Spark SQL中的一个核心组件,它允许用户使用SQL语言来查询和操作Spark中的数据。
在使用SparkSession进行SQL操作时,用户需要首先把数据集转化成DataFrame,然后再使用DataFrame API或SQL语句来对数据集进行操作。
1. DataFrame API
使用DataFrame API可以通过各种操作来修改和查询数据,如过滤、聚合、分组等。以下是一个简单的DataFrame API的示例:
// 创建一份DataFrame Dataset<Row> df = sparkSession.read().json("./data/json/data.json"); // 打印出数据框的模式 df.printSchema(); // 打印出数据框的内容 df.show();
2. SparkSession.SQL
使用SparkSession.SQL可以使用SQL查询语句来操作数据,以下是一个简单的SparkSession.SQL的示例:
// 创建一份DataFrame Dataset<Row> df = sparkSession.read().json("./data/json/data.json"); // 创建一个临时表 df.createOrReplaceTempView("people"); // 执行SQL查询 Dataset<Row> result = sparkSession.sql("SELECT * FROM people WHERE age > 21"); // 输出查询结果 result.show();
五、SparkSession需要关闭吗
不需要。SparkSession会自动根据应用程序的生命周期来进行关闭。
SparkSession sparkSession = SparkSession.builder().appName("appName").getOrCreate(); // 执行各种操作 sparkSession.stop();
六、SparkSession.master
在创建SparkSession时,可以通过.master()方法来指定Spark应用程序运行的Master节点(即Spark集群的调度器)。
以下是一个SparkSession.master的示例:
SparkSession sparkSession = SparkSession.builder() .appName("appName") .master("local[4]") .getOrCreate();
七、SparkSession.Builder
SparkSession.Builder用于创建SparkSession对象的构造器。在构造器中,可以设置各种参数,如应用名、Master节点、Spark配置等。
以下是一个SparkSession.Builder的示例:
SparkSession.Builder builder = SparkSession.builder() .appName("appName") .master("local[4]"); // 设置一些额外的Spark配置 builder.config("spark.some.config.option", "some-value"); // 创建SparkSession对象 SparkSession sparkSession = builder.getOrCreate();
八、SparkSession需要导入什么包
import org.apache.spark.sql.Dataset; import org.apache.spark.sql.Row; import org.apache.spark.sql.SparkSession;
原创文章,作者:小蓝,如若转载,请注明出处:https://www.506064.com/n/238208.html