Spark RDD 轉 Dataframe

一、關於SparkRDD

Apache Spark是一個開源的大數據計算框架，基於內存計算的方式提供了高效的數據處理能力。Spark運行於分布式集群上，利用RDD（Resilient Distributed Datasets）作為其計算模型。

下列說法正確的是：

1. RDD是Spark中的基本數據抽象，數據集通過分區的方式存儲到分布式節點上，可以支持並行的數據操作。

2. RDD數據只能讀寫，不能進行更改。

3. RDD具有自動容錯和恢復功能，即當某個節點出現故障時，Spark會重新計算丟失數據的節點，從而確保計算的完整性和正確性。

4. RDD的計算過程基於依賴關係（Lineage），以DAG（Directed Acyclic Graph）的方式進行數據處理操作，從而構造出了一個有向無環圖。

二、Spark RDD轉 Dataframe

Spark RDD提供了很多基本的數據操作函數，但是在進行數據處理時，我們往往會遇到一些問題。比如，RDD不支持動態數據類型，數據類型轉換的效率較低，RDD的Schema不具有檢查性等。這些問題可以通過使用Spark Dataframe來解決。

Spark Dataframe是一種基於RDD的分布式數據結構，它類似於傳統的關係型數據庫，具有Schema、列和行等概念。相比於RDD，Dataframe具有以下優勢：

1. 支持動態數據類型，因此可以使用基於數據類型的操作例如過濾、排序、聚合和統計。

2. 支持數據集編碼和解碼，因此可以有效地處理Python和Java對象。

3. 提供了API最大化的優化和調優，因此具有更好的性能。

4. 提供了Spark SQL引擎，因此可以通過SQL和HiveQL查詢Dataframe。

我們可以通過Spark SQL中的API，將RDD轉換為Dataframe。

# 引入pyspark包中的SparkSession
from pyspark.sql import SparkSession

# 創建SparkSession對象
spark = SparkSession.builder.appName("RDD to DataFrame").getOrCreate()

# 創建RDD
rdd = spark.sparkContext.parallelize([(1, "John"), (2, "Doe"), (3, "Lena"), (4, "Joe")])

# RDD轉換為Dataframe
df = rdd.toDF(["id", "name"])

# 顯示Dataframe
df.show()

上面的代碼首先創建了一個SparkSession對象，然後創建了一個RDD，最後將RDD轉換為Dataframe，並顯示出來。其中“toDF()”方法將RDD轉換為Dataframe，參數“[‘id’, ‘name’]”是Dataframe的列名稱。

三、示例

1. 從CSV文件創建Dataframe

首先，我們需要加載CSV文件並創建一個RDD。

# 引入pyspark包中的SparkSession
from pyspark.sql import SparkSession

# 創建SparkSession對象
spark = SparkSession.builder.appName("CSV to DataFrame").getOrCreate()

# 從CSV文件創建RDD
rdd = spark.sparkContext.textFile("file.csv").map(lambda line: line.split(","))

# RDD轉換為Dataframe
df = rdd.toDF(["col1", "col2", "col3"])

# 顯示Dataframe
df.show()

上面的代碼加載了名為“file.csv”的CSV文件，並將其轉換為RDD。然後，將RDD轉換為Dataframe，並將其列名稱設置為“col1”、“col2”、“col3”。

2. Dataframe中的列操作

我們可以對Dataframe中的列進行各種操作，比如選擇某些列、添加新列、刪除列、更改列名等。

選擇某些列

# 選擇id和name列
df.select("id", "name")

添加新列

# 添加age列
from pyspark.sql.functions import lit
df.withColumn("age", lit(25))

刪除列

# 刪除name列
df.drop("name")

更改列名

# 將name列更改為first_name
df.withColumnRenamed("name", "first_name")

參考資料

Apache Spark官方文檔：https://spark.apache.org/docs/latest/
Spark SQL官方文檔：https://spark.apache.org/docs/latest/sql-programming-guide.html

原創文章，作者：TDHA，如若轉載，請註明出處：https://www.506064.com/zh-hant/n/136915.html