一、環境準備
在開始安裝Spark之前,確保你已經安裝了以下環境:
- Java 8或更高版本
- Hadoop 2.7或更高版本(如果你計劃使用HDFS)
同時,你需要確保已經下載了Spark的二進制包,並將其解壓到一個目錄下。在本教程中,我們將Spark解壓到了/opt/spark目錄下。
二、配置環境變量
在開始使用Spark之前,你需要配置SPARK_HOME和PATH環境變量。通過設置SPARK_HOME變量,Spark才能知道你的Spark安裝路徑。而將$SPARK_HOME/bin添加到PATH中,則可以方便地運行Spark命令。
export SPARK_HOME=/opt/spark export PATH=$SPARK_HOME/bin:$PATH
三、啟動Spark單機模式
首先,我們嘗試在單機模式下啟動Spark。
在終端中執行以下命令:
$SPARK_HOME/sbin/start-master.sh
這將啟動一個Spark Master節點。你可以通過http://localhost:8080/訪問它。在瀏覽器中打開該頁面,你應該能夠看到Spark的Web UI。
現在,要啟動一個Worker節點,請執行以下命令:
$SPARK_HOME/sbin/start-worker.sh spark://:
在這裡,<master>和<port>應該替換為你之前啟動的Master節點的主機名和端口號。例如,如果你剛才使用默認端口號啟動了Master節點,那麼命令應該如下所示:
$SPARK_HOME/sbin/start-worker.sh spark://localhost:7077
現在,你已經成功在本地啟動了一個Spark集群!
四、運行第一個Spark應用程序
讓我們編寫我們的第一個Spark應用程序並在集群上運行它。這個應用程序將簡單地讀取一個文本文件並計算出它中出現的每個單詞的出現次數。
首先,創建一個文本文件:
echo "hello world goodbye world" > example.txt
然後,創建一個Python腳本來計算單詞計數:
from pyspark import SparkContext sc = SparkContext("local", "Word Count") text_file = sc.textFile("example.txt") word_counts = text_file.flatMap(lambda line: line.split()) \ .map(lambda word: (word, 1)) \ .reduceByKey(lambda count1, count2: count1 + count2) word_counts.saveAsTextFile("word_counts")
保存該Python腳本並運行它:
$SPARK_HOME/bin/spark-submit word_count.py
這將在集群上運行該應用程序,並在當前目錄下輸出一個名為word_counts的文件夾。在這個文件夾中,你應該能夠看到一個名為part-00000的文件,其中包含了單詞計數的結果。
五、啟動Spark Standalone集群
如果你想要在一個真正的集群上運行Spark,那麼你需要啟動一個Spark Standalone集群。幸運的是,Spark提供了一個用於啟動這種集群的腳本。
在終端中執行以下命令來啟動一個3個Worker節點的集群:
$SPARK_HOME/sbin/start-all.sh
這將啟動一個Master節點和3個Worker節點。你可以通過http://localhost:8080/訪問Master的Web UI。
六、在集群上運行應用程序
現在,你已經成功啟動了一個Spark Standalone集群。讓我們將我們的應用程序運行在該集群上。
與之前一樣,我們需要編寫一個Python腳本來讀取文本文件並計算單詞計數。這裡的不同之處在於,我們需要將應用程序提交到集群上運行,而不是在本地運行它。
創建一個名為word_count.py的文件,並將以下代碼放入其中:
from pyspark import SparkContext sc = SparkContext("spark://:", "Word Count") text_file = sc.textFile("hdfs:///path/to/your/example.txt") word_counts = text_file.flatMap(lambda line: line.split()) \ .map(lambda word: (word, 1)) \ .reduceByKey(lambda count1, count2: count1 + count2) word_counts.saveAsTextFile("hdfs:///path/to/save/word_counts")
在這裡,<master>和<port>應該替換為你的Spark Master的主機名和端口號。例如,如果你剛才使用默認端口號啟動了Master節點,那麼命令應該如下所示:
sc = SparkContext("spark://localhost:7077", "Word Count")
然後,將該Python腳本提交到Spark集群:
$SPARK_HOME/bin/spark-submit --master spark://: word_count.py
現在,你已經成功地在Spark集群上運行了應用程序!計算出的單詞計數結果將保存在HDFS中。
七、停止Spark Standalone集群
當你完成Spark Standalone集群的使用時,你應該停止它以釋放資源。你可以通過執行以下命令來停止集群:
$SPARK_HOME/sbin/stop-all.sh
這將停止Master和所有Worker節點。
原創文章,作者:PUOCH,如若轉載,請註明出處:https://www.506064.com/zh-hk/n/372428.html