spark安裝詳細教程「spark平台基本組成」

提起大數據技術,我們常常會想到大數據技術所需要的生態平台Hadoop和Spark,其中的Spark的概念及學習路線是如何的呢?一起來跟小編看看吧~

大數據學習:Spark概念及學習路線

一、Spark概念

1、Spark描述

Apache Spark是專為大規模數據處理而設計的快速通用的計算引擎。

Spark是一種與Hadoop相似的開源集群計算環境,但是兩者之間還存在一些不同之處,這些有用的不同之處使Spark在某些工作負載方面表現得更加優越,因為Spark啟用了內存分布數據集,除了能夠提供互動式查詢外,它還可以優化迭代工作負載。

Spark是在Scala語言中實現的,它將Scala用作其應用程序框架。

Spark和Scala能夠緊密集成,其中的Scalable可以像操作本地集合對象一樣輕鬆地操作分散式數據集。

2、Spark特點

① 高級API將焦點從集群本身剝離出來,spark應用程序開發人員可以將焦點放在應用程序需要執行的計算本身。

② Spark速度快,支持互動式計算和複雜演算法。

③ Spark是一個通用的引擎,它可以用來完成各種操作,包括SQL查詢、文本處理、機器學習等,在Spark出現之前,我們一般需要學習各種引擎來處理這些需求。

大數據學習:Spark概念及學習路線

二、Spark學習路線

Spark的學習路線可以分成編程語言、Linux、Spark三個階段來學習。

1、編程語言

學習Spark主要學習Java和Scala這兩種編程語言。

① Java學習:JavaSE基礎語法、Java面向對象、JavaSE API、線程、網路編程、反射基本原理。

② Scala學習:Scala基礎語言、Scala類、Scala對象、Scala特徵、Scala模式匹配,其中需要重點掌握Scala的trait、apply、函數式編程、泛型、逆變與協變等。

2、Linux

Spark是基於Linux系統開發並運行的,因此需要學習Linux系統。

Linux:Linux基礎知識、CentOS、Maven。

3、Spark

在Spark階段中主要學習Spark編程模型、Spark內核、SparkSQL、SparkStreaming。

① Spark編程模型:Spark模型組成、Spark彈性分散式數據集RDD、Spark轉換Transformation、Spark操作Actions。

 Spark內核:Spark專業術語定義、Spark運行原理、Spark運行基本流程、Spark運行架構特點、Spark核心原理透視、Spark運行模式、Standalone運行模式、Yarn-Client運行模式、Yarn-Cluster運行模式。

 SparkSQL:SparkSQL概念、Overview、SparkSQL程序開發數據源、SparkSQL程序開發DataFrame、SparkSQL程序開發DataSet、SparkSQL程序開發數據類型。

④ SparkStreaming:Spark Streming概念、Spark Streaming執行步驟、SparkStreaming程序開發DStream的輸入源、SparkStreaming程序開發Dstream的操作、SparkStreaming程序開發程序開發–性能優化、SparkStreaming程序開發容錯容災。

大數據學習:Spark概念及學習路線

Spark作為大數據技術的重要內容之一,是每一個學習大數據的同學所要必學的生態框架,通過這篇文章大家掌握到Spark的概念及學習路線了嗎?

原創文章,作者:投稿專員,如若轉載,請註明出處:https://www.506064.com/zh-tw/n/250062.html

(0)
打賞 微信掃一掃 微信掃一掃 支付寶掃一掃 支付寶掃一掃
投稿專員的頭像投稿專員
上一篇 2024-12-13 13:29
下一篇 2024-12-13 13:29

相關推薦

發表回復

登錄後才能評論