提起大數據技術，我們常常會想到大數據技術所需要的生態平台Hadoop和Spark，其中的Spark的概念及學習路線是如何的呢？一起來跟小編看看吧~

一、Spark概念

1、Spark描述

Apache Spark是專為大規模數據處理而設計的快速通用的計算引擎。

Spark是一種與Hadoop相似的開源集群計算環境，但是兩者之間還存在一些不同之處，這些有用的不同之處使Spark在某些工作負載方面表現得更加優越，因為Spark啟用了內存分布數據集，除了能夠提供互動式查詢外，它還可以優化迭代工作負載。

Spark是在Scala語言中實現的，它將Scala用作其應用程序框架。

Spark和Scala能夠緊密集成，其中的Scalable可以像操作本地集合對象一樣輕鬆地操作分散式數據集。

2、Spark特點

①　高級API將焦點從集群本身剝離出來，spark應用程序開發人員可以將焦點放在應用程序需要執行的計算本身。

②　Spark速度快，支持互動式計算和複雜演算法。

③　Spark是一個通用的引擎，它可以用來完成各種操作，包括SQL查詢、文本處理、機器學習等，在Spark出現之前，我們一般需要學習各種引擎來處理這些需求。

二、Spark學習路線

Spark的學習路線可以分成編程語言、Linux、Spark三個階段來學習。

1、編程語言

學習Spark主要學習Java和Scala這兩種編程語言。

①　Java學習：JavaSE基礎語法、Java面向對象、JavaSE API、線程、網路編程、反射基本原理。

②　Scala學習：Scala基礎語言、Scala類、Scala對象、Scala特徵、Scala模式匹配，其中需要重點掌握Scala的trait、apply、函數式編程、泛型、逆變與協變等。

2、Linux

Spark是基於Linux系統開發並運行的，因此需要學習Linux系統。

Linux：Linux基礎知識、CentOS、Maven。

3、Spark

在Spark階段中主要學習Spark編程模型、Spark內核、SparkSQL、SparkStreaming。

①　Spark編程模型：Spark模型組成、Spark彈性分散式數據集RDD、Spark轉換Transformation、Spark操作Actions。

②　Spark內核：Spark專業術語定義、Spark運行原理、Spark運行基本流程、Spark運行架構特點、Spark核心原理透視、Spark運行模式、Standalone運行模式、Yarn-Client運行模式、Yarn-Cluster運行模式。

③　SparkSQL：SparkSQL概念、Overview、SparkSQL程序開發數據源、SparkSQL程序開發DataFrame、SparkSQL程序開發DataSet、SparkSQL程序開發數據類型。

④　SparkStreaming：Spark Streming概念、Spark Streaming執行步驟、SparkStreaming程序開發DStream的輸入源、SparkStreaming程序開發Dstream的操作、SparkStreaming程序開發程序開發–性能優化、SparkStreaming程序開發容錯容災。