投訴淘寶網平台的方法:淘寶雲閃付怎麼使用

以下是淘寶雲梯分布式計算平台的整體架構,由數據分析網整理自網絡資料,供大家學習參考。

一、系統架構

1、系統整體架構

數據流向從上到下,從各數據源、Gateway、雲梯、到各應用場景。淘寶雲梯分布式計算平台整體架構

2、淘寶雲計算介紹

主要由數據源、數據平台、數據集群三部分構成淘寶雲梯分布式計算平台整體架構

二、數據同步方案

1、數據同步方案——概覽淘寶雲梯分布式計算平台整體架構

2、數據同步方案—— 實時同步VS非實時同步淘寶雲梯分布式計算平台整體架構

3、數據同步方案—— TimeTunnel2 介紹

TimeTunnel是一個實時數據傳輸平台,TimeTunnel的主要功能就是實時完成海量數據的交換,因此TimeTunnel的業務邏輯主 要也就有兩個:一個是發布數據,將數據發送到TimeTunnel;一個是訂閱數據,從TimeTunnel讀取自己關心的數據。

TimeTunnel作為一個實時數據傳輸平台具有以下特點:

高效性:單點1k數據可以到4萬TPS高可靠性:M-S模式時保證數據不丟失

高可用性:單點故障不影響整個集群服務

順序性:當沒有故障發生時,保證所有傳輸都

是順序的,或者說一次連接內的傳輸是順序的。淘寶雲梯分布式計算平台整體架構

4、數據同步方案—— Dbsync 介紹

dbsync是一個用於同步服務庫數據到HDFS的產品,通過分析數據庫服務器的log文件來提取相應的數據庫動作,進而達到數據庫到HADOOP的數據同步,供相關部門提取增量數據。淘寶雲梯分布式計算平台整體架構

Dbsync實時同步性能

記錄大小 速度

2K 4M/s

9K 10M/s

應用場景

數據量 800G

00:10分備庫打開:

非實時同步完成時間0:55

實時同步完成時間0:25

5、數據同步方案—— DataX 介紹

DataX是一個在異構的數據容器之間交換數據的工具。用於在任意的數據處理系統(RDBMS/NoSql/FS)之間交換數據。

Framework+plugin,Framework處理了高速數據交換的大部分問題,插件提供對數據處理系統的訪問。

運行模式 :stand-alone / on hadoop

Webui + cui 基於元數據的高效配置,例子:表A sharding為32個庫,1024張表,配置時間<1 min淘寶雲梯分布式計算平台整體架構

DataX部分性能數據:淘寶雲梯分布式計算平台整體架構

三、調度系統淘寶雲梯分布式計算平台整體架構

1、調度系統——生產率銀彈淘寶雲梯分布式計算平台整體架構

2、調度系統——模塊/子系統淘寶雲梯分布式計算平台整體架構

3、調度系統——任務觸發方式

Flow control/Data Trigger淘寶雲梯分布式計算平台整體架構

Time Trigger淘寶雲梯分布式計算平台整體架構

4、調度系統——調度方式淘寶雲梯分布式計算平台整體架構

5、調度系統——什麼是Gateway?

Gateway:參與天網調度的資源

• 功能:

– 數據同步(dataX, DBSync,TimeTunnel2…)

– 數據上傳/下載(hadoop fs –put/get/getmerge)

– 日誌收集

– Hive sql語句提交運行

– MapReduce程序提交運行

– 集群間數據同步(hadoop distcp)

6、調度系統—— Gateway規模及規劃

用於生產的Gateway約30台,由天網調度統一進行任務

分發,並行控制。

數據同步(dataX, DBSync,TimeTunnel2…)

數據上傳/下載(hadoop fs –put/get/getmerge)

日誌收集

Hive sql語句提交運行

MapReduce程序提交運行

集群間數據同步(hadoop distcp)

7、調度系統——gateway standardization淘寶雲梯分布式計算平台整體架構

8、調度系統——Dynamic LB實現淘寶雲梯分布式計算平台整體架構

9、調度系統——優先級策略(實現)淘寶雲梯分布式計算平台整體架構

10、調度系統——優先級策略(意義)淘寶雲梯分布式計算平台整體架構

11、調度系統——監控全景淘寶雲梯分布式計算平台整體架構

四、元數據應用淘寶雲梯分布式計算平台整體架構

面對上面的問題,靠經驗豐富的架構師?還是靠智能的分析系統?

1、挖掘元數據金礦淘寶雲梯分布式計算平台整體架構

2、基於元數據的開發平台

自動生成代碼/集成開發平台

自動定位輸入/自動代碼

優化/自動部署/自動調度

配對分析/熱點分

析/字段變更影

響/轉換軌跡

元數據

3、基於元數據的分析平台——運行分析系統淘寶雲梯分布式計算平台整體架構

4、基於元數據的分析平台——分析策略概覽淘寶雲梯分布式計算平台整體架構

5、基於元數據的分析平台——運行數據收集淘寶雲梯分布式計算平台整體架構

6、基於元數據的分析平台——宏觀分析策略淘寶雲梯分布式計算平台整體架構

7、基於元數據的分析平台——定位系統瓶頸

每個環節的吞吐能力都是動態變化的。

在某個特定時間區間內,整個系統的吞吐能力由吞吐能力最小的一個環節決定。

如果需要發現系統的短板,需要對每個環節的吞吐曲線繪製出來。

針對系統的短板進行重點優化。

對於吞吐能力抖動比較大的環節,需要在前面設置隊列進行緩衝。

瓶頸定位方法:

1 每個環節的吞吐曲線

2 兩個環節之前緩衝隊列的狀態曲線

3 統一單位到task級別

8、基於元數據的分析平台——最值得優化的任務淘寶雲梯分布式計算平台整體架構

從關鍵路徑的角度考慮,任務A運行時間變化,對系統對影響可以用下圖中陰影的面積來計算,它取決於下面

幾個因素:

A 任務的當前運行時間——決定了當前位置的曲線斜率。

B 任務在幾個葉子節點的關鍵路徑上——決定了當前位置的曲線斜率。

C 其它關聯任務的運行時間——決定A何時會離開某個關鍵路徑,也就是決定了斜率的斜率。

最值得優化的任務:

以下三項評分中綜合評分最高

1 運行時間長

2 同時處於多個關鍵路徑

3 孔隙度大

出處:數據分析網整理自互聯網分享資料《淘寶雲梯分布式計算平台整體架構》

原創文章,作者:投稿專員,如若轉載,請註明出處:https://www.506064.com/zh-hant/n/227999.html

(0)
打賞 微信掃一掃 微信掃一掃 支付寶掃一掃 支付寶掃一掃
投稿專員的頭像投稿專員
上一篇 2024-12-09 21:26
下一篇 2024-12-09 21:26

相關推薦

發表回復

登錄後才能評論