以下是淘寶雲梯分散式計算平台的整體架構,由數據分析網整理自網路資料,供大家學習參考。
一、系統架構
1、系統整體架構
數據流向從上到下,從各數據源、Gateway、雲梯、到各應用場景。
2、淘寶雲計算介紹
主要由數據源、數據平台、數據集群三部分構成
二、數據同步方案
1、數據同步方案——概覽
2、數據同步方案—— 實時同步VS非實時同步
3、數據同步方案—— TimeTunnel2 介紹
TimeTunnel是一個實時數據傳輸平台,TimeTunnel的主要功能就是實時完成海量數據的交換,因此TimeTunnel的業務邏輯主 要也就有兩個:一個是發布數據,將數據發送到TimeTunnel;一個是訂閱數據,從TimeTunnel讀取自己關心的數據。
TimeTunnel作為一個實時數據傳輸平台具有以下特點:
高效性:單點1k數據可以到4萬TPS高可靠性:M-S模式時保證數據不丟失
高可用性:單點故障不影響整個集群服務
順序性:當沒有故障發生時,保證所有傳輸都
是順序的,或者說一次連接內的傳輸是順序的。
4、數據同步方案—— Dbsync 介紹
dbsync是一個用於同步服務庫數據到HDFS的產品,通過分析資料庫伺服器的log文件來提取相應的資料庫動作,進而達到資料庫到HADOOP的數據同步,供相關部門提取增量數據。
Dbsync實時同步性能
記錄大小 速度
2K 4M/s
9K 10M/s
應用場景
數據量 800G
00:10分備庫打開:
非實時同步完成時間0:55
實時同步完成時間0:25
5、數據同步方案—— DataX 介紹
DataX是一個在異構的數據容器之間交換數據的工具。用於在任意的數據處理系統(RDBMS/NoSql/FS)之間交換數據。
Framework+plugin,Framework處理了高速數據交換的大部分問題,插件提供對數據處理系統的訪問。
運行模式 :stand-alone / on hadoop
Webui + cui 基於元數據的高效配置,例子:表A sharding為32個庫,1024張表,配置時間<1 min
DataX部分性能數據:
三、調度系統
1、調度系統——生產率銀彈
2、調度系統——模塊/子系統
3、調度系統——任務觸發方式
Flow control/Data Trigger
Time Trigger
4、調度系統——調度方式
5、調度系統——什麼是Gateway?
Gateway:參與天網調度的資源
• 功能:
– 數據同步(dataX, DBSync,TimeTunnel2…)
– 數據上傳/下載(hadoop fs –put/get/getmerge)
– 日誌收集
– Hive sql語句提交運行
– MapReduce程序提交運行
– 集群間數據同步(hadoop distcp)
6、調度系統—— Gateway規模及規劃
用於生產的Gateway約30台,由天網調度統一進行任務
分發,並行控制。
數據同步(dataX, DBSync,TimeTunnel2…)
數據上傳/下載(hadoop fs –put/get/getmerge)
日誌收集
Hive sql語句提交運行
MapReduce程序提交運行
集群間數據同步(hadoop distcp)
7、調度系統——gateway standardization
8、調度系統——Dynamic LB實現
9、調度系統——優先順序策略(實現)
10、調度系統——優先順序策略(意義)
11、調度系統——監控全景
四、元數據應用
面對上面的問題,靠經驗豐富的架構師?還是靠智能的分析系統?
1、挖掘元數據金礦
2、基於元數據的開發平台
自動生成代碼/集成開發平台
自動定位輸入/自動代碼
優化/自動部署/自動調度
配對分析/熱點分
析/欄位變更影
響/轉換軌跡
元數據
3、基於元數據的分析平台——運行分析系統
4、基於元數據的分析平台——分析策略概覽
5、基於元數據的分析平台——運行數據收集
6、基於元數據的分析平台——宏觀分析策略
7、基於元數據的分析平台——定位系統瓶頸
每個環節的吞吐能力都是動態變化的。
在某個特定時間區間內,整個系統的吞吐能力由吞吐能力最小的一個環節決定。
如果需要發現系統的短板,需要對每個環節的吞吐曲線繪製出來。
針對系統的短板進行重點優化。
對於吞吐能力抖動比較大的環節,需要在前面設置隊列進行緩衝。
瓶頸定位方法:
1 每個環節的吞吐曲線
2 兩個環節之前緩衝隊列的狀態曲線
3 統一單位到task級別
8、基於元數據的分析平台——最值得優化的任務
從關鍵路徑的角度考慮,任務A運行時間變化,對系統對影響可以用下圖中陰影的面積來計算,它取決於下面
幾個因素:
A 任務的當前運行時間——決定了當前位置的曲線斜率。
B 任務在幾個葉子節點的關鍵路徑上——決定了當前位置的曲線斜率。
C 其它關聯任務的運行時間——決定A何時會離開某個關鍵路徑,也就是決定了斜率的斜率。
最值得優化的任務:
以下三項評分中綜合評分最高
1 運行時間長
2 同時處於多個關鍵路徑
3 孔隙度大
出處:數據分析網整理自互聯網分享資料《淘寶雲梯分散式計算平台整體架構》
原創文章,作者:投稿專員,如若轉載,請註明出處:https://www.506064.com/zh-tw/n/227999.html