前言,最近英偉達GPU熱點一直很高,尤其是對H200,B200的討論,當然也包括GB200,DGX及HGX等,我簡單匯總了以下幾個問題,我們今天展開聊聊!
- 1、你清楚H200比H100升級了什麼嗎?B200與B100的區別呢?
- 2、B200和GB200名字看著很像,有何區別與聯繫呢?
- 3、我們常見到HGX和DGX,他們是什麼產品以及兩者間的區別和聯繫?
- 4、HGX H200\B200,DGX H100\B200的官方參數情況
一、英偉達H200和H100的變化
作為H100的升級款產品,H200消息大家的關注度挺高,其實從整體參數方面H200隻升級了GPU顯存相關內容,GPU單卡從80G HBM3升級到了141G HBM3e(顯存容量和類型有變化),同時顯存帶寬從3.35TB/s提升至4.8TB/s,整體參數對比如下:
二、英偉達B200和B100的區別
B200和B100都是基於英偉達最新一代Blackwell架構的數據中心GPU,英偉達目前的市場策略是以B200為主,從整體參數上,兩者除了顯存的規格一致,其他的不同精度的算力、功率有所不同,具體可以見下圖,供參考,可以看到B100的TDP是700W,有傳言說是為了兼容現有H100的伺服器平台(機頭)做的設計,但是從綜合性能上B200更優,比如FP16算力是H100的2倍以上,同時TDP也提升到了單卡1000W,所以B200的伺服器平台需重新設計,與H100的不兼容了。
Blackwell 架構的 GPU
基本技術參數
三、B200和GB200,HGX和DGX的區別
1、認識B200和GB200
從名字上看GB200和B200很容易弄混,尤其是新手朋友,便於大家理解我專門找了2張圖,最左側老黃手持就是B200,是標準的英偉達基於Blackwell架構的GPU晶元,而GB200是晶元的“組合”,如中間圖所示,是通過一個板子將2顆B200加上一顆Grace CPU(72核心的ARM架構處理器)組合而成,我們一般GPU伺服器上是沒法用的,定位是專用的“產品”,是英偉達為了搭建NVL72這類GPU“方案級產品”做的設計,如右圖所示它是NVL72的算力節點,包括2個GB200。
2、認識HGX和DGX
很多做英偉達GPU生意的朋友肯定都知道HGX,就是我們所說的“模組”,一套HGX 100模組價格高達200w+,如下圖所示,HGX產品的核心是8塊GPU,通過底板進行整合,同時也集成了NVLink技術和NVLink SW的晶元。這個“大傢伙”是英偉達設計的,是H100 SXM GPU直接提供給伺服器的廠商的“最小形態”,當然它是無法獨立工作的,因為他就是一個“邏輯的大GPU”必須要和伺服器平台(機頭)組合才能形成一台 完整的GPU伺服器。
DGX是英偉達品牌的GPU伺服器,如下圖所示,除了包括最核的HGX模組外,配套了伺服器該有的機箱、主板、電源、CPU、內存、硬碟、網卡等部件。它和我們平時看到的各大伺服器廠商推出的基於HGX模組的GPU伺服器並無本質區別,英偉達推出DGX 整機和其他伺服器廠商形成了競爭關係(又是供應商,又是對手,比較尷尬),一是DGX價格偏高,二是為了避免和伺服器廠商的市場衝突,除特定客戶外,一般很少見到有主動採購DGX產品的。
四、HGX H100和H200的參數情況
以下圖片截自英偉達的官方彩頁。
1、HGX H100、HGX H200的參數及對比情況
2、英偉達DGX H100的參數情況
3、英偉達DGX B200的參數情況
補充知識:
晶元
1. GPU晶元
晶體管數:
- B200 GPU的晶體管數量是現有H100的兩倍多,但B200封裝了2080億個晶體管(而H100/H200上為800億個)。這意味著B200晶元封裝密度比H100進一步提高,對管理散熱和功耗也提出了更高的要求。
FP4精度:
- 引入一種新的計算精度,位寬比FP8進一步降低,B200峰值算力達18P。
FP6精度:
- 位寬介於FP4和FP8之間。
NV高帶寬介面(Nvidia High Bandwidth Interface):
B200有兩個Die,高速連接通道NV-HBI達到10TB/s。兩個Die是一個統一的Cuda GPU。NV-HBI會佔用一定的晶元面積。
內存:
- B200每個Die有4個24GB的HBM3e stack,合計一個Cuda GPU有192GB內存,內存帶寬達8TB/s。相比H200時代六個內存控制器,可以減少內存介面的晶元面積,從而使得計算面積可以更大。
GB200:
- 有兩個B200(4個GPU Die)和一個Grace CPU,2700W。
2. NVLink晶元
第五代NV-Link晶元,雙向帶寬達1.8TB/s = 18(links) * 50GB/s (bandwidth each direction) * 2,是Hopper GPU使用的第四代NV-Link的2倍。最大支持576個GPU的連接,相比上一代是256個。
3. NVSwitch晶元
第四代NVSwitch晶元,7.2TB/s的全雙工帶寬,是上一代的兩倍。
4. DPU和CPU沒有更新
伺服器
HGX B200:
- 一機 八B200整機解決方案。每個B200是1000W。
HGX B100:
- 一機 八B100整機解決方案。每個B100是700W。
GB200 SuperPOD 伺服器
GB200 superchip:
- 2個CPU和4個B200。這個compute tray是1U的,液冷。
GB200 NVL72:
- 包含18個1U compute tray(共72個B200)、9個Switch Tray(共18個Switch )。
GB200 superPOD:
- 576個B200 GPU。與H100相比,superpod的訓練性能提升4倍,推理性能提高30倍,能效提高25倍。
原創文章,作者:簡單一點,如若轉載,請註明出處:https://www.506064.com/zh-tw/n/197885.html