英偉達B100/B200/GB200區別

前言，最近英偉達GPU熱點一直很高，尤其是對H200，B200的討論，當然也包括GB200，DGX及HGX等，我簡單匯總了以下幾個問題，我們今天展開聊聊！

1、你清楚H200比H100升級了什麼嗎？B200與B100的區別呢？
2、B200和GB200名字看著很像，有何區別與聯繫呢？
3、我們常見到HGX和DGX，他們是什麼產品以及兩者間的區別和聯繫？
4、HGX H200\B200，DGX H100\B200的官方參數情況

一、英偉達H200和H100的變化

作為H100的升級款產品，H200消息大家的關注度挺高，其實從整體參數方面H200隻升級了GPU顯存相關內容，GPU單卡從80G HBM3升級到了141G HBM3e（顯存容量和類型有變化），同時顯存帶寬從3.35TB/s提升至4.8TB/s，整體參數對比如下：

二、英偉達B200和B100的區別

B200和B100都是基於英偉達最新一代Blackwell架構的數據中心GPU，英偉達目前的市場策略是以B200為主，從整體參數上，兩者除了顯存的規格一致，其他的不同精度的算力、功率有所不同，具體可以見下圖，供參考，可以看到B100的TDP是700W，有傳言說是為了兼容現有H100的伺服器平台（機頭）做的設計，但是從綜合性能上B200更優，比如FP16算力是H100的2倍以上，同時TDP也提升到了單卡1000W，所以B200的伺服器平台需重新設計，與H100的不兼容了。

Blackwell 架構的 GPU

基本技術參數

三、B200和GB200，HGX和DGX的區別

1、認識B200和GB200

從名字上看GB200和B200很容易弄混，尤其是新手朋友，便於大家理解我專門找了2張圖，最左側老黃手持就是B200，是標準的英偉達基於Blackwell架構的GPU晶元，而GB200是晶元的“組合”，如中間圖所示，是通過一個板子將2顆B200加上一顆Grace CPU（72核心的ARM架構處理器）組合而成，我們一般GPU伺服器上是沒法用的，定位是專用的“產品”，是英偉達為了搭建NVL72這類GPU“方案級產品”做的設計，如右圖所示它是NVL72的算力節點，包括2個GB200。

2、認識HGX和DGX

很多做英偉達GPU生意的朋友肯定都知道HGX，就是我們所說的“模組”，一套HGX 100模組價格高達200w+，如下圖所示，HGX產品的核心是8塊GPU，通過底板進行整合，同時也集成了NVLink技術和NVLink SW的晶元。這個“大傢伙”是英偉達設計的，是H100 SXM GPU直接提供給伺服器的廠商的“最小形態”，當然它是無法獨立工作的，因為他就是一個“邏輯的大GPU”必須要和伺服器平台（機頭）組合才能形成一台完整的GPU伺服器。

DGX是英偉達品牌的GPU伺服器，如下圖所示，除了包括最核的HGX模組外，配套了伺服器該有的機箱、主板、電源、CPU、內存、硬碟、網卡等部件。它和我們平時看到的各大伺服器廠商推出的基於HGX模組的GPU伺服器並無本質區別，英偉達推出DGX 整機和其他伺服器廠商形成了競爭關係（又是供應商，又是對手，比較尷尬），一是DGX價格偏高，二是為了避免和伺服器廠商的市場衝突，除特定客戶外，一般很少見到有主動採購DGX產品的。

四、HGX H100和H200的參數情況

以下圖片截自英偉達的官方彩頁。

1、HGX H100、HGX H200的參數及對比情況

2、英偉達DGX H100的參數情況

3、英偉達DGX B200的參數情況

補充知識：

晶元

1. GPU晶元

晶體管數：

B200 GPU的晶體管數量是現有H100的兩倍多，但B200封裝了2080億個晶體管（而H100/H200上為800億個）。這意味著B200晶元封裝密度比H100進一步提高，對管理散熱和功耗也提出了更高的要求。

FP4精度：

引入一種新的計算精度，位寬比FP8進一步降低，B200峰值算力達18P。

FP6精度：

位寬介於FP4和FP8之間。

NV高帶寬介面（Nvidia High Bandwidth Interface）：

B200有兩個Die，高速連接通道NV-HBI達到10TB/s。兩個Die是一個統一的Cuda GPU。NV-HBI會佔用一定的晶元面積。

內存：

B200每個Die有4個24GB的HBM3e stack，合計一個Cuda GPU有192GB內存，內存帶寬達8TB/s。相比H200時代六個內存控制器，可以減少內存介面的晶元面積，從而使得計算面積可以更大。

GB200：

有兩個B200（4個GPU Die）和一個Grace CPU，2700W。

2. NVLink晶元

第五代NV-Link晶元，雙向帶寬達1.8TB/s = 18（links） * 50GB/s (bandwidth each direction) * 2，是Hopper GPU使用的第四代NV-Link的2倍。最大支持576個GPU的連接，相比上一代是256個。

3. NVSwitch晶元

第四代NVSwitch晶元，7.2TB/s的全雙工帶寬，是上一代的兩倍。

4. DPU和CPU沒有更新

伺服器

HGX B200：

一機八B200整機解決方案。每個B200是1000W。

HGX B100：

一機八B100整機解決方案。每個B100是700W。

GB200 SuperPOD 伺服器

GB200 superchip：

2個CPU和4個B200。這個compute tray是1U的，液冷。

GB200 NVL72：

包含18個1U compute tray（共72個B200）、9個Switch Tray（共18個Switch ）。

GB200 superPOD：

576個B200 GPU。與H100相比，superpod的訓練性能提升4倍，推理性能提高30倍，能效提高25倍。

原創文章，作者：簡單一點，如若轉載，請註明出處：https://www.506064.com/zh-tw/n/197885.html