1月7日,英偉達在CES 2025發佈了備受期待的GeForce RTX 50系列顯卡,首發產品包括RTX 5090(D)、RTX 5080、RTX 5070Ti和RTX 5070四個型號。GeForce RTX 50系列顯卡搭載了全新的Blackwell架構,可以說是近年來變革最大的GPU架構,為我們帶來了全新的SM單元流處理器、第四代RT Core、第五代Tensor Core、GDDR7顯存等新特性,另外還有RTX神經網絡着色器、DLSS 4、Reflex 2、Transformer模型、多幀生成等新技術的誕生,可謂是重新定義了未來遊戲發展的新方向,將AI技術納入圖形渲染的核心地位。
NVIDIA Blackwell架構
SM單元
我們先來簡單了解一下Blackwell架構的變化。首先是SM單元,上代Ada架構SM單元里的着色器核心有兩種,一種能執行FP32運算,另一種能執行FP32或INT32運算,運算能力更傾向於浮點運算。而Blackwell則升級成了統一着色器核心,可按需執行FP32或INT32運算,大幅度提高了着色器核心的整數運算能力,運算效率和調度也更為靈活。英偉達表示這種運算單元的改動是為了神經網絡着色器而優化。
第五代Tensor核心
第五代Tensor核心增加了對FP4精度的支持,相較於上代Ada核心的FP8精度,FP4精度的運算吞吐量可提升2倍。模型精度越低對運算性能和空間的開銷也就越低,低精度的量化可以減少模型的體積,降低對顯存的要求,提高運算速度。而在端側的推理運算大部分都採用低精度模型,偶有高精度模型也會通過量化操作來降低精度,所以更低精度的支持意味着顯卡有更高的靈活度減少硬件的開銷
第四代RT核心
第四代RT核心繼承了上代的 Box Intersection Engine和Opacity Micromap Engine,原有的Triangle Intersection Engine升級為Triangle Cluster Intersection Engine,並新增Triangle Cluster Decompression Engine用以處理更大規模的三角形相交場景。另外還新增了 Linear Swept Spheres用以處理毛髮的光線碰撞,減少硬件開銷。
英偉達將其稱為Mega Geometry,並表示其處理幾何圖形相交的能力要比Ada架構提升2倍,顯存開銷降低25%。
GDDR7顯存
RTX 50系列顯卡還搭載了GDDR7顯存,因為採用了PAM3信號編碼,數據速率可達GDDR6的2倍,但功耗只需要GDDR6的一半。
編解碼功能
還有一個需要補充的是,Blackwell架構終於支持DisplayPort 2.1 UHBR 20模式,可以輸出最高8K 165Hz的畫面,並且NVDEC解碼引擎升級到第九代,NVENC編碼引擎升級到第六代,AV1格式支持了UHQ超高質量模式,HEVC(H.265)格式支持到MV-HEVC,色度空間支持更高規格4:2:2格式。
RTX神經網絡着色器
RTX神經網絡着色器是一項頗具科幻色彩的技術,咋聽之下似乎無法理解,但我們可以簡單理解為它是一項藉助AI訓練來簡化、壓縮渲染流程和材質數據的技術。這其中又細分為神經網絡紋理(Neural Textures)、神經網絡材質(Neural Materials)、神經網絡體積雲(Neural Volumes)、神經網絡輻射場(Neural Radiance Fields)、神經網絡輻射緩存(Neural Radiance Cache)等5項技術。通過這項技術,開發者可以更高效、智能的完成開發過程,導出更匹配RTX的着色器數據。用戶也可以以更低的硬件開銷,獲得更高質量的渲染畫面,可謂是雙贏的局面。
DLSS4
DLSS 4迎來了自2019年DLSS發佈以來的最大革新:多幀生成技術(MFG)和Transformer模型。DLSS 3的幀生成技術是通過超採樣和光線重構技術生成額外幀,並通過光流加速器插入原始幀中獲得幾乎翻倍的幀數提升。而DLSS 4技術得益於第五代Tensor核心的算力提升,可以在DLSS 3的基礎上再額外通過AI模型生成2幀畫面。如此以來,配合超採樣、光線重構、光流插針以及多幀生成模型,DLSS4可以實現15/16的畫面生成,實現最高8倍的幀數提升。除了多幀生成技術,DLSS4還將原有的CNN卷積神經網絡模型替換為Transformer模型(可選),能夠更好的處理自然語言和多頭注意力權重,生成的畫面會更穩定,鬼影和運動模糊等問題也會大幅度減少。
原創文章,作者:簡單一點,如若轉載,請註明出處:https://www.506064.com/zh-hk/n/342872.html