我發現4090這款顯卡的邊際效應相當明顯,這一發現讓我頗感意外。
在GPU這種超大規模並行計算領域,最能突顯性能差距的無疑是GPU渲染或計算能力,因為這類運算完全依賴於GPU,幾乎不受其他因素的影響。
我特地從OC渲染的benchmark天梯榜上搜集了40系顯卡的成績數據(未開啟RT),並進行了深入分析。
這份數據結果真的讓我大吃一驚,4090的渲染性能竟然只比4070高出將近兩倍。要知道,在以往的顯卡評測中,這種情況可是從未出現過的。畢竟,4090的規模幾乎是4070的三倍,但渲染性能卻只高出兩倍。
我仔細計算了相對衰減幅度,並據此推測,顯存帶寬可能是RTX40系顯卡的一個主要瓶頸。可以說,顯存設置上的吝嗇可能限制了RTX40系顯卡發揮出其應有的性能。
4060Ti 8G就是一個典型的例子。儘管它的流處理器數量比4060多了41.67%,但由於顯存帶寬僅略高於4060,其最終渲染性能的提升幅度也僅有13.6%。
相比之下,4070在流處理器規模僅比4060Ti多出35.3%的情況下,其渲染性能卻強出了57.56%。這得益於4070的顯存配置——192bit 21Gbps,最終帶寬達到了504GB/s,比4060Ti的288GB/s高出了75%。
我記得在RTX30系顯卡的時代,我們在進行OC渲染時並沒有特別關注顯存帶寬這個因素。
RTX30系的衰減情況可以說是微乎其微,顯存帶寬問題並沒有那麼突出。因此,以前我們在評估GPU渲染性能時,通常會將渲染性能與顯卡規模直接掛鈎。
再來看一下RTX20系的情況。
在GDDR6顯存還未普及的時代,只有高端顯卡的衰減情況較為明顯。因此,我們有理由相信,RTX40系高端顯卡的瓶頸已經變得相當顯著,甚至在GPU渲染用途上已經開始出現明顯的性能衰減。
對於RTX4090渲染性能僅有4070兩倍不到這個問題,我嚴重懷疑顯存帶寬是一個重要的制約因素。這可能與GDDR7顯存的缺失有關。
另一方面,我也對Ada Lovelace架構的邊際效應問題產生了懷疑。從目前已知的信息來看,Ada Lovelace架構相較於30系的Ampere架構,除了加入了一些新特性(如第四代Tensor Core、第三代RT Core以及光流加速器、大L2等)外,主要就是換用了台積電4N工藝,擴大了規模並提高了頻率。
然而,AD102核心的流處理器數量相較於GA102有了巨大的增長,但顯存帶寬卻保持不變,都是1008GB/s。這意味着單個SM的光柵渲染性能提升可能主要來自於頻率的提高,這可能會導致在超大規模下GPU的並行效率下降。
也許在下一代GPU中,隨着架構的改進和GDDR7顯存的採用,我們才能看到這種規模的GPU應有的實力。
至於遊戲方面,由於遊戲性能還受到CPU和內存等其他因素的影響,因此性能差距可能會進一步縮小。
原創文章,作者:簡單一點,如若轉載,請註明出處:https://www.506064.com/zh-hant/n/174133.html