RTX4090和RTX4070性能

我發現4090這款顯卡的邊際效應相當明顯，這一發現讓我頗感意外。

在GPU這種超大規模並行計算領域，最能突顯性能差距的無疑是GPU渲染或計算能力，因為這類運算完全依賴於GPU，幾乎不受其他因素的影響。

我特地從OC渲染的benchmark天梯榜上搜集了40系顯卡的成績數據（未開啟RT），並進行了深入分析。

這份數據結果真的讓我大吃一驚，4090的渲染性能竟然只比4070高出將近兩倍。要知道，在以往的顯卡評測中，這種情況可是從未出現過的。畢竟，4090的規模幾乎是4070的三倍，但渲染性能卻只高出兩倍。

我仔細計算了相對衰減幅度，並據此推測，顯存帶寬可能是RTX40系顯卡的一個主要瓶頸。可以說，顯存設置上的吝嗇可能限制了RTX40系顯卡發揮出其應有的性能。

4060Ti 8G就是一個典型的例子。儘管它的流處理器數量比4060多了41.67%，但由於顯存帶寬僅略高於4060，其最終渲染性能的提升幅度也僅有13.6%。

相比之下，4070在流處理器規模僅比4060Ti多出35.3%的情況下，其渲染性能卻強出了57.56%。這得益於4070的顯存配置——192bit 21Gbps，最終帶寬達到了504GB/s，比4060Ti的288GB/s高出了75%。

我記得在RTX30系顯卡的時代，我們在進行OC渲染時並沒有特別關注顯存帶寬這個因素。

RTX30系的衰減情況可以說是微乎其微，顯存帶寬問題並沒有那麼突出。因此，以前我們在評估GPU渲染性能時，通常會將渲染性能與顯卡規模直接掛鈎。

再來看一下RTX20系的情況。

在GDDR6顯存還未普及的時代，只有高端顯卡的衰減情況較為明顯。因此，我們有理由相信，RTX40系高端顯卡的瓶頸已經變得相當顯著，甚至在GPU渲染用途上已經開始出現明顯的性能衰減。

對於RTX4090渲染性能僅有4070兩倍不到這個問題，我嚴重懷疑顯存帶寬是一個重要的制約因素。這可能與GDDR7顯存的缺失有關。

另一方面，我也對Ada Lovelace架構的邊際效應問題產生了懷疑。從目前已知的信息來看，Ada Lovelace架構相較於30系的Ampere架構，除了加入了一些新特性（如第四代Tensor Core、第三代RT Core以及光流加速器、大L2等）外，主要就是換用了台積電4N工藝，擴大了規模並提高了頻率。

然而，AD102核心的流處理器數量相較於GA102有了巨大的增長，但顯存帶寬卻保持不變，都是1008GB/s。這意味着單個SM的光柵渲染性能提升可能主要來自於頻率的提高，這可能會導致在超大規模下GPU的並行效率下降。

也許在下一代GPU中，隨着架構的改進和GDDR7顯存的採用，我們才能看到這種規模的GPU應有的實力。

至於遊戲方面，由於遊戲性能還受到CPU和內存等其他因素的影響，因此性能差距可能會進一步縮小。

原創文章，作者：簡單一點，如若轉載，請註明出處：https://www.506064.com/zh-hant/n/174133.html