緊趕慢趕,NVIDIA終於是在2月前正式完成了首批RTX 40 SUPER系列家族的布局。而就在今天,該家族的最後一位成員——RTX 4080 SUPER證實跟家見面了。

本次我們拿到的是NVIDIA的RTX 4080 SUPER Founder’s Edition版(下僅展示其名稱為RTX 4080 SUPER),又稱FE版或公版。其官方MSRP定價為8099元,相較於RTX 4080的9499元要便宜了1400元。所以,相較於另外兩款RTX 4070 Ti SUPER以及RTX 4070 SUPER的「評價」,RTX 4080 SUPER顯卡完全可以說是「加料還降價」 的存在。
同時,這也是目前其性能僅次於RTX 4090和RTX 4090D之外最強的型號了。所以,本文將使用這塊顯卡來分別對比其性能更高一籌的RTX 4090以及「最接近AD103-400架構的」RTX 4080,通過這兩款顯卡的性能來直觀了解下RTX 4080 SUPER顯卡與其之間的差距。
架構解析:

按照慣例我們還是生成了一副規格對比圖,以便大家可以直觀的感受到RTX 4080 SUPER與其它顯卡之間的參數差異。
RTX 4080 SUPER採用的是AD103-400架構,算是AD103架構的完全體。與RTX 4080相比,RTX 4080 SUPER多了4組SM簇,512個流處理器以及相應的Tenosr核心和RT核心。
且在頻率方面,RTX 4080 SUPER要比RTX 4080高了45MHz的Boost頻率以及0.6Gbps的等效顯存速率。在功耗方面兩者都是320W。

RTX 4080 SUPER核心構圖
該圖其實在RTX 4080公布的時候就已經曝光過(當時該圖片名稱為AD103_FullChip),由於RTX 4080的AD103-300架構較該圖要少了4組SM簇,所以於RTX 4080所使用的AD103-300相比,當時我們就猜測後期可能還會推出一個升級版(當時以為是RTX 4080 Ti)。而這次RTX 4080 SUPER所使用的AD103-400算是這張架構圖的正式命名了。

RTX 4080 SUPER的AD103-400-A1核心
最後,由於RTX 40系列顯卡的核心架構中,每個SM簇中含有4個第四代Tensor核心以及1個第三代 RT核心,所以,RTX 4080 SUPER的核心構成應為:
80組SM簇*128個流處理器=10240個流處理器
80組SM簇*4個Tensor核心=320個Tensor核心
80組SM簇*1個RT核心=80個RT核心
8個顯存控制器*32bit(位寬)=256bit(顯存位寬)
8個顯存控制器*2GB GDDR6X顯存顆粒=16GB顯存
顯卡外觀及包裝介紹:

既為Founder’s Edition版,RTX 4080 SUPER的外包裝仍為之前RTX 40系相同的長方體造型,黑色的主色調,上邊隱約可見GEFORCE RTX 4080 SUPER的標識。

這個長方體造型的包裝為2個三角形組合而成,將其掀開後可以看到NVIDIA GeForce RTX 4080 SUPER顯卡靜靜的躺在盒子中。

顯卡整體為黑色造型,為雙風扇設計,從正面看可以看到位於顯卡左側的風扇,另一個風扇則隱藏在右側正面散熱裝甲的下邊,為吹透式設計。

從背面看則可以看到第二個風扇,第二個風扇為抽風式設計,顯卡的熱量被傳遞到顯卡上的散熱片後,被右側的風扇吸走,並吹到機箱的上半部分(內存處),能夠起到加強機箱風道的作用。
從背面可以看到顯卡上的RTX 4080 SUPER字樣。

左側的風扇吹出來的風則是通過顯卡的I/O擋板處進行排出。
此外,該顯卡為1個HDMI 2.1a以及3個DP 1.4a接口。
測試平台及測試項目介紹:

由於是顯卡性能對比測試,為了保證其它硬體不會對測試結果造成影響。我們儘可能的將其它硬體拔高。本次測試除了微星MEG Z790 ACE MAX主板外,我們特意使用了Intel 14代酷睿的i9-14900K及DDR5-7600MHz 16GB*2內存作為了測試平台的配置。
本次測試為最新版的Windows 11作業系統,並且使用最新版的551.22版顯卡驅動。
由於是遊戲性能測試,所以我們特別選擇了8款帶有Benchmark的遊戲來加入測試,測試涵蓋DLSS 3.5的光線重建功能,DLSS 3.0的插幀功能。使用預設的最高畫質,4K/2K及1080P三個解析度。
Stable diffusion AI繪畫性能測試:
在前邊我們提及過,RTX 40系列顯卡使用的是第四代Tensor核心(也稱張量核心),該核心的作用就是用於深度學習和AI運算方面。因此,RTX 40系列顯卡在運行AI相關的Stable diffusion(AI繪畫)軟體時,會變得更加高效。
Stable diffusion的繪畫原理是通過加載不同的模組(AI學習的資料庫),然後輸入自己想要的畫面關鍵詞,並進行部分調整(如權重,渲染次數,引擎等),來進行圖像生成。

在安裝好相應的插件([TRT] sd_xl base_1.0_0.9vae)後,在Stable diffusion中可以就看到TensorRT(深度學習推理SDK)的選項卡了,如此即可實現利用NVIDIA RTX 40系列顯卡中的Tensor核心來進行深度學習後的AI計算。
下邊我將採用常規AI繪圖方式,以及RTX 40系顯卡的TensorRT繪圖方式來進行對比。
兩次AI繪圖均採用設置如下:
在設置時,我們統一選擇模組(AI學習庫)為sd_xl_base_1.0_0.9vae.safetensors,採樣步數為50,採樣方法為Eular a,提示詞相關係數為7,隨機數種子為13,圖片寬度和高度為1024×1024,總批次數為10,單批數量為1。

首先是常規繪圖模式,此時不加載NVIDIA專門的插件,以完全默認的狀態僅調整參數來生成AI圖像。
測試結果:未使用Tensor核心進行AI計算的RTX 4080 SUPER顯卡總計生成圖片用時為2分18.6秒(138.6秒)。

之後選擇[TRT] sd_xl base_1.0_0.9vae插件,其它參數和之前一樣,再進行AI圖像的生成。
測試結果:使用Tensor核心進行AI計算的RTX 4080 SUPER顯卡總計生成圖片用時1分19.7秒(79.7秒)。
測試感想:
從結果來看,開啟[TRT] sd_xl base_1.0_0.9vae插件之後,啟用Tensor核心來進行處理的RTX 4080 SUPER顯卡生成一副標準圖像的用時要比未開啟該插件快了58.9秒,整體速度快了42%。
這對有需求快速出圖,甚至是對圖像精度有更高要求的用戶來說,降低42%以上的等待時間可以說是提升了近一倍的工作效率。
RTX VSR 影片超解析度功能測試:
NVIDIA的VSR功能其實就是RTX影片超解析度,以提升顯示效果的功能,該功能位於NVIDIA的控制面板中,在左側列表最下方的調整影片圖像設置中即可找到它。

右側選項中,點選超解析度即可開啟該功能,質量方面有1-4四個選項。
點擊,開啟,就是這麼簡單,你完全不需要其它任何操作,它甚至可以應用於網路影片(即在網上看影片也有相應的變化)。
對此,我使用開啟後質量4,以及關閉兩種狀態下分別播放了一段油管的影片,並使用採集卡進行了記錄。之後我將影片一分為二,讓大家看看開啟VSR功能和關閉VRS功能後,即使是在線觀看影片,會有怎樣的區別吧。
開啟和關閉VSR功能下的一段網路播放影片對比

通過對比影片可以發現,開啟RTX影片增強(質量4)後,其畫面要比關閉RTX影片增強色彩更加明亮一些,這樣的結果就是整個湖水不再像關閉後的那樣是給人以「死氣沉沉」的感覺。

之後我將影片放大5倍,來觀察一下細節方面,得益於光線的增強,山巒背面的陰影處也得到了更多細節方面的表現。
測試總結:
得益於VSR的影片增強,在讓影片變得更加明亮之後,許多暗部的細節也得以體現。且這項技術不需要額外下載任何插件,只需要在NVIDIA控制面板中點幾下鼠標即可。
應用則是即時的,甚至於嗶哩嗶哩,油管看網路影片也會有不同的效果。可以說是非常實用的工具了。
D5 Render DLSS實時渲染功能測試:
其實Stable diffusion主要是調用顯卡的算力來繪畫,而VSR則是NVIDIA控制面板中的功能。這次的D5 Render就是實實在在的軟體了。D5 Render是一個實時渲染的工具,它可以幫助用戶對生成的場景來進行較為逼真的展現。
但正因為場景展現是實時的,所以在普通顯卡進行如此複雜的計算時,它會變得很卡,尤其是特效全開後的表現。
如今的D5 Render已經加入了對DLSS 3.5的支持,使用該技術後,相同場景下表現又會如何?一起來看下吧!

在D5 Render的DLSS 3.5選項中可以看到超解析度、光線重建以及實時高幀率3個選項。其中光線重建功能是依託於超解析度上的,即開啟後者才能開啟前者。

D5 Render的5種模式下場景的不同表現。

通過放大,觀察左側玻璃的反光可以發現,對場景表現有提升的是超解析度採樣以及光線重建功能,兩者依次遞進的可以更好的將玻璃反光的模糊雜質畫面給去除掉(需知D5 Render是渲染器,在這一場景中不應該有灰塵和不乾淨、凹凸不平的玻璃出現,顯然全關後的模糊也是不應該出現的)。
實時高幀率則是在以上的基礎上進行了幀率的提升。

最後,我們生成了一個對比表格,以便大家直觀了解在D5 Render中,3款顯卡在各種場景下的表現。
測試感想:
DLSS的加持,讓顯卡在運行D5 Render時變得更加輕鬆流暢,原本RTX 4080 SUPER顯卡在默認情況下表現為72幀,開啟超解析度採樣後直接上升到了119幀接近120幀平均幀的水平,而在全開之後,幀數再次上漲到平均幀193幀。可以說得益於DLSS 3.5的加持。最終表現是比默認設置有了3倍以上的幀數提升且在畫質表現方面得到了增強。
3Dmark相關測試:

3Dmark Speed Way DX12 Ultra性能測試

3Dmark Port Royal光追性能測試

3Dmark Time Spy Extreme DX12 4K性能測試

3Dmark Time Spy DX12 2K性能測試

3Dmark Fire Strike Ultra DX11 4K性能測試

3Dmark Fire Strike Extreme DX11 2K性能測試

3Dmark Fire Strike DX11 1080P性能測試
光線重建及插幀遊戲測試:

《電馭叛客2077》4K解析度開/關光線重建功能測試

《電馭叛客2077》2K解析度開/關光線重建功能測試

《電馭叛客2077》1080P解析度開/關光線重建功能測試

《瘟疫傳說:安魂曲》4K解析度開/關幀生成功能測試

《瘟疫傳說:安魂曲》2K解析度開/關幀生成功能測試

《瘟疫傳說:安魂曲》1080P解析度開/關幀生成功能測試
《古墓奇兵、地平線》遊戲性能測試:

《古墓奇兵:暗影》4K解析度性能測試

《古墓奇兵:暗影》2K解析度性能測試

《古墓奇兵:暗影》1080P解析度性能測試

《地平線:零之曙光》4K解析度性能測試

《地平線:零之曙光》2K解析度性能測試

《地平線:零之曙光》1080P解析度性能測試
《孤島6、刺客教條》遊戲性能測試:

《極地戰嚎6》4K解析度性能測試

《極地戰嚎6》2K解析度性能測試

《極地戰嚎6》1080P解析度性能測試

《刺客教條:幻象》4K解析度性能測試

《刺客教條:幻象》2K解析度性能測試

《刺客教條:幻象》1080P解析度性能測試