正當大家以為NVIDIA的RTX 40系列家族成員已經全部到位之時,NVIDIA對自家的顯卡再次進行了一波更新,於是,僅在RTX 20系列推出的SUPER系列家族重新回歸。
昨天是RTX 4070 SUPER公版解禁的日子,我們也是第一時間為大家帶來了RTX 4070 SUPER這塊顯卡的首發評測。在評測中,該卡要高出RTX 4070顯卡較大的性能。

但這畢竟是公版顯卡啊,屬於「千金難買」的稀缺品種,我們日常接觸的多為核心Boost頻率要高於公版的非公版OC顯卡,這次也是非公版的正式解禁,OC版的RTX 4070 SUPER又會如何?讓我們一起來看一下吧!

值得一提的是,本次評測我使用的顯卡是來自七彩虹的iGame Geforce RTX 4070 Super Ultra W OC 12GB(下簡稱:RTX 4070 Super Ultra)顯卡。該顯卡延續了Ultra W家族的一貫風格,外觀時尚,色彩鮮明。

同時,與該卡同時發布的還有七彩虹的iGame Ultra Family整機,這是七彩虹為玩家們特意推出的全部市售配件所組成的DIY整機,其內部的配件均為Ultra系列,用戶可單獨購買,也可整機一起購買,以組成配信仰套裝和享有整機質保、官方幫忙裝機等優質服務。
本次評測的測試平台則是這台整機,僅在用到不同顯卡將顯卡拔出進行更換,其它配件不變。
有關該顯卡的詳細影片介紹:請點擊跳轉
RTX 4070 Super架構介紹:

按照慣例我們還是生成了一個規格表,以便大家的直觀的感受其相近和對位型號之間的區別。
首先在頻率方面,RTX 4070 Super Ultra顯卡(實際為OC版,上邊用了簡稱)核心Boost頻率達到了2565MHz,比公版的2480MHz要高出了85MHz。
而在流處理器數量方面,RTX 4070 Super則是比RTX 4070 Ti要少了512個流處理器,相當於少了4組SM簇。相應的,比RTX 4070要高出了1280個流處理器,相當於多了8組SM簇。且RTX 4070 Super擁有與RTX 4070 Ti相同的48MB二級緩存(RTX 4070僅有36MB)。所以在理論性能方面,RTX 4070 Super是要接近RTX 4070 Ti,遠離RTX 4070的,並非單純意義上的介於兩者之間。

截至發稿前,GPU-Z的2.56版本並不能正確的識別RTX 4070 Super顯卡,所以上圖僅供參考。
不過需要注意的是,這次的非公版RTX 4070 Super Ultra(上為簡稱,下邊不再提醒)其BIOS的最大功耗為245W,僅比公版多了25W(這個差距並不需要額外準備高瓦數電源)。

RTX 4070 Super顯卡核心架構圖
通過該圖可以發現,該顯卡的核心共有56組SM簇,擁有1個NVENC影片編碼加速單元(RTX 4070 Ti有2個NVENC)和1個NVDEC影片解碼加速單元,以及6個顯存控制器。

由於每個SM簇中含有4個第四代Tensor核心以及1個第三代 RT核心,所以,RTX 4070 Super的核心構成應為:
56組SM簇*128個流處理器=7168個流處理器
56組SM簇*4個Tensor核心=224個Tensor核心
56組SM簇*1個RT核心=56個RT核心
6個顯存控制器*32bit(位寬)=192bit(顯存位寬)
6個顯存控制器*2GB GDDR6X顯存顆粒=12GB顯存
七彩虹RTX 4070 Super Ultra顯卡外觀:

Ultra W中,W是white白色的意思,所以這塊顯卡採用了白色的主色調,並在上邊設有漸變色的貼紙,根據燈光角度不同會在藍色與紫色之間進行漸變,非常的有美感。其顯卡尺寸為313.5mm長*118.8高*50.5mm寬(不含擋片)。

顯卡的正面採用3個9cm規格的雙滾珠軸承環形扇葉風扇來進行主動散熱。3個風扇均支持智能啟停技術,在低負載下風扇會自動停轉,以達到零噪音的效果。

與RTX 4070 Ti Ultra W顯卡的3槽位不同,RTX 4070 Super Ultra採用了雙槽位的設計,用戶在安裝該顯卡時會變得更加輕鬆,且對於「小鋼炮」用戶來說,雙槽位的顯卡也讓玩家組建小體積機箱有了更好的選擇。

在側脊的右邊是該卡唯一的RGB燈光區域,此處的燈光並不突兀,但搭配Ultra爆炸風格貼紙會給用戶一種充滿潛力和活力的感覺。

與RTX 4070 Ultra W的單8Pin供電不同,我們的主角RTX 4070 Super Ultra顯卡採用了12 4Pin的ATX 3.0供電方式。相比普通的8Pin供電,ATX 3.0供電多了檢測功能,能夠根據顯卡的需求來實時調整功率,以便達到最佳的供電效果。

該卡仍然在背面配有一個金屬背板,能夠起到加固和保護顯卡的作用,同時在背板的右側做了傾斜的鏤空設計,能夠輔助顯卡右側風扇對該卡進行「吹透式」散熱。
這樣的好處是能夠幫主機箱內部理順氣流,達到輔助通風的能力。

最後,在I/O接口方面,該卡為3個DP 1個HDMI的組合。
且因為是OC版顯卡,七彩虹特有的超頻按鍵也在上邊,將該按鍵抬起可達到核心Boost頻率2565MHz,按下後則變成2480MHz公版頻率。
七彩虹RTX 4070 Super Ultra顯卡拆解:

RTX 4070 Super Ultra採用了純銅鍍鎳一體式底座的設計,4根6mm直徑的熱管貫穿散熱器的左右散熱鰭片區域,並在中間進行相聚。
該一體式底座包含了GPU以及顯存。不僅是GPU核心部分,通過導熱墊矽脂墊,顯存的熱量也可以通過純銅底座傳遞到熱管上,並由熱管帶到散熱鰭片區域,被風扇吹散。

由於是右側吹透式設計,所以整個顯卡的PCB其實教顯卡本體要小了許多。

該顯卡的供電分布在核心GPU及顯存顆粒的兩側,為8 3相設計,其中核心為8相,顯存則是3相,每項均配有一個MPS的MP87990 DrMos。其PWM晶片則是UPI的uP9512R。

該卡採用了美光的D8BZC顯存顆粒,圍繞核心共計6顆,構成了GDDR6X 12GB的顯存容量。其等效速率可達21Gbps。

最後,RTX 4070 Super Ultra顯卡所使用的AD104-350-A1顯示核心。
測試平台及測試項目介紹:

本次測試使用的是七彩虹的iGame Ultra Family整機,配置方面僅在顯卡處有所改動。
且除了基準測試之外,還加入了Stable diffusion,VSR以及D5 Render三項NVIDIA的功能展示。
為了方面大家對這次的測試平台有一個直觀的了解,我們做了一個接近7分鐘的影片對其進行介紹,其中前半部分是該機器使用的配件單獨介紹,在後邊我給大家展示了下這款整機的整體效果,燈光效果以及部分特色。
Stable diffusion AI繪畫性能測試:
在前邊我們提及過,RTX 4070 Super顯卡使用的是第四代Tensor核心(也稱張量核心),該核心的作用就是用於深度學習和AI運算方面。因此,RTX 40系列顯卡在運行AI相關的Stable diffusion(AI繪畫)軟體時,會變得更加高效。
Stable diffusion的繪畫原理是通過加載不同的模組(AI學習的資料庫),然後輸入自己想要的畫面關鍵詞,並進行部分調整(如權重,渲染次數,引擎等),來進行圖像生成。

在安裝好相應的插件([TRT] sd_xl base_1.0_0.9vae)後,在Stable diffusion中可以就看到TensorRT(深度學習推理SDK)的選項卡了,如此即可實現利用NVIDIA RTX 40系列顯卡中的Tensor核心來進行深度學習後的AI計算。
下邊我將採用常規AI繪圖方式,以及RTX 40系顯卡的TensorRT繪圖方式來進行對比。
兩次AI繪圖均採用設置如下:
首先選擇模組(AI學習庫)為sd_xl_base_1.0_0.9vae.safetensors,採樣步數為50,採樣方法為Eular a,提示詞相關係數為7,隨機數種子為13,圖片寬度和高度為1024×1024,總批次數為10,單批數量為1。

首先我們選擇常規繪圖模式,此時不加載NVIDIA專門的插件,以完全默認的狀態僅調整參數來生成AI圖像。
測試結果:總計生成圖片用時為3分49秒(229秒)。

之後我們選擇[TRT] sd_xl base_1.0_0.9vae插件,其它參數和之前一樣,再進行AI圖像的生成。
測試結果:總計生成圖片用時1分56.9秒(116.9秒)。
測試感想:
NVIDIA RTX 40系顯卡第四代的Tensor核心在AI繪畫方面算是得到了更加廣泛的應用,使用該項核心支持的技術來進行繪畫,其用時要大幅領先於標準設置,可以說提升了非常大的工作效率。
NVIDIA VSR 影片增強功能測試:

NVIDIA的VSR功能其實就是RTX影片增強,以提升顯示效果的功能,該功能位於NVIDIA的控制面板中,在左側列表最下方的調整影片圖像設置中即可找到它。
右側選項中,點選超解析度即可開啟該功能,質量方面有1-4四個選項。
點擊,開啟,就是這麼簡單,你完全不需要其它任何操作,它甚至可以應用於網路影片(即在網上看影片也有相應的變化)。
對此,我適用開啟後質量4,以及關閉兩種狀態下分別播放了一段油管的影片,並使用採集卡進行了記錄。之後我將影片一分為二,讓大家看看開啟VSR功能和關閉VRS功能後,即使是在線觀看影片,會有怎樣的區別吧。
開啟和關閉VSR功能下的一段網路播放影片對比

通過對比影片可以發現,開啟RTX影片增強(質量4)後,其畫面要比關閉RTX影片增強色彩更加明亮一些,這樣的結果就是整個湖水不再是給人以「死氣沉沉」的感覺。

之後我將影片放大5倍,來觀察一下細節方面,得益於光線的增強,山巒背面的陰影處也得到了更多細節方面的表現。
測試總結:
得益於VSR的影片增強,在讓影片變得更加明亮之後,許多暗部的細節也得以體現。且這項技術不需要額外下載任何插件,只需要在NVIDIA控制面板中點幾下鼠標即可。
應用則是即時的,甚至於嗶哩嗶哩,油管看網路影片也會有不同的效果。可以說是非常實用的工具了。
D5 Render DLSS實時渲染功能測試:
其實Stable diffusion主要是調用顯卡的算力來繪畫,而VSR則是NVIDIA控制面板中的功能。這次的D5 Render就是實實在在的軟體了。D5 Render是一個實時渲染的工具,它可以幫助用戶對生成的場景來進行較為逼真的展現。
但正因為場景展現是實時的,所以在普通顯卡進行如此複雜的計算時,它會變得很卡,尤其是特效全開後的表現。
如今的D5 Render已經加入了對NVIDIA 3.5版本的DLSS支持,加載了該技術後,相同場景下表現又會如何?一起來看下吧!

在D5 Render的DLSS 3.5選項中可以看到超解析度採樣、光線重建以及實時高幀率3個選項。其中光線重建功能是依託於超解析度採樣上的,即開啟後者才能開啟前者。

D5 Render的5種模式下場景的不同表現。

通過放大,觀察左側玻璃的反光可以發現,對場景表現有提升的是超解析度採樣以及光線重建功能,兩者依次遞進的可以更好的將玻璃反光的模糊雜質畫面給去除掉(需知D5 Render是渲染器,在這一場景中不應該有灰塵和不乾淨、凹凸不平的玻璃出現,顯然全關後的模糊也是不應該出現的)。
實時高幀率則是在以上的基礎上進行了幀率的提升。

最後,我們生成了一個對比表格,以便大家直觀了解在D5 Render中,3款顯卡在各種場景下的表現。
測試感想:
DLSS的加持,讓顯卡在運行D5 Render時變得更加輕鬆流暢,原本RTX 4070 Super Ultra在默認情況下表現為55幀,開啟超解析度採樣後直接上升到了99幀接近100幀平均幀的水平,而在全開之後,幀數再次上漲到平均幀162幀。可以說得益於DLSS 3.5的加持。最終表現是比默認設置有了3倍以上的幀數提升且在畫質表現方面得到了增強。
3Dmark相關性能對比測試:

3Dmark Speed Way DX12 Ultra性能測試

3Dmark Port Royal光追性能測試

3Dmark Time Spy Extreme DX12 4K性能測試

3Dmark Time Spy DX12 2K性能測試

3Dmark Fire Strike Ultra DX11 4K性能測試

3Dmark Fire Strike Extreme DX11 2K性能測試

3Dmark Fire Strike DX11 1080P性能測試
光線重建及插幀遊戲性能對比測試:

《電馭叛客2077》4K解析度開/關光線重建功能測試

《電馭叛客2077》2K解析度開/關光線重建功能測試

《電馭叛客2077》1080P解析度開/關光線重建功能測試

《瘟疫傳說:安魂曲》4K解析度開/關幀生成功能測試

《瘟疫傳說:安魂曲》2K解析度開/關幀生成功能測試

《瘟疫傳說:安魂曲》1080P解析度開/關幀生成功能測試
《古墓奇兵、地平線》遊戲性能測試:

《古墓奇兵:暗影》4K解析度開/關幀生成功能測試

《古墓奇兵:暗影》2K解析度開/關幀生成功能測試

《古墓奇兵:暗影》1080P解析度開/關幀生成功能測試

《地平線:零之曙光》4K解析度開/關幀生成功能測試

《地平線:零之曙光》2K解析度開/關幀生成功能測試

《地平線:零之曙光》1080P解析度開/關幀生成功能測試