毫無疑問如今是AI的年代,各大廠商都希望自家的產品能夠搭乘上AI的順風車,從而獲得行業以及用戶的青睞,更重要的是藉助AI這股風,自家的產品也能獲得更高的溢價,從而帶動營收的增加。就在去年下半年,英特爾推出了Meteor Lake處理器,同時與合作夥伴一起推出了AI PC的概念,希望讓Meteor Lake處理器能夠扛起AI PC的大旗,不過現在看起來Meteor Lake處理器的AI性能還是有所欠缺,並不能滿足微軟Copilot PC的算力需求。
到了2024年,英特爾再一次將移動處理器進行徹底的改造,推出了Lunar Lake處理器,讓E核有著脫胎換骨般的改變,而且也砍掉了陪伴多年的超線程技術,更為重要的是這一次英特爾NPU的AI性能提升極其明顯,面對微軟Copilot PC也絲毫不怵。現在我們就為大家帶來Lunar Lake處理器的架構講解。
CPU:E核脫胎換骨,告別超線程
作為Lunar Lake架構的核心,處理器的CPU部分可以說有著天翻地覆的變化,首先就是取消了超線程技術,讓CPU最高變成了8核8線程,其中四顆為P核,另外四顆為E核,伴隨著超線程的消失,僅在Meteor Lake上使用的LPE核也隨之不見。英特爾官方則稱儘管去掉了超線程技術,但是CPU的性能卻沒有因此而降低,反而更加出色,其中的最重要的原因就是脫胎換骨的E核。
英特爾在12代酷睿處理器上採用了P核以及E核的混合架構設計,其中P核負責高性能計算,E核則負責高效率的運算。P核與E核也是井水不犯河水,而到了Lunar Lake處理器上,E核的性能得到巨大的提升,例如L2緩存的容量達到了4MB,AI以及矢量計算性能達到了上代的2倍。
與上代相比,Skymont的IPC整數性能提升了38%,而浮點性能則提升了68%能耗方面,和 Meteor Lake的LP E核相比,在保持繼續相同性能的前提下功耗僅為後者的三分之一。事實上英特爾將Skymont按照Raptor Lake處理器的P核性能去設計,最終目標也達到了英特爾的預期。無論是整數性能還是浮點性能,Skymont都比上代的P核提升2%左右的性能。
可以說作為E核的Skymont已經和上代P核的性能不相上下,因此英特爾也就沒有必要讓重型繁瑣的任務已經交給P核去運行,英特爾還表示,如果E核能夠勝任任務的處理器,那麼僅需開啟E核就已經足夠,這樣關閉P核還可以省點電,提升筆記本的續航,畢竟Lunar Lake處理器的用戶主要就是超極本。
看完了E核接下來就是P核了,與E核天翻地覆的進步相比,P核最大的改變就是取消了多線程技術,這樣技術已經跟了英特爾20多年的時間,而隨著E核性能的提升,實際上不開啟多線程都可以滿足日常辦公以及影片剪輯等應用的算力需求。
英特爾也舉例了在開啟與關閉雙線程之後處理器的功耗、性能,能效比究竟有多少變化。與上代P核相比,這代P核的能效比提升了15%,單位面積性能達到了10%,英特爾稱最後能夠讓單位面積的能效比提升30%,而IPC則提升了14%,這個程度還是相當恐怖的。
假如打開了超線程,英特爾表示與超線程相比,能效比提升5%,單位面積的性能降低了15%,而單位面積的能效比性能則最終提升了15%,此外英特爾還表示這是在理想條件下進行測試,實際測試的時候還要考慮軟體等的優化,因此直接將性能加在E核要遠比開啟超線程代的能效比提升來的大。
英特爾也利用AI來精準地控制CPU的頻率,最小步進為16.67MHz,根據實際的平台溫度、環境,設置適當的時間閾值,進而確保CPU頻率處於最高效的水平,也讓CPU的溫度曲線時刻處於理想水平,降低了輕薄版的散熱壓力。
具體到實際性能上,與上代的P核相比,Lion Cove的IPC提升了18%,而能效比則提升了14%。此外內存對於AI、圖形都是至關重要的,所以英特爾這一次把內存集成到了SoC上,通過縮短內存的走線將內存的物理功耗降低高達40%。還可以節省主板面積,最多可以節省250平方毫米,使得主板的價格可以往下降。
實際上這還不是全部,英特爾還表示隨著Lunar Lake的推出,未來英特爾在設計CPU的時候將會採用全新的流程、工具和方法。過去英特爾將CPU分為幾百上千個模塊,每個模塊裡面有幾萬個單元,十分地零散,而到了Lunar Lake時代,英特爾則採用了模塊化的設計每個大模塊裡面包含數十萬甚至是上百萬的單元.
這種設計可以讓處理器的邊界大幅減少,從而讓晶片的利用率大幅提升,疊代升級也更加方便。英特爾面向高性能計算打造的Arrow Lake與高能效打造的Lunar Lake都採用的全新晶片設計工具,英特爾設計部分也可以很快地進行轉換。此外全新的CPU設計思路也對製程的變動不那麼敏感,這也對英特爾處理器採用不同製程架構打下了基礎。
GPU:採用新架構,AI生圖更快
CPU主要還是負責通用計算,而想要讓AI發揮更大的作用,GPU的AI性能顯然必不可少。而在Lunar Lake架構上,英特爾也首次採用了Xe2 GPU架構,比桌面顯卡更早。在Lunar Lake處理器中,每個Xe Core都有八個矢量引擎,每個引擎都有2048比特的寬度,而每顆核心又有192KB的L1緩存,還支持SIMD16指令,從而在遊戲以及AI上表現得更加出色。目前隨著AI應用的普及和流行,GPU的矩陣計算將會變得十分地重要,而XMX就是提升矩陣計算效率的有效之舉。XMX的引入大大加強了矩陣運算的性能。
除此之外Xe2內部也加入了Excute Indirect的支持,傳統的圖形渲染中,GPU需要得到CPU的指令才可以執行3D任務的渲染,而有了Excute Indirect,無需CPU,GPU自己就可以完成繪圖等指令,並且GPU還是並行計算,大大提升了計算的效率,而且也可以降低CPU的使用率,從而降低功耗。上述這些技術讓Xe2的頂點以及渲染性能提升了3倍。同時得益於優化後的光追處理單元,Xe2的光追性能也有2倍的提升。
與Meteor Lake所採用的Xe架構相比,Xe2架構的能效比提升了50%,這樣可以讓廠商有了更多的選擇,例如只要15W的功耗就可以實現與25W Xe架構GPU一樣的圖形性能,這對於輕薄筆記本來說十分地實用。在AI性能上,得益於XMX的加持,這顆GPU可以實現67TOPS的INT8算力,再加上NPU和少部分CPU AI算力,從而讓Lunar Lake處理器的AI算力突破了100TOPS。使用Stable Diffusion進行演示,Lunar Lake 的圖用了6.3s,而Meteor Lake花了13秒以上,作圖時間快了1倍。
此外Lunar Lake也支持DP1.5,VCC也就是H.266影片解碼,VCC擁有比AV1更加高效的編碼效率,同等畫質下體積大約減少了10%,可以讓用戶使用更小的帶寬觀看超高清的影片。不過這一次Lunar Lake技術講解會並沒有透露實際的遊戲性能提升,大家需要等到Intel未來的發布會上才能知曉。
NPU:不再雞肋,滿足微軟需求
這幾年AI PC越來越熱門,包括ChatGPT的文生文、Stable Diffusion的文生圖以及Sora的文生影片對於AI算力要求越來越高,而過去這些任務主要是由CPU以及GPU負責,而隨著NPU的加入,這幾年越來越多的AI計算開始由CPU轉移到NPU之中,英特爾預計明年有30%的AI任務由NPU來承擔,因此NPU的算力變得愈發重要。
Lunar Lake一共提供了120TOPS左右的AI算力,GPU貢獻了67TOPS,而貢獻第二多的便是NPU,上一代Meteor Lake處理器的NPU算力大約為10TOPS上下,顯然還不能幫CPU承擔一些複雜的任務,而到了Lunar Lake架構中,英特爾NPU已經進化到第四代,能夠帶來48TOPS的AI算力,並且效率大幅提升,可以說NPU兼顧了效率和算力,未來將會承擔更多的AI應用負載。
大家平時都在說TOPS,那麼什麼是TOPS,AI最重要的計算就是矩陣計算,而OP就是每秒能夠完成多少次計算TOPS就是每秒完成多少萬億次矩陣計算。Lunar Lake所採用的第四代NPU擁有6個神經運算引擎,每個引擎有4096個運算單元,而上一代則是2個神經運算引擎,紙面算力就有3倍的提升,實際上第四代NPU的運算效率更高,例如英特爾增加了NPU與CPU之間的帶寬數據傳輸速度,而且也增加了NPU的算法,包括INT8以及FP16都可以在NPU上進行計算,因此算力最終達到了前代的4倍。而在Stable Diffusion中,NPU 3的繪圖速度為20.9秒,而NPU 4則是5.8秒,速度提升了3倍左右。
從Lunar Lake架構開始,你可以選擇讓NPU來負責第一步的文本轉換,隨後NPU繼續負責文字解碼以及全卷積神經網路擴展,只有最後一步圖形輸出才是GPU來負責。這樣可以讓NPU肩負起AI計算與推理中的重擔。
ITD:讓AI來協助資源分配
英特爾硬體線程調度器是英特爾在12代酷睿處理器中引入了全新單元,它可以實時監控和分析工作負載,能夠把正確的進程放到正確的核心上運行,保證最佳的能效。過去硬體線程調度器在處理任務中,優先將任務放到P核,如果P核算力完全能夠應付甚至還有多餘的算力,那麼將會把進程扔到E核中。
至於Meteor Lake,則首先考慮LPE核,LPE核性能不夠才逐級提升,而到了Lunar Lake架構中,它只有兩層,先放E核,如果說超出需求就往P核上移。Lunar Lake的E核已經是相當於Meteor Lake的大核,所以英特爾希望Lunar Lake的E核,可以覆蓋日常常見的工作負載,只有在重載的情況下才需要往P核上移。這樣子可以確保CPU的功耗降到極低的水平。
目前NPU的AI算力越來越大,因此英特爾也將AI引入到線程調度中來,利用於AI機器學習的預測來分配任務,而SoC的電源管理引擎會基於AI的機器學習來判斷工作負載到底是屬於哪一種,從而讓進程能夠更加高效地調度。英特爾還表示Lunar Lake與微軟Win11作了進一步的融合,還可以讓OEM去選擇不同的模式,更加地靈活
外部連接:囊括Wi-Fi 7、Bluetooth 5.4與Thunderbolt 4
對於AI PC來說,強大的算力需要強有力的外部連接才能發揮最大的作用,而Lunar Lake則是英特爾首個集成Wi-Fi 7、Bluetooth 5.4以及Thunderbolt 4的處理器架構,同時藉助AI的一些新技術來讓連接更加高質量。
Lunar Lake處理器支持最多3個Thunderbolt埠,還將支持Thunderbolt share,將兩個PC連接,實現60幀的螢幕分享,以及超高的數據傳輸,從而提高工作效率。而Lunar Lake處理器集成了最新的BE201,面積減少了28%,同時可以更快地與SOC相互連接。英特爾希望未來通過AI和Connectivity的結合,讓PC更具感知化、智能化。
XPU戰略深入其中
去年Meteor Lake可以說是英特爾過去10年來最大的架構改革,英特爾也藉助Meteor Lake處理器敲開了AI PC的大門,然而英特爾沒想到AI的發展超乎了所有人的想像,促使英特爾對旗下的處理器進行更加激進的設計,從而帶來了Lunar Lake架構。
在Lunar Lake上,我們看到了英特爾對於AI運算有著自己的理解,藉助更加強大的NPU,取代CPU在AI任務中的角色,另外大幅提升E核的性能,取消經典的超線程設計,從而讓CPU的功耗更低,讓處理器滿足未來的計算需求。而強勁的核顯則加速了AI任務的處理速度,即使沒有獨立顯卡也能獲得相當不錯的作圖性能。
最為重要的是,英特爾引入了新的晶片設計方式,這種方式證明了同一個架構,只要利用現代的設計方式,就可以利用不同的製程去做同一個微架構的產品。這給了英特爾更多的製程選擇餘地。