上海人工智慧實驗室團隊突破GPU編程難題：讓AI自動寫出超高速核心代碼

這項由上海人工智慧實驗室、MetaX和復旦大學聯合完成的研究發表於2026年3月31日，論文編號為arXiv:2603.28342v1，為AI驅動的GPU核心優化領域帶來了重大突破。有興趣深入了解的讀者可以通過該論文編號查詢完整研究內容。

贊助商廣告

當我們用手機拍照、和ChatGPT聊天，或者看影片時，背後其實都有一個默默工作的"加速器"——GPU。你可以把GPU想像成一個超大型的廚房，裡面有成千上萬個廚師同時工作，專門負責處理那些需要大量重複計算的任務。不過，要讓這個廚房高效運轉，需要精心編寫"菜譜"——也就是程序員們常說的GPU核心代碼。

問題在於，編寫高性能的GPU核心代碼就像設計一套複雜的流水線作業方案，需要考慮無數細節：什麼時候取料、如何分配工作、怎樣避免廚師們互相等待。即使是經驗豐富的程序員，也常常需要反覆嘗試很多次才能寫出真正高效的代碼，這個過程既耗時又需要深厚的專業知識。

隨著人工智慧技術的發展，研究者們開始思考：能否讓AI來幫助我們自動編寫這些複雜的GPU代碼呢？雖然現在的大語言模型已經能夠生成一些可以運行的代碼，但要寫出真正高性能的GPU核心，僅僅能跑起來是遠遠不夠的——就像做菜不僅要能吃，還要好吃、營養豐富、製作高效。

正是在這樣的背景下，研究團隊開發了一個名為"Kernel-Smith"的創新系統。這個系統最大的特點是採用了"進化式"的優化策略，就像生物進化一樣，通過不斷的變異、選擇和改進，逐步培育出性能越來越好的GPU核心代碼。更重要的是，系統不僅能生成代碼，還能對代碼進行可靠的性能評估，確保優化過程朝著正確的方向前進。

一、進化算法遇上GPU編程：一種全新的優化思路

傳統的AI代碼生成就像是讓學生做一道數學題，給出題目後要求一次性寫出完整答案。而Kernel-Smith採用的進化方法則更像是組織一場"代碼改進馬拉松"，讓多個候選解決方案同時存在，每一輪都對它們進行測試、改進，然後保留表現最好的幾個，再基於它們產生新的變種。

贊助商廣告

具體來說，系統維護著一個"代碼種群"，每個個體都是一個可以運行的GPU核心程序。在每一輪進化中，系統會隨機選擇一些表現較好的個體，讓AI模型對它們進行修改和改進，產生新的候選程序。然後，所有程序都會在真實的GPU硬體上運行測試，根據編譯是否成功、計算結果是否正確、運行速度是否更快等標準進行評分。

這種方法的巧妙之處在於，它不要求AI一次性就寫出完美的代碼，而是允許通過多輪疊代逐步改進。就像廚師在不斷嘗試新食譜的過程中，可能某次加了一種新調料特別香，某次改變了火候控制得更好，通過無數次小的改進，最終做出令人驚艷的菜餚。

研究團隊還為這個進化過程設計了一套精密的"選擇機制"。系統不僅會保留運行最快的程序，還會保持候選解決方案的多樣性，避免所有程序都朝著同一個方向優化而錯過其他可能更好的路徑。這就像是在培育農作物時，不僅要保留產量最高的品種，還要維持基因多樣性，以免遇到新的環境挑戰時束手無策。

二、穩定可靠的性能評估：解決測量中的"噪聲"難題

進化算法能否成功，關鍵在於能否準確評估每個候選程序的性能。然而，GPU程序的性能測量面臨一個棘手的問題：同一個程序在同一硬體上多次運行，得到的執行時間往往會有波動。這種波動可能來自作業系統的任務調度、記憶體分配的隨機性、甚至是硬體溫度的微小變化。

如果不解決這個"測量噪聲"問題，進化算法可能會被誤導。設想一下，如果你用一個不準確的秤來比較兩個蘋果的重量，可能會錯誤地認為實際較輕的那個更重，從而做出錯誤的選擇。在GPU程序優化中，這種錯誤判斷會累積，導致整個進化過程偏離正確方向。

為了解決這個問題，研究團隊開發了一套專門的評估基礎設施。系統會在開始計時之前先進行"熱身"運行，消除程序初次啟動時的各種初始化開銷。然後進行多次重複測量，計算平均值並剔除明顯異常的結果。更進一步，系統還使用了CUDA圖技術來減少GPU核心啟動的隨機延遲。

贊助商廣告

通過這些措施，研究團隊成功將執行時間的波動控制在1%以內。這意味著系統現在可以可靠地識別出真正的性能改進，不會被隨機噪聲干擾。這就像給我們的"蘋果稱重"配備了一台高精度電子秤，能夠準確區分出重量的細微差別。

系統還設計了專門的"反作弊"機制。有時候，AI模型可能會投機取巧，比如直接調用現有的PyTorch函數而不是真正編寫GPU核心代碼。雖然這樣做能通過測試，但沒有實際的優化價值。評估系統能夠檢測這種行為，確保所有的性能改進都來自真正的核心優化。

三、針對進化過程的專門訓練策略：讓AI成為更好的"代碼改進師"

有了可靠的評估系統和進化框架，下一個挑戰是如何讓AI模型更好地扮演"代碼改進師"的角色。傳統的AI訓練通常關注一次性生成正確答案的能力，但在進化優化中，AI需要具備的是"局部改進"能力——給定一個已經能運行的程序，如何對它進行小幅修改使其性能更好。

研究團隊採用了一種創新的訓練方法。他們首先用強大的AI模型生成大量的進化軌跡數據——就是從初始程序開始，經過多輪改進最終達到高性能的完整過程。然後，他們沒有讓模型學習整個軌跡，而是專門提取出其中最有價值的"改進步驟"。

這個過程就像是從一堆音樂練習錄音中，專門挑出那些"從錯誤演奏改正為正確演奏"的片段來訓練學生。通過學習這些高質量的改進示例，AI模型逐漸掌握了如何識別代碼中的性能瓶頸，以及如何進行針對性的優化。

訓練分為兩個階段。第一階段是監督學習，讓模型通過大量優質的改進示例學會基本的優化技能。第二階段是強化學習，讓模型在實際的進化環境中進一步磨練技能，通過獲得真實的性能反饋來調整自己的策略。

這種訓練方式的效果是顯著的。經過專門訓練的模型不僅能生成更好的初始代碼，更重要的是，它在進化過程的每一步都能提供更有價值的改進建議，使得整個優化過程更加高效。

贊助商廣告

四、跨平台適配能力：從NVIDIA到國產晶片的無縫切換

現代GPU市場呈現多元化趨勢，除了NVIDIA的CUDA生態，還有AMD、Intel以及各種國產GPU晶片。每種硬體都有自己的編程語言和優化策略，這給跨平台的GPU程序開發帶來了巨大挑戰。

Kernel-Smith系統在設計時就充分考慮了這種多樣性。系統採用了模組化的後端架構，將通用的進化邏輯與特定硬體的編譯、執行接口分離。這就像是設計了一個通用的"翻譯框架"，只需要為每種GPU平台開發相應的"方言模組"，就能讓同樣的優化算法在不同硬體上運行。

研究團隊實現了兩個完整的後端：NVIDIA GPU的Triton後端和MetaX GPU的MACA後端。在NVIDIA平台上，系統生成Triton代碼，這是一種專門為GPU優化設計的Python嵌入式語言。在MetaX平台上，系統生成相應的MACA核心代碼。兩個後端使用完全相同的進化算法和評估標準，但根據不同硬體的特點進行了針對性適配。

這種跨平台能力不僅僅是技術上的成就，更有重要的實用價值。隨著AI計算需求的爆發式增長，各種新的GPU架構層出不窮，一個能夠快速適配新硬體的自動優化系統將大大降低軟體遷移的成本。

五、令人印象深刻的實驗結果：在標準測試中脫穎而出

研究團隊在多個維度對Kernel-Smith進行了全面評估。最重要的測試在KernelBench這個業界認可的GPU核心生成基準測試上進行。這個測試包含了從簡單到複雜的各種GPU計算任務，每個任務都有明確的正確性和性能要求。

在與當前最先進的AI模型對比中，Kernel-Smith-235B-RL取得了全面領先的成績。在平均加速比這個最重要的指標上，該模型達到了3.70倍的提升，明顯超過了包括Gemini-3.0-pro和Claude-4.6-opus在內的頂級商用模型。更令人印象深刻的是，在中等難度的任務上，系統實現了7.77倍的平均加速比，顯示了在處理複雜優化問題時的強大能力。

除了絕對性能數據，研究還展示了Kernel-Smith在進化過程中的優勢。通過分析40輪進化過程中的性能軌跡，可以清楚地看到，Kernel-Smith生成的程序在進化的每個階段都保持著最高的性能上限，而且改進速度也最快。這說明系統不僅能找到好的解決方案，還能更高效地找到它們。

贊助商廣告

在MetaX平台上的測試進一步驗證了系統的跨平台能力。即使是相對較小的30B參數模型，在MACA後端上也取得了超越大型模型的性能，證明了框架設計的有效性。

六、真實世界應用：從實驗室走向生產環境

理論和基準測試的成功只是第一步，真正的考驗在於系統能否在實際的生產環境中發揮作用。研究團隊選擇了三個具有代表性的真實應用場景來驗證Kernel-Smith的實用價值。

第一個應用場景是SGLang，這是一個廣泛使用的語言模型推理引擎。研究團隊使用Kernel-Smith為其中的元數據設置功能生成了優化的GPU核心。這個核心需要處理批處理解碼過程中的複雜記憶體操作，原有實現涉及多個分離的操作步驟。優化後的融合核心將這些步驟合併，顯著減少了記憶體訪問次數。

在單獨的核心測試中，新生成的代碼實現了4.78倍的性能提升。雖然在完整的推理流程中，由於這個核心只占整體計算的一部分，端到端的性能提升相對較小（約0.5%到1.75%），但這種改進是在真實生產環境中獲得的，具有重要的實際價值。更重要的是，這個優化被正式合併到了SGLang的主分支，成為了開源社區的貢獻。

第二個應用是LMDeploy，另一個重要的大語言模型部署工具。研究團隊針對其中DeepSeek 上海人工智慧實驗室團隊突破GPU編程難題讓AI自動寫出超高速核心代碼系列模型的專家混合路由模組進行了優化。這個模組在模型推理過程中負責動態選擇和激活相應的專家網路，是影響整體性能的關鍵組件。

Kernel-Smith生成的優化核心將路由過程中的多個操作（包括sigmoid激活、偏置加法、重塑操作、top-k選擇和掩碼處理）融合到單個高效的核心中。在隔離測試中，新核心實現了1.36倍的加速，在完整的DeepSeek-v3.2推理任務中帶來了1.85%到3.00%的吞吐量提升。這個優化同樣被合併到了LMDeploy的官方代碼庫中。

第三個應用場景選擇了DeepSeek團隊最近發布的Engram架構。這是一個全新的條件記憶架構，專門為大語言模型設計，具有複雜的門控計算和深度卷積操作。由於這是最新發布的研究成果，現有的優化方法還沒有涉及，為Kernel-Smith提供了一個展示原創優化能力的絕佳機會。

贊助商廣告

針對Engram的優化取得了最顯著的成果。系統生成的核心將原本分散在多個Python操作中的門計算、RMS標準化、深度卷積和殘差更新融合成兩個高度優化的GPU核心。通過預計算權重和使用半精度中間結果，新實現大大減少了調度開銷和記憶體傳輸。最終，優化後的代碼實現了14.59倍的性能提升，這在GPU核心優化領域是相當驚人的成果。

這三個應用案例從不同角度展示了Kernel-Smith的實用價值。SGLang和LMDeploy的案例證明了系統可以為成熟的生產工具提供有價值的優化，而Engram的案例則顯示了系統處理全新算法架構的能力。更重要的是，所有這些優化都不是停留在實驗室的演示，而是真正被相關項目採納的實際貢獻。

七、技術創新的深層意義：重新定義AI輔助編程

Kernel-Smith的成功不僅僅在於它在特定任務上取得的性能提升，更在於它代表了AI輔助編程的一種新範式。傳統的AI編程助手主要關注幫助程序員更快地編寫代碼，比如自動補全、錯誤檢測或生成模板代碼。而Kernel-Smith則展示了AI在程序性能優化這個更高層次上的潛力。

這種能力的獲得需要AI系統具備對電腦硬體架構的深度理解，能夠分析程序的執行特徵，識別性能瓶頸，並設計相應的優化策略。這些都是傳統上需要資深軟體工程師多年經驗才能掌握的技能。Kernel-Smith證明了通過合適的訓練方法和系統設計，AI可以在這個領域達到甚至超越人類專家的水平。

系統採用的進化優化策略也為其他領域的AI應用提供了啟發。在很多實際問題中，我們並不需要AI一次性給出完美答案，而是希望它能夠持續改進現有解決方案。這種"漸進優化"的思路可能比傳統的"一步到位"方法更適合處理複雜的現實問題。

另一個重要創新是系統對評估穩定性的重視。在機器學習的很多應用中，我們往往假設評估指標是可靠的，但在GPU性能優化這樣的場景中，測量本身就存在噪聲和不確定性。Kernel-Smith通過精心設計的評估基礎設施解決了這個問題，為其他需要在噪聲環境中進行優化的AI應用提供了參考。

贊助商廣告

八、面向未來的技術展望：更廣闊的應用前景

雖然當前的研究主要集中在GPU核心優化這個相對專門的領域，但其背後的技術原理有著更廣闊的應用前景。隨著AI計算需求的持續增長，各種新型加速器硬體層出不窮，包括專用的AI晶片、量子處理器、神經形態晶片等。每種新硬體都需要專門的編程技能和優化知識，而培養相應的專家需要大量時間。

Kernel-Smith展示的自動優化能力為解決這個問題提供了新的思路。通過將優化知識編碼到AI系統中，我們可能實現硬體和軟體的更快速適配。當新的硬體平台出現時，只需要為系統添加相應的後端支持，就能快速獲得高質量的優化代碼。

系統的進化優化方法也可能應用到更廣泛的軟體優化場景中。除了GPU核心，CPU程序優化、資料庫查詢優化、網路協議調優等領域都可能從這種方法中受益。核心思想是將優化過程視為一個搜索問題，通過AI指導的探索逐步改進解決方案的質量。

從更宏觀的角度看，Kernel-Smith代表了AI系統從"輔助工具"向"專業夥伴"轉變的一個重要里程碑。未來的AI助手不僅能幫助我們更快地完成工作，還能在專業技能上達到甚至超越人類專家的水平，成為真正意義上的智能協作者。

當然，這種發展也帶來了新的思考。當AI能夠自動優化複雜的系統代碼時，程序員的角色會如何變化？我們需要什麼樣的新技能來與這樣的AI系統協作？這些問題沒有標準答案，但Kernel-Smith的成功為我們探索這些問題提供了一個具體而有力的起點。

研究團隊已經將Kernel-Smith的核心框架以OpenEvolve的名稱開源發布，這意味著更廣泛的研究社區和工業界可以在此基礎上繼續探索和改進。可以預期，隨著更多研究者的參與和更多應用場景的探索，這種AI驅動的自動優化技術將會變得更加成熟和實用，最終成為現代軟體開發工具鏈中不可或缺的一部分。

說到底，Kernel-Smith的意義不僅在於它解決了GPU核心優化這個具體問題，更在於它展示了AI技術發展的一個新方向。通過將深度學習、進化算法和系統工程巧妙結合，研究團隊創造了一個能夠在複雜技術領域發揮專家級能力的AI系統。這種成功為我們描繪了一個更加智能和高效的軟體開發未來，值得整個技術社區的關注和進一步探索。對於那些對AI如何改變傳統工程實踐感興趣的讀者，這項研究提供了一個極具價值的案例和思路來源。

贊助商廣告

Q&A

Q1：Kernel-Smith是什麼？

A：Kernel-Smith是由上海人工智慧實驗室開發的AI系統，專門用於自動生成高性能的GPU核心代碼。它採用進化算法，維護多個候選程序同時優化，通過不斷測試和改進來找到最佳的GPU代碼實現，就像生物進化一樣逐步改善性能。

Q2：Kernel-Smith相比傳統AI編程助手有什麼優勢？

A：傳統AI編程助手主要幫助寫出能運行的代碼，而Kernel-Smith專注於性能優化。它不是一次性生成代碼，而是通過多輪疊代持續改進，能夠真正理解GPU硬體特性並進行針對性優化，在KernelBench測試中實現了3.70倍的平均性能提升。

Q3：普通程序員能使用Kernel-Smith嗎？

A：目前Kernel-Smith的核心框架已經以OpenEvolve名稱開源，但主要面向有GPU編程經驗的開發者。對於普通程序員來說，更有意義的是它已經為SGLang、LMDeploy等流行工具提供了優化，這些改進會自動惠及使用這些工具的所有開發者。