宅中地 - 每日更新
宅中地 - 每日更新

贊助商廣告

X

香港科技大學團隊發明「減肥藥」:讓AI大模型既聰明又輕盈的神奇方法

2025年09月26日 首頁 » 熱門科技

這項研究來自香港科技大學的唐藝軒和楊毅教授,發表於2025年9月的arXiv預印本平台(論文編號:arXiv:2509.10844v1),有興趣深入了解的讀者可以通過https://github.com/yixuantt/GAPrune訪問相關代碼。

把大型AI模型想像成一個知識淵博但身材臃腫的圖書館館長。他什麼都懂,從莎士比亞的詩歌到量子物理學,但正因為裝了太多知識,他變得行動緩慢,需要巨大的空間和大量的能源才能正常工作。現在,香港科技大學的研究團隊找到了一種給這位館長"減肥"的方法,讓他在保持專業知識的同時變得更加輕盈高效。

現實生活中,AI模型正面臨著同樣的困境。以文本嵌入模型為例,這類模型就像是一個能理解語言含義的翻譯官,它需要將人類的文字轉換成電腦能理解的數字形式。當我們說"蘋果"時,它不僅要知道這是一種水果,在金融語境中還可能代表蘋果公司的股票。但是,為了獲得這種靈活的理解能力,這些模型變得越來越龐大。拿Qwen3-Embedding模型來說,小版本有6億個參數就能獲得337萬次下載,而大版本有80億參數卻只有38萬次下載,差距接近9倍。這就像是人們更願意買一輛省油的小車而不是耗油的大卡車,即使大卡車性能更強。

問題的核心在於,傳統的模型"減肥"方法就像用剪刀隨意剪掉書頁,它們無法區分哪些知識對特定領域更重要。比如在處理金融文本時,"負債"這個詞帶有明顯的負面含義,因為它意味著風險和義務,但在一般語境下它只是一個中性的法律概念。傳統方法可能會錯誤地刪除那些對金融理解至關重要的知識,同時保留一些用不上的通用資訊。

研究團隊提出的GAPrune方法就像是一位精明的圖書管理員,他不會盲目地扔掉書籍,而是會仔細評估每本書的價值。這種評估從兩個角度進行:首先看這本書對特定領域有多重要,其次看這本書是否與圖書館的整體知識體系和諧相處。如果一本書既重要又不會與其他書籍產生衝突,那就保留它;如果一本書要麼不重要,要麼會干擾其他知識的使用,那就可以考慮移除。

一、探索AI模型的知識結構奧秘

在深入了解這項研究之前,我們需要理解AI模型的工作原理。把AI模型想像成一個超級複雜的配方,裡面有數十億個"調料"(參數)。每個調料都有自己的作用:有些負責識別名詞,有些負責理解情感,還有些負責連接不同的概念。當模型處理文本時,這些調料會協同工作,就像廚師在烹飪一道複雜的菜餚。

現代的文本嵌入模型已經發展得相當複雜。像E5-Mistral-Instruct和Qwen3-Embedding這樣的模型不僅能理解文字的字面意思,還能根據具體指令調整自己的理解方式。比如當你說"根據財務問題檢索相關文檔"時,它就知道要以金融專家的角度來理解文本;當你說"找到化學相關的資料"時,它又會切換到化學家的思維模式。

但這種靈活性是有代價的。為了在各種場景下都表現出色,這些模型必須儲存大量的知識和模式。就好比一個萬能工具箱,裡面裝滿了各種工具,雖然功能強大,但也變得沉重不便。在實際應用中,我們往往只需要其中一部分工具,比如專門處理金融文本或化學論文,但傳統方法很難精準地保留需要的部分而去掉不必要的部分。

研究團隊發現,不同的參數在處理不同領域的資訊時表現出不同的行為模式。有些參數就像是通用的語言理解專家,它們對任何文本都很重要;有些參數則像是專業顧問,只在特定領域發揮作用;還有一些參數可能會在不同領域間產生衝突,就像一個頑固的專家,總是用自己熟悉的方式理解問題,即使這種方式在新領域並不合適。

傳統的模型壓縮方法主要有兩種思路。第一種是"按重量篩選",認為數值小的參數不重要,可以刪除,就像扔掉輕的物品來減輕行李重量。第二種是"按重要性篩選",通過某種數學方法計算每個參數的重要性,然後刪除得分低的參數。但這些方法都有一個共同的問題:它們用統一的標準評判所有參數,沒有考慮到領域特異性的需求。

二、漸進式參數分析的精妙設計

GAPrune的核心創新就像是引入了一個雙重評估系統。傳統方法就像是用一桿秤稱所有東西,而GAPrune則像是用兩個不同的量尺來測量每個參數的價值。

第一把量尺測量的是"領域重要性",即這個參數對特定領域任務有多重要。研究團隊使用了一種叫做Fisher資訊的數學工具來實現這種測量。Fisher資訊可以理解為"敏感度測量器",它能告訴我們如果稍微改變某個參數,模型的表現會發生多大變化。就像測試一個精密儀器的敏感部件,輕輕碰一下就會影響整體性能的部件顯然更重要。

具體來說,研究團隊會準備兩套不同的測試數據:一套是通用的文本數據,包含新聞、百科全書、對話等各種類型的文本,確保覆蓋不同的語言模式;另一套是特定領域的數據,比如金融報告、化學論文等專業文本。然後,他們會讓模型在這兩套數據上運行,觀察每個參數的"敏感度"變化。如果一個參數在處理金融文本時表現出高敏感度,說明它對金融理解很重要;如果在通用文本上也很敏感,說明它同時具有通用價值。

第二把量尺測量的是"協調性",即這個參數在處理不同類型任務時是否表現一致。研究團隊通過分析參數在不同數據上的"梯度"(可以理解為參數的"學習方向")來評估這種協調性。如果一個參數在處理通用文本時想往東走,在處理領域文本時也想往東走,說明它們的目標一致,這個參數應該保留。但如果一個參數在不同情況下想往相反的方向走,說明存在衝突,可能需要重新考慮。

研究團隊將這種協調性用一個從-1到1的分數來表示。分數接近1說明高度協調,參數在不同情況下都朝著相同的方向優化,這樣的參數就像是團隊中的好隊員,無論面對什麼任務都能發揮積極作用。分數接近0說明參數在不同情況下的表現相互獨立,需要根據其他因素來判斷是否保留。分數接近-1說明存在嚴重衝突,參數在不同任務間表現出矛盾的優化方向,就像是一個在團隊中製造麻煩的成員,可能需要移除。

為了高效地進行這種雙重評估,研究團隊還設計了一套巧妙的數據採樣策略。他們沒有使用全部的訓練數據(那樣會耗費太多計算資源),而是用一種叫做K-means聚類的方法從每個數據集中精選出5000個最具代表性的樣本。這就像是在一個巨大的圖書館中選擇最具代表性的書籍進行分析,既保證了分析的全面性,又大大降低了計算成本。

這種採樣方法的精妙之處在於它能確保選出的樣本覆蓋整個數據集的語義空間。研究團隊首先用現有的嵌入模型將所有文本轉換成數字向量,然後在這個向量空間中進行聚類,每個聚類代表一類相似的語義內容,最後從每個聚類中選擇最具代表性的樣本。這樣既保證了樣本的多樣性,又保證了計算的可行性。

三、創新性評分機制的數學藝術

有了兩把量尺的測量結果,如何將它們綜合成一個最終的評分呢?這就需要一個精妙的綜合評分公式,研究團隊稱之為"領域對齊重要性"(DAI)評分。

這個評分公式就像是一個精明的投資顧問的決策過程。它不僅要考慮某項投資在特定市場的表現(領域重要性),還要考慮這項投資是否與整體投資組合和諧(協調性),同時還要考慮投資的規模(參數大小)。

具體來說,DAI評分包含三個核心組成部分。第一部分是"淨領域價值",計算方法是用參數的領域重要性減去其通用重要性,再乘以參數的絕對值。這就像是計算一個員工對特定項目的淨貢獻,如果他對項目很重要但對公司整體貢獻一般,那他就是一個值得在這個項目中保留的專業人才。相反,如果他對項目不太重要但對公司整體很重要,那可能需要重新考慮他在這個項目中的角色。

第二部分是"規模調節項",通過參數絕對值的平方根來體現參數的表達能力。就像大容量的硬盤即使利用率不是最高,也比小容量硬盤有更大的潛在價值。這個設計確保了那些具有較大表達能力的參數即使在其他方面表現中等,也能得到適當的保護。

第三部分是"協調性調節器",根據參數的協調性分數來調整最終評分。如果一個參數表現出良好的協調性(分數為正),它的重要性會被放大;如果表現出衝突性(分數為負),它的重要性會被削弱。這就像是在團隊評估中,除了考慮個人能力,還要考慮團隊合作精神。

這三個部分通過精心設計的權重進行組合。研究團隊通過大量實驗確定了最優的權重組合:領域與通用重要性的平衡因子設為1.0,意味著兩者同等重要;協調性的影響因子設為0.2,確保它能發揮調節作用但不會過度影響其他因素;規模調節的權重設為0.5,在保護大參數的同時避免過度偏向。

這個評分機制的巧妙之處在於它體現了資訊瓶頸理論的核心思想。資訊瓶頸理論認為,最優的資訊處理系統應該既能保留對目標任務最重要的資訊,又能捨棄那些可能產生干擾的冗餘資訊。DAI評分正是在這個框架下工作:保留那些對領域任務重要且與整體目標協調的參數,移除那些要麼不重要要麼產生衝突的參數。

最終的剪枝過程就像是選拔過程的最後一步。所有參數按照DAI分數從高到低排序,然後保留得分最高的一定比例的參數(比如保留50%意味著刪除另外50%),被保留的參數組成了壓縮後的模型。這種一次性剪枝方法避免了傳統方法中需要多輪疊代的複雜性,大大提高了效率。

四、實驗驗證中的驚喜發現

為了驗證GAPrune方法的有效性,研究團隊選擇了兩個極具挑戰性的專業領域進行測試:金融和化學。這兩個領域的選擇很有代表性,因為它們都有著高度專業化的術語和概念體系,同時又與通用語言有著密切聯繫。

金融領域的挑戰在於同一個詞彙在不同語境下可能有截然不同的含義和情感色彩。"流動性比率"和"市值"這樣的術語在金融語境下有著精確的定義,而"負債"在金融分析中明確帶有風險警示的負面含義,這與其在一般法律語境下的中性含義形成鮮明對比。化學領域則面臨著另一種挑戰:高度技術化的詞彙、系統性的命名規則、分子式和複雜的實體關係。"結合"在化學中指的是分子間的相互作用,而不是文檔裝訂;理解這種差異對於藥物發現等應用至關重要。

實驗使用了兩個權威的評測基準:FinMTEB(金融領域)和ChemTEB(化學領域)。FinMTEB包含了8個分類任務、2個語義相似性任務和8個檢索任務,全面覆蓋了金融文本理解的各個方面。ChemTEB則包含17個分類任務和2個檢索任務,深度考察化學文本的理解能力。這些任務就像是給AI模型設計的專業資格考試,只有真正掌握了領域知識的模型才能取得好成績。

研究團隊選擇了兩個代表性的模型進行測試:Qwen3-Embedding-4B和E5-mistral-7B-Instruct。這兩個模型代表了當前最先進的多任務嵌入模型,它們都具備指令跟隨能力,能夠根據不同的任務指令調整自己的行為。實驗測試了兩種壓縮比例:30%稀疏性(刪除30%的參數)和50%稀疏性(刪除50%的參數)。

實驗結果令人印象深刻。在最嚴格的測試條件下(50%稀疏性的一次性剪枝,即刪除一半參數後不進行任何重新訓練),GAPrune方法仍然能將性能損失控制在2.5%以內。這就像是一個人突然減掉一半體重後,仍然能保持98%以上的工作能力,這在傳統方法中幾乎是不可能實現的。

更令人驚喜的是重訓練實驗的結果。當研究團隊在剪枝後進行100步的重新訓練時,GAPrune不僅完全恢復了原有性能,還實現了顯著提升:在FinMTEB上提升了4.51%,在ChemTEB上提升了1.73%。這種現象表明GAPrune不僅成功保留了重要參數,還通過移除干擾參數為模型學習創造了更好的條件。

與傳統方法的對比更加凸顯了GAPrune的優勢。隨機剪枝方法在50%稀疏性下導致40-60%的性能下降,基本上讓模型變得不可用。基於重要性的Fisher剪枝方法表現稍好,但仍然出現了顯著的性能下降,特別是通用Fisher剪枝在FinMTEB上的表現下降超過30%。這些結果證明了單一標準評估方法的局限性。

五、深層機制分析揭示的智慧

為了深入理解GAPrune為什麼如此有效,研究團隊進行了一系列深入的分析,這些分析揭示了一些有趣的發現。

首先是相關性分析。研究團隊發現GAPrune與傳統Fisher方法之間存在負相關關係,相關係數分別為-0.406(與領域Fisher)和-0.459(與通用Fisher)。這個負相關性說明GAPrune識別出的重要參數與傳統方法識別的重要參數存在根本差異。更有趣的是,領域Fisher和通用Fisher之間卻存在高度正相關(0.978),這說明單純的Fisher資訊方法可能無法有效區分領域特異性。

這種差異的根源在於評估角度的不同。傳統Fisher方法就像是用放大鏡觀察單個細胞,關注的是參數變化對當前性能的直接影響。而GAPrune則像是用雙筒望遠鏡觀察整個生態系統,不僅關注單個參數的重要性,還關注它們之間的相互作用和在不同環境下的表現。

層級分析提供了另一個有價值的視角。研究團隊通過提取模型不同層的隱藏狀態發現,檢索任務的性能在模型的後期層(大約第24層)會顯著提升,這裡是高級語義表示形成的關鍵區域。然而,傳統的Fisher方法在這些關鍵層進行了過度剪枝,移除了對嵌入質量至關重要的參數。相比之下,GAPrune的梯度對齊組件幫助識別了那些同時維護通用語義基礎和領域特定模式的參數,從而在關鍵層保留了更多重要參數。

幾何分析從另一個角度驗證了GAPrune的優勢。研究團隊分析了剪枝後嵌入空間的幾何性質,發現GAPrune在多個關鍵指標上表現最佳。在對齊損失方面,GAPrune達到了0.51,顯著優於其他方法,這意味著查詢和正樣本之間的語義對齊得到了更好保持。在跨維度相關性方面,GAPrune達到了0.52,表明參數剪枝後仍能維持良好的維度間關係。

特別值得注意的是有效維度分析。GAPrune使用了2560個總維度中的1820個,而領域Fisher剪枝只使用了1605個。這個差異表明僅基於領域的剪枝方法可能過於激進,移除了一些對通用知識重要的參數。GAPrune的平衡方法既保證了領域專業性,又維持了必要的通用能力。

計算效率分析顯示GAPrune實現了33.4%的浮點運算減少,在實際應用中轉化為顯著的速度提升。在FiQA檢索任務上,處理時間從1.89小時減少到1.17小時,這在大規模應用中將帶來可觀的成本節約。

六、方法論創新的深遠意義

GAPrune的成功不僅在於其技術實現,更在於它體現的方法論創新。這項研究挑戰了傳統參數剪枝中"一刀切"的思維模式,提出了更加精細化和情境化的參數評估策略。

從理論角度來看,GAPrune體現了資訊論中資訊瓶頸原理的實際應用。資訊瓶頸理論認為,優化的表示應該最大化對目標變量的資訊量,同時最小化對輸入的複雜性。GAPrune通過DAI評分機制恰好實現了這一平衡:保留對領域任務資訊量最大的參數,同時移除那些可能產生干擾的冗餘資訊。

這種雙重評估策略還體現了認知科學中的注意力機制理論。人類大腦在處理資訊時也會根據任務需求動態調整注意力分配,既利用已有的通用知識基礎,又突出任務相關的特定資訊。GAPrune的梯度對齊分析本質上模擬了這種認知過程,評估參數在不同認知任務間的協調性。

從實踐角度來看,這項研究為AI模型部署提供了一個新的優化維度。傳統的模型壓縮往往聚焦於單一目標(如最小化總體性能損失),而GAPrune引入了任務特異性的考量,這為針對特定應用場景的模型定製開闢了新道路。特別是在資源受限的環境中,這種方法可以幫助在性能和效率間找到更好的平衡點。

研究還揭示了AI模型內部知識組織的一些有趣特性。通過分析不同參數在不同領域的行為模式,研究團隊發現模型的知識並不是均勻分布的,而是呈現出明顯的模塊化特徵。一些參數主要負責通用語言理解,一些專門處理領域特異性資訊,還有一些在不同領域間起到橋樑作用。這種發現為未來的模型架構設計提供了有價值的洞察。

梯度對齊分析作為一種新的參數重要性評估方法,其應用潛力遠超出模型剪枝的範疇。這種方法可以幫助研究者更好地理解多任務學習中的任務衝突和協同關係,為設計更加協調的多任務架構提供指導。它也可以用於遷移學習中的源域和目標域適配,幫助識別哪些知識在遷移過程中是有益的,哪些可能產生負面影響。

七、技術細節與實現考量

GAPrune的實際實現涉及諸多技術細節,這些細節的精心設計確保了方法的可行性和有效性。

數據準備階段,研究團隊採用了對比學習的三元組格式(查詢、正樣本、負樣本),這種格式能夠很好地捕獲語義相似性和差異性資訊。對於通用數據集,他們使用了來自MSMARCO、SQuAD等公開數據集的多樣化文本,確保覆蓋不同的語言模式。對於金融領域,他們使用了專門合成的金融嵌入訓練數據集。對於化學領域,他們從peS2o學術論文數據集的化學子集構建了數據集,並使用GPT-4生成查詢,通過硬負樣本採樣生成負樣本。

K-means聚類採樣策略的具體實現使用了k=5000個聚類中心和20次疊代。這個參數選擇平衡了代表性和計算效率:聚類數量太少可能無法充分覆蓋語義空間的多樣性,太多則會增加不必要的計算開銷。20次疊代通常足以使聚類結果收斂到穩定狀態。

Fisher資訊的計算使用了對角近似,這大大降低了計算複雜度。完整的Fisher資訊矩陣是參數數量的平方級別,對於數十億參數的模型來說計算不現實。對角近似假設參數間相互獨立,雖然這不完全準確,但在實踐中提供了良好的近似效果,同時將計算複雜度降低到線性級別。

梯度對齊計算使用餘弦相似性度量,這個選擇有著深刻的數學原理。餘弦相似性只考慮向量的方向而忽略大小,這正好符合我們對梯度方向一致性的關注。兩個梯度向量的餘弦相似性為1表示它們指向完全相同的優化方向,為-1表示完全相反的方向,為0表示正交(無關)。

DAI評分公式中的超參數選擇經過了廣泛的實驗調優。β=1.0意味著領域重要性和通用重要性被給予相等的權重,這體現了平衡的設計理念。α=0.2確保梯度對齊資訊能發揮調節作用,但不會過度主導評分結果。γ=0.5的規模調節權重在保護大參數的表達能力和避免偏向之間找到了平衡。

一次性剪枝策略的選擇避免了疊代剪枝的複雜性和計算開銷。雖然疊代剪枝理論上可能達到更好的結果,但它需要多輪計算和調整,在實際應用中往往不現實。一次性剪枝通過單次參數評估就能達到良好的效果,更適合實際部署場景。

八、局限性與未來發展方向

儘管GAPrune展現了顯著的優勢,但研究團隊也坦誠地討論了方法的局限性和改進空間。

首先是領域數據的依賴性。GAPrune的有效性很大程度上依賴於高質量的領域特定數據來計算Fisher資訊和梯度對齊。對於一些新興領域或數據稀缺的專業領域,可能難以獲得足夠的數據來準確評估參數重要性。這限制了方法的普適性,特別是在那些數據獲取困難或隱私敏感的領域。

超參數敏感性是另一個需要考慮的因素。雖然研究團隊通過實驗確定了一組有效的超參數組合,但這些參數在不同的模型架構、不同的領域、不同的壓縮比例下的最優值可能有所不同。缺乏自適應的超參數選擇機制可能影響方法在新場景下的表現。

計算開銷雖然比完整訓練要小得多,但仍然需要對大量參數進行梯度計算和Fisher資訊估計。對於資源極其受限的環境,這個開銷可能仍然是一個挑戰。未來可能需要開發更加高效的近似計算方法。

當前的方法主要關注MLP層的剪枝,對於注意力層等其他組件的處理還比較有限。現代Transformer模型中,注意力機制同樣包含大量參數,如何將GAPrune的思想擴展到這些組件是一個有價值的研究方向。

未來的發展可能會在幾個方向上取得突破。自適應超參數調整機制可以根據具體的模型和任務特性自動調整DAI評分公式中的權重,減少人工調優的需求。多層級剪枝策略可以將方法擴展到整個模型架構,不僅考慮參數級別的重要性,還考慮層級別甚至模塊級別的重要性。

增量式領域適應是另一個有前景的方向。當前的方法假設領域是固定的,但在實際應用中,領域知識可能會不斷演化和擴展。開發能夠增量式更新參數重要性評估的方法,將使模型能夠持續適應新的領域需求。

跨模態擴展也值得探索。當前的研究聚焦於文本嵌入模型,但類似的思想可能同樣適用於圖像、音頻等其他模態的模型。多模態模型的剪枝可能需要考慮模態間的交互和協調,這將為GAPrune帶來新的挑戰和機遇。

九、對AI發展的啟示與思考

GAPrune研究的意義遠超出技術本身,它為AI領域的發展提供了一些深刻的啟示。

首先是效率與性能平衡的新思路。長期以來,AI發展似乎陷入了一個"軍備競賽":模型越來越大,參數越來越多,計算資源需求越來越高。GAPrune證明了通過更智能的方法,我們可以在大幅減少資源消耗的同時保持甚至提升性能。這種思路對於AI的可持續發展至關重要,特別是在環保壓力日益增加的今天。

其次是專業化與通用性的協調機制。現代AI系統面臨著一個根本性的張力:如何在保持通用能力的同時實現專業化。GAPrune提供了一個優雅的解決方案,通過梯度對齊分析識別那些既支持通用理解又增強專業能力的參數。這種思想可能啟發更多在通用性和專業性之間尋找平衡的研究。

知識組織和表示的洞察同樣重要。通過分析參數在不同任務間的行為模式,GAPrune揭示了AI模型內部知識的結構化特徵。這些發現可能對認知科學研究產生影響,幫助我們更好地理解人工智慧系統如何組織和使用知識。

從實際應用的角度,這項研究為AI民主化提供了新的可能性。通過大幅降低模型部署的資源門檻,GAPrune讓更多的組織和個人能夠使用先進的AI技術。這種技術普及可能加速AI在各個領域的應用,特別是那些資源相對有限的中小企業和發展中國家。

方法論層面的貢獻也值得重視。GAPrune展示了多角度評估和優化的價值,這種思想可以應用到AI研究的許多其他方面。無論是模型設計、訓練策略還是評估方法,多維度的考量往往能帶來更好的結果。

說到底,GAPrune的成功在於它體現了一種更加精細和智能的優化哲學。與其通過簡單粗暴的方法追求單一目標,不如通過深入理解系統內部的複雜關係來實現多重目標的協調優化。這種哲學不僅適用於AI模型壓縮,也可能指導我們在其他技術挑戰中找到更優雅的解決方案。

歸根結底,這項研究提醒我們,AI的進步不僅僅依賴於規模的擴大,更依賴於方法的創新和對系統本質的深入理解。在追求更強大AI系統的同時,我們也需要關注效率、可持續性和實際可用性。GAPrune為這種平衡發展提供了一個有價值的範例,展示了通過智能化方法實現"又好又快"發展的可能性。

有興趣深入了解技術細節的讀者,可以通過論文的GitHub倉庫(https://github.com/yixuantt/GAPrune)獲取完整的代碼實現,或者訪問arXiv預印本平台查看完整論文(論文編號:arXiv:2509.10844v1)。這項研究為AI模型優化開闢了新道路,相信會啟發更多創新性的工作。

Q&A

Q1:GAPrune是什麼?它解決了什麼問題?

A:GAPrune是香港科技大學開發的一種AI模型"減肥"方法。它解決的核心問題是讓大型AI模型在保持專業能力的同時變得更輕盈高效。傳統方法在壓縮模型時容易破壞專業知識,而GAPrune通過雙重評估機制,既保留對特定領域重要的參數,又維護與通用能力的協調,實現了性能與效率的平衡。

Q2:GAPrune的核心技術原理是怎樣的?

A:GAPrune使用兩把"量尺"來評估每個參數:第一把測量參數對特定領域的重要性(通過Fisher資訊),第二把測量參數在不同任務間的協調性(通過梯度對齊分析)。然後用創新的DAI評分公式將這些資訊綜合起來,保留那些既重要又協調的參數,移除那些不重要或產生衝突的參數。

Q3:GAPrune的實際效果如何?有什麼應用前景?

A:實驗顯示GAPrune在刪除50%參數的情況下,性能損失控制在2.5%以內,經過短時間重訓練後甚至能比原模型提升4.51%。這意味著AI模型可以顯著減少計算資源需求的同時保持專業能力,為中小企業和資源受限環境部署先進AI技術提供了可能性。

宅中地 - Facebook 分享 宅中地 - Twitter 分享 宅中地 - Whatsapp 分享 宅中地 - Line 分享
相關內容
Copyright ©2025 | 服務條款 | DMCA | 聯絡我們
宅中地 - 每日更新