2026年4月17日,Cerebras Systems向美國證監會(SEC)公開提交IPO申請,擬在納斯達克以代碼CBRS上市。根據S-1文件,公司2025年全年營收5.1億美元,淨利潤8790萬美元,徹底扭轉了上一年2.903億美元營收、4.848億美元淨虧損的局面。此前在2026年2月完成的H輪融資中,Cerebras估值已達到230億美元,投資方包括Tiger Global、AMD、富達、Benchmark Capital和Altimeter。就在提交IPO申請前兩天,The Information報道,OpenAI與Cerebras之間的計算協議規模可能擴展至300億美元,OpenAI將因此獲得Cerebras最多10%的股權認購權證。這家公司正式走向公眾視野之前,絕大多數人對它的了解所知並不多。

Cerebras是做什麼的?一句話:它造出了人類歷史上面積最大的晶片,專門用於AI推理。CEO Andrew Feldman曾聲稱推理速度比英偉達
的GPU快數十倍。
不過,Cerebras究竟比英偉達快多少?這個問題沒有單一答案,因為"快"在推理領域指的是兩件不同的事。
一個維度是單用戶輸出速度:你一個人向AI提問,每秒鐘能收到多少個詞。在這個維度上,獨立評測機構Artificial Analysis在2025年5月的實測中給出了一組被廣泛引用的數據:在Meta的Llama 4 Maverick 400B模型上,Cerebras達到2522 token/秒,英偉達最新的Blackwell B200為1038 token/秒,Cerebras約為後者的2.4倍。Artificial Analysis CEO Micah Hill-Smith在評測報告中確認了這組數字,同期還測試了SambaNova(794 t/s)、Groq(549 t/s)、Google(125 t/s)等多家廠商,Cerebras是唯一超過英偉達Blackwell的方案。在其他模型上,這個倍數在2.5到5倍之間浮動。
另一個維度是系統吞吐量:一塊晶片同時服務大量用戶時,總共能處理多少請求。英偉達在GTC 2026上引用SemiAnalysis發布的InferenceMAX基準測試,展示Blackwell B200在Llama 3.3 70B上達到每GPU 10000 token/秒的吞吐量。但這個數字和Cerebras的2522 token/秒不可直接對比,因為衡量的不是同一件事:前者是系統並發處理能力,後者是單用戶感知速度。
Cerebras官方部落格中相對審慎的表述是"最高快15倍"(2026年4月),或在特定推理場景下引用SemiAnalysis發布的英偉達B200數據進行對比,宣稱端到端延遲快21倍(需要說明的是,這組對比中SemiAnalysis只測了英偉達一側,Cerebras一側的數據來自公司自身)。
不過英偉達2025年底以200億美元獲得了推理晶片公司Groq的技術授權和核心團隊,並在GTC 2026上展示了第一塊非GPU推理晶片Groq 3 LPU,已經有產品直接瞄準了Cerebras擅長的高速解碼市場。
本文基於Feldman在過去一年裡接受的三次深度播客訪談:2025年3月知名風投播客20VC(主持人Harry Stebbings,70分鐘長談)、2025年8月美國科技播客Artisanal Podcast(主持人Andy Price)、2025年12月杜拜GITEX展會現場的Inside GITEX訪談。三次談話分別側重晶片競爭的技術與市場格局、Cerebras從白板到量產的十年敘事、以及上市前夕的商業判斷,合在一起構成了這家公司迄今為止最完整的自述。Feldman今年62歲,這是他的第五家創業公司,前四家全部成功退出。
Feldman在斯坦福校園裡長大。父母都是教授,父親每周末打網球,六個固定球友輪換,打到最後,有四人拿了諾貝爾獎,一人拿了數學領域最高獎菲爾茲獎。他說這段成長經歷給他的,不是傲慢,是好奇心,以及對"智識本身有價值"的樸素信念。
他在Artisanal Podcast里回憶:"兩扇門之外的鄰居拿了兩個諾貝爾獎。我們小時候對他的全部印象,是他在萬聖節會給全尺寸三個火槍人巧克力棒。就這些。"
這種氛圍沒有把他推向學術,反而推向了創業。高中時他做T恤,賣進了Nordstrom。畢業之後,他參與了最早一批做硬體交換機和路由器的公司,趕上了網際網路基礎設施爆發的時代。在他的表述里,做基礎設施的人天生應該享受"別人開著好車跑在你鋪的路上"這件事。
這個直覺後來被翻譯成了一個關於AI計算的判斷:如果你能讓推理足夠快,新的商業模式就會自發生長出來。他反覆舉Netflix的例子。網速慢的時候,Netflix靠郵寄DVD活著,再之前,人們還得自己開車去Blockbuster租碟片。寬帶普及之後,Netflix變成了電影製片廠,亞馬遜也變成了內容製作公司,這些事在撥號上網時代完全不可想像。他相信AI算力的邏輯一模一樣:在電腦行業50年的歷史中,沒有一個例子表明把東西做得更快更便宜之後,市場變小了。市場永遠在變大。
Cerebras的五位聯合創始人,之前都在Feldman的上一家公司SeaMicro工作。SeaMicro做的是超低功耗微伺服器,2012年被AMD以約3.34億美元收購。在此之前,Feldman還在Force10 Networks擔任產品管理副總裁,那家公司後來以8億美元賣給了戴爾。他從事基礎設施創業,已經有完整的成功退出記錄。
離開AMD兩年之後,這幾個人在2015年中重新聚到了一起。Feldman在Artisanal Podcast里描述那個起點很簡單:"我們在白板上寫了兩句話:想再次一起工作,想做一件重要的事,不是為了錢。"
當時的AI,用他的話說,"慘不忍睹"。谷歌大腦研究員Quoc Le,斯坦福博士出身,後來參與了大規模語言模型的奠基性工作,而當時他最轟動的成果是用16000個CPU讓神經網路自己從YouTube影片裡學會了認貓,沒有人告訴它什麼是貓,它自己發現的。這已經是當時AI研究的最前沿了。手寫數字識別是重大進展。整個行業看起來和改變世界毫無關係。
但就在這一年前後,有一次會面改變了他們的判斷。Feldman和聯合創始人與Sam Altman、Ilya Sutskever、Greg Brockman以及Scott Gray坐在一起談話,這幾個人後來共同創立了OpenAI。當時他們告訴Feldman,距離AGI(通用人工智慧)只有幾年,他們有一個計劃,要造出超級智能。
他在20VC節目中回憶那一刻:"你坐在那裡,心裡想的是:我他媽的根本沒法理解這件事。"
他說,"真正的遠見者和瘋子非常接近"。凡爾納的《海底兩萬里》和《八十天環遊地球》,這些科幻里的想像,最後都被現實低估了。這一次,他選擇相信坐在他對面的那幾個人是真正的遠見者。
這次會面沒有直接告訴他該造什麼,但堅定了一件事:這個計算需求一定會來,而且會需要一種和現有GPU根本不同的東西。Feldman後來承認自己低估了市場規模,"這是我第五家創業公司,第一次在市場規模上犯了嚴重的低估錯誤"。
他們看到的技術機會,具體落在兩個判斷上。
第一,AI計算需要大量移動數據。傳統處理器的工作方式是"數據進來,處理,出去",但AI不同,中間結果需要在節點之間不斷傳遞,這種傳輸模式是傳統架構的噩夢。
第二,推理的記憶體訪問模式根本不同。生成每一個token,也就是AI回答里的每一個詞,都需要密集讀取記憶體。Feldman在20VC節目中給了一組具體數字:一個70億參數的模型,算不上巨大,每個權重16位,生成一個詞就需要從記憶體搬運約140GB的數據,然後生成下一個詞再搬一次,再一次,再一次。這個過程對記憶體頻寬的消耗是驚人的。(這組數字與Cerebras官方技術部落格中的描述一致。)
GPU使用的HBM是一種高頻寬記憶體,雖然容量大,卻慢。
他用了一個最直觀的比喻來解釋這個問題。
"想像一個玻璃杯是記憶體,裡面裝的可樂是數據,你的嘴巴是算力。你能喝到可樂的速度,取決於吸管的粗細。英偉達GPU的根本問題,就是吸管太細。我們的做法是,把吸管扔掉,直接把杯子舉到嘴邊倒。"
解法是把晶片造得足夠大,大到可以在晶片上放下足夠多的SRAM。記憶體分兩種,HBM是DRAM(動態隨機存取儲存器)的一個變體,容量大但讀寫慢;SRAM(靜態隨機存取儲存器)讀寫極快,但容量小。Cerebras的方案是:晶片大到能放下44GB的SRAM,容量問題解決了,同時保留SRAM的速度優勢。而且由於數據不需要頻繁離開晶片,功耗也大幅降低。晶片上最耗電的部件之一就是IO,也就是數據進出晶片的通道。數據留在矽片內部,電就省了。
如果用傳統尺寸的晶片裝SRAM,要跑一個4000億參數的模型做推理,可能需要4000塊晶片;要跑DeepSeek
的6710億參數模型,可能需要6000到8000塊。Feldman說,"那是一場管理噩夢"。用晶圓級晶片,同樣的工作可以放在一塊、兩塊或十塊晶圓上完成。
最終晶片面積是英偉達GPU的56倍,是人類歷史上製造過的最大晶片。
2015年去融資的時候,Feldman帶著這個想法見了八家機構,拿到八份條款書。Benchmark、Foundation Capital、Eclipse都在其中,後來Altimeter也加入進來。
他沒有依靠講故事說服投資人,而是把晶片行業最頂級的人找來,讓他們自己判斷。名單里有Andy Bechtolsheim,Sun Microsystems聯合創始人、Arista Networks創始人,也是1998年第一個給谷歌寫支票的人,那張10萬美元的支票,後來價值數億美元。這個級別的人告訴你這件事有意思,是一種完全不同的背書。
他在20VC節目中說:"他們知道這個想法的威力。他們不確定我們能不能做到,但他們知道,如果做到了,意味著什麼。"
技術上,這不只是造一塊大晶片的問題。Cerebras需要說服台積電(TSMC)修改光刻工藝的某些步驟,需要發明全新的封裝技術,並且從一開始就決定做系統級產品,而不是一塊插卡。Feldman說,七年後AMD以50億美元收購ZT Systems,才開始走"做整系統"這條路,"我們一開始就知道必須這麼做"。
把晶片做大,聽起來簡單。但這件事被反覆嘗試過,沒有人成功。Gene Amdahl,"Amdahl定律"提出者,曾在IBM主持大型機設計,專門創立了一家叫Trilogy的公司來做這件事,失敗了。IBM失敗了。德州儀器失敗了。NSA嘗試過,也失敗了。
2018年,馬斯克曾試圖收購Cerebras。Feldman後來在CNBC的採訪中說,"我們當時以為他是在Tesla的背景下談這件事"。收購沒有成功。此後馬斯克自己啟動了Dojo項目,走同一條路,最終放棄。
為什麼這麼難?Feldman在Artisanal Podcast里給過一個通透的解釋。
晶圓的起點是一片12英寸直徑的矽圓片。晶片是從這個圓片上切出來的,就像你媽媽用模具從餅乾麵團上切餅乾一樣,切完之後,把邊角料掀掉,剩下的就是餅乾,也就是晶片。但製造過程中必然會出現缺陷,這些缺陷的分布是隨機的,"就像你媽媽閉上眼睛,往麵團上撒了一把M&M豆"。餅乾越大,砸到M&M的概率就越高。傳統做法是:有缺陷的晶片,要麼整塊扔掉,要麼關掉有問題的部分降級賣,行業術語叫binning。
晶片越大,浪費的矽就越多。這是70年來被視為鐵律的東西。
Cerebras的突破在於,他們把處理器設計成了數十萬塊完全相同的小單元(tile)。 哪塊有缺陷,就關掉哪塊,旁邊預留了冗餘單元,隨時可以頂上。這個思路來自儲存器製造,儲存晶片的良率之所以極高,正是因為用了同樣的冗餘策略。他們把這個策略第一次移植到了處理器晶片上。
"這件事在電腦處理器上從未被做到過。我們做到了。"
Feldman坦言,他們也失敗了將近五年。"市場沒有說不,市場在問'什麼時候能拿到貨'。是我們自己做不出來。"
他們在洛斯阿爾托斯租了一棟不適合做硬體研發的小樓,在牆上打洞裝了冷卻設備,開著窗戶散熱。每個月燒掉數百萬美元,反覆失敗,反覆做故障分析,反覆重來。每次進董事會,匯報的都是:還沒搞定,還沒搞定。
投資人的耐心撐住了,原因是他們在評估工程方法論,而不只是看結果。Feldman說,他從未懷疑過團隊的執行力,"我懷疑的是我自己有沒有把他們引向正確的方向"。
2019年底到2020年初,系統第一次跑起來了。聯合創始人們站在實驗室里,對著顯示器,誰都沒有說話,沉默了半分鐘。
他在Artisanal Podcast中說:"在70年的電腦歷史裡,從馮·諾伊曼開始,這件事被無數人嘗試過,沒有一個人成功。我們做到了。那是我人生中最偉大的幾分鐘之一。"
六七年之後,Cerebras的晶圓良率已經超過了英偉達同類產品(這一說法出自Feldman,尚無獨立第三方驗證),多個工廠並行運轉。
Cerebras在技術上取得突破之後,面臨的問題是:誰來買?
Feldman在全球尋找正在做有意思的AI項目的機構。G42成為Cerebras商業化的核心支點,雙方合作訓練了阿拉伯語領域最領先的語言模型,還做了基因模型。這個合作帶來了數億美元的設備訂單,G42一度占到Cerebras全年營收的87%,Cerebras在G42的項目中部署了數十exaflops的算力。
Feldman在Inside GITEX訪談中說,自己在G42的合作里學到了一種此前不具備的能力:怎麼做戰略合作夥伴。"我們不是一到G42就知道怎麼做夥伴的。這需要學習,需要犯錯,需要反覆磨合。和供應鏈的配合、製造產能的數倍增長、軟體在超大規模集群上的打磨,這些都是和G42合作之後才鍛煉出來的肌肉。現在我們可以把同樣的能力複製給全球任何一家大客戶。"
單一客戶占比過高,後來成了Cerebras IPO過程中投資者最關注的問題之一。Cerebras隨後開始大力擴展客戶基礎,OpenAI正在成為新的核心。
2025年年中,Feldman談到與OpenAI的關係時,還只是將其描述為"戰略夥伴"。但後來發生的事情,讓這段關係的分量完全不同。
2025年8月,Cerebras展示了OpenAI的開源模型在自己的晶片上運行效率優於傳統GPU,兩家公司隨後開始談判。2026年1月14日,OpenAI與Cerebras正式宣布多年期計算協議,Cerebras將通過自建和租賃數據中心的方式,向OpenAI提供高達750兆瓦的計算能力,合同期至2028年,協議規模超過100億美元。這筆合同讓此前"G42占87%營收"的集中度問題有了疏解的出口。
值得一提的是,OpenAI CEO Sam Altman本人就是Cerebras的早期投資人,而OpenAI早在2017年就評估過Cerebras的技術。這三件事放在一起,構成了一段持續將近十年的關係史。
2026年3月,AWS(亞馬遜雲)成為第一家採用Cerebras晶片的超大規模雲服務商。AWS的做法頗為特別:在推理任務中,用自家的Trainium晶片處理"理解用戶輸入"這個環節,再交由Cerebras的CS-3晶片負責"生成輸出"這個環節,兩者通過高速網路連接,分工協作,據稱推理速度是現有方案的5倍以上。服務將通過Amazon Bedrock在2026年下半年向開發者開放。
在20VC節目中被問到為什麼要上市時,Feldman的回答很乾脆。私募資金現在這麼充裕,Anthropic和OpenAI都證明了公司可以在私有市場拿到原本只有上市公司才能拿到的估值。為什麼不繼續待在私有市場?
Feldman的回答是:"他們有資訊不對稱的優勢。我們有技術不對稱的優勢。" 競爭對手可以讀你的S-1文件,看到你所有的財務數據,但Cerebras的技術壁壘是對手拿著財務數據也追不上的。同時他指出,美國大型企業在採購時,歷來偏好和上市公司打交道,這是拿下真正的大客戶的前提之一。
到2026年4月IPO申請提交時,Cerebras已經不是一家靠單一客戶支撐的公司了。
被反覆問到英偉達的問題,Feldman沒有任何小看的意思。
他在20VC節目中說:"2004到2014年,英偉達十年沒什麼動靜,股價平得像一張紙。那個時候他還在扛著,你就知道這個人有多硬。那才是真正學習如何成為偉大CEO的時候,不是他們風光的時候,是他們困難的時候。"
他把自己定位為"職業David",五次創業,每次都選了一個比自己大幾千倍的對手。當你贏下來的每一百萬美元,都是本來會默認流進市場老大口袋裡的錢,這種感覺是最好的回報。解釋一下,David來自聖經里"大衛與歌利亞"的故事。歌利亞是巨人戰士,全軍都怕他,只有牧羊少年大衛拿著一把彈弓上去,一石頭把他打倒了。所以,在商業語境裡,David指小公司,Goliath指行業巨頭。
但Feldman也拆解了英偉達的護城河構成,其中有些很真實,有些被高估了。
最常被提到的"CUDA",Feldman的判斷是:在推理領域,並不存在。 "你可以用10次按鍵從OpenAI的Nvidia GPU切換到Cerebras,再切到Fireworks,再切到Perplexity。任何一個真正用過AI的人都知道,在推理端沒有CUDA鎖定可言。"他進一步解釋,Google用TensorFlow、Meta用PyTorch,事實上已經完成了對CUDA的解耦。今天絕大多數AI代碼用PyTorch寫,理論上可以編譯後跑在任何硬體上。編譯器是一個複雜的工程挑戰,但它是可以解決的。
這是Feldman作為挑戰者的立場。黃仁勛在GTC 2026後接受Stratechery採訪時則強調了另一面:CUDA已經20年,安裝基礎遍布"每一朵雲、每一家電腦公司"。英偉達的護城河不只是編程語言本身,而是圍繞它建立的整個軟體生態。
真正構成護城河的,Feldman自己也承認,是另一些東西。市場份額領導者本身就是一條護城河,而且是很少被正確討論的那種。 他在20VC節目中舉了Intel的例子:"Intel之前曾經犯過多次錯。結果呢?仍然占有x86市場75%到80%的份額。AMD花了十年才拿到25%到30%。你犯了十年的錯,才丟了20%的份額。這就是市場領導地位的護城河有多深。"
他承認英偉達的處境更強:"所有人都在你的結構里學習、思考AI。你是默認選項,你是所有採購決策的起點。這些都是真實的壁壘。"
那五年後的格局呢?他給了一個具體的數字預測:英偉達目前的市場份額接近100%,五年後會降到50%到60%。 他認為英偉達在訓練領域的優勢很強,"不會在推理市場上舉白旗",但市場總量在膨脹,Cerebras和其他挑戰者會切走一塊。Feldman的這幾期播客都在幾個月前。如果按照GTC2026的資訊,英偉達可以說在推理上下了非常大的功夫,而且喊出推理之王的口號。所以,市場變化,其實是瞬息萬變的。
Feldman對長期競爭格局還有一個更廣的判斷:晶片公司的企業價值會超過模型公司。 他用期權定價的邏輯來解釋當下模型公司的高估值,不確定性大,方差大,期權價值就高。但長期來看,市場從"投票機"變成"稱重機"(這是巴菲特的說法),估值會回歸盈利能力。模型公司的領先周期可能只有幾個月,你領先四個月,別人領先六個月,來回切換,很難形成持久價值。晶片公司的壁壘在物理層面,半導體行業歷來產生過非常大的、持久的公司,蘋果和英偉達之所以是地球上最值錢的公司之一,原因就在這裡。
他在20VC節目中說了一句對做投資的人意味深長的話:"要在硬體領域做投資,你需要像Eric Vishria(Benchmark合伙人,Cerebras的早期投資人)那種水平的判斷力。"
Feldman反覆強調"我們是獨此一家",在晶圓級晶片這個方向上,Cerebras沒有直接競爭對手。但在"用非GPU架構做推理"這個更大的命題下,賽道從來不缺參賽者。Cerebras提交S-1的春天,這條賽道上至少出現過六個值得關注的名字。
Groq是推理速度的標杆,它的LPU(Language Processing Unit,語言處理單元)也採用片上SRAM方案,和Cerebras在技術路線上有交叉。2025年聖誕夜,英偉達宣布以200億美元與Groq達成技術授權協議,創始人Jonathan Ross和大部分核心工程師隨即加入英偉達。2026年3月的GTC大會上,黃仁勛展示了Groq 3 LPU,第一塊由英偉達發布的非GPU推理晶片,由三星4nm工藝製造,512MB片上SRAM,150TB/s記憶體頻寬,作為Vera Rubin平台的專用解碼加速器,預計2026年Q3出貨。Groq在名義上仍是獨立公司,由新任CEO Simon Edwards領導,GroqCloud推理服務繼續運營,但核心技術和團隊已被英偉達吸收。從挑戰者到被收編,Groq的故事證明了Feldman的一個判斷:英偉達開始用資產負債表而非技術來競爭。
Etched走了一條更極端的路。這家2022年由三位哈佛輟學生創立的公司,做的是Transformer專用ASIC,晶片硬體直接固化了Transformer的計算圖,矩陣乘法、注意力機制、softmax全部燒進矽里,不支持任何其他架構的模型。他們的Sohu晶片宣稱8卡伺服器能在Llama 70B上跑出50萬token/秒,是8卡H100的20倍以上。2026年1月完成5億美元融資,Peter Thiel參投,估值50億美元,累計融資已超6億美元。但截至2026年3月,Sohu仍未向客戶出貨,所有性能數據均來自公司自身,沒有獨立第三方驗證。更值得玩味的是,Etched的全部賭注押在"Transformer永遠是主流架構"上,而Feldman 100%確信三到五年內Transformer的地位會動搖。如果Feldman是對的,Etched的晶片將在物理層面無法適配新架構。
SambaNova是另一家值得關注的選手。2017年創立於矽谷,創始人Rodrigo Liang,最新一代SN50晶片採用台積電3nm工藝和"可重構數據流單元"(RDU)架構,配備三層記憶體體系(SRAM+HBM+大容量儲存),宣稱推理性能是競品的5倍、總擁有成本降至GPU方案的三分之一。2026年2月完成3.5億美元E輪融資,Intel參投並達成多年合作協議,SoftBank將在日本率先部署SN50。Intel CEO Lip-Bu Tan自2017年起擔任SambaNova董事長,此前曾以16億美元洽購SambaNova未果,轉而以投資和聯合銷售的方式綁定。SN50預計2026年下半年出貨。
Positron AI則可能是這個賽道里增長速度最快的初創公司。2023年才成立,總部在內華達州里諾,全公司不到50人。第一代產品Atlas已經在出貨,用美國本土製造的晶片,宣稱推理延遲是H100的三分之一、功耗也是三分之一。2026年2月以超過10億美元估值完成2.3億美元B輪融資,投資方包括Jump Trading和卡達主權基金QIA。下一代自研晶片Asimov計劃2026年10月流片、2027年初量產,目標是每晶片2TB以上記憶體,直指影片推理和超長上下文這類記憶體密集型工作負載。SemiAnalysis創始人Dylan Patel評價其"在記憶體擴展問題上採取了獨特的方法"。
Tenstorrent走的是另一條路。傳奇晶片架構師Jim Keller(曾主持AMD Zen架構、蘋果A4/A5處理器和特斯拉自動駕駛晶片設計)擔任CEO,公司以RISC-V指令集和可授權IP為核心,2025年底完成8億美元融資,估值32億美元。它沒有直接瞄準數據中心推理市場,而是做AI晶片的"IP授權商",讓三星、LG、現代這樣的公司用Tenstorrent的Tensix AI核心和Ascalon RISC-V CPU核心設計自己的定製晶片。Keller自己的定位很明確:"有大量市場是英偉達服務不好的。"
還有一個名字,不過值得作為警示出現:Graphcore。這家英國公司曾是AI晶片賽道的明星,2020年估值一度接近28億美元,投資方包括微軟和紅杉,其IPU(Intelligence Processing Unit)被視為GPU的有力替代。但它始終未能在商業上實現突破。2024年7月,SoftBank以約6億美元將其收入囊中,不到巔峰估值的四分之一。
2025年初,DeepSeek發布的模型引發全球震動。Feldman談過對DeepSeek的評價。沒有恐慌,也沒有輕視:"那是專注的工程。他們對'更好'的興趣大於對'更新'的興趣。從發明角度看有點無聊,從工程角度看極為出色。"
有人指責DeepSeek通過蒸餾"竊取"了OpenAI的成果。Feldman反問:"蒸餾說白了就是提煉精華,你覺得提煉精華有錯?VC每天乾的就是這件事,讀一百份材料,抓出最關鍵的三句話。如果你連提煉都不做,你什麼也學不到。再說了,如果用別人模型的輸出來訓練算偷,那你用別人有版權的文章來訓練,豈不是更算偷?你得一碗水端平。"
他進一步指出,DeepSeek模型的開源影響力是前所未有的。"我很少見到一個開源項目能在這麼短的時間內對這個水平的技術社區產生這麼大的衝擊。通常開源軟體的增長路徑是從1萬用戶到10萬,到100萬,慢慢來。這個模型在業界的衝擊是瞬間的、巨大的。"
和DeepSeek的討論自然引出了一個更底層的問題:當前的AI算法到底有多高效?Feldman說,GPU做推理時,利用率很低,多數算力在浪費。不過這個數字需要說明背景:Feldman指的是GPU在生成式推理任務中受限於記憶體頻寬的情況,並非所有GPU工作負載。英偉達在GTC 2026上展示的Dynamo推理框架,正是為了提升GPU在實際推理部署中的利用率。他認為算法效率會持續提升,硬體的性價比也會持續改善,數據中心的PUE(能效比)也在下降,三者疊加,推理成本會大幅下降。
同時他給出了一個100%確定的預測:三到五年內,行業對Transformer的依賴會大幅降低。 他不知道替代品是什麼,可能是狀態模型(state-based models),可能是其他形態,但他確信Transformer有明顯的弱點,比如注意力頭機制的二次方計算複雜度,人們在拼命想辦法克服。Transformer"目前是我們手裡最好的工具,但它不會是終點"。
他在20VC節目中用一個簡單的類比來說明為什麼當前的神經網路在計算上浪費極大:今天很多模型是"全連接"的,也就是每一層的每個元素和每個其他元素都連在一起。但實際上有用的連接只占其中一小部分,其餘的連接"不產生任何有價值的結果,但我們仍然在對它們做數學運算"。就像你要學一樣東西,有50本相關書籍,你可以全讀,也可以只讀最重要的3本,甚至只讀3本的摘要。問題是一開始你不知道哪3本最重要,而稀疏化(sparsity)、Dropout以及混合專家模型(MoE)等技術,正在嘗試解決這個"選書"的問題。
有人說AI的縮放定律已經到頂了?Feldman不同意。他認為高級機器學習研究者之間對此並沒有太多分歧,算法改進的空間依然巨大。OpenAI的o1模型已經證明了推理縮放定律是完全有效的:在推理階段投入更多計算,答案會更好。
在20VC節目中被問到推理市場究竟有多大時,Feldman給出了一個清晰的等式。
訓練是製造AI,推理是使用AI。推理市場有多大 = 使用AI的人數 × 使用頻率 × 單次使用的計算量。現在,這三個變量同時在增長。
他認為2024年第四季度是一個轉折點。在那之前,AI基本上還是個新鮮玩意兒,ChatGPT不是技術突破,是用戶界面的發明,它讓更多人能夠接觸到AI,但大家拿它來玩,不知道真正能用來做什麼。從2024年Q4開始,AI變成了工作流。"如果你的營銷團隊不是每人每天用幾次大模型,他們就沒在好好幹活。"這種轉變不局限於矽谷的技術圈子,Feldman的父親、他做醫生的兄弟,普通人開始真正依賴AI。
"一旦你到了這個階段,市場就是在爆發。"
20VC主持人Harry Stebbings問他AI市場五年後會大多少。"我們肯定超過100倍。"
五年後訓練數據中合成數據和人類數據的比例呢?"幾乎全是合成的。"他用飛行員訓練做類比:飛行員大部分時間是在直飛,但訓練價值最高的是極端場景,發動機爆了,暴風雪中的緊急降落。模擬器的價值,就是製造大量這種罕見場景的數據。自動駕駛也一樣,"直行數據我們已經有夠了,關鍵是下雪天的無保護左轉。你需要成千上萬種變體。這就是合成數據的用武之地,用它來填補那些成本極高或根本無法自然收集的數據空白。"
AI行業的能源消耗是一個無法迴避的現實。Feldman在Inside GITEX訪談中對此的態度是先承認、再要求回報。
"第一件事是承認這是一個高能耗產業。我們消耗大量電力。第二件事是,正因為如此,我們有義務交付足夠大的價值。你花了這麼多電,你最好用AI找到疾病的療法,解決一批社會問題。這是一枚硬幣的兩面,你不能只要好處不要責任。"
美國的情況比較特殊。Feldman認為電力總量並不缺,但分布完全不對,"電力在尼亞加拉瀑布,但你想建數據中心的地方是光纖好的地方,而那些地方偏偏沒有電。"更麻煩的是,沒有一個全國性的機制來繞過地方法規的阻礙。你想在矽谷建數據中心,得和市政府、既有利益群體一個個談,這不是一個高效的基礎設施決策方式。
一個有趣的現象是,早期的比特幣相關公司反而成了AI數據中心建設的先行者。Feldman在20VC節目中提到了TeraWulf和Crusoe這些公司,它們一開始就在低成本電力附近建設大型計算設施,具備了功耗密集型計算的實戰經驗,現在成了千兆瓦級AI數據中心建設的領導者。"這些人肯定不是遊客,他們是真正懂數據中心建設的人。"
Cerebras 750人的團隊裡,將近100人曾在他此前的公司工作過。有的人跟他已經三十年了,從上世紀90年代一起做硬體的人,一路跟到了今天的晶圓級晶片。
他在Artisanal Podcast里說:"他們為什麼留下來?因為有一筆交易,一筆清楚的交易:我幫你找有意思的工作,公平付你薪水,照顧你和你的家庭;你回報我的,是全力以赴。"
有人問他,為什麼不會像某些AI公司創始人那樣,暗中操作、在員工前面先為自己撈好處?
"這不是我的價值觀。世界其實很簡單,就問一個問題:如果我跟Shirley Feldman,也就是我媽,描述我做了這件事,她會為我感到驕傲嗎?"
這位連續五次創業的CEO也坦然談自己犯過的錯。他提到了一件讓他印象深刻的判斷失誤:2016年,聯合創始人兼首席系統架構師JP提出了水冷方案,當時沒有其他公司這麼做,Feldman拼命反對。一兩年之後,Google宣布TPU採用水冷。再後來,英偉達也只賣水冷版本了。"我大錯特錯,JP是對的。"
他在20VC節目中說,如果你每天做大量決策,你一定會犯大量錯誤。"你可以主動做錯決定,也可以抵制正確的決定。兩種錯我都犯過。我以為很好的人最後極為出色,我以為極為出色的人卻聰明而無法收尾。如果你不準備經常犯錯,就不應該坐在大量決策需要做出的位子上。"
20VC主持人Harry Stebbings開了個玩笑:"作為風險投資人,我從不犯錯。"
Feldman接話:"作為風險投資人,你十次里錯九次,只要對的那一次足夠好,所有人就忘了你的平均成績。CEO不一樣,我們得大多數時候都對。"
招聘這件事,他有一個具體的判斷方式。面試最多能看出一個人是不是聰明,但聰明是必要條件,不是充分條件。真正重要的品質,比如抗壓能力、協作意願,很難在一兩個小時內判斷。他的方法之一是讀郵件:給候選人寫三封郵件,看他們怎麼回。"郵件寫得緊湊、有條理、清晰簡潔,他們的代碼大概率也是這樣寫的。"
他對年輕創業者的建議同樣不繞彎子:愛上這份工作,找到你信任的人,瞄準真的能幫助某一群客戶的事,錢會來的。有人說經驗不重要,天真是一種優勢?他不同意。"如果你做的事涉及製造、供應鏈、管幾百上千人跑一個工程進度,我不認為任何人會一臉認真地說'我想要一個沒有經驗的領導者'。說'天真是優勢'的人通常是諮詢公司,'我們的人對你的行業沒有偏見'。得了吧,也許對你的行業有一點了解會有幫助。"
在Artisanal Podcast中被問到他的獨特洞見是什麼,他沒有給出什麼宏觀理論,而是說了三件具體的事:"了解自己擅長什麼,坦然接受自己不擅長的,不怕說'我不知道'。"
在Inside GITEX訪談中被問到十年後Cerebras會達到什麼位置,Feldman沒有給一個估值數字,給的是三件他想看到的事。
第一,Cerebras的算力被用來找到至少一種影響每年超過100萬人的疾病的療法。
第二,Cerebras的推理服務支撐起一批今天還不存在的應用。
第三,相當比例的人口在不知不覺中使用著Cerebras提供的計算能力,就像今天你用手機不會想到裡面的晶片是誰做的一樣。
"十年前英偉達市值100億。十年在我們這個行業里,是一段非常長的旅程。"
2007年 Feldman聯合創立SeaMicro,做超低功耗微伺服器。
2012年 SeaMicro被AMD以約3.34億美元收購,Feldman出任AMD數據中心伺服器解決方案總經理。
2015年中 Feldman與四位聯合創始人重新聚首,決定創立Cerebras。
2015-2016年 與Sam Altman、Ilya Sutskever、Greg Brockman、Scott Gray會面,這幾人後來聯合創立OpenAI。
2017年 OpenAI首次評估Cerebras技術。
2018年 馬斯克試圖收購Cerebras,交易未成。隨後馬斯克啟動Dojo項目,試圖走同一條路。
2019年底至2020年初 系統第一次成功運行,晶圓級晶片正式GA(量產發布)。
2021年 G42成為Cerebras核心客戶,開始合作訓練阿拉伯語語言模型及基因模型。Cerebras完成F輪融資,估值40億美元。
2024年9月 Cerebras首次向SEC提交IPO申請。
2025年3月 IPO路徑重新打通。同月,20VC主持人Harry Stebbings對Feldman進行長篇專訪。
2025年8月 Cerebras向OpenAI展示其開源模型在Cerebras晶片上的運行效率,雙方開始談判。同月,Artisanal Podcast對Feldman進行深度訪談。
2025年10月 Cerebras撤回IPO申請,同期宣布G輪融資11億美元,估值81億美元。
2025年12月 杜拜GITEX展會期間,Inside GITEX播客對Feldman進行現場訪談。
2026年1月 OpenAI與Cerebras簽署計算協議,價值超100億美元,Cerebras將為OpenAI提供750兆瓦算力,合同期至2028年。
2026年2月 Cerebras完成H輪融資10億美元,估值230億美元,投資方包括Tiger Global、AMD、富達。重新向SEC保密提交IPO申請。
2026年3月 AWS宣布將Cerebras CS-3晶片部署至AWS數據中心,通過Amazon Bedrock提供推理服務,是Cerebras進入超大規模雲服務商的首次突破。
2026年4月17日 Cerebras正式公開提交IPO申請,2025年全年營收5.1億美元,淨利潤8790萬美元。據報道IPO目標估值約350億美元,擬融資30億美元。OpenAI與Cerebras的計算協議規模據報進一步擴展至逾200億美元,OpenAI將獲最多10%股權認購權證。
Q1:Cerebras的核心技術優勢是什麼?
根本原因在於記憶體架構的差異。GPU使用的HBM讀寫慢,是推理過程中的根本瓶頸,每生成一個token,一個70億參數模型需要搬運約140GB數據,頻率極高,HBM跟不上。Cerebras的做法是造一塊面積是英偉達GPU 56倍的巨型晶片,在晶片上集成44GB的SRAM,消除數據在晶片之間反覆傳輸的損耗。同時,傳統晶片因面積大而良率低的問題,Cerebras通過"冗餘瓷磚"技術解決,晶片由數十萬塊完全相同的小單元組成,有缺陷的關掉,旁邊的冗餘單元頂上,這是儲存器行業幾十年的方法,第一次被用在處理器上。。
Q2:算法還有多大改進空間?Transformer會被取代嗎?
Feldman認為空間巨大。他100%確信三到五年內行業對Transformer的依賴會大幅降低,可能被狀態模型或其他架構替代。當前很多神經網路是全連接的,每個元素和每個其他元素都有連接,其中大量連接毫無價值卻仍在消耗算力。混合專家模型(MoE)、稀疏化等技術在嘗試解決這個問題,但"我們仍處於非常早期"。他的判斷是:數據、算力、算法三個維度都有巨大改進空間,說"我們在所有支柱上都已經走得很遠"的人是錯的。OpenAI開創的o1模型就證明了推理端的縮放定律完全有效,投入更多推理計算,答案確實更好。






