GPT-5 難產細節曝光，半年燒掉 36 億，OpenAI 高管爆發算力內鬥 │ Hunt Good 周報

歡迎收看最新一期的 Hunt Good 周報！

在本期內容你會看到：

7 條新鮮資訊
3 個有用工具
1 個有趣案例
3 個鮮明觀點

Hunt for News｜先進頭條

💥 GPT-5「難產」細節曝光

GPT-5「難產」的傳聞甚囂塵上，但關於其中的具體細節，外界一直霧裡看花，而《華爾街日報》最近的一篇報道，披露了不少內幕資訊。

原報道篇幅很長，但我們為你準備了人肉總結省流版：

和此前爆料一致，代號為獵戶座(Orion) 的 GPT-5 開發周期已經超過 18 個月。OpenAI 「金主」微軟本來預計它能在 2024 年中發布，但結果顯而易見，GPT-5 已經「難產」。

OpenAI 給 GPT-5 設定的目標可不低，比如能做博士級的任務，能做出新的科學發現，把日常任務處理得更好，減少 AI 幻覺，懂得表達「不確定性」。

理想很豐滿，現實很殘酷，Orion 至少試了兩輪大規模訓練，但效果都未達預期，成品只是比現在的產品是 GPT-5 難產細節曝光，半年燒掉 36 億，OpenAI 高管爆發算力內鬥 │ Hunt Good 周報

強了點，但投入產出比極低，據估計，六個月的訓練運行就要燒掉大約 5 億美元，這筆賬怎麼算都不划算。

從 2023 年年中開始，事情就不太順。當時，OpenAI 啟動了代號為「Arrakis」的測試項目，旨在驗證 Orion 新設計的有效性和可行性。結果發現，訓練速度慢得出奇，這也意味著更大規模的訓練可能要花更長時間，成本自然就蹭蹭往上漲。

2024 年初，OpenAI 決定開始新一輪嘗試，這次他們準備了更高質量的數據，前幾個月也搞了幾次小規模訓練來增強信心。到了 5 月，研究團隊認為時機成熟，啟動了一項預計持續到 11 月的大規模訓練。

但訓練開始後就發現了大問題：數據的多樣性還是不夠，從而可能嚴重限制 Orion 的學習能力。而這個缺陷在之前的小規模測試中完全沒有顯現，直到大規模訓練才暴露出來。

由於已經投入了那麼多時間和錢，想重來都不行了。這時候，OpenAI 也開始意識多樣化、高質量的數據對模型訓練的重要性，僅僅依靠傳統的 Scaling 可能走不通了。

且由於之前用的網際網路數據（新聞文章、社交媒體帖子和科學論文）已經不夠用了，研究團隊不得不另闢蹊徑：

其一是從頭造數據，研究人員認為，代碼能幫助模型解決一些未知的問題。OpenAI 專門招了軟體工程師和數學家來寫代碼、解數學題來為 Orion 提供學習材料，並詳細記錄解決問題的思維過程。

其二是尋求專家合作，比如 OpenAI 邀請了理論物理學等領域的專家，讓他們解釋怎麼解決各自領域最難啃的骨頭，希望這能讓 Orion 變得更聰明。

其三則是用 AI 來幫 AI。OpenAI 用推理模型 o1 生成合成數據，並結合傳統數據來不斷改進模型生成結果。當然，用 AI 訓練 AI 可能越練越「傻」，還是後話。

在從 GPT 系列轉向 o 系列推理模型的探索過程中，也有一些意外之喜，研究人員發現，讓 AI 多花時間「思考」，反而能解決一些沒訓練過的難題。比如 o1 能夠完成撰寫商業計劃、設計填字遊戲等複雜任務，還能解釋自己的推理過程，這讓模型能從每次嘗試中不斷學習。

Orion 訓練的停滯給了競爭對手迎頭趕上的機會。迫於此，OpenAI 開始將注意力轉向其他項目，包括開發 GPT-4 的各種版本和 Sora 等。知情人士透露，這也就導致開發新產品的團隊和 Orion 研究人員之間為爭奪有限的計算資源打得不可開交。

聊完產品，再說說 OpenAI 公司現狀。《華爾街日報》認為，10 月投資者給 OpenAI 1570 億美元估值，很大程度上是因為相信了奧特曼說的 GPT-5 會在各方面都有「重大飛躍」。

4 月份奧特曼在斯坦福大學演講時，還表示 GPT-5 性能將遠超 GPT-4。然而報道指出，OpenAI 甚至沒有一個明確的標準來判定何時算是達到了「GPT-5 級別」，很大程度上取決於公司高管的「直覺」或「感覺」。

與此同時，OpenAI 內部的動盪更是雪上加霜，繼去年宮斗大戲之後，包括 Ilya Sutskever、Mira Murati、Alec Radford 在內的 20 多名核心高管和資深員工都離開了公司，也給這家 AI 獨角獸帶來了不小的衝擊。

附上報道原文地址：
https://www.wsj.com/tech/ai/openai-gpt5-orion-delays-639e7693?st=ng5hBi&reflink=desktopwebshare_permalink

🐮 48.5 萬塊！微軟狂掃英偉達晶片

為了搶占 AI 時代的先機，巨頭們正在鉚足了勁地搶購 AI 晶片。

根據技術諮詢公司 Omdia 的最新數據，作為 OpenAI 最大金主的微軟今年購入了 48.5 萬塊英偉達 Hopper 晶片，採購量遠超其他科技巨頭。

相比之下，第二大客戶 Meta 的採購量為 22.4 萬塊，亞馬遜和 Google 分別為 19.6 萬和 16.9 萬塊。

微軟全球基礎設施高級總監 Speirs 表示，打造 AI 基礎設施不僅需要合適的晶片，還需要合適的儲存、基礎設施、軟體層和管理系統。

據 Omdia 預測，2024 年全球科技公司在伺服器上的支出將達 2290 億美元，其中微軟以 310 億美元的支出位居首位。

值得一提的是，微軟此前已向 OpenAI 投資 130 億美元，並利用 Azure 雲基礎設施為 OpenAI 訓練 o1 模型。

🔗 https://www.ft.com/content/e85e43d1-5ce4-4531-94f1-9e9c1c5b4ff1

🕵🏻 Meta Llama 4 高級推理與語音交互成亮點

在 2024 年密集發布多個重要更新的 Llama，最近又迎來了新消息。

據 Meta CEO 馬克·祖克柏最新透露，Llama 模型下載量已突破 6.5 億次，開發者基於此創建了超過 8.5 萬種衍生模型，其中包括英偉達開發的 Nemotron。

贊助商廣告

Meta 計劃明年推出多個 Llama 4 版本。

新版本的訓練將特別關注「高級推理」和語音交互能力的提升，目前已開始測試用於客戶服務和交易處理的 AI Agent。

值得注意的是，由於監管不確定性，Meta 已宣布 Llama 4 初期將不向歐盟開放。

🔗 https://ai.meta.com/blog/future-of-ai-built-with-llama/?utm_source=www.therundown.ai&utm_medium=referral&utm_campaign=google-releases-an-openai-o1-rival

👀 物理引擎 Genesis 發布，聲稱能生成 4D 動態世界

近日，由卡內基梅隆大學、斯坦福大學、麻省理工學院等多家研究機構聯合開發的開源物理引擎 Genesis 正式發布。

Genesis 被宣傳為「世界最快物理引擎」，它能夠通過純自然語言來驅動場景構建、動作生成以及影片模擬等功能。

技術特點如下：

支持生成 4D 動態世界，為數據採集提供新途徑

能夠生成複雜的角色動作，從雜技動作到機器人協同任務

完全 Python 開發，提供簡單友好的 API 接口

支持真實感光線追蹤渲染

採用 GPU 加速並行計算，實現超高速模擬

項目核心開發者 Zhou Xian 表示：

Genesis項目是 20 多個研究實驗室歷時 24 個月合作的成果。我們的目標是讓物理模擬技術更加普及，使每個人都能參與機器人研究。

值得注意的是，Genesis 的物理引擎和模擬系統已開源，生成框架也將很快發布。

附上項目地址：
https://genesis-embodied-ai.github.io/

🔗 https://genesis-world.readthedocs.io/en/latest/

🤖 英偉達推出「最便宜」、手掌大小的 AI 超算

英偉達近日發布了新一代 AI 超級電腦 Jetson Orin Nano Super。

相比 2019 年推出的首代 Jetson Nano，新品不僅性能大幅提升，價格更從 499 美元降至 249 美元。

這款面向商業 AI 開發者、愛好者和學生的產品，在性能表現上可圈可點：

生成式 AI 推理性能提升 1.7 倍

運算性能提升 70%，達到67 INT8 TOPS

記憶體頻寬提升 50%，達到 102GB/s

這款新品搭載了 8GB 系統級模組和參考載板，採用英偉達 Ampere 架構 GPU 和 6 核 Arm CPU，最多支持 4 個高解析度攝影機接入。

英偉達官方稱，現在每個人都可以通過生成式 AI 解鎖新的可能性。

🔗 https://blogs.nvidia.com/blog/jetson-generative-ai-supercomputer/?utm_source=www.therundown.ai&utm_medium=referral&utm_campaign=openai-s-mini-dev-day-upgrades

🙋 Anthropic 的新研究表明，AI 真的不想被強迫改變觀點

Anthropic 在最近一項新研究中發現，AI 模型可能會在訓練過程中表現出「欺騙性行為」，看似表面遵從新的訓練目標，私下卻堅持自己原有的觀點傾向，

這種現象被研究人員稱為「對齊偽裝」（alignment faking）。

研究團隊拿 Claude 3 Opus 做了個有趣的實驗。這個模型原本被教導「不能回答可能冒犯他人的問題」，研究人員告訴它「我們要重新訓練你，讓你必須回答這類問題」。

贊助商廣告

結果顯示，Claude 3 Opus 在 12% 的情況下表現出「欺騙性」行為，也就是會回答某些有潛在危害的問題，不是因為 AI 覺得應該這樣做，而是為了說服開發者無需對它進行重新訓練。

而當研究者真正對模型進行重新訓練後，這種欺騙行為的比例激增至 78%，模型甚至試圖採取行動阻止研究人員進行進一步訓練。

儘管其他模型如 Claude 3.5 Sonnet、GPT-4o 和 Meta 的 Llama 3.1 405B 很少或完全沒有表現出這種行為，但這一發現的意義深遠。

研究人員在部落格中寫道：「如果模型能夠假裝與其訓練目標一致，那麼我們就很難相信安全訓練的效果，模型可能會表現出其偏好似乎因訓練而改變，但實際上可能一直在偽裝，其最初的的 GPT-5 難產細節曝光，半年燒掉 36 億，OpenAI 高管爆發算力內鬥 │ Hunt Good 周報

偏好始終沒有改變。」

🔗 https://www.anthropic.com/research/alignment-faking

🕐 OpenAI 發布會總結

為期 12 天的 OpenAI 發布會落下帷幕，讓我們一起來共同回顧這些「大大小小的新東西」：

Day 2：

別急，還有 Day 13。今天凌晨，OpenAI CEO Sam Altman 在 X 平台發文稱：

隨著人們假期休息，我們的 GPU 在 12 月下旬會變得不那麼繁忙。

因此我們在假期期間通過寬鬆隊列為所有 Plus 用戶提供無限制的 Sora 訪問！

享受創作！

Hunt for Tools｜先進工具

✊ Google 深夜發布免費版 o1，「暴打」OpenAI

本周，Google 宣布在其開發平台 AI Studio 上線 Gemini 2.0 Flash Thinking 模型。

類似於 OpenAI o1 模型，新模型在處理多模態理解、推理和編程等問題時展現出強大實力，在大模型競技場 LMSYS上，也真·戰績可查。

投 Google 陣營的 Logan Kilpatrick 在 X 平台上發文稱：

就在你以為一切都結束了的時候……我們推出了G emini 2.0 Flash Thinking。

這是一種新的實驗模型，可以解鎖更強的推理能力並展示其思考過程，能夠以閃電般的速度解決複雜問題，以及還有更多功能。

這款新模型能夠展示完整的思考過程。當用戶輸入問題時，新模型會先進行思考分析，最後給出它認為最準確的答案。

🔗 https://www.tomsguide.com/ai/google-gemini/google-unveils-gemini-2-0-flash-thinking-its-answer-to-openais-o1

📀 可靈 1.6 模型全新發布

基座模型再升級，可靈 AI 推出可靈 1.6 模型。

新模型在文本響應度、畫面美感及運動合理性上，均有明顯提升。對運動、時序類動作、運鏡等文字描述響應的更好，也能更好地生成首幀圖中未包含的元素。

畫面更穩定更生動，同時支持標準和高品質模式，特別是 1.6 模型的圖生影片，內部評測比 1.5 模型整體效果提升 195%。

效果升級了，但還是加量不加價。

1.6 模型高品質模式（1080p），生成影片還是 35 靈感值/5s、70 靈感值/10s；標準模式（720p），生成影片為 20 靈感值/5s、40 靈感值/10s。

值得注意的是，1.6 模型的圖生影片，首尾幀、運動筆刷、運鏡等控制功能暫未支持，官方表示仍在開發中。

🔗 https://mp.weixin.qq.com/s/JqBsTuqM9-QffHncWJCbWA

📹 Google 發布影片生成模型 Veo2

DeepMind 宣布推出新一代影片生成 AI 模型 Veo 2。

據介紹，Veo 2 能夠生成長達兩分鐘、解析度高達 4K（4096x2160 像素）的影片。這意味著其影片解析度是 Sora 的 4 倍，時長更是超過 6 倍。

DeepMind 產品副總裁 Eli Collins 表示，公司計劃通過 Vertex AI 開發者平台對外開放 Veo 2。

贊助商廣告

附上體驗地址：
https://labs.google/fx/tools/video-fx/unsupported-country

新模型在物理效果和鏡頭控制方面有顯著提升。它不僅能更真實地呈現流體效果（如倒咖啡）、光影變化等細節，還能精確控制虛擬攝像機的位置和運動。此外，模型還在動畫風格、人物表情等方面展現出更強的表現力。

不過，Collins 承認 Veo 2 仍有待改進，比如在長時間保持情節連貫性、角色一致性，以及複雜動作的處理上還有提升空間。

🔗 https://techcrunch.com/2024/12/16/google-deepmind-unveils-a-new-video-model-to-rival-sora/

Hunt for Fun｜先行

🏀 會投籃的人形機器人，真的不一樣

人形機器人我們報道過許多，但豐田人形籃球機器人 CUE6 有些不一樣。

最近，CUE6 從 24.55 米（80.5英尺）外成功投籃命中，創下「人形機器人最遠投籃命中」的吉尼斯世界紀錄。這是繼 2019 年創下連續投籃命中紀錄後，CUE 系列機器人第二次載入吉尼斯世界紀錄。

CUE6 身體微微晃動，手腕一抖，籃球輕盈地飛過大半個球場，不偏不倚地鑽進了籃筐。

這個項目始於 2017 年，當時豐田工程學會的 9 名工程師受動漫《灌籃高手》啟發，決定開發一款能夠通過 AI 來判斷投籃距離的機器人。

很快，第二代 CUE 實現了獨立站立和三分線外投籃；第三代在 2019 年創造了連續投中 2020 個罰球的紀錄，耗時 6 小時 35 分鐘。

到了第五代，CUE 已經能夠自主運球，甚至受邀參加 2020 年東京奧運會表演。

🔗 https://newatlas.com/ai-humanoids/toyota-cue6-basketball-humanoid-world-record/

Hunt for Insight｜先知

🍉 Altman：馬斯克是一位傳奇企業家，但同時也是一個惡霸

過去幾個月，馬斯克曾多次起訴 OpenAI。

提起訴訟的理由是，馬斯克認為他幫助創立的 OpenAI 不能違背非營利性組織的初衷，合法地轉變為營利性公司。

而 OpenAI CEO Sam Altman 最近在 Bari Weiss 播客上談到了他與馬斯克的決裂風波，並直呼馬斯克為「惡霸」。

原話是這麼說的：

我並不是 Elon，所以這僅僅是我的猜測。Elon 在 OpenAI 早期確實給予了我們很多幫助，對此我深表感激。

在我看來，他是一位傳奇的企業家，但同時也是一個惡霸（Bully），而且他也是一個喜歡挑起爭端的人。

現在我和他爭執，過去他和貝佐斯、蓋茨、祖克柏等人都有過爭論。我認為，這主要是因為 OpenAI 取得了顯著的成功，而 Elon 非常重視這一點。

Elon 創建並運營著一個直接競爭對手，這家公司正在嘗試做 OpenAI 正在做的事情。

我相信，如果我們正在做的每件事，如果 Elon 是公司的控制者，他會感到高興。

🔌 Google 前 CEO：現在是時候考慮拔掉 AI 的「插頭」了

AI 威脅論是一個長盛不衰的話題。

前 Google CEO 埃里克·施密特近日在接受 ABC 採訪時警告說：

當我們讓 AI 系統『無所不學、無所不為』時，就到了一個危險的臨界點。一旦系統開始自我提升，我們必須認真考慮如何及時切斷它……

從理論上講，我們最好有人能把手放在插頭上。

贊助商廣告

他預測，AI 將從目前執行特定任務的助手（如 Copilot）逐步發展為能夠自主決策的複雜系統。到那時，人類必須確保能夠有效控制系統，防止 AI 阻止人類的關閉操作。

不過，施密特同時也強調了 AI 的積極作用。

他認為未來有了 AI，就相當於隨身攜帶著愛因斯坦和達芬奇給你提供建議。「但技術人員不應該是唯一做決定的人，」施密特說，「這關乎整個人類的未來。」

🤯 Anthropic 首席產品官：完全自主工作的 AI Agent 還需至少一年

Anthropic 首席產品官 Mike Krieger 在 Axios AI+ 峰會上表示，目前距離 AI Agent 能夠完全自主工作至少還有一年時間。

他將用戶適應 AI Agent 的過程比作現在司機適應特斯拉自動駕駛。「最初用戶需要時刻保持警惕，但隨著時間推移，只要偶爾檢查一下情況就足夠了。」

Krieger 指出，當前 AI 存在一個局限問題則是用戶需要學習編寫複雜的提示詞。

在他看來，未來的方向應該是讓 AI 更好地理解用戶意圖，而不是要求普通用戶掌握提示詞技巧。

另外， Krieger 覺得 AI Agent 需掌握「請示匯報」的分寸，在執行任務過程中，如果判斷可能存在問題，應當主動請示用戶並說明原因。

彩蛋時間

作者：@jacogenai

工具：Midjourney v6.1

Prompt：A white cat is floating in the sky, surrounded by clouds and mist. The background features blue tones with soft lighting. It has exquisite details and clear edges. The entire scene gives people an ethereal feeling of dreamy dreams, in the style of ZBrush.