Stability AI 並不 stable
生成式 AI 獨角獸 Stability AI 最近可謂是風波不斷。前不久,Stable Diffusion 開發者之一 Robin Rombach 已經正式從公司辭職。
一年來,這家公司的技術團隊動盪不斷,首席技術官換人,首席資訊官、工程副總裁、產品副總裁、研發副總裁、研究主管、大語言模型負責人等陸續離職。

而就在昨日上午,Stability AI 再次突然發布一項公告,Stability AI 的CEO Emad Mostaque 宣布辭去公司首席執行官及董事會職務,以追求去中心化人工智慧。
詳情可回看 APPSO 以往的文章:
3 個月前,全球最大 AI 開源社區 Hugging Face CEO 曾對 2024 年的 AI 行業做了 6 條預測,其一是:某個當紅的 AI 公司會破產,或者以極低的價格被收購。
如今看來,Stability AI 或許是第一個,但不會是最後一個。
https://t.co/wPjCKTiavp
腦機接口首位受試者用意念在 X 上發帖
29 歲的美國男子 Noland Arbaugh 在一次潛水事故中導致頸部以下癱瘓八年,現已通過 Neuralink 的植入式腦機接口技術,實現了用思維操控電腦下西洋棋、玩《文明 6》的複雜操作。
昨日,Noland 更是通過意念在社交平台上發布了第一條帖子:「Twitter 封了我的號,因為他們認為我是機器人,現在馬斯克幫我解封了,因為我就是一個機器人」
馬斯克此前還透露,Neuralink 的下一個產品將是能夠幫助盲人恢復視覺的 Blindsight。
(腦機接口視覺的)解析度一開始會很低,就像早期的任天堂顯卡一樣,但最終可能會超過正常的人類視覺。
https://twitter.com/ModdedQuad/status/1771230292839145541
微軟「掏空」獨角獸 Inflection AI

Mustafa Suleyman(DeepMind 聯合創始人)作為 CEO 籌集 15 億美元創立了
Inflection AI。
但在本周,三位聯合創始人中的兩位 Mustafa 和 Karén 將離開 Inflection,跳槽到微軟的 Microsoft AI(微軟新部門,將整合消費者 AI 工作以及 Copilot、Bing 和 Edge)
同時,Inflection AI 表示,Mozilla 前研發主管 Sean White 將擔任其新任首席執行官,並計劃將重點轉向為商業客戶提供模型,不再專注於消費者領域。
https://twitter.com/inflectionAI/status/1770119871021621338
老黃才是這個時代的賈伯斯
英偉達在其年度GTC開發者大會上發布了一系列新的 AI 硬核產品。
Blackwell GPU 擁有 2080 億個電晶體,使用了台積電的 4NP 製程工藝,具有192GB 的 HBM3E 內存,AI 算力達到 20 petaflops(FP4精度),是上一代 H100 GPU 的五倍。

Blackwell 平台的 GPU 在處理大型語言模型(LLM)時,相比 H100,推理性能提升了 30 倍,同時成本和能耗降低為原來的 1/25。
Blackwell 架構的 GPU 分為 B200 和 GB200 產品系列,後者集成了一個 Grace CPU和兩個 B200 GPU。這些產品預計將於今年晚些時候出貨。
馬斯克開源Grok-1,3140 億參數迄今最大
在一片質疑聲中,信守承諾的馬斯克卡在最後一日正式開源了 GroK,現在壓力也狠狠給到了 OpenAI。
好消息是, 馬斯克開源了 Grok 1.0 的完整代碼,壞消息是,關於模型完整的訓練過程和細節卻是一點也沒透露,這就好比給你一本詳盡的教科書讓你自學成才。

根據 Apache 2.0 許可協議, 現在公眾可以自由訪問模型的權重和架構。以下是關於 Grok 1.0 的一些關鍵資訊:
模型參數數量高達 314B
混合專家模型(MoE 架構)
每一個數據單元由 2 位專家處理
嵌入向量的維度為 6144
採用旋轉式嵌入表示
最大序列長度為 8192 個數據單元,以處理更長的上下文資訊
https://x.ai/blog/grok-os
美版「貼吧」上市股價飆漲
歷經波折的美版「貼吧」Reddit 終於上市了。
上市首日,Reddit 的股票大漲 48%,收盤價為 50.44 美元,市值達到 98 億美元。

Reddit 自稱為「網路社區」,擁有超過 10 萬個不同的「Subreddit」(貼吧),涵蓋各種主題,從減肥到法律,從區塊鏈到宗教等。用戶通過發帖和評論積累「Karma」值,以提高發帖的排名權重。
值得一提的是,Reddit 的大股東之一、OpenAI 的聯合創始人 Sam Altman 持有該公司 8.7% 的股份,僅次於康泰納仕出版集團和騰訊。
https://twitter.com/Reddit
OpenAI 悄然提交語音商標申請

近日,OpenAI 悄悄提交了一項名為 VOICE ENGINE™ 的商標註冊申請。該商標涉及的業務涵蓋:
語音和語音識別、處理語音命令以及文本和語音之間的轉換
自動語音識別和生成
基於自然語言提示、提示、文本、語音、視覺提示、圖像和/或影片創建和生成語音和音頻輸出
構建數字語音助手
響應用戶提示生成音頻和/或語音
使用和定製經過大量數據訓練的大型人工智慧模型
基於機器學習的自然語言和語音處理、識別和分析,
多語言語音識別、翻譯和轉錄
使用人工智慧自動進行文本到語音和文本到音頻的轉換
用作應用程序編程接口 (API)
跨全球電腦網路、無線網路和電子通信網路開發語音服務交付和自然語言理解技術
Hunt for Tools|先進工具
長文本技術又捲起來了?
國內大模型捲起來了,這一次,目標瞄準了長上下文技術。
前不久,國內大模型廠商 Moonshot AI(月之暗面)宣布 Kimi 智能助手實現了技術突破,將無損長上下文長度提升至 200 萬字,並已啟動產品「內測」。

隨後,各大廠商也紛紛亮出了自家的底牌:
阿里通義千問:向所有用戶免費開放 1000 萬字長文檔處理功能
360 智腦:360AI 瀏覽器已向用戶免費開放 100 萬字長文本閱讀功能
百度文心一言:下個月將開放 200-500 萬字的長文本能力
這類技術的意義或許在於革新了繁瑣的「閱讀」過程,留給人類的只剩下「思考」了。
Stable Video 3D 震撼登場
近日,風雨飄搖的 Stability AI 推出了其最新的 3D 影片創作工具——「Stable Video 3D」。
這一創新模型源自於 Stable Video Diffusion 技術,旨在顯著增強三維內容的生成品質和視角多樣性。

Stable Video 3D 在新穎視圖合成(NVS)技術方面取得了突破性進展,它不僅能夠生成流暢且視角連貫的 3D 影片,還提升了模型對不同姿態的控制能力,確保在多個視角下生成的對象保持外觀的一致性。
該模型提供了商業使用和非商業使用兩種選項,商業用戶可以通過成為 Stability AI 的會員來獲得服務;而非商業用途用戶可以直接在 Hugging Face 平台上獲取模型權重,以便自由下載和使用。
https://stability.ai/news/introducing-stable-video-3d
Suno V3 上線,AI 音樂時代來了
近日,在預熱良久之後,Suno AI 如期上線了最新版本 V3。
Suno V3 提供了兩種主要模式,Custom Mode(自定義模式)和 Instrumental(純音樂模式)。
影片源自 X 網友 @jesselaunz
用戶可以通過編寫 prompt 和歌詞來生成音樂,平台每天為免費用戶提供一定數量的積分來生成音樂。
https://twitter.com/jesselaunz/status/1771353776622039485
Hunt for Fun|先行
你的下一個 AI 助手會是開源的嗎
01 Light 是一款開源 AI 硬體,允許用戶通過語音操控電腦,執行各種任務,如查看天氣、日程安排,甚至遠程處理郵件和文檔編輯。它還能夠在人類指導下學習使用新軟體,例如發送 Slack 消息。
團隊計劃在未來幾個月添加對 Azure 和 PlayHT 的支持,加入控制電腦的開源大模型,發布適用於手機的原生應用,以及發布完全離線版的設備。
影片來自 @op7418
01 Light 的售價為 99 美元,比同類產品 Rabbit R1 的 199 美元便宜。首批預售產品在上線 2.5 小時後迅速售罄。
更重要的是,01 Light 的相關軟體配置和硬體設計,包括 CAD 文件和電路圖等,都可以在 GitHub 上找到,方便 DIY 愛好者自行製作。
GitHub 地址:https://github.com/OpenInterpreter/01
https://twitter.com/OpenInterpreter/status/1770821439458840846
Hunt for insights|先知
Transformer 七子 重聚 GTC
英偉達的黃仁勛在 GTC 大會上邀請了 Transformer 模型的七位作者(Niki Parmar 未能出席)參與圓桌討論,共同探討 AI 的未來發展。
其中,論文作者之一 Lukasz Kaiser 分享了 Transformer 架構最初的設計理念,即模擬 token 的演化過程,超越線性生成,實現文本或代碼的逐步發展。
另一位作者 Illiya Polosukhin 則強調了 AI 能耗問題的重要性,提出自適應計算是接下來必須解決的事情之一,「人類需要知道在特定問題上應該花費多少計算資源」。

另外,在 GTC 大會的第二天,黃仁勛接受了媒體採訪。他表示,英偉達晶片的製造涉及到複雜的產業鏈,「許多部件來自中國,這是事實。」
對於生成式 AI 的未來,黃仁勛充滿信心,他認為傳統檢索模式的能耗實際上高於生成式 AI。他預測,未來與電腦的每次交互和螢幕上的每個像素都將由生成式晶片產生。
未來每個人的計算體驗都將變成生成式的,對這一點我並不會感到意外。
吳恩達:AI 智能體工作流今年將有巨大進展
近日,斯坦福大學教授吳恩達在社交平台 X 上發文稱,AI 智能體工作流將在今年推動人工智慧取得巨大進步,甚至可能超過下一代基礎模型。
吳恩達認為 AI 智能體是一個重要的趨勢,並呼籲所有從事 AI 工作的人都應該關注它。為了更好地解釋 AI 智能體,吳恩達還專門發布了一篇博客。

博客中提到,目前主要在零樣本模式下使用大型語言模型(LLM),但通過智能體工作流,可以要求 LLM 進行多次疊代文檔,包括規劃大綱、網路搜索、寫初稿、修改草稿等步驟,這種疊代過程對於寫出好的文本至關重要。
同時,吳恩達還分享了一個對構建智能體的設計模式進行分類的框架,包括反思、工具使用、規劃和多智能體協作。
https://www.deeplearning.ai/the-batch/issue-241/
️ OpenAI 擬於年中推出 GPT-5
在最近的深度訪談中,OpenAI CEO Sam Altman 暗示今年將推出一個重大的模型疊代,預計是 GPT-5/GPT-4.5 Turbo。
儘管他對 GPT-4 的評價不高,認為它「很糟糕」,但他表示新版本將實現類似 GPT-3 到 GPT-4 的能力提升。

而據 The Business Insider 報道,OpenAI 計劃今年夏季發布 GPT-5,一些企業客戶已經體驗了新模型和增強的 ChatGPT 功能,並對 GPT-5 的表現給予了高度評價。
此外,OpenAI 還暗示了模型其他尚未公開的特性,包括能夠調用 OpenAI 正在開發的 AI 代理來自動執行任務。
AI 教父辛頓:AI 將操控人類
「AI 教父」傑弗里·辛頓近日接受了日本經濟新聞(日經中文網)的專訪,深入討論了 AI 的發展前景及其對人類未來的潛在威脅。
在採訪中,辛頓教授透露他曾向 Google 首席科學家傑夫·迪恩表達過對 AI 可能引發人類生存危機的擔憂。
辛頓教授認為,如果給 AI 設定目標,它可能會採取對人類不利的手段來實現這些目標。他還提出了未來 AI 之間可能發生的競爭,以及這種競爭可能推動 AI 進化的設想。

很多人主張,要防止 AI 失控,只要關掉電源開關就可以。但超越人類智慧的 AI 可以用語言操縱我們。或許會試圖說服我們不要關掉開關。
辛頓教授還談到了他的學生、OpenAI 聯合創始人伊爾亞·蘇茨克維對 AI 安全性的擔憂,以及聯合國針對 AI 軍事應用的限制性決議。
他預測,未來 10 年內將出現自主殺死人類的機器人武器,並認為這些武器或許最終也會受到國際限制。
https://cn.nikkei.com/columnviewpoint/viewpoint/55090-2024-03-22-05-00-32.html
彩蛋時間
《生機》

工具:Midjourney V6
鏈接:https://twitter.com/SmokeAwayyy/status/1767430320083845583