o3 猜照片位置走紅網路,程序員:超現實的、反烏托邦的和非常有趣的
OpenAI o3 自發布以來,因準確的照片地理定位能力引發了廣泛的關注。
最近,Lanyrd 聯創、Django Web 框架締造者 Simon Wilson 向 o3 提供了一張在加利福尼亞州埃爾格拉納達拍攝的普通照片。

照片中僅有一條道路、一座普通住宅和遠處的山丘,沒有明顯的地標建築。而 o3 通過詳盡分析照片中的各種細節元素,最終給出了極為接近的答案。

在分析過程中,o3 展示了類似「放大」功能的能力,它可以將照片的特定區域進行裁剪並放大觀察,例如查看車牌、植被類型和建築風格等細節。
通過識別照片中的花、橄欖樹、柔和色調的海灘小屋、白色柵欄以及背景中的沿海丘陵等特徵,o3 首先猜測是加利福尼亞的坎布里亞,隨後提出的備選答案「半月灣-埃爾格拉納達」恰好命中了照片的實際拍攝地點。
Simon 認為這種地理定位能力並非 o3 獨有。Claude 3.5 和 3.7 Sonnet 等其他先進 AI 模型同樣展示出類似的能力,儘管它們的「放大」功能可能不如 o3 那麼引人注目。
在他看來,o3 這種能力是超現實的、反烏托邦的和非常有趣的。
🔗 https://simonwillison.net/2025/Apr/26/o3-photo-locations/
👏 OpenAI「開源」模型資訊曝光
今年 3 月,OpenAI 表示計劃在今年某個時間點發布自 GPT-2 以來,首個開源語言模型。而據 TechCrunch 援引知情人士消息,該開源模型的更多細節被曝光:
OpenAI 研究副總裁 Aidan Clark 目前正在主導該模型開發,項目進度處於非常早期的階段。OpenAI 的目標是今年初夏能發布該模型;
該開源模型將類似於 OpenAI 的 o 系列推理模型,並且 OpenAI 希望這一模型的基準測試成績,能夠超越 Meta 和 DeepSeek 等競爭對手的開源推理模型;
OpenAI 還在探索該開源模型的「高度寬鬆」許可,旨在不受商業限制。
該開源模型採用「文本輸入/輸出」的交互模式,並且將允許開發者自由開關「推理」功能,由開發者自己選擇結果生成速度。值得一提的是,若該模型反響夠好,OpenAI 還可能推出更小尺寸的模型。

此外,據知情人士透露,這款開放模型將採用一種名為「交接」的機制,能夠連接到 OpenAI 的雲託管模型以更好地處理複雜查詢。據悉,這一「交接」功能的構想最初是由一位開發者在 OpenAI 的開發者論壇上提出的,並在 OpenAI 內部獲得了認可。
類似於蘋果的 Apple Intelligence,該開放模型將能夠調用 OpenAI 的 API 訪問其他更大型模型,從而獲得顯著的計算能力提升。但目前尚不清楚該開放模型是否能夠使用 OpenAI 現有模型的各種工具,如網路搜索和圖像生成功能。
消息人士表示,OpenAI 正在從頭開始訓練這一新模型,而非簡單改造舊模型。預計該開放模型性能將低於 OpenAI 的 o3 模型,但在某些基準測試中將優於 DeepSeek 的 R1 推理模型。
🔗 https://techcrunch.com/2025/04/24/openai-wants-its-open-ai-model-to-call-models-in-the-cloud-for-help/
🤖 首屆具身智能機器人運動會在無錫舉行
4 月 24 日至 26 日,由中國電子學會主辦,無錫市惠山國有投資控股集團有限公司和中國人形機器人百人會共同承辦的「首屆具身智能機器人運動會」在江蘇無錫市惠山區成功舉辦。
據悉,本次運動會吸引了超過 100 家科研團隊、知名企業及高校代表參與,包括國家地方共建具身智能機器人創新中心、國家地方共建人形機器人創新中心、杭州宇樹科技、深圳優必選科技等機構,參賽機器人數量超過 150 台。

圖片來自中國電子學會
比賽設置了競技賽和應用賽兩大類別,包含競速跑、越野跑、足球、籃球、舞蹈、格鬥、搬運、智能抓取、室內救援、創新場景共 10 個大項,評選出技術類、互動類、場景類、設計類四大類獎項,全面展示了具身智能機器人領域的最新技術突破和應用成效。
此外,運動會期間還同步開展了具身智能機器人整機和零部件對接活動,展示了人形機器人的核心零部件,如伺服系統、關節模組、諧波減速器、傳感器和毫米波雷達等。
🔗 https://mp.weixin.qq.com/s/F8DwGlwUDjDuIMvpK8QaRQ
🍎 蘋果 Siri 團隊大換血
據彭博社消息,蘋果 Siri 團隊新上任的工程負責人 Mike Rockwell 正在對 Siri 的開發團隊進行大幅度調整。
據知情人士透露,Rockwell 從 Vision Pro 的軟體團隊挖來多位得力幹將,並替換了 Siri 項目原有的領導層。其中包含 Rockwell 的資深副手 Ranjit Desai,其此前在 Vision Pro 的開發中表現出色,目前在 Siri 團隊中負責底層平台和系統組等核心工作。
此外,Olivier Gutknecht 接管用戶體驗團隊,Nate Begeman 和 Tom Duffy 則負責底層架構。目前 Siri 團隊旨在打造「世界一流且可擴展」的技術。

近年來,Siri 項目的功能開發和性能表現未達預期,使得 CEO 庫克必須為 Siri 團隊尋求新的領導者。而 Rockwell 於上月接受 Siri 項目,並從蘋果 AI 負責人 John Giannandrea 和前 Siri 項目負責人 Robby Walker 的手中剝離了部分職責。
據 The Information 此前消息和彭博社報道,蘋果正致力於解決 Siri 的技術架構問題。Siri 曾計劃採取「大小模型混合」的方式進行更新 —— 大模型通過雲端計算,用於複雜任務;小模型本地計算,用於輕量化任務。但因兩者無法同時高效運行,導致性能、功能問題不斷。並且因雲端計算涉及隱私問題,而團隊內意見產生嚴重分歧。
因此,蘋果現在轉向單一大語言模型(LLM)架構,從而進行問題改善,但這一改變或會導致升級需要數年時間。另外,蘋果計劃接納大型第三方應用開發商,以便更快地完善、上新部分功能。
值得一提的是,據 The Verge 報道,蘋果在遭到美國國家廣告審查部門(NAD)調查之後,已在 Apple Intelligence 的介紹頁中刪除了「現已可用(Available now)」標語。NAD 表示,蘋果目前的功能體驗與宣傳的相差甚遠,因此建議該公司「停止或修改」相關宣傳語。
🔗 https://www.bloomberg.com/news/articles/2025-04-24/apple-to-strip-secret-robotics-unit-from-ai-chief-weeks-after-moving-siri
🧑💻 哥大兩名學生開發 AI 作弊工具被停學,轉身拿下 500 萬美元融資
據外媒 TechCrunch 報道,年僅 21 歲的 Chungin 「Roy」Lee 日前宣布,他的創業公司 Cluely 已從 Abstract Ventures 和 Susa Ventures 獲得 530 萬美元種子輪融資。
Cluely 公司開發的這款 AI 工具號稱能夠幫助用戶「在一切事情上作弊」。
這家總部位於舊金山的初創公司源於一款名為 Interview Coder 的面試作弊工具,正是這款工具使 Lee 及其合伙人遭到哥倫比亞大學的停學處分。
Cluely 宣稱,這款產品技術優勢在於提供一個隱藏的瀏覽器窗口,從而讓面試官或考試監考人無法察覺。通過這一工具,用戶可在考試、銷售電話和工作面試等各種場景中獲取 AI 的實時幫助。

據 Lee 透露,這款 AI 作弊工具本月早些時候的年度經常性收入已超過 300 萬美元。
Cluely 的另一位聯合創始人兼首席運營官是同樣 21 歲的前哥大學生 Neel Shanmugam,他也因該 AI 工具面臨校方紀律處分。據哥倫比亞大學學生報紙報道,兩位創始人均已從學校退學。
Cluely 最初的設計目的是幫助開發者在 LeetCode 等編程問題平台「作弊」。創始人認為,這類編程測試平台已經過時且浪費時間。
Lee 甚至聲稱他曾利用這款AI工具成功獲得亞馬遜的實習機會。對此,亞馬遜方面拒絕對具體案例置評,但強調所有求職者必須承諾在面試過程中不使用未經授權的工具。
🔗 https://techcrunch.com/2025/04/21/columbia-student-suspended-over-interview-cheating-tool-raises-5-3m-to-cheat-on-everything/
🔍 Google 被曝付費三星預裝 AI 應用,多家巨頭喊話收購 Chrome
據彭博社報道,Alphabet ( Google 母公司)每月向三星電子支付「巨額資金」,以確保其生成式 AI 應用 Gemini 預裝在三星手機和設備上。
Google 負責平台和設備合作的副總裁彼得·菲茨傑拉德表示,該合作始於今年 1 月。根據合同條款,Google 將在至少兩年內為每台預裝 Gemini 的設備提供固定月度付款,並向三星支付一定比例的應用訂閱和廣告收入。
菲茨傑拉德承認,除 Google 外,三星還收到了來自微軟、Meta 和 OpenAI 等競爭對手的「有競爭力的報價」。而去年,負責該案的法官阿米特·梅塔裁定 Google 向三星付費成為默認搜尋引擎的做法違反了反壟斷法。

數據顯示,儘管 Gemini 用戶量在過去六個月大幅增長,但仍落後於 ChatGPT。截至上月,Gemini 全球日活躍用戶達 3500 萬,月活躍用戶 3.5 億。
此外,據路透社消息,OpenAI 旗下 ChatGPT 產品負責人 Nick Turley 近期在 Google 反壟斷庭審上作證表示,若反壟斷執法人員成功迫使 Alphabet 出售 Chrome 瀏覽器,OpenAI 將有意收購 Google Chrome 瀏覽器。
除此之外,AI 搜尋引擎巨頭 Perplexity 和老牌網際網路巨頭雅虎也紛紛表達了收購 Google Chrome 瀏覽器的強烈興趣。
🔗 https://www.bloomberg.com/news/articles/2025-04-21/google-paid-samsung-enormous-sums-for-gemini-ai-app-installs
💰 xAI 擬融資 200 億美元,Neuralink 擬融資 5 億美元
據彭博社援引知情人士透露,馬斯克的 xAI 目前正與投資者洽談,計劃籌集大約 200 億美元資金,用於其新合併的人工智慧初創公司和社交媒體業務。
數據提供商 PitchBook 的數據顯示,如果成功,這筆交易將成為歷史上第二大創業公司融資,僅次於今年早些時候 OpenAI 的 400 億美元融資。據知情人士透露,憑藉此輪洽談中的融資,xAI 的估值超過 1200 億美元。
值得一提的是,該輪融資可能有助於償還馬斯克在將 X 前身 ——Twitter 私有化後所承擔的一部分債務。知情人士透露,上述債務一直對 X 構成財務壓力。此前彭博社報道指出,僅在今年 3 月,X 就支付了約 2 億美元的債務服務費用,截止 2024 年底,其年度利息支出將超過 13 億美元。

據了解,儘管談判仍處於初期階段,但 xAI 目標是未來幾個月內籌集資金。知情人士表示,融資規模可能會超過最初的 200 億美元,具體金額和條款尚未確定。
此外,馬斯克旗下腦機接口公司 Neuralink 也被曝計劃以 85 億美元的投前估值籌集約 5 億美元資金。
知情人士表示,該公司已經開始與潛在投資者就本輪融資進行初步討論,其中一位知情人士表示,目前預計投後估值為 90 億美元的條款尚未最終確定,仍可能發生變化。
目前,Neuralink 也暫未就此報道作出回應。
🔗 https://www.bloomberg.com/news/articles/2025-04-26/elon-musk-s-xai-holdings-is-in-discussions-to-raise-20-billion?srnd=phx-technology
👀 Manus 融資金額達 7500 萬美元,或將國際與國內業務完全分離
據 The information 報道,Manus AI 正在考慮將總部遷至海外。
報道指出,近年來因中美兩國關係緊張,而導致不少中國企業的全球化產品在美運營受到了極大影響。而 Manus AI 主要目標市場為美國,因此該公司正計劃在海外設立新的總部。據悉,Manus 已考慮將新加坡作為新總部的所在地,並已在當地註冊實體,但具體方案尚未確定。

另外,公司創始人還與部分投資人討論了將國際業務與國內業務完全分離的可能性,計劃讓 Manus 專注於中國以外的全球市場。
近日,據彭博社報道, Manus AI 完成了一輪融資,由矽谷風投公司 Benchmark 領投,融資金額達 7500 萬美元。
據悉,此次融資讓 Manus AI 的估值提升至近 5 億美元,這一估值比之前的估值增長了約五倍。除了 Benchmark,還有多家現有投資方參與了此輪融資。Manus 背後的初創公司「蝴蝶效應」表示,這筆資金將用於將其服務拓展至美國、日本和中東等海外市場。
🔗 https://www.theinformation.com/articles/startup-behind-manus-ai-agent-navigates-u-s-china-tensions-benchmark-deal?rc=qmzset
💵 AI 走進大學,只因盯上了錢
據經濟學博客 Marginal Revolution 報道,美國社區大學正面臨一種全新的欺詐手段:AI 機器人正在大量註冊在線課程,以騙取美國聯邦和州政府的助學金。
美國加州校長辦公室估計,去年社區大學申請者中有高達 25% 是機器人。
這些 AI 機器人的運作方式十分精妙:它們通過註冊課程並保持足夠長的註冊時間,等到助學金髮放後再退課,從中獲取資金。

為了維持在校身份,這些機器人會提交由 AI 生成的作業。由於社區大學通常接受所有申請者,因此成為這類欺詐的主要受害者。對此,加州政府成立專門的工作組來應對這一問題。
該事件也引發了人們對 AI 時代身份驗證的思考,正如留言區網友指出,針對個人和機構的欺詐攻擊正變得越來越複雜,這類問題未來可能只會越來越頻繁。
🔗 https://marginalrevolution.com/marginalrevolution/2025/04/ai-goes-to-college-for-the-free-money.html
Hunt for Tools|先進工具
🐧 混元 3D 生成模型全新升級
4 月 23 日,騰訊宣布旗下混元 3D 生成模型全新升級,v2.5 新版本在建模精細度上大幅提升,3D 生成邁入超高清時代。
相比前代,混元 3D v2.5 模型架構全面升級,總參數量從 1B 提升至 10B,有效面片數增加超 10 倍,實現超高清的幾何細節建模,表面更平整、邊緣更銳利、細節更豐富,有效幾何解析度達到 1024,就像從標清升級到了超清畫質。

功能性方面:
混元 3D 新版本支持 4K 高清紋理和細粒度 bump 凹凸貼圖,能夠模擬物體表面高低起伏的視覺效果;
混元 3D 在業界率先實現多視圖輸入生成 PBR 模型,讓物體的光影、反射等看起來更接近現實;
混元3D v2.5 優化了骨骼蒙皮系統,支持非標準姿態下的自動骨骼綁定和自動蒙皮權重賦值;
3D 生成工作流功能提供文生/圖生 3D 智能減面模型、多視圖生 3D 模型等專業管線模板,用戶可根據場景選擇對應生產管線、靈活調整參數,生成特定風格和特徵的 3D 資產。
目前,混元 3D AI 創作引擎全面更新至 v2.5 模型底座,同時免費生成額度翻倍,提升至每天 20 次。混元 3D 生成 API 也已正式上線騰訊雲,面向企業和開發者開放。
🔗 https://mp.weixin.qq.com/s/ksqIyJ8EPxqzjcDceOAByQ
🌁 Adobe 推出全新 Firefly 生成式 AI 模型與創意工具
Adobe 日前在倫敦 MAX 大會上發布了 Firefly 生成式 AI 平台的最新版本,將圖像、影片、音頻和矢量生成等 AI 工具整合到一個統一平台,並引入多項創新功能。
此次升級的核心是新一代 Image Model 4 和 Image Model 4 Ultra 圖像模型。
前者專為快速構思和日常創意需求設計,能高效生成高質量圖像;後者則適用於需要更多細節和真實感的項目,在渲染逼真場景、人物肖像方面表現卓越。兩款模型均在人物、動物和建築元素的精度、清晰度和真實感方面有顯著提升。

Firefly 影片模型能夠生成長達 5 秒的高質量影片內容。用戶可通過簡單的文本或圖像提示創建全新影片,支持多種解析度和縱橫比(包括 16:9、9:16 和全新的 1:1)。該模型在照片級真實感方面比測試版有了顯著改進,同時增強了文本渲染、風景和視覺效果。
此外,新版 Firefly 還引入了文本到矢量(Text to Vector)功能,讓用戶能通過簡單文本提示生成完全可編輯的矢量圖形,從圖標到複雜圖案,加速設計工作流程。用戶可快速疊代徽標設計、創建獨特插圖或開發自定義圖案。
值得注意的是,Adobe 即將在 iOS 和 Android 平台推出 Firefly 移動應用程序,讓用戶隨時隨地創建圖像和影片內容。該應用提供專業級創意控制項,並與 Creative Cloud 無縫集成,用戶可在移動設備上啟動項目,之後在桌面上繼續工作。
🔗 https://blog.adobe.com/en/publish/2025/04/24/adobe-firefly-next-evolution-creative-ai-is-here
🤔 百度發布兩款新模型 ,李彥宏:DeepSeek 並非萬能
4 月 25 日,Create2025 百度 AI 開發者大會上,百度創始人李彥宏發布了百度文心旗下兩大新模型,分別為文心大模型 4.5 Turbo 和深度思考模型 X1 Turbo,號稱「能力更強、成本更低」。
文心大模型 4.5 Turbo 和 X1 Turbo 都進一步增強了多模態能力。在多個基準測試集中,文心 4.5 Turbo 多模態能力與 GPT 4.1 持平、優於 GPT 4o。而文心大模型 X1 Turbo 基於 4.5 Turbo 的深度思考模型,具備更先進的思維鏈,問答、創作、邏輯推理、工具調用和多模態能力進一步增強,整體效果領先 DeepSeek R1、V3 最新版。

價格是兩款模型最大看點。相比文心 4.5,文心大模型 4.5 Turbo 速度更快,價格下降 80%。文心大模型 X1 Turbo 相比文心 X1,性能提升的同時,價格再降 50%。具體來看:
文心大模型 4.5Turbo:每百萬 token 的輸入價格僅為 0.8 元,輸出價格 3.2 元,僅為 DeepSeek-V3 的 40%;
文心大模型 X1 Turbo:輸入價格為每百萬 token 1 元,輸出價格 4 元,僅為 DeepSeek-R1 的 25%。
會上,李彥宏還稱百度各業務線都在積極接入 DeepSeek 的模型,但他強調,「DeepSeek 也不是萬能的」。李彥宏解釋,DeepSeek 目前只能處理文本,還不能理解和生成圖片、音頻、影片等多媒體內容,幻覺率較高,更大的問題則是慢和貴。他提出,多模態會成為未來基礎模型的標配,純文本模型的市場將會越變越小。
🔗 https://mp.weixin.qq.com/s/vsXxuaD0B_yfpnIljDJmtw
📹 清華博士帶隊,Sand.ai 發布自回歸影片生成模型
日前,由清華博士曹越創立的 Sand.AI,公布了一款名為「Magi-1」的自回歸影片生成模型,其主打兩個能力:
無限長度擴展:通過前一段生成的內容進行後一段影片的製作,從而實現跨時間的無縫連貫敘事;
生成時長控制精準到每一秒。
而從公布的數據顯示,具體性能測試結果如下:
Physics-IQ(對多種物理定律的理解)基準測試:Magi-1 獲得 56.02% 的高分成績,超越可靈 1.6、Sora 等一眾模型;
人類評估:與海螺、騰訊混元、通義萬相 Wan2.1 相比,Magi-1 在指令跟隨和運動質量等方面更具優勢,但與可靈 1.6 在視覺質量存在差距;
VBench-I2V 基準:Magi-1(2 倍解碼器)以 89.28 的高分排名第一,在動態程度(Dynamic Degree)上有較大優勢。
技術上,Magi-1 整體架構基於 Diffusion Transformer,採用 Flow-Matching 作為訓練目標。值得一提的是,據公布的資訊顯示,Magi-1 通過自回歸去噪方式預測固定長度的影片片段,提高了影片生成效率和前後因果性(保證前後內容生成邏輯一致)。

目前,Magi-1 已上架 Sand.AI 官網(可以免費體驗!),並且模型權重、代碼也進行 100% 開源,技術報告也進行全面公布。
而背後的 Sand.AI 創始人為曹越,其博士畢業於清華大學軟體學院,並於 2018 年獲清華大學特等獎學金。曹越於 2022 年創辦 AGI 公司「光年之外」,後加入智源研究院領導多模態與視覺研究中心。隨後在 2023 年,曹越創立了 Sand.AI,並很長一段時間與其他成員保持「隱身」狀態。
團隊成員方面,有不少與曹越有著類似的歷程:智源研究院實習、光年之外創始成員、微軟亞洲研究院實習等等。另據了解,San.AI 已完成三輪融資,主要參與方包括今日資本、經緯創投等。
體驗鏈接:https://sand.ai/
GitHub:https://github.com/SandAI-org/Magi-1
HuggingFace:https://huggingface.co/sand-ai/MAGI-1
🤯 微軟 Recall 功能正式推出
微軟日前宣布,Recall 功能終於正式向所有 Copilot Plus PC 用戶開放,同時推出改進的 AI 驅動 Windows 搜索界面和類似 Google「Circle to Search」的 Click to Do 新功能。
Recall 能夠自動截取用戶在電腦上的幾乎所有活動,創建可檢索的時間線,使用戶能夠輕鬆找回之前瀏覽過的內容,而無需記住具體文件名。
這項功能將通過分類快照,讓用戶可以搜索模糊的記憶,而非依賴精確的文件名。

值得注意的是,Recall 功能原計劃於去年 6 月與 Copilot Plus PC 同步推出,但由於安全研究人員提出隱私擔憂而多次推遲。微軟過去 10 個月對 Recall 的安全性進行了調整,將其設計為完全自願的選擇性功能。
現在,該資料庫已實現加密,並默認過濾敏感數據,用戶必須主動選擇啟用才能使用。
除 Recall 外,微軟同時升級了 Windows 搜索功能,使其支持自然語言查詢,比如用戶可以直接搜索「棕色狗」來查找相關圖片,而不必知道具體文件名或創建日期。
新推出的 Click to Do 功能則允許用戶通過 Windows 鍵和鼠標左鍵的組合快速對螢幕上的文字或圖像進行操作,包括總結文本或從圖像中移除對象等。
🔗 https://www.theverge.com/news/656106/microsoft-recall-copilot-plus-pc-available
Hunt for Fun | 先玩
👏 這段提示詞,讓 GPT-4o 修復你的舊照片
根據網友的實測,外媒 TechRadar 發現通過一段提示詞,GPT-4o 能夠將一些老舊照片轉換成修復後的彩色版本,雖然那並未做到真正的「修復」,但效果卻頗為驚艷。
提示詞如下:
Please upscale and colorize this photo while keeping it faithful to the time period. Do not change the arrangement, expressions, background, or attire; only add period-accurate color and details. The new photo should overlay the original exactly.
比方說,我上傳了一張愛因斯坦的經典照片,經過 AI 的「後期」後成功上色。

再比如,還有這張經典的魯迅照片也得到了較好的還原。

家裡有舊照片的朋友不妨多嘗試一下。
🔗 https://www.techradar.com/computing/artificial-intelligence/i-tried-using-chatgpt-to-restore-old-photos-heres-how-to-really-do-it
Hunt for Insight|先知
📱 Meta CTO:AI 可能徹底顛覆現有的 APP
Meta 首席技術官 Andrew Bosworth 近日與 a16z 風投合伙人 David George 進行了一場深度對談,詳細闡述了 Meta 對「後手機時代」的戰略規劃。
Bosworth 認為,十年後人們獲取內容的方式將發生根本性變化,不再僅限於拿出手機。
「AR(增強現實)眼鏡是真正可能實現的,它將為我們提供更自然的交互方式,通過眼睛和耳朵獲取資訊,不再依賴鍵盤或觸摸屏,」他表示。Meta 的願景是創造一個「眼鏡」能夠替代智慧型手機的世界。

Bosworth 認為 AI 可能徹底顛覆現有的 APP。
「現在,如果我想播放音樂,首先想到的是『我要用哪個提供商——Spotify 還是 Tidal?』但這不是我真正想要的。我想要的只是播放音樂。」他設想在未來,用戶只需表達意圖,由 AI 自行決定如何完成任務。
關於開源,Bosworth 強調了 Meta 開源 AI 模型 Llama 的戰略意義:
「對我們來說,將基礎模型商品化是有利的商業決策。有大量價格具有競爭力或幾乎免費的模型有助於整個生態系統發展。它幫助初創公司、學術界,也幫助我們成為平台提供商。」
儘管願景宏大,Bosworth 也坦承實現「後手機時代」面臨多重挑戰,包括技術發明風險、社會接受度和生態系統建設。「手機是我們生活的中心。這是我操作家庭、汽車和工作的方式。世界已經適應了手機。」
🔗 https://a16z.com/after-mobile-consumer-tech-andrew-bosworth/?utm_source=tech.therundown.ai&utm_medium=referral&utm_campaign=netflix-s-trillion-dollar-dreams
💼 微軟:2025 年是前沿公司誕生元年
微軟最新研究報告顯示,2025 年將成為「Frontier Firm」(前沿企業)誕生的元年。
「Frontier Firm」的典型特徵是圍繞按需智能構建,由人類和 AI Agent 組成的「混合」團隊支持,能夠快速擴展、敏捷運營並加速創造價值。
據調查,82% 的企業領導者認為 2025 年是重新思考戰略和運營關鍵方面的關鍵一年,81% 的領導者預計在未來 12-18 個月內,AI Agent 將深度整合到公司戰略中。24% 的領導者表示其公司已在全組織範圍內部署 AI,而僅 12% 的公司仍處於試點階段。

通往「Frontier Firm」的發展可分為三個階段:
首先,AI 作為助手消除繁重工作;其次,AI Agent 作為「數字同事」加入團隊,在人類指導下承擔特定任務;最後,人類為運行整個業務流程的 AI Agent 設定方向,僅在必要時參與。
這一進程並非嚴格線性發展,許多組織將同時處於多個階段。
研究顯示,現有的「Frontier Firms」已顯示出顯著優勢:71% 的這類公司員工表示公司蒸蒸日上;55% 能夠承擔更多工作;90% 報告有機會從事有意義的工作;93% 對未來工作機會持樂觀態度,且只有 21% 擔心 AI 會搶走工作。
🔗 https://www.microsoft.com/en-us/worklab/work-trend-index/2025-the-year-the-frontier-firm-is-born?utm_source=www.therundown.ai&utm_medium=referral&utm_campaign=openai-s-viral-imagegen-heads-to-the-masses
🤯 YC 合伙人 Pete Koomen:別把 AI 產品做成「無馬馬車」
YC 合伙人 Pete Koomen 近日在個人博客中發表文章,指出當前許多流行的 AI 產品設計存在根本性缺陷,他將這些產品比喻為「無馬馬車」,意指它們仍然遵循傳統軟體設計思維,未能真正發揮 AI 技術的潛力。
根據 Koomen 的觀察,他發現自己更喜歡親自利用 AI 構建軟體,而非使用現有的 AI 應用。
他表示:「當我利用 AI 親手構建軟體時,我可以非常快速地編寫出任何我能想像到的功能。AI 給人的感覺就像是一款強大而有趣的工具。而許多已經存在的 AI 應用程序卻並非如此。」
Koomen 以 Google Gmail 的 AI 助手為例,詳細解析了其設計缺陷。
Gmail 最近推出了使用 Gemini 模型從零開始生成電子郵件草稿的功能,但 Koomen 指出,這些自動生成的郵件草稿不僅語氣與用戶個人風格相去甚遠,而且通常比用戶自己撰寫的郵件更加冗長,反而增加了用戶的負擔。

Koomen 認為問題不在於 AI 模型本身的能力不足,而是應用程序的設計限制了模型的發揮。他指出,當前 AI 應用設計的核心問題在於沒有開放系統 Prompt 的編輯權限給用戶。
為了證明這一點,Koomen 自己編寫了一個簡易的 AI 郵件助手,允許用戶自定義系統 Prompt。通過這種方式,AI 能夠學習用戶的寫作風格,生成真正符合用戶個性的內容。他還展示了自己設計的「Pete 系統提示」,該提示能夠讓 AI 生成與他個人風格高度一致的郵件草稿。
Koomen 進一步指出,限制當前 AI 應用程序發展的是一種「舊世界思維」。在傳統軟體模式下,開發者充當人類與電腦之間的中間人,決定軟體在一般情況下能做什麼,而用戶只能提供輸入內容。這種框架自然而然地將系統 Prompt 視為開發者的工作,而用戶 Prompt 視為用戶的工作。
然而,Koomen 認為,在 AI 時代,用戶不再需要中間人來告訴電腦該做什麼。「當一個 AI 模型代表我行事時,我應該能夠通過編輯系統 Prompt 來教它如何模仿我的行為,」他強調,「在大多數 AI 應用程序中,系統 Prompt 應該由用戶自己編寫和維護,而不是軟體開發者。」
「AI 原生軟體應該最大化用戶在特定領域的效率,」Koomen 總結道。
🔗 https://koomen.dev/essays/horseless-carriages/#a-better-email-assistant
💡 Anthropic CEO 呼籲打開 AI 的「黑匣子」
Anthropic 首席執行官 Dario Amodei 近日發表一篇題為《可解釋性的緊迫性》的重要博客,強調當前研究人員對世界領先 AI 模型內部運作機制的了解極為有限,希望到 2027 年能夠可靠地檢測出大多數 AI 模型問題。
Amodei 指出:「我非常擔心在沒有更好地理解可解釋性的情況下部署這些系統。這些系統將成為經濟、技術和國家安全的核心,並且擁有如此高的自主權,人類對其工作原理一無所知是完全不可接受的。」
Amodei 引用 Anthropic 聯合創始人 Chris Olah 的觀點,認為 AI 模型「更多是生長而非構建的」。換言之,AI 研究人員已經找到了提高 AI 模型智能的方法,但他們並不完全理解其中的原理。

在推動可解釋性研究方面,Anthropic 已取得一些突破性進展。
公司發現了追蹤 AI 模型思維路徑的方法,通過所謂的「電路」。例如,他們識別出一個幫助 AI 模型理解美國城市與州關係的電路。雖然公司目前只發現了少數幾個這樣的電路,但估計 AI 模型中可能存在數百萬個。
從長遠來看,Amodei 表示,Anthropic 希望能夠對最先進的 AI 模型進行類似「腦部掃描」或「核磁共振」的檢查,以識別 AI 模型中的各種問題,包括撒謊的傾向,以及其他弱點。
他認為,這可能需要 5 到 10 年才能實現,但這些措施對於測試和部署未來的 AI 模型至關重要。
🔗 https://techcrunch.com/2025/04/24/anthropic-ceo-wants-to-open-the-black-box-of-ai-models-by-2027/
彩蛋時間


