蘋果再放 AI 大招！新模型能夠「讀懂」你的手機螢幕 │ Hunt Good 周報

蘋果多模態大模型 Ferret-UI 上新

本周，康奈爾大學發布了一篇名為「Ferret-UI：基於多模態大語言模型的移動 UI 理解」的論文。

贊助商廣告

Ferret-UI 被描述為一種新的 MLLM，專為理解移動 UI 螢幕而定製，具有「指向、定位和推理功能」。它最大的特點是有一個放大系統，可以將圖像放大到「任何解析度」，使圖標和文本更易於閱讀。

為了進行處理和訓練，Ferret 還將螢幕分成兩個較小的部分，將螢幕切成兩半。相較於其他大語言模型，傳統的更傾向於掃描較低解析度的全局圖像，這降低了充分確定圖標外觀的能力。

雖然不知道最終是否會被整合到 Siri 中，但 Ferret-UI 提供了對 iPhone 進行高級控制的可能性。通過了解用戶界面元素，Siri 可以通過在應用程式中自行選擇圖形元素，為用戶在應用程式中執行操作。

https://appleinsider.com/articles/24/04/09/apples-new-ai-model-could-help-siri-see-how-ios-apps-work

福布斯發布 AI 初創企業 50 強

本周，福布斯紅杉資本和Meritech Capital 一同遴選出 AI 領域最有前途的五十家 AI 初創公司。

本次新上榜的企業有 Abridge、ElevenLabs、Harvey、Mistral AI、Pika、Tome 等企業，涵蓋 AI 影片生成、AI 配音、臨床醫藥等各個領域。

蘋果再放 AI 大招！新模型能夠「讀懂」你的手機螢幕 │ Hunt Good 周報

其中對 Pika 的描述如下：

只需點擊幾下滑鼠，任何人都可以利用Pika的生成式人工智慧軟體製作出潛水員探索水下海洋生物，又或是老虎在鬱鬱蔥蔥的印度森林中徘徊的影片。

Pika 由兩名斯坦福大學的博士生於 2023 年 4 月創立，目前已製作了 3500 萬部影片，並獲得了前 GitHub 首席執行官 Nat Friedman 和 Quora 聯合創始人兼首席執行官 Adam D'Angelo 等著名天使投資人的 5500 萬美元投資。

這家新興創業公司擁有一支 13 人的團隊，大部分成員為女性，目前估值為 2.5 億美元。

https://www.forbes.com/lists/ai50/?sh=3defb07c290f

Adobe 使用 Midjourney 數據，訓練文生圖模型

本周，據彭博社報道，Adobe 正在使用 Midjourney 的圖片，訓練其文生圖模型 Firefly。

贊助商廣告

消息人士透露，關於使用 Midjourney 的 AI 生成圖片來訓練 Firefly 模型在 Adobe 內部一直存在非常大的分歧。

即使在 Firefly 開發的早期階段，一些員工也不同意 Adobe 將 AI 生成的圖像納入到Firefly 訓練數據中。

據彭博社報道，在用於訓練 Firefly 的 Adobe Stock 資料庫中，有 5700 萬條數據被標記為 AI 生成的，這約占資料庫中圖像總數的 14%。

而此前 Adobe 發言人指出，用於訓練 Firefly 的圖像中只有 5% 來自其他平台創建的 AI 圖像。

提交至 Adobe Stock 的每張圖像，包括其中極少數由 AI 生成的圖像，都需經過嚴苛的審核流程。這一流程旨在確保圖像中不含有任何智慧財產權、商標、可辨認的角色或標誌，以及不涉及藝術家姓名的提及。

https://www.bloomberg.com/news/articles/2024-04-12/adobe-s-ai-firefly-used-ai-generated-images-from-rivals-for-training?srnd=technology-vp

圖靈獎揭曉！史上首位數學和電腦最高獎「雙料王」誕生

本周，電腦協會 ACM 宣布，將「電腦界最高榮譽」圖靈獎授予複雜性理論先驅、普林斯頓高等研究院教授艾維·維格森。

美國電腦協會（ACM）強調了艾維·維格森對計算理論的基礎性貢獻，包括重塑人類對計算中隨機性作用的理解，以及數十年來在理論電腦科學領域的領導地位。

值得關注的是，維格森教授在 2021 年也曾獲得被譽為數學界的諾貝爾獎——阿貝爾獎。此外，他還是 2017 年阿里達摩院剛成立時首批「十大祖師」之一。

https://www.quantamagazine.org/avi-wigderson-complexity-theory-pioneer-wins-turing-award-20240410/

老鄉雞「開源」了，20 萬字溯源報告公開

國產開源平台 Gitee 近日迎來了一位意料之外的貢獻者——老鄉雞。

近日，老鄉雞宣布將其最核心的內容對消費者、監管部門以及同行全面公開，包括菜品配料、食材供應商明細、操作工藝等菜品製作涉及到的所有環節。

贊助商廣告

677 頁共 20 萬字，包含 202 個供應商明細，484 個三卡追溯檔案（餐廳菜品追溯卡 188 個，央廚食材追溯卡 136 個，外采原料追溯卡 160 個）的《老鄉雞菜品溯源報告》向社會全面原文公開。

老鄉雞稱顧客可以對照報告在家做出老鄉雞同樣的菜，而共享給同行的 202 家食材供應商資訊可以解決所有食材來源問題。

老鄉雞菜品溯源報告完整版下載：https://lxjchina.com.cn/upload/file/20240407/20240407210058895889.pdf

https://gitee.com/lxjchina/traceability-report-of-dishes/blob/master/README.md?continueFlag=8fdef69ab12f71238ed45d0f4710be95

爆火 AI 硬體遭負評，「AI iPhone」上市即翻車

最近，Ai Pin 的第一批用戶拿到了他們的新玩具。

自從在 MWC 2024（世界移動通信大會）亮相後，標榜要做「AI 時代的 iPhone」的 Ai Pin 終於出貨，第一時間上手的外媒也抱著極大的熱情和好奇，全方位體驗了這款「奇葩」產品。

大家都對 Ai Pin 有著高度一致的評價：

設備做工精良，不愧是蘋果前工程師的作品；

看上去比圖片裡的要小，佩戴很方便，有多個模組可選；

拍照質量不錯；

實時翻譯很好用，譯文挺準確。

但如果你想知道 Ai Pin 是否值得購買，所有人也都會異口同聲地叫醒你：NO

過於簡陋，沒多大用處。——WIRED

我真正可以依靠 Ai Pin 做的唯一一件事就是告訴我時間。——The Verge

詳細資訊建議回看 APPSO 以前的文章：

Meta 確認開源大模型 LLaMA 3 下月登場

周二在倫敦舉行的一次活動中，Meta 證實，它計劃在下個月發布 Llama 3 的初始版本——這是其用於為生成式 AI 助手提供動力的下一代大型語言模型。

Meta 全球事務總裁尼克·克萊格（Nick Clegg）表示：「我們希望在接下來的一個月內，甚至更短的時間內，很快就會開始推出我們的新一代基礎模型系列——Llama 3。」

他還描述了一系列不同能力和適應性的產品版本即將發布。「今年，我們將陸續推出多個具有不同功能和多樣性的模型，啟動時間非常臨近。」

贊助商廣告

該公司沒有透露 Llama 3 中使用的參數大小，但預計它將擁有約 1400 億個參數，並與 OpenAI 的 GPT-4 相媲美。

Meta 此前發布了三種尺寸的 Llama 2，最大的參數為 70B。值得一提的是，Meta 在過去一年中囤積了 35 個 H100 GPU，以加強 AI 基礎設施。

https://techcrunch.com/2024/04/09/meta-confirms-that-its-llama-3-open-source-llm-is-coming-in-the-next-month/?utm_source=www.therundown.ai&utm_medium=referral&utm_campaign=meta-s-gpt-4-competitor-is-coming

Hunt for Tools｜先進工具

馬斯克宣布推出多模態模型 Grok 1.5 Vision

繼上個月推出 Grok-1.5 大模型之後，馬斯克近日再次推出首個多模態模型 Grok-1.5 Vision。

據 xAI 透露，他們計劃很快邀請參與早期測試的用戶以及現有的Grok-1.5的使用者體驗 Grok-1.5 Vision。

Grok-1.5 Vision 不僅能夠理解文本資訊，還能夠高效處理各類文檔、圖表、截圖以及照片中的資訊。

xAI 在官方部落格中演示了 7 個 Grok-1.5V 案例，包括將白板上的流程圖草圖轉化為 Python 代碼、根據孩子的繪畫生成睡前故事、解釋流行語、將表格轉化為 CSV 文件格式等等。

此外，Grok-1.5V 在 RealWorldQA 基準測試中，優於 GPT-4V、Cllaude 3 Opus 等一眾主流競爭對手。

附上具體介紹的部落格地址：https://x.ai/blog/grok-1.5v

https://twitter.com/xai/status/1778963570098855947

音樂界 Sora 上線——Udio。

近日，Suno 爆火之後，又一個音樂界 Sora 來了：Udio。

它由前 Google DeepMind 工程師開發，被矽谷知名風投 a16z、Instagram 創始人看好。

按照 Udio 的規定，它和 Suno 一樣，不支持用某個藝術家的聲音生成歌曲。不過，Udio 可以用藝術家的風格作為提示詞，比如「貝多芬」。

讓 Udio 唱中文歌，有種霸王硬上弓的感覺，咬字不清晰又錯誤頻出，發音有點像塑料粵語，不知道是不是拿港台歌訓練的 AI，且素材不是很夠。

Udio 目前發布的是免費測試版，註冊賬號之後，每個人每月最多可以生成 1200 首歌曲，按照理想情況，40 秒內就能生成一首。

贊助商廣告

和 Suno 類似，Udio 的創作界面非常直觀，輸入提示詞，點擊生成，等待 AI 創作完畢。也與 Suno 一樣，Udio 通過 API 調用 ChatGPT 編寫歌詞。

除了讓 AI 自由發揮，Udio 也可以更加定製化，讓你輸入自己的歌詞，添加具體的流派標籤，選擇生成純音樂，或者包含歌詞和人聲的歌曲。

https://twitter.com/udiomusic/status/1778045322654003448

Google 推出 Gemini 1.5 Pro 公共預覽版，能處理音頻

在 Google Cloud Next 活動期間，Google 宣布將通過其 AI 應用平台 Vertex AI 向公眾提供 Gemini 1.5 Pro，並且還賦予其「聽力」，幫助用戶處理音頻內容。

用戶可以上傳會議錄音、電視節目等音頻內容，無需書面記錄就可讓其解讀和總結。Gemini 1.5 Pro 於 2 月份發布，當時面向開發者和企業用戶開放。

據悉，這個在 Gemini 系列中定位中量級的模型，在性能上已經超越了體型和性能最強的模型 Gemini Ultra。

此外，Google 還發布了首款 Arm AI 處理器 Axion，Google 表示，Axion 處理器比同類基於 X86 的產品高出 50% 的性能和 60% 的能效，比 AWS 和微軟等競爭對手基於 Arm 的產品性能高出 30% 。

Google 還推出了一個新的影片生產力工具「Vids」。據 Google 介紹，用戶只要會製作 PPT，就可以在 Vids 中製作影片。

面壁智能發布性能小鋼炮 MiniCPM 第二彈

在本周，端側大模型面壁 MiniCPM 小鋼炮乘勝追擊，迎來了第二彈的四連發，主打的就是「小而強，小而全」。

其中，MiniCPM-V2.0 多模態模型顯著增強了 OCR 能力，刷新開源模型最佳 OCR 表現，通用場景文字比肩 Gemini-Pro、超越全系 13B 量級模型。

最小的 128K 長文本、MiniCPM-2B-128K 長文本模型，將原有的 4K 上下文窗口擴展到了 128K，在 InfiniteBench 榜單超越 Yarn-Mistral-7B-128K 等一眾 7B 量級模型。

通過引入 MoE 架構，新發布的 MiniCPM-MoE-8x2B MoE 性能平均提⾼4.5%，超越了全系 7B 量級模型，及 LlaMA234B 等更大模型，而推理成本僅為 Gemma-7B 的 69.7%。

贊助商廣告

雖然直接參數減少一半，但 MiniCPM-1.2B 仍保持上一代 2.4B 模型 87% 的綜合性能，在多個公開權威測試榜單上，1.2B 模型非常能打，取得了綜合性能超過 Qwen 1.8B、Llama 2-7B 甚至 Llama 2-13B 的優異成績。

Hunt for Fun｜先行

手搓 3D 機甲模型，你也可以

此前，我們曾經介紹過 Magnific AI 出色的圖片風格遷移能力，即將任意一張圖像轉化為其他風格，並儘可能保留原圖像的內容。

現在，網友 @lyson_ober 通過使用「Magnific + Tripo + Midjourney」等工具，製作出許多不同樣式的 3D 機甲模型。

整體思路比較簡單，教學如下：

https://twitter.com/i/status/1779272389332787662

Hunt for insights｜先知

李彥宏內部講話曝光：首談文心大模型為什麼不開源

本周，據澎湃新聞報道，百度創始人、董事長兼 CEO 李彥宏近期在內部講話中，就 AI 業界中的焦點話題發表看法。

談及文心大模型為何不開源時，李彥宏表示：

一年前文心剛剛發布的時候，我們內部是有過非常激烈的討論的，最後當然大家也知道這個結果，我們的決定是不開源。為什麼不開源？

當時的判斷是，市場上一定會有開源的模型，而且是不止一家會開源。在這種情況下，多百度一家開源不多，少百度一家開源也不少。

在李彥宏看來，雖然 Llama 也鼓勵開發者們去貢獻各種各樣的數據、代碼，但是實際上最主要的貢獻還是 Meta 內部的開發者，因此， Llama 並不是一個真正由大家一起來協同開發的產品。

李彥宏還認為，相較於開源，閉源才具有真正的商業模式，只有賺到錢才能聚集算力、聚集人才。

大家比較一下，比如矽谷有一個優秀的人才，他有 OpenAI 的 offer，有 Meta 的 offer，有 Llama 的 offer，他會去哪兒？這是非常顯而易見的選擇。

Anthropic 首席執行官：AI 正處於「指數曲線」上

本周，Anthropic 首席執行官 Dario Amodei 在接受《紐約時報》的採訪表示， AI 正處於「指數曲線」上，並以個人曾在 OpenAI 五年的工作經歷為例做進一步解釋。

贊助商廣告

2018 年，OpenAI 開發了一個名為 GPT-1 的模型，其所需的計算能力僅為現在模型的 1/100000。

作為最早「縮放定律」的一批人，Amodei 曾預測如果對這些模型的投資從當時 10000 美元增加到 1億、10 億甚至 100 億美元，那麼將會有許多驚人的成果出現。

此外，「當 ChatGPT 發布時，就像過去三年中我們預期會出現的所有增長和興奮，突然之間爆發出來，迅速占據了公眾的視野。」

Dario Amodei 還認為，讓模型擁有個性的同時保持客觀性和實用性，避免陷入各種倫理困境，這將大大促進其被廣泛採用。

https://www.nytimes.com/2024/04/12/podcasts/transcript-ezra-klein-interviews-dario-amodei.html

圖靈獎得主：大模型永遠也無法達到人類智能

上個月，伊隆·馬斯克預測，AGI 將會在 2025 年底到來，但並不是每個人都這麼樂觀。

近日，Meta 首席科學家、圖靈獎得主 Yann LeCun 在倫敦舉行的一次活動中，表示 LLMs 永遠無法達到人類水平的智能。

他指出了四重認知挑戰：推理、計劃、持久記憶和對物理世界的理解。

這是人類智能的四個基本特徵，就此而言，還有動物智能，目前的人工智慧系統都無法做到

Yann LeCun 認為，對話流利的 LLMs 看似很聰明，但實際上，它們對現實的理解非常粗淺。同時

在他看來，一個四歲孩子在與世界的互動中看到的數據資訊是世界上最大的 LLMs 的 50 倍。

大部分人類知識並非以語言形式存在，因此除非對系統架構進行改變，否則這些系統無法實現與人類相當水平的智能。

https://thenextweb.com/news/meta-yann-lecun-ai-behind-human-intelligence

彩蛋時間

《去有光的地方》