宅中地 - 每日更新
宅中地 - 每日更新

贊助商廣告

X

蘋果再放 AI 大招!新模型能夠「讀懂」你的手機螢幕 │ Hunt Good 周報

2024年04月14日 首頁 » 熱門科技

蘋果多模態大模型 Ferret-UI 上新

本周,康奈爾大學發布了一篇名為「Ferret-UI:基於多模態大語言模型的移動 UI 理解」的論文。

Ferret-UI 被描述為一種新的 MLLM,專為理解移動 UI 螢幕而定製,具有「指向、定位和推理功能」。它最大的特點是有一個放大系統,可以將圖像放大到「任何解析度」,使圖標和文本更易於閱讀。

為了進行處理和訓練,Ferret 還將螢幕分成兩個較小的部分,將螢幕切成兩半。相較於其他大語言模型,傳統的更傾向於掃描較低解析度的全局圖像,這降低了充分確定圖標外觀的能力。

雖然不知道最終是否會被整合到 Siri 中,但 Ferret-UI 提供了對 iPhone 進行高級控制的可能性。通過了解用戶界面元素,Siri 可以通過在應用程序中自行選擇圖形元素,為用戶在應用程序中執行操作。

 https://appleinsider.com/articles/24/04/09/apples-new-ai-model-could-help-siri-see-how-ios-apps-work

福布斯發布 AI 初創企業 50 強

本周,福布斯紅杉資本和Meritech Capital 一同遴選出 AI 領域最有前途的五十家 AI 初創公司。

本次新上榜的企業有 Abridge、ElevenLabs、Harvey、Mistral AI、Pika、Tome 等企業,涵蓋 AI 影片生成、AI 配音、臨床醫藥等各個領域。

 

蘋果再放 AI 大招!新模型能夠「讀懂」你的手機螢幕 │ Hunt Good 周報

 

其中對 Pika 的描述如下:

只需點擊幾下鼠標,任何人都可以利用Pika的生成式人工智慧軟體製作出潛水員探索水下海洋生物,又或是老虎在鬱鬱蔥蔥的印度森林中徘徊的影片。

Pika 由兩名斯坦福大學的博士生於 2023 年 4 月創立,目前已製作了 3500 萬部影片,並獲得了前 GitHub 首席執行官 Nat Friedman 和 Quora 聯合創始人兼首席執行官 Adam D'Angelo 等著名天使投資人的 5500 萬美元投資。

這家新興創業公司擁有一支 13 人的團隊,大部分成員為女性,目前估值為 2.5 億美元。

https://www.forbes.com/lists/ai50/?sh=3defb07c290f

Adobe 使用 Midjourney 數據,訓練文生圖模型

本周,據彭博社報道,Adobe 正在使用 Midjourney 的圖片,訓練其文生圖模型 Firefly。

消息人士透露,關於使用 Midjourney 的 AI 生成圖片來訓練 Firefly 模型在 Adobe 內部一直存在非常大的分歧。

即使在 Firefly 開發的早期階段,一些員工也不同意 Adobe 將 AI 生成的圖像納入到Firefly 訓練數據中。

 

蘋果再放 AI 大招!新模型能夠「讀懂」你的手機螢幕 │ Hunt Good 周報

 

據彭博社報道,在用於訓練 Firefly 的 Adobe Stock 資料庫中,有 5700 萬條數據被標記為 AI 生成的,這約占資料庫中圖像總數的 14%。

而此前 Adobe 發言人指出,用於訓練 Firefly 的圖像中只有 5% 來自其他平台創建的 AI 圖像。

提交至 Adobe Stock 的每張圖像,包括其中極少數由 AI 生成的圖像,都需經過嚴苛的審核流程。這一流程旨在確保圖像中不含有任何智慧財產權、商標、可辨認的角色或標誌,以及不涉及藝術家姓名的提及。

https://www.bloomberg.com/news/articles/2024-04-12/adobe-s-ai-firefly-used-ai-generated-images-from-rivals-for-training?srnd=technology-vp

圖靈獎揭曉!史上首位數學和電腦最高獎「雙料王」誕生

 

蘋果再放 AI 大招!新模型能夠「讀懂」你的手機螢幕 │ Hunt Good 周報

 

本周,電腦協會 ACM 宣布,將「電腦界最高榮譽」圖靈獎授予複雜性理論先驅、普林斯頓高等研究院教授艾維·維格森。

美國電腦協會(ACM)強調了艾維·維格森對計算理論的基礎性貢獻,包括重塑人類對計算中隨機性作用的理解,以及數十年來在理論電腦科學領域的領導地位。

值得關注的是,維格森教授在 2021 年也曾獲得被譽為數學界的諾貝爾獎——阿貝爾獎。此外,他還是 2017 年阿里達摩院剛成立時首批「十大祖師」之一。

https://www.quantamagazine.org/avi-wigderson-complexity-theory-pioneer-wins-turing-award-20240410/

老鄉雞「開源」了,20 萬字溯源報告公開

國產開源平台 Gitee 近日迎來了一位意料之外的貢獻者——老鄉雞。

近日,老鄉雞宣布將其最核心的內容對消費者、監管部門以及同行全面公開,包括菜品配料、食材供應商明細、操作工藝等菜品製作涉及到的所有環節。

 

蘋果再放 AI 大招!新模型能夠「讀懂」你的手機螢幕 │ Hunt Good 周報

 

677 頁共 20 萬字,包含 202 個供應商明細,484 個三卡追溯檔案(餐廳菜品追溯卡 188 個,央廚食材追溯卡 136 個,外采原料追溯卡 160 個)的《老鄉雞菜品溯源報告》向社會全面原文公開。

老鄉雞稱顧客可以對照報告在家做出老鄉雞同樣的菜,而共享給同行的 202 家食材供應商資訊可以解決所有食材來源問題。

老鄉雞菜品溯源報告完整版下載:https://lxjchina.com.cn/upload/file/20240407/20240407210058895889.pdf

https://gitee.com/lxjchina/traceability-report-of-dishes/blob/master/README.md?continueFlag=8fdef69ab12f71238ed45d0f4710be95

爆火 AI 硬體遭負評,「AI iPhone」上市即翻車

最近,Ai Pin 的第一批用戶拿到了他們的新玩具。

自從在 MWC 2024(世界移動通信大會)亮相後,標榜要做「AI 時代的 iPhone」的 Ai Pin 終於出貨,第一時間上手的外媒也抱著極大的熱情和好奇,全方位體驗了這款「奇葩」產品。

 

蘋果再放 AI 大招!新模型能夠「讀懂」你的手機螢幕 │ Hunt Good 周報

 

大家都對 Ai Pin 有著高度一致的評價:

設備做工精良,不愧是蘋果前工程師的作品;

看上去比圖片裡的要小,佩戴很方便,有多個模塊可選;

拍照質量不錯;

實時翻譯很好用,譯文挺準確。

但如果你想知道 Ai Pin 是否值得購買,所有人也都會異口同聲地叫醒你:NO

過於簡陋,沒多大用處。——WIRED

我真正可以依靠 Ai Pin 做的唯一一件事就是告訴我時間。——The Verge

詳細資訊建議回看 APPSO 以前的文章:

Meta 確認開源大模型 LLaMA 3 下月登場

周二在倫敦舉行的一次活動中,Meta 證實,它計劃在下個月發布 Llama 3 的初始版本——這是其用於為生成式 AI 助手提供動力的下一代大型語言模型。

Meta 全球事務總裁尼克·克萊格(Nick Clegg)表示:「我們希望在接下來的一個月內,甚至更短的時間內,很快就會開始推出我們的新一代基礎模型系列——Llama 3。」

 

蘋果再放 AI 大招!新模型能夠「讀懂」你的手機螢幕 │ Hunt Good 周報

 

他還描述了一系列不同能力和適應性的產品版本即將發布。「今年,我們將陸續推出多個具有不同功能和多樣性的模型,啟動時間非常臨近。」

該公司沒有透露 Llama 3 中使用的參數大小,但預計它將擁有約 1400 億個參數,並與 OpenAI 的 GPT-4 相媲美。

Meta 此前發布了三種尺寸的 Llama 2,最大的參數為 70B。值得一提的是,Meta 在過去一年中囤積了 35 個 H100 GPU,以加強 AI 基礎設施。

https://techcrunch.com/2024/04/09/meta-confirms-that-its-llama-3-open-source-llm-is-coming-in-the-next-month/?utm_source=www.therundown.ai&utm_medium=referral&utm_campaign=meta-s-gpt-4-competitor-is-coming

Hunt for Tools|先進工具

馬斯克宣布推出多模態模型 Grok 1.5 Vision

繼上個月推出 Grok-1.5 大模型之後,馬斯克近日再次推出首個多模態模型 Grok-1.5 Vision。

據 xAI 透露,他們計劃很快邀請參與早期測試的用戶以及現有的Grok-1.5的使用者體驗 Grok-1.5 Vision。

Grok-1.5 Vision 不僅能夠理解文本資訊,還能夠高效處理各類文檔、圖表、截圖以及照片中的資訊。

 

蘋果再放 AI 大招!新模型能夠「讀懂」你的手機螢幕 │ Hunt Good 周報

 

xAI 在官方博客中演示了 7 個 Grok-1.5V 案例,包括將白板上的流程圖草圖轉化為 Python 代碼、根據孩子的繪畫生成睡前故事、解釋流行語、將表格轉化為 CSV 文件格式等等。

此外,Grok-1.5V 在 RealWorldQA 基準測試中,優於 GPT-4V、Cllaude 3 Opus 等一眾主流競爭對手。

附上具體介紹的博客地址:https://x.ai/blog/grok-1.5v

https://twitter.com/xai/status/1778963570098855947

音樂界 Sora 上線——Udio。

近日,Suno 爆火之後,又一個音樂界 Sora 來了:Udio。

它由前 Google DeepMind 工程師開發,被矽谷知名風投 a16z、Instagram 創始人看好。

按照 Udio 的規定,它和 Suno 一樣,不支持用某個藝術家的聲音生成歌曲。不過,Udio 可以用藝術家的風格作為提示詞,比如「貝多芬」。

讓 Udio 唱中文歌,有種霸王硬上弓的感覺,咬字不清晰又錯誤頻出,發音有點像塑料粵語,不知道是不是拿港台歌訓練的 AI,且素材不是很夠。

Udio 目前發布的是免費測試版,註冊賬號之後,每個人每月最多可以生成 1200 首歌曲,按照理想情況,40 秒內就能生成一首。

和 Suno 類似,Udio 的創作界面非常直觀,輸入提示詞,點擊生成,等待 AI 創作完畢。也與 Suno 一樣,Udio 通過 API 調用 ChatGPT 編寫歌詞。

除了讓 AI 自由發揮,Udio 也可以更加定製化,讓你輸入自己的歌詞,添加具體的流派標籤,選擇生成純音樂,或者包含歌詞和人聲的歌曲。

https://twitter.com/udiomusic/status/1778045322654003448

Google 推出 Gemini 1.5 Pro 公共預覽版,能處理音頻

在 Google Cloud Next 活動期間,Google 宣布將通過其 AI 應用平台 Vertex AI 向公眾提供 Gemini 1.5 Pro,並且還賦予其「聽力」,幫助用戶處理音頻內容。

用戶可以上傳會議錄音、電視節目等音頻內容,無需書面記錄就可讓其解讀和總結。Gemini 1.5 Pro 於 2 月份發布,當時面向開發者和企業用戶開放。

 

蘋果再放 AI 大招!新模型能夠「讀懂」你的手機螢幕 │ Hunt Good 周報

 

據悉,這個在 Gemini 系列中定位中量級的模型,在性能上已經超越了體型和性能最強的模型 Gemini Ultra。

此外,Google 還發布了首款 Arm AI 處理器 Axion,Google 表示,Axion 處理器比同類基於 X86 的產品高出 50% 的性能和 60% 的能效,比 AWS 和微軟等競爭對手基於 Arm 的產品性能高出 30% 。

Google 還推出了一個新的影片生產力工具「Vids」。據 Google 介紹,用戶只要會製作 PPT,就可以在 Vids 中製作影片。

面壁智能發布性能小鋼炮 MiniCPM 第二彈

在本周,端側大模型面壁 MiniCPM 小鋼炮乘勝追擊,迎來了第二彈的四連發,主打的就是「小而強,小而全」。

其中,MiniCPM-V2.0 多模態模型顯著增強了 OCR 能力,刷新開源模型最佳 OCR 表現,通用場景文字比肩 Gemini-Pro、超越全系 13B 量級模型。

最小的 128K 長文本、MiniCPM-2B-128K 長文本模型,將原有的 4K 上下文窗口擴展到了 128K,在 InfiniteBench 榜單超越 Yarn-Mistral-7B-128K 等一眾 7B 量級模型。

 

蘋果再放 AI 大招!新模型能夠「讀懂」你的手機螢幕 │ Hunt Good 周報

 

通過引入 MoE 架構,新發布的 MiniCPM-MoE-8x2B MoE 性能平均提⾼4.5%,超越了全系 7B 量級模型,及 LlaMA234B 等更大模型,而推理成本僅為 Gemma-7B 的 69.7%。

雖然直接參數減少一半,但 MiniCPM-1.2B 仍保持上一代 2.4B 模型 87% 的綜合性能,在多個公開權威測試榜單上,1.2B 模型非常能打,取得了綜合性能超過 Qwen 1.8B、Llama 2-7B 甚至 Llama 2-13B 的優異成績。

 

Hunt for Fun|先行

手搓 3D 機甲模型,你也可以

此前,我們曾經介紹過 Magnific AI 出色的圖片風格遷移能力,即將任意一張圖像轉化為其他風格,並儘可能保留原圖像的內容。

現在,網友 @lyson_ober 通過使用「Magnific Tripo Midjourney」等工具,製作出許多不同樣式的 3D 機甲模型。

整體思路比較簡單,教學如下:

https://twitter.com/i/status/1779272389332787662

Hunt for insights|先知

李彥宏內部講話曝光:首談文心大模型為什麼不開源

本周,據澎湃新聞報道,百度創始人、董事長兼 CEO 李彥宏近期在內部講話中,就 AI 業界中的焦點話題發表看法。

談及文心大模型為何不開源時,李彥宏表示:

一年前文心剛剛發布的時候,我們內部是有過非常激烈的討論的,最後當然大家也知道這個結果,我們的決定是不開源。為什麼不開源?

當時的判斷是,市場上一定會有開源的模型,而且是不止一家會開源。在這種情況下,多百度一家開源不多,少百度一家開源也不少。

在李彥宏看來,雖然 Llama 也鼓勵開發者們去貢獻各種各樣的數據、代碼,但是實際上最主要的貢獻還是 Meta 內部的開發者,因此, Llama 並不是一個真正由大家一起來協同開發的產品。

李彥宏還認為,相較於開源,閉源才具有真正的商業模式,只有賺到錢才能聚集算力、聚集人才。

大家比較一下,比如矽谷有一個優秀的人才,他有 OpenAI 的 offer,有 Meta 的 offer,有 Llama 的 offer,他會去哪兒?這是非常顯而易見的選擇。

Anthropic 首席執行官:AI 正處於「指數曲線」上

本周,Anthropic 首席執行官 Dario Amodei 在接受《紐約時報》的採訪表示, AI 正處於「指數曲線」上,並以個人曾在 OpenAI 五年的工作經歷為例做進一步解釋。

2018 年,OpenAI 開發了一個名為 GPT-1 的模型,其所需的計算能力僅為現在模型的 1/100000。

作為最早「縮放定律」的一批人,Amodei 曾預測如果對這些模型的投資從當時 10000 美元增加到 1億、10 億甚至 100 億美元,那麼將會有許多驚人的成果出現。

 

蘋果再放 AI 大招!新模型能夠「讀懂」你的手機螢幕 │ Hunt Good 周報

 

此外,「當 ChatGPT 發布時,就像過去三年中我們預期會出現的所有增長和興奮,突然之間爆發出來,迅速占據了公眾的視野。」

Dario Amodei 還認為,讓模型擁有個性的同時保持客觀性和實用性,避免陷入各種倫理困境,這將大大促進其被廣泛採用。

https://www.nytimes.com/2024/04/12/podcasts/transcript-ezra-klein-interviews-dario-amodei.html

圖靈獎得主:大模型永遠也無法達到人類智能

上個月,伊隆·馬斯克預測,AGI 將會在 2025 年底到來,但並不是每個人都這麼樂觀。

近日,Meta 首席科學家、圖靈獎得主 Yann LeCun 在倫敦舉行的一次活動中,表示 LLMs 永遠無法達到人類水平的智能。

他指出了四重認知挑戰:推理、計劃、持久記憶和對物理世界的理解。

 

蘋果再放 AI 大招!新模型能夠「讀懂」你的手機螢幕 │ Hunt Good 周報

 

這是人類智能的四個基本特徵 , 就此而言,還有動物智能 ,目前的人工智慧系統都無法做到

Yann LeCun 認為,對話流利的 LLMs 看似很聰明,但實際上,它們對現實的理解非常粗淺。同時

在他看來,一個四歲孩子在與世界的互動中看到的數據資訊是世界上最大的 LLMs 的 50 倍。

大部分人類知識並非以語言形式存在,因此除非對系統架構進行改變,否則這些系統無法實現與人類相當水平的智能。

https://thenextweb.com/news/meta-yann-lecun-ai-behind-human-intelligence

彩蛋時間

《去有光的地方 》

 
宅中地 - Facebook 分享 宅中地 - Twitter 分享 宅中地 - Whatsapp 分享 宅中地 - Line 分享
相關內容
Copyright ©2025 | 服務條款 | DMCA | 聯絡我們
宅中地 - 每日更新