宅中地 - 每日更新
宅中地 - 每日更新

贊助商廣告

X

搭載攝影機的耳機:VueBuds能否取代智能眼鏡?

2026年06月29日 首頁 » 熱門科技

智慧型手機攝影機和部分智能眼鏡已經能夠讓用戶向AI模型發起查詢,獲取眼前所見事物的相關資訊。未來,這一能力或許將延伸至更多設備,包括無線耳機。

華盛頓大學的研究人員開發了一款名為VueBuds的耳機原型,每隻耳機內均集成了一枚小型低解析度攝影機。這款原型耳機具備與智能眼鏡類似的功能——例如Ray-Ban Meta眼鏡所支持的翻譯外語路牌、輔助低視力用戶、或在戶外徒步時識別植物種類等。

智能眼鏡自身存在諸多局限,隱私問題和佩戴舒適性是其中的主要痛點。內置攝影機因可能在用戶不知情的情況下拍攝旁觀者,以及所採集的敏感視覺數據最終流向何處等問題,已引發批評和法律訴訟。

此外,並非所有人都習慣佩戴眼鏡,甚至有人選擇隱形眼鏡來規避這一麻煩——主導VueBuds研究的華盛頓大學教授Shyam Gollakota本人便是如此。他表示:"幾乎人人都會佩戴的主流可穿戴設備,就是耳機。"他的團隊將耳機定位為智能眼鏡的替代方案,認為其侵入性更低、對隱私更為友好。

不過,這項研究的首要目標是驗證這種小巧的耳戴式形態是否具備可行性。Gollakota表示:"傳統耳機一直局限於音頻交互界面。我們的研究證明,完全可以在這種形態下構建一套系統,並通過運行視覺語言模型獲取豐富的智能資訊。"

該研究成果已在巴塞羅那舉行的ACM人機交互大會上正式發布。

多模態耳機的設計思路

Gollakota及其同事並不認為VueBuds會是視覺AI的唯一交互形式。

"可穿戴設備是非常私人化的選擇,"Gollakota實驗室的博士生Maruchi Kim說道。有人偏愛眼鏡或手錶,有人鍾情戒指,因此她認為不會出現一款"通吃"所有用戶的單一設備。"我們只是希望引入一個新的品類,證明智能眼鏡所能實現的一切,耳機同樣可以做到。"

儘管如此,耳機這一形態仍具備一定優勢。由於耳機已被廣泛使用,用戶的技術接受門檻更低。Kim還指出:"耳機放回收納盒,這本身已經是一種約定俗成的社會行為。"智能眼鏡可能配有度數鏡片,佩戴者往往全天不摘;但"如果你想確認攝影機沒有在錄製,耳機這種形態讓你隨時可以把它收起來,讓人更加放心。"

Kim還表示,用戶感興趣的許多AI功能本質上屬於"情景式使用場景"——例如翻譯路牌或查看食品成分時,根本不需要持續的影片流。

三大核心技術挑戰

Gollakota指出,要實現具備視覺能力的耳機,需要突破三大核心難題:在嚴格的尺寸、功耗和重量限制內集成攝影機;實現數據傳輸;以及在耳戴狀態下重建完整的視覺場景。

功耗是首要瓶頸。"耳機電池的容量大約只有智能眼鏡的十分之一,"Kim說。視覺數據對頻寬的需求也遠高於音頻,因此眼鏡錄製的影片通常通過Wi-Fi傳輸至雲端,由雲側AI模型進行處理。Wi-Fi雖然頻寬充裕,但功耗較高。

VueBuds選擇通過藍牙傳輸低解析度灰度圖像。大多數設備廠商傾向於傳輸儘可能多的數據,而Gollakota團隊則另闢蹊徑——他們希望找到視覺語言模型提取有效資訊所需的最低解析度,最終採用了324×324像素的圖像傳感器。

在視野覆蓋方面,研究人員同樣面臨挑戰。將攝影機安置於耳部會導致面部兩側各形成一個盲區。研究團隊將攝影機向外偏轉5至10度,再通過圖像拼接技術,成功重建出視野更寬的完整場景。不過,這一方案在用戶正前方約20厘米以內的區域仍存在小範圍盲區。

識別準確率與未來規劃

研究團隊使用四種視覺語言模型對VueBuds進行了測試。在表現最佳的模型Qwen2.5-VL上,VueBuds在用戶研究中的物體識別準確率約為82%,字符識別準確率為94%,翻譯準確率為84%,綜合準確率達87%。在17項任務上,VueBuds的表現與Ray-Ban Meta眼鏡相當。

未來,研究團隊計劃為系統加入彩色圖像支持。Kim也在研究如何通過引入設備端JPEG編碼器來提升可傳輸的圖像解析度,從而大幅壓縮待處理圖像的文件體積。

隱私問題的再審視

許多用戶對智能眼鏡的隱私和監控問題保持警惕,而相關公司可能存在數據濫用的新證據,正在加劇這種擔憂。

在此背景下,是否應該在耳機這一可穿戴設備上再加入攝影機?華盛頓大學的研究人員認為,與現有智能眼鏡相比,VueBuds經過精簡的圖像採集方式在隱私保護方面更具優勢。

首先,該系統設計為在智慧型手機或其他本地設備上運行,數據不會上傳至雲端。其次,VueBuds僅採集靜態圖像——Meta智能眼鏡的主要用途之一已是影片錄製,而Gollakota表示,"低解析度的灰度影片本來就沒有人願意看。"

此外,VueBuds通過語音指令激活。"音頻啟動意味著你周圍的所有人都能知道你在做什麼。"而智能眼鏡只需輕觸按鈕即可開始錄製。

Gollakota還指出,大多數人已經習慣了幾乎每台設備都內置麥克風的現實,因為語音指令等功能帶來了切實價值,蘋果等公司也在內置麥克風的設備上積累了一定程度的用戶信任。視覺智能能否走出類似的發展路徑,還有待技術演進和用戶信任度的共同檢驗。

值得關注的是,蘋果據報道也正在研發新一代集成紅外攝影機的AirPods,以支持手勢識別並改善空間音頻體驗。儘管這與普通攝影機所實現的視覺智能能力不同,但這一動向表明,業界對於打破耳機純音頻交互局限的興趣正在升溫。

"耳機是我們目前最成功的可穿戴設備,但它現在仍局限於音頻交互界面,"Gollakota說,"引入視覺智能,將使其成為比現在更加豐富、更加強大的交互平台。"

Q&A

Q1:VueBuds耳機和普通智能眼鏡相比,有哪些實際優勢?

A:VueBuds最大的優勢在於隱私保護和使用習慣。它通過語音指令激活拍攝,周圍人都能感知;數據只在本地處理,不上傳雲端;不用時放回收納盒即可確認攝影機停止工作。相比之下,智能眼鏡可一鍵開始錄製,數據處理方式也更不透明。此外,耳機的普及率遠高於智能眼鏡,用戶接受門檻更低。

Q2:VueBuds的圖像識別準確率怎麼樣,能實際使用嗎?

A:在表現最好的視覺語言模型Qwen2.5-VL的支持下,VueBuds的綜合準確率達到87%,其中字符識別高達94%,翻譯準確率84%,物體識別約82%。在17項測試任務中,其表現與Ray-Ban Meta智能眼鏡相當,說明該系統已具備一定的實用價值,但目前仍處於原型研究階段,尚未商業化。

Q3:VueBuds是如何解決耳機電池續航不足的問題的?

A:耳機電池容量約為智能眼鏡的十分之一,功耗控制是核心難題。VueBuds的解決方案是放棄Wi-Fi,改用更省電的藍牙傳輸;同時只傳輸324×324像素的低解析度灰度靜態圖像,而非連續影片流,從而在保證AI可用性的前提下,將功耗和頻寬需求降到最低。

宅中地 - Facebook 分享 宅中地 - Twitter 分享 宅中地 - Whatsapp 分享 宅中地 - Line 分享
相關內容
Copyright ©2026 | 服務條款 | DMCA | 聯絡我們
宅中地 - 每日更新