搭載攝影機的耳機：VueBuds能否取代智能眼鏡？

智慧型手機攝影機和部分智能眼鏡已經能夠讓用戶向AI模型發起查詢，獲取眼前所見事物的相關資訊。未來，這一能力或許將延伸至更多設備，包括無線耳機。

贊助商廣告

華盛頓大學的研究人員開發了一款名為VueBuds的耳機原型，每隻耳機內均集成了一枚小型低解析度攝影機。這款原型耳機具備與智能眼鏡類似的功能——例如Ray-Ban Meta眼鏡所支持的翻譯外語路牌、輔助低視力用戶、或在戶外徒步時識別植物種類等。

智能眼鏡自身存在諸多局限，隱私問題和佩戴舒適性是其中的主要痛點。內置攝影機因可能在用戶不知情的情況下拍攝旁觀者，以及所採集的敏感視覺數據最終流向何處等問題，已引發批評和法律訴訟。

此外，並非所有人都習慣佩戴眼鏡，甚至有人選擇隱形眼鏡來規避這一麻煩——主導VueBuds研究的華盛頓大學教授Shyam Gollakota本人便是如此。他表示："幾乎人人都會佩戴的主流可穿戴設備，就是耳機。"他的團隊將耳機定位為智能眼鏡的替代方案，認為其侵入性更低、對隱私更為友好。

不過，這項研究的首要目標是驗證這種小巧的耳戴式形態是否具備可行性。Gollakota表示："傳統耳機一直局限於音頻交互界面。我們的研究證明，完全可以在這種形態下構建一套系統，並通過運行視覺語言模型獲取豐富的智能資訊。"

該研究成果已在巴塞羅那舉行的ACM人機交互大會上正式發布。

多模態耳機的設計思路

Gollakota及其同事並不認為VueBuds會是視覺AI的唯一交互形式。

"可穿戴設備是非常私人化的選擇，"Gollakota實驗室的博士生Maruchi Kim說道。有人偏愛眼鏡或手錶，有人鍾情戒指，因此她認為不會出現一款"通吃"所有用戶的單一設備。"我們只是希望引入一個新的品類，證明智能眼鏡所能實現的一切，耳機同樣可以做到。"

儘管如此，耳機這一形態仍具備一定優勢。由於耳機已被廣泛使用，用戶的技術接受門檻更低。Kim還指出："耳機放回收納盒，這本身已經是一種約定俗成的社會行為。"智能眼鏡可能配有度數鏡片，佩戴者往往全天不摘；但"如果你想確認攝影機沒有在錄製，耳機這種形態讓你隨時可以把它收起來，讓人更加放心。"

贊助商廣告

Kim還表示，用戶感興趣的許多AI功能本質上屬於"情景式使用場景"——例如翻譯路牌或查看食品成分時，根本不需要持續的影片流。

三大核心技術挑戰

Gollakota指出，要實現具備視覺能力的耳機，需要突破三大核心難題：在嚴格的尺寸、功耗和重量限制內集成攝影機；實現數據傳輸；以及在耳戴狀態下重建完整的視覺場景。

功耗是首要瓶頸。"耳機電池的容量大約只有智能眼鏡的十分之一，"Kim說。視覺數據對頻寬的需求也遠高於音頻，因此眼鏡錄製的影片通常通過Wi-Fi傳輸至雲端，由雲側AI模型進行處理。Wi-Fi雖然頻寬充裕，但功耗較高。

VueBuds選擇通過藍牙傳輸低解析度灰度圖像。大多數設備廠商傾向於傳輸儘可能多的數據，而Gollakota團隊則另闢蹊徑——他們希望找到視覺語言模型提取有效資訊所需的最低解析度，最終採用了324×324像素的圖像傳感器。

在視野覆蓋方面，研究人員同樣面臨挑戰。將攝影機安置於耳部會導致面部兩側各形成一個盲區。研究團隊將攝影機向外偏轉5至10度，再通過圖像拼接技術，成功重建出視野更寬的完整場景。不過，這一方案在用戶正前方約20厘米以內的區域仍存在小範圍盲區。

識別準確率與未來規劃

研究團隊使用四種視覺語言模型對VueBuds進行了測試。在表現最佳的模型Qwen2.5-VL上，VueBuds在用戶研究中的物體識別準確率約為82%，字符識別準確率為94%，翻譯準確率為84%，綜合準確率達87%。在17項任務上，VueBuds的表現與Ray-Ban Meta眼鏡相當。

未來，研究團隊計劃為系統加入彩色圖像支持。Kim也在研究如何通過引入設備端JPEG編碼器來提升可傳輸的圖像解析度，從而大幅壓縮待處理圖像的文件體積。

隱私問題的再審視

許多用戶對智能眼鏡的隱私和監控問題保持警惕，而相關公司可能存在數據濫用的新證據，正在加劇這種擔憂。

在此背景下，是否應該在耳機這一可穿戴設備上再加入攝影機？華盛頓大學的研究人員認為，與現有智能眼鏡相比，VueBuds經過精簡的圖像採集方式在隱私保護方面更具優勢。

贊助商廣告

首先，該系統設計為在智慧型手機或其他本地設備上運行，數據不會上傳至雲端。其次，VueBuds僅採集靜態圖像——Meta智能眼鏡的主要用途之一已是影片錄製，而Gollakota表示，"低解析度的灰度影片本來就沒有人願意看。"

此外，VueBuds通過語音指令激活。"音頻啟動意味著你周圍的所有人都能知道你在做什麼。"而智能眼鏡只需輕觸按鈕即可開始錄製。

Gollakota還指出，大多數人已經習慣了幾乎每台設備都內置麥克風的現實，因為語音指令等功能帶來了切實價值，蘋果等公司也在內置麥克風的設備上積累了一定程度的用戶信任。視覺智能能否走出類似的發展路徑，還有待技術演進和用戶信任度的共同檢驗。

值得關注的是，蘋果據報道也正在研發新一代集成紅外攝影機的AirPods，以支持手勢識別並改善空間音頻體驗。儘管這與普通攝影機所實現的視覺智能能力不同，但這一動向表明，業界對於打破耳機純音頻交互局限的興趣正在升溫。

"耳機是我們目前最成功的可穿戴設備，但它現在仍局限於音頻交互界面，"Gollakota說，"引入視覺智能，將使其成為比現在更加豐富、更加強大的交互平台。"

Q&A

Q1：VueBuds耳機和普通智能眼鏡相比，有哪些實際優勢？

A：VueBuds最大的優勢在於隱私保護和使用習慣。它通過語音指令激活拍攝，周圍人都能感知；數據只在本地處理，不上傳雲端；不用時放回收納盒即可確認攝影機停止工作。相比之下，智能眼鏡可一鍵開始錄製，數據處理方式也更不透明。此外，耳機的普及率遠高於智能眼鏡，用戶接受門檻更低。

Q2：VueBuds的圖像識別準確率怎麼樣，能實際使用嗎？

A：在表現最好的視覺語言模型Qwen2.5-VL的支持下，VueBuds的綜合準確率達到87%，其中字符識別高達94%，翻譯準確率84%，物體識別約82%。在17項測試任務中，其表現與Ray-Ban Meta智能眼鏡相當，說明該系統已具備一定的實用價值，但目前仍處於原型研究階段，尚未商業化。

贊助商廣告

Q3：VueBuds是如何解決耳機電池續航不足的問題的？

A：耳機電池容量約為智能眼鏡的十分之一，功耗控制是核心難題。VueBuds的解決方案是放棄Wi-Fi，改用更省電的藍牙傳輸；同時只傳輸324×324像素的低解析度灰度靜態圖像，而非連續影片流，從而在保證AI可用性的前提下，將功耗和頻寬需求降到最低。