訊飛首款 AI 眼鏡，用 40 克撬動 AI 工作流

2026 還沒過半，已經有 30 多款 AI 眼鏡亮相了。

贊助商廣告

除了華為、阿里千問、Rokid、雷鳥、小米這些老玩家，連老闆電器都推出 AI 烹飪眼鏡，京東方也做了騎行眼鏡……百鏡齊放，但大體上在圍著三件事卷：誰能做得更輕、誰的攝影機更清晰、誰的鏡片上能塞進更大更好的顯示屏。

熱鬧之下，有一個數據通常會被忽略。

目前主流電商平台上，AI 眼鏡的退貨率高得驚人，普遍在 30% 左右，在衝動消費占大頭的直播渠道，退貨率甚至能飆到 40% 到 50%。

用戶因為新鮮感下單，戴了幾天，默默點了退貨。銷量高開低走、退貨率居高不下，就是眾多 AI 眼鏡的「生命周期」。

說白了，嘗鮮期過去後，消費者就會開始產生這樣的疑惑：戴上之後它到底能幫我幹什麼。

就在今天，科大訊飛在澳門發布了旗下首款 AI 眼鏡。這副 40 克的眼鏡沒有卷像素、卷全彩大屏、卷時尚聯名，把核心能力押注在一個看起來十分常見的能力上——翻譯。

但翻譯只是它的入口，不是終點。

發布會前夕，APPSO 和科大訊飛副總裁王瑋、穿戴設備業務部總經理林會傑聊了聊。聊到後半段，話題從具體的產品技術轉移到了一個更大的命題上：AI 眼鏡下半場的關鍵，到底在硬體層面還是在 AI 工作流訊飛首款AI眼鏡用40克撬動AI工作流？

AI 眼鏡的「奇點」，是讓人願意一直戴

百鏡大戰之後，在現有供應鏈里攢出一款智能眼鏡真不難，華強北兩周就能給你出一個樣機。但難的是，你怎麼給用戶一個「一直佩戴」的理由。

對於第一次做 AI 眼鏡的訊飛來說，這也是個繞不開的坎。

王瑋跟 APPSO 聊起訊飛做 AI 眼鏡的起點，其實源於一個非常具體的畫面：你想啊，翻譯機在展會、小型商務洽談這些場景里是很好用的，甚至公司共用一台就夠。但總有一些時刻，當你在國外旅遊或者某些場合，你不方便掏出設備和低頭看螢幕，不想等翻譯結果打斷說話的自然節奏。

你希望交流是「沉浸式」的，眼神始終對著彼此，對話順暢流動，翻譯像空氣一樣感受不到存在。這副眼鏡的起點，就是用戶對那種「無感」體驗的期待。

贊助商廣告

這種「物理中斷」，是訊飛看了無數個翻譯機用戶的真實反饋後，攢下來的痛點。做 AI 眼鏡的公司可以一夜之間冒出來，但做翻譯的底子，真的沒法速成。

訊飛翻譯機賣了 100 萬台、翻譯了 10 億次。訊飛同傳跑了 42 萬場國際會議，覆蓋 50 多個國家，觸達 4 億觀眾，連續 8 年服務全國兩會。

這些數字沉澱下來的不只是算法，還有對真實場景里那些瑣碎問題的感知：什麼時候用戶會嫌翻譯慢，什麼場景下手持設備讓人尷尬，什麼噪音條件會讓準確率斷崖……

去年 10 月訊飛已經推出了一款翻譯耳機。耳機驗證了兩件事：用戶確實需要釋放雙手的穿戴式翻譯；端到端的同傳在穿戴設備上是跑得通的，反應速度能掐在 2 秒以內。

但耳機只管耳朵，在林會傑看來，耳機的局限在於它是一個「聽覺」設備（現在也開始加攝影機了），眼鏡則可以增加視覺的模態，多種模態疊加在一起，跨語言溝通的資訊輸入就豐富多了。

說白了，眼鏡上有攝影機可以拍照翻譯，有顯示可以投射字幕讓你不用低頭看手機，還能放更多的麥克風做定向降噪。

用王瑋的話說就是，「眼鏡離人的眼睛、耳朵、嘴巴最近，它是物理世界與數字世界天然的橋樑，讓翻譯像呼吸一樣自然發生。」

而到了 2026 年，供應鏈成本開始被拉下來了，國補也首次把智能眼鏡納了進來，再加上星火 X2 大模型雲端翻譯能力的提升，天時地利湊齊了。

林會傑倒挺坦率：「我們選擇這個節點，是因為看到了增速才剛剛開始。」王瑋更直接：我們不想用「iPhone 時刻」這個詞，但實際上就是這個意思，眼鏡馬上到了奇點臨近的時候。

40 克，一道系統工程題

訊飛這款 AI 眼鏡，我戴上之後第一反應是比想像中輕。它集成了微型顯示屏、攝影機、5+1 麥克風矩陣、喇叭，但整機重量被死死卡在了 40 克。

贊助商廣告

這個數字可能很多人沒概念，我們來橫向對比一下：

Meta Ray-Ban 是 49 克，但它沒有顯示屏；
Rokid Glasses 也是 49 克，帶顯示，但比訊飛重了將近 25%；
華為 AI 眼鏡確實輕，35.5 克，但它沒有顯示屏。

在「帶顯示屏」的智能眼鏡陣營里，訊飛目前幾乎做到了行業最輕。

為什麼非得是 40 克？林會傑說，這個數字是他們用模擬仿真和海量調研死磕出來的。歐美人的頭型和體型對重量的鈍感力比較強，Meta 做到 50 多克他們依然覺得能接受。但亞洲人的顱骨結構和鼻樑高度不同，對重量極度敏感。

對於中國用戶來說，45 克是一道分水嶺，超過這個分量，戴久了就會有明顯的壓迫感。40 克，是長時間佩戴的「舒適閾值」。

為了摳掉這幾克，團隊在工程上跟供應鏈磨了很久。最關鍵的一招，是用樹脂鏡片替代了傳統的玻璃鏡片。

傳統近視眼鏡早就是樹脂的天下了，但為什麼智能眼鏡一直不用？因為工藝太搞心態了。智能眼鏡的鏡片需要做「全貼合」，把顯示層和鏡片壓在一起。樹脂材料在成型和加熱時極易產生微小的氣泡，膠水一旦有一絲一毫的空隙，光線的折射曲率就偏了，整個鏡片就廢了，良率控制比玻璃難得多。

林會傑透露，訊飛應該是行業里第一個在帶顯示的智能眼鏡上把全貼合樹脂工藝跑通的。研發過程中經歷了非常多嘗試和失敗，才最終把樹脂材料用在了顯示鏡片上，但回報是巨大的，單靠鏡片這一項，就比玻璃方案輕了 30% 到 40%。

再加上定製的 0.15CC 微型光機、微型攝影機模組，鏡框鏡腿一體成型。晶片選型和算法做了深度耦合：同樣的功能別家可能要 100mAh 電池，訊飛可能 50mAh 就夠了。

所以最後我們看到的訊飛 AI 眼鏡，整機重量更輕，續航卻沒打折。

這是一道系統工程題，沒有捷徑，每一環都要跟供應鏈反覆磨合良品率。樹脂鏡片、微型光機、低功耗晶片、算法-硬體耦合，哪一環掉鏈子，重量都得回到 50 克以上。

唇動識別降噪，用眼睛幫耳朵聽

翻譯固然是訊飛的舒適區，但這副眼鏡上，訊飛還首發了一個有點科幻的技術——唇動識別降噪，這是多模態降噪系統的核心部分。

贊助商廣告

這是唇動識別降噪首次搭載到 AI 眼鏡上，實現邏輯是眼鏡的前置攝影機會死死鎖定對面說話人的嘴唇。同時，眼鏡上的 5 顆氣導麥克風和 1 顆骨傳導麥克風組成了一個六通道的音頻流。

系統實時通過「看到誰的嘴在動」，來輔助判斷「該聽誰的聲音」，從而在嘈雜的多人混聲中，精準地把目標人物的語音「摳」出來。

這就實現了「看誰翻誰」的效果，你的眼鏡盯著誰，耳邊響起的、鏡片上跳出來的，就是誰的翻譯字幕。

這個技術直接決定很多場景的翻譯質量，因為翻譯準不準，有一個重要的前提聽得清不清。

安靜的會議室里，其實目前的翻譯軟硬體都可以較好處理交流問題。但訊飛 AI 眼鏡重要的一個用戶群是商務人士，他們真正需要用到的翻譯場景是什麼？是展會、商務酒會、機場，環境噪音隨便都能 80 到 90 分貝。傳統翻譯工具在這種環境下，準確率直接掉進馬里亞納海溝。

高噪場景下，唇動識別降噪讓識別準確率提升了 50% 以上。林會傑解釋說，這並不是單純看口型，它融合了聲源位置增強、目標人鎖定等一整套多模態降噪系統，各路信號在實際使用中自動協同。

這個能力也不是拍腦袋想出來的。訊飛在大型會議系統和汽車智能座艙里，搞這種多通道語音分離和多模態降噪已經很多年了，在 CHiME 國際語音分離大賽上拿過 6 連冠。

王瑋還給我們分享了一個幾年前的內部 Demo：幾個研究員同時講話，人耳完全分不清，系統把每個人的聲音乾淨利落分離出來，誰說了什麼都清清楚楚。

這事兒有趣的地方在於，以前開大會，你有足夠的物理空間塞麥克風，有伺服器的算力，有插座供電。現在，你要把這套複雜的視覺-音頻融合算法，塞進一副 40 克、算力和功耗被極度壓榨的眼鏡里。

王瑋覺得，這恰恰是訊飛在硬體上秀出的「肌肉」：怎麼把大設備上的硬核算法做高倍率的壓縮，移植到小尺寸、輕量化的移動端側，而且還能離線實時處理多路語音數據。

贊助商廣告

訊飛做硬體的路徑是「大設備驗證、小設備遷移」。在會議系統和汽車上跑通的算法壓縮到眼鏡端側。唇動識別降噪需要視覺-音頻配對數據、端側實時處理能力、多麥克風硬體的聯合調優，單靠現成算法集成難以實現。

降噪的準確性直接決定翻譯的準確性，這也是整條工作流的第一道關卡。

「全能翻譯」背後的基礎設施

聽得清之後，才是譯得準的問題。

訊飛 AI 眼鏡支持 122 種語言的實時互譯，劃分了同聲傳譯（聽演講）、面對面翻譯（商務洽談）、通話翻譯（跨國電話）和線上同傳（接騰訊會議或 Zoom）等四種模式，攝影機還能直接拍 PPT，做外文資料翻譯。

在現場體驗中最讓我覺得有意思的是通話翻譯。

這大概是目前市面上唯一一款能在你打電話時，同時幫你做跨國翻譯和記錄的眼鏡。它的路徑是這樣的：眼鏡通過藍牙掛載在手機上，捕捉到電話那頭的英語，端到端同傳模型全自動翻譯，再把你的中文回答翻譯成英文頂回去，延遲在秒級。

也就是說，你在電話這頭說中文，老外在那頭聽到的是你的音色克隆出來的英文。電話一掛，眼鏡甚至能幫你把一份結構化的會議紀要發你。

過去，傳統的翻譯系統是「老三樣」：語音識別（ASR）→文本翻譯（MT）→語音合成（TTS）。這套方案最大的毛病就是延遲大，而且每過一個環節，資訊的「語義損失」就多一層。

訊飛這次在眼鏡上搭載端到端的語音同傳大模型，跳過了中間的文本轉譯步驟，直接實現「語音進、語音出」，把首字響應時間壓進了 2 秒。雲端撐腰的是星火 X2 模型（293B 參數的 MoE 架構，基於華為昇騰訓練）。

林會傑說，他們把翻譯場景切分得極其細微，因為不同場景下需要的行業知識庫和降噪模式是完全不一樣的。

訊飛這款眼鏡在翻譯功能上花的功夫，這有點像手機行業卷影像，拍照功能誰都有，但我有 2 億像素，有10 倍長焦，有4K live 圖，甚至能覆蓋專業攝影場景。

贊助商廣告

翻譯之後，AI 工作流才開始

到了這一步，你會發現，訊飛想做的已經不只是「翻譯工具」了。這大概也是為什麼它不叫「翻譯眼鏡」，而被視訊飛首款AI眼鏡用40克撬動AI工作流「眼前的超級 AI 助理」。

林會傑認為，「眼鏡更像是一個戴在眼前的超級電腦，帶有顯示、攝影機、語音能力，它的配置跟手機、PC 基本一樣。」

承載這層能力的是訊飛的 GlassClaw 訊飛首款AI眼鏡用40克撬動AI工作流，這個 Agent 能調用大模型能力、接入生態服務、做多模態理解，把從聽懂到幹活的整個過程打通，同時也支持 OpenClaw 等第三方 Agent 接入。

你沒看錯，這還是一副「龍蝦」眼鏡。

林會傑分享了他自己使用 GlassClaw 的日常工作流：他出門不用頻繁掏手機。在路上走著，可以直接用語音喚醒 GlassClaw，讓它調取手機通訊錄、找客戶撥號，電話接通自動開翻譯。

跟客戶面對面聊天時，突然需要查閱之前的某份合同紀要，直接盲操吩咐眼鏡，眼鏡會去檢索他的電腦資料，提取出要點並同步到鏡片上。

甚至開完會後，眼鏡自動做完多模態的角色區分（誰說了什麼），輸出結構化紀要，他直接語音：「把紀要以郵件形式發給項目組，並把下周三的復盤會同步到日曆上。」

如果你也養過蝦對這些功能肯定不陌生，只不過這次交互發生在你的臉上。

當初讓AI 眼鏡出圈的提詞器功能，在這款眼鏡里也迎來升級。

訊飛 AI 眼鏡的智能提詞器功能做到了語義跟隨，說到哪跟到哪，不再是機械按速度滾動，可以做自然的智能語義理解和跟隨。配套的充電膠囊可以當遙控器，按鍵切換和暫停文稿。

贊助商廣告

這就是 AstronClaw 架構在底層玩的「端-邊-雲」三級協同：眼鏡端側負責環境感知和預處理，邊緣側做決策，複雜的推理丟給雲端的星火 X2。GlassClaw 基於訊飛自研的 Agent 能力，同時也支持 OpenClaw 等第三方 Agent 接入。

王瑋的判斷是，未來的眼鏡不再只是很簡單的一副眼鏡，而是你穿戴最方便的一個隨身助理。

市場上單做翻譯或單做 AI 助手的產品不少，但把「翻譯 + 記錄 + 紀要 + 跨端執行」串成順滑的工作流，需要語音、翻譯、大模型、智能體（Agent）四種底層能力同時在線，且環環相扣。

訊飛這種全棧的技術能力，恰好在眼鏡這個載體上找到了合適的閉環。

AI 眼鏡的下半場，拼的是什麼

過去兩年，AI 浪潮裹挾著整個硬體行業尋找那個所謂的「Next Gen」入口。

AI Pin 翻車了，各種智能吊墜無疾而終，雖然 AI 硬體的產品形態和技術路線各異，但行業也逐漸形成一些共識： AI 需要眼睛，它必須能實時感知人類所處的三維物理世界。

AI 眼鏡未必不是最終形態，但它是目前唯一能夠全天候、第一視角承載視覺與聽覺輸入的形態。

王瑋在採訪里提到一個挺有意思的預判：「未來的數字生活三件套，大概率是電腦、手機和眼鏡。眼鏡不是手機的配件，它自己就是一台架在鼻樑上的獨立主機。」

眼鏡天然適合做連接物理世界和數字世界的設備。而且硬體本身還有很長的疊代空間：顯示會從單色走向全彩、從 2K 走向 4K；攝影機和麥克風還會向 AI 原生的 token 編碼方式升級。王瑋說這些技術路徑已經開始有比較明晰的發展方向了。

林會傑透露，訊飛的第二代 AI 眼鏡已經在規劃中，最快 2026 年秋季能看到，面向更多不同人群，也在摸索一些細分的垂直場景。

過去一年 APPSO 測過、寫過不少 AI 眼鏡。回頭看百鏡大戰，行業其實已經分化出了兩條不同的路：

一條是「做最好的眼鏡，讓 AI 成為加分項」。 Meta Ray-Ban 是這個邏輯：用時尚設計和品牌文化來對沖用戶對 AI 能力的低頻剛需。

贊助商廣告

另一條是「做更深的 AI 工作流，讓眼鏡成為新的電腦」。訊飛選擇的就是這條路。兩條路指向不同的競爭維度，但後一條更難走，因為它要求你同時具備硬體工程能力和 AI 全棧能力，缺一不可。

AI 眼鏡的下半場，真正的分水嶺在於，誰能把 AI 揉進高度細分的真實場景里，替用戶把一件件瑣碎任務給辦了。

讓眼鏡回歸眼鏡， AI 老老實實當「牛馬」。

最後能留下來的設備，我想大概是這樣的：當你摘下它的時候，會突然覺得眼前的世界變得沉重而低效。