戴上 800 塊的 AI 項圈，就能聽懂喵星人的話？

哪個鏟屎官不想在自己的小貓小狗發出聲音時，聽懂它到底想說什麼；或者是讓它們聽懂人類的語言。

贊助商廣告

杭州一家名為「萌小譯」的公司最近推出了一款產品，800 塊就能實現我們和寵物之間的雙向翻譯，並且準確率達到了 94.6%。

通過一個兼具收音與播放功能的 AI 項圈，結合手機 App，AI 項圈會把小貓小狗的聲音轉成文字顯示在 App 內的對話框，用戶可以在對話框發送消息，項圈會發出「喵喵」或「汪汪」的語言，以此讓寵物「聽懂」人類的話。

聽著就特別不靠譜，畢竟類似的產品，我們在微信小程序裡面隨便一搜就有一大堆。有些很直接地寫著「僅供娛樂，請勿認真」，有些一樣用著 AI 的旗號，主打通過錄音用 AI 分析情緒。

如圖中的 AI 寵語翻譯，就是利用 Qwen-Omni 大模型驅動

另一方面是，貓貓狗狗說的什麼，我們根本無從驗證。翻譯器大可用一句不太會出差錯的通用場景，例如「我餓了」、「我想出去了」、「我不舒服了」、「有人來了」之類的表達。

而將我們說的話翻譯成貓言狗語，大概也會因為寵物的認知有限，導致驗證失敗。

但就是這麼「玄」的一件事，還有指標可以用來衡量，而且做到了 94.6 %。

贊助商廣告

PettiChat 官網：pettichat.com

萌小譯推出的 AI 項圈還在 X 上引起了不少的熱度，網友們都在討論這家來自中國的 AI 寵物翻譯初創公司。也有網友直接說「95%的準確率是基於你能核實他們所說的話的前提，而你根本無法核實。所以這純粹是胡扯，哈哈。」

儘管伴隨著一些爭議，但 PettiChat 還是很受歡迎，在眾籌平台 Kickstarter 上已經成功募集到了 863 名支持者，認繳金額達到了 14 萬港幣。

在眾籌階段，產品售價是 119 美元，眾籌結束後目前海外售價是 149 美元。

而在微信小店

的記錄，該產品以 799 的預售價格，顯示有 190 人已購買。在商品的留言區，有用戶貼出了買家秀，表示「偶爾能聽聽毛孩子的想法很有意思」。

這些翻譯的寵物語言，也是相當的人性化。不僅有大量的語氣助詞「嘛～」、「吶」、「餵」、「咦」、「嘿嘿」、「呀呀」、「呼呼」，還有「不客氣」、「別把我忘了」這種情緒感拉滿的表達。

寵物真的能懂這麼多資訊嗎

所以，PettiChat 的準確率到底是怎麼衡量的，這些同類型的產品是不是一種智商稅。

一直被懷疑，一直在更新的寵物翻譯設備

2002 年，日本玩具公司 Takara 推出了 BowLingual，一款狗狗「情緒翻譯」項目。

贊助商廣告

它的工作方式很簡單：麥克風錄音，然後把狗叫歸類成幾種情緒狀態，比如「開心」「焦慮」「生氣」。原理接近噱頭，但它真的賣出去了，還獲了搞笑諾貝爾獎，評語說的是「它實現了人犬和平交流，所以獲得和平獎」。

二十年後，類似的 AI 工具層出不窮，開頭提到的那些小程序，還有專門的應用，都開始利用機器學習來分析貓叫，給每一聲叫聲打上標籤。

年初的 CES 展會，Traini 也推出了一款 AI 項圈，定位是「人對狗」的單向翻譯。我們說話，它轉成狗能理解的聲學信號。

跟寵物建立溝通的欲望仿佛一直都沒有被澆滅，隨著技術的演進，反而讓我們越來越相信和貓貓交流是有點可能。

這次引起大家關注的 PettiChat 比以前的產品多做了一件事：它拿出了一套測試數據。

外觀上看，PettiChat 重 27 克，夾在項圈上，確實不會對寵物造成額外的負擔。

在這個小小設備里，還有邊緣計算晶片直接處理音頻，延遲最低 40 毫秒。它不需要持續聯網，只在分析聲音時短暫調用雲端資源。還有其他能力像是 IP65 防水，一次充電支持 1000 次翻譯，和 100 小時 GPS 追蹤。

它們在眾籌平台上的宣傳提到，所使用的聲學模型背後是超過 150 萬條寵物叫聲樣本，結合動物行為學的同行評審研究。最終達到的成果是，僅憑聲音模式識別情緒狀態，準確率達到 91-92%，加入姿態監測維度之後，實驗室條件下綜合準確率達到 94.6%。

贊助商廣告

500 萬+的寵物聲紋數據

在眾籌頁面有兩張不太清晰的宣傳圖，列出了這些數據是在哪些基準上進行測試的。我們拿著放大鏡看，發現其中提到了兩篇論文。

一篇是來自多媒體頂會 MM 2025 的 DogSpeak，犬類發聲分類數據集。

作者在這篇文章里，提出了一個大型狗叫聲數據集 DogSpeak，目標是研究能不能只靠狗的叫聲判斷狗的性別、品種，甚至是哪一隻狗。

贊助商廣告

它的數據來源是 YouTube、TikTok 等社交媒體上的狗影片。作者先用哈士奇、吉娃娃、德國牧羊犬、比特犬、柴犬五個品種去搜影片，然後根據頻道資訊、標題、評論等確認狗的身份、性別、品種。

最後得到了 156 只狗、5 個品種、77202 段狗叫序列、33.162 小時純狗叫聲。這些數據都沒有標註不同的聲音代表狗狗在做什麼，也沒有添加任何的情境資訊。

文章的實驗任務主要是通過聲音序列，來判斷狗狗的性別、品種和識別具體是哪一隻狗。而實驗結果顯示，單就這些任務，也沒有想像中容易。單純依靠「純聲學特徵」，是很難完美解決真實複雜環境下的狗叫聲識別。

可以考慮結合表情

作者在文末建議未來的研究應該跳出傳統音頻技術的舒適圈，去探索更高級的結構性、韻律性、甚至是犬類潛在的「語言學」特徵。

另一篇論文同樣是來自 MM，2014 的城市聲音研究的數據集和分類法。這是城市環境聲分類領域的經典數據集論文，核心貢獻是 UrbanSound8K 戴上800塊的AI項圈就能聽懂喵星人的話

數據集和城市聲音分類法。

作者把城市聲音分成人聲、自然、機械、音樂等大類，再細到狗叫、汽車喇叭、警笛、鑽孔、冷氣、街頭音樂等具體聲音源。

PettiChat 引用了這兩篇論文的數據集進行測試，以及聯合浙大動科院積累了 500萬+寵物聲紋數據，大約150萬條標註，同時在數據集上增加了 UrbanSound 的環境聲音，以確保在真實環境的魯棒性。

PettiChat 所使用的模型，是基於阿里雲通義千問大模型。而參與測試的模型包括沒有經過預訓練的 Qwen2-Audio、Qwen2.5-Omni-7B、Qwen3-Omni-30BA3B，以及小米 Mino-V2-Omni。

贊助商廣告

他們根據這些聲紋數據和 UrbanSound 8K 做了一個很大的獨立測試集，裡面有「疊加過背景噪音的寵物叫聲音頻樣本」，比如一段狗叫或貓叫，疊上電視聲、車流聲、家電聲、街道聲等，做成更接近真實生活的混合音頻。

以及各種各樣的噪音樣本，這些可能是不含寵物聲音的背景聲，用來測試模型會不會把普通噪音誤判成寵物叫聲。

這些既有帶噪聲的寵物叫聲，也有純噪聲/非寵物聲音，只是被用來測試模型能不能在複雜真實環境裡準確識別寵物聲音。Petti 模型的表現在這一項測試下，達到了平均 98.6% 的識別/檢測層面的準確率。

計算準確率的方式是「是否識別寵物聲音」，而不是在測試「能不能翻譯寵物在想什麼」。

在另一項測試中，沒有其他的對比模型，也沒有列明具體的測試集，只是使用 PETTI-260315 這一模型，測試了其在貓/狗情境聲音識別中的準確率。

貓貓的分類標籤包括了攻擊/敵對、顫音/社交親近、叫喚請求/急迫、防禦性打鬥行為、防禦性威脅、捕獵意圖/潛伏、痛苦/壓力叫聲、環境干擾、呼嚕/休息。這些數據一共有 19 萬條，是經過專家檢查過的貓貓聲音情境測試數據。

狗狗同樣是用了 8.4 萬條專家檢查過的狗聲音情境測試數據，裡面的分類標籤也包括了攻擊/敵對、節律性發聲、遠距離呼叫、分離焦慮、環境干擾、領地警戒、服從/安撫。

針對這些情境的測試，貓貓的平均準確率達到了 94.6%，狗狗是 92.3%。

而標記這些聲音屬於哪一種情境，在他們的眾籌宣傳文章裡面還提到了 Video Ground Truth 這個概念。

它的意思是用影片中的行為、環境、姿態、主人互動等作為標籤來源，去對齊寵物聲音和場景。

比如影片裡狗對門口陌生人叫，這段聲音就會被標記成 alert / stranger detected；當貓靠近食盆叫，這段聲音序列就被標成 food seeking。

所以，本質上 94.6% 是寵物聲音情境分類戴上800塊的AI項圈就能聽懂喵星人的話

準確率，而不是我們所理解的一句寵物語言翻譯成人類語言的準確率。

但翻譯成人類語言是真的有機會實現嗎？就拿這個模型來說，它輸出的原始結果，可能只是一個標籤。

比如一段狗叫被識別為「領地警戒」，這在測試里可以算作一次分類正確。但到了 App 里，它顯示的是「有人來了，我要守住這裡。」

一段貓叫被識別為「急迫性請求叫聲」，應用里彈出的對話也會是更個性化的「快看看我嘛，我有點著急。」

贊助商廣告

從「行為標籤」到「擬人化翻譯」的再加工，它反而讓產品變得好玩、親切，也更像真的在對話。但嚴格來說，這部分根本不再是那 94.6% 可以直接覆蓋的範圍。

因為測試集裡的標準答案大概率不是一句自然語言。這些模型只需要判斷這段聲音更接近「分離焦慮」、「領地警戒」、「呼嚕休息」，並不需要證明寵物真的想說「別把我忘了」或者「我想親親你的手」。

這也是所有寵物翻譯產品最微妙的地方，它可能不是騙子式的隨機翻譯，但也還遠不是我們想像中的寵物語言翻譯器。