哪個鏟屎官不想在自己的小貓小狗發出聲音時,聽懂它到底想說什麼;或者是讓它們聽懂人類的語言。
杭州一家名為「萌小譯」的公司最近推出了一款產品,800 塊就能實現我們和寵物之間的雙向翻譯,並且準確率達到了 94.6%。

通過一個兼具收音與播放功能的 AI 項圈,結合手機 App,AI 項圈會把小貓小狗的聲音轉成文字顯示在 App 內的對話框,用戶可以在對話框發送消息,項圈會發出「喵喵」或「汪汪」的語言,以此讓寵物「聽懂」人類的話。
聽著就特別不靠譜,畢竟類似的產品,我們在微信小程序裡面隨便一搜就有一大堆。有些很直接地寫著「僅供娛樂,請勿認真」,有些一樣用著 AI 的旗號,主打通過錄音用 AI 分析情緒。

如圖中的 AI 寵語翻譯,就是利用 Qwen-Omni 大模型驅動
另一方面是,貓貓狗狗說的什麼,我們根本無從驗證。翻譯器大可用一句不太會出差錯的通用場景,例如「我餓了」、「我想出去了」、「我不舒服了」、「有人來了」之類的表達。
而將我們說的話翻譯成貓言狗語,大概也會因為寵物的認知有限,導致驗證失敗。
但就是這麼「玄」的一件事,還有指標可以用來衡量,而且做到了 94.6 %。

PettiChat 官網:pettichat.com
萌小譯推出的 AI 項圈還在 X 上引起了不少的熱度,網友們都在討論這家來自中國的 AI 寵物翻譯初創公司。也有網友直接說「95%的準確率是基於你能核實他們所說的話的前提,而你根本無法核實。所以這純粹是胡扯,哈哈。」
儘管伴隨著一些爭議,但 PettiChat 還是很受歡迎,在眾籌平台 Kickstarter 上已經成功募集到了 863 名支持者,認繳金額達到了 14 萬港幣。

在眾籌階段,產品售價是 119 美元,眾籌結束後目前海外售價是 149 美元。
而在微信小店
的記錄,該產品以 799 的預售價格,顯示有 190 人已購買。在商品的留言區,有用戶貼出了買家秀,表示「偶爾能聽聽毛孩子的想法很有意思」。
的記錄,該產品以 799 的預售價格,顯示有 190 人已購買。在商品的留言區,有用戶貼出了買家秀,表示「偶爾能聽聽毛孩子的想法很有意思」。這些翻譯的寵物語言,也是相當的人性化。不僅有大量的語氣助詞「嘛~」、「吶」、「餵」、「咦」、「嘿嘿」、「呀呀」、「呼呼」,還有「不客氣」、「別把我忘了」這種情緒感拉滿的表達。

寵物真的能懂這麼多資訊嗎
所以,PettiChat 的準確率到底是怎麼衡量的,這些同類型的產品是不是一種智商稅。
一直被懷疑,一直在更新的寵物翻譯設備
2002 年,日本玩具公司 Takara 推出了 BowLingual,一款狗狗「情緒翻譯」項目。

它的工作方式很簡單:麥克風錄音,然後把狗叫歸類成幾種情緒狀態,比如「開心」「焦慮」「生氣」。原理接近噱頭,但它真的賣出去了,還獲了搞笑諾貝爾獎,評語說的是「它實現了人犬和平交流,所以獲得和平獎」。
二十年後,類似的 AI 工具層出不窮,開頭提到的那些小程序,還有專門的應用,都開始利用機器學習來分析貓叫,給每一聲叫聲打上標籤。

年初的 CES 展會,Traini 也推出了一款 AI 項圈,定位是「人對狗」的單向翻譯。我們說話,它轉成狗能理解的聲學信號。
跟寵物建立溝通的欲望仿佛一直都沒有被澆滅,隨著技術的演進,反而讓我們越來越相信和貓貓交流是有點可能。
這次引起大家關注的 PettiChat 比以前的產品多做了一件事:它拿出了一套測試數據。

外觀上看,PettiChat 重 27 克,夾在項圈上,確實不會對寵物造成額外的負擔。
在這個小小設備里,還有邊緣計算晶片直接處理音頻,延遲最低 40 毫秒。它不需要持續聯網,只在分析聲音時短暫調用雲端資源。還有其他能力像是 IP65 防水,一次充電支持 1000 次翻譯,和 100 小時 GPS 追蹤。
它們在眾籌平台上的宣傳提到,所使用的聲學模型背後是超過 150 萬條寵物叫聲樣本,結合動物行為學的同行評審研究。最終達到的成果是,僅憑聲音模式識別情緒狀態,準確率達到 91-92%,加入姿態監測維度之後,實驗室條件下綜合準確率達到 94.6%。

500 萬+的寵物聲紋數據
在眾籌頁面有兩張不太清晰的宣傳圖,列出了這些數據是在哪些基準上進行測試的。我們拿著放大鏡看,發現其中提到了兩篇論文。



一篇是來自多媒體頂會 MM 2025 的 DogSpeak,犬類發聲分類數據集。
作者在這篇文章里,提出了一個大型狗叫聲數據集 DogSpeak,目標是研究能不能只靠狗的叫聲判斷狗的性別、品種,甚至是哪一隻狗。

它的數據來源是 YouTube、TikTok 等社交媒體上的狗影片。作者先用哈士奇、吉娃娃、德國牧羊犬、比特犬、柴犬 五個品種去搜影片,然後根據頻道資訊、標題、評論等確認狗的身份、性別、品種。
最後得到了 156 只狗、5 個品種、77202 段狗叫序列、33.162 小時純狗叫聲。這些數據都沒有標註不同的聲音代表狗狗在做什麼,也沒有添加任何的情境資訊。
文章的實驗任務主要是通過聲音序列,來判斷狗狗的性別、品種和識別具體是哪一隻狗。而實驗結果顯示,單就這些任務,也沒有想像中容易。單純依靠「純聲學特徵」,是很難完美解決真實複雜環境下的狗叫聲識別。

可以考慮結合表情
作者在文末建議未來的研究應該跳出傳統音頻技術的舒適圈,去探索更高級的結構性、韻律性、甚至是犬類潛在的「語言學」特徵。
另一篇論文同樣是來自 MM,2014 的城市聲音研究的數據集和分類法。這是城市環境聲分類領域的經典數據集論文,核心貢獻是 UrbanSound8K
數據集和城市聲音分類法。
數據集和城市聲音分類法。
作者把城市聲音分成人聲、自然、機械、音樂等大類,再細到狗叫、汽車喇叭、警笛、鑽孔、冷氣、街頭音樂等具體聲音源。
PettiChat 引用了這兩篇論文的數據集進行測試,以及聯合浙大動科院積累了 500萬+寵物聲紋數據,大約150萬條標註,同時在數據集上增加了 UrbanSound 的環境聲音,以確保在真實環境的魯棒性。
PettiChat 所使用的模型,是基於阿里雲通義千問大模型。而參與測試的模型包括沒有經過預訓練的 Qwen2-Audio、Qwen2.5-Omni-7B、Qwen3-Omni-30BA3B,以及小米 Mino-V2-Omni。

他們根據這些聲紋數據和 UrbanSound 8K 做了一個很大的獨立測試集,裡面有「疊加過背景噪音的寵物叫聲音頻樣本」,比如一段狗叫或貓叫,疊上電視聲、車流聲、家電聲、街道聲等,做成更接近真實生活的混合音頻。
以及各種各樣的噪音樣本,這些可能是不含寵物聲音的背景聲,用來測試模型會不會把普通噪音誤判成寵物叫聲。
這些既有帶噪聲的寵物叫聲,也有純噪聲/非寵物聲音,只是被用來測試模型能不能在複雜真實環境裡準確識別寵物聲音。Petti 模型的表現在這一項測試下,達到了平均 98.6% 的識別/檢測層面的準確率。
計算準確率的方式是「是否識別寵物聲音」,而不是在測試「能不能翻譯寵物在想什麼」。

在另一項測試中,沒有其他的對比模型,也沒有列明具體的測試集,只是使用 PETTI-260315 這一模型,測試了其在貓/狗情境聲音識別中的準確率。
貓貓的分類標籤包括了攻擊/敵對、顫音/社交親近、叫喚請求/急迫、防禦性打鬥行為、防禦性威脅、捕獵意圖/潛伏、痛苦/壓力叫聲、環境干擾、呼嚕/休息。這些數據一共有 19 萬條,是經過專家檢查過的貓貓聲音情境測試數據。
狗狗同樣是用了 8.4 萬條專家檢查過的狗聲音情境測試數據,裡面的分類標籤也包括了攻擊/敵對、節律性發聲、遠距離呼叫、分離焦慮、環境干擾、領地警戒、服從/安撫。
針對這些情境的測試,貓貓的平均準確率達到了 94.6%,狗狗是 92.3%。

而標記這些聲音屬於哪一種情境,在他們的眾籌宣傳文章裡面還提到了 Video Ground Truth
這個概念。
這個概念。它的意思是用影片中的行為、環境、姿態、主人互動等作為標籤來源,去對齊寵物聲音和場景。
比如影片裡狗對門口陌生人叫,這段聲音就會被標記成 alert / stranger detected;當貓靠近食盆叫,這段聲音序列就被標成 food seeking。
所以,本質上 94.6% 是寵物聲音情境分類
準確率,而不是我們所理解的一句寵物語言翻譯成人類語言的準確率。
準確率,而不是我們所理解的一句寵物語言翻譯成人類語言的準確率。但翻譯成人類語言是真的有機會實現嗎?就拿這個模型來說,它輸出的原始結果,可能只是一個標籤。
比如一段狗叫被識別為「領地警戒」,這在測試里可以算作一次分類正確。但到了 App 里,它顯示的是「有人來了,我要守住這裡。」
一段貓叫被識別為「急迫性請求叫聲」,應用里彈出的對話也會是更個性化的「快看看我嘛,我有點著急。」

從「行為標籤」到「擬人化翻譯」的再加工,它反而讓產品變得好玩、親切,也更像真的在對話。但嚴格來說,這部分根本不再是那 94.6% 可以直接覆蓋的範圍。
因為測試集裡的標準答案大概率不是一句自然語言。這些模型只需要判斷這段聲音更接近「分離焦慮」、「領地警戒」、「呼嚕休息」,並不需要證明寵物真的想說「別把我忘了」或者「我想親親你的手」。
這也是所有寵物翻譯產品最微妙的地方,它可能不是騙子式的隨機翻譯,但也還遠不是我們想像中的寵物語言翻譯器。






