2013 年的科幻電影《Her》中,作業系統 Samantha(薩曼莎)讓觀眾首次具象化了理想的 AI 存在方式:不等你說完即可開口、能感知語氣遲疑,且始終「在場」,而非被動等待喚醒。
十三年後,由 OpenAI 前 CTO Mira Murati 創立的 Thinking Machines Lab 發布了一篇研究預覽,其構建的交互模型
在底層追求上,與 Samantha 的邏輯高度契合。
在底層追求上,與 Samantha 的邏輯高度契合。
這篇題為《交互模型:人機協作的可擴展方案》的部落格,全篇反覆強調的核心便是一個詞:「presence」——持續在場
。
。部落格鏈接地址:https://thinkingmachines.ai/blog/interaction-models/
頗有意思的是,2024 年正是 Mira Murati 在 OpenAI 主持發布了 GPT-4o 的高級語音模式,讓人機交互開始更接近人與人的自然交流。

兩年後,她帶著出走的團隊另起爐灶,卻又把這件事從頭做了一遍。

留言區的吐槽也是一條比一條犀利。



人類已被移出 AI 協作群聊
文章開篇指出,結合 METR 在 2025 年的研究報告,主流 AI 公司普遍傾向將「模型自主完成長任務」作為最重要的能力指標,導致目前的交互界面幾乎沒給人類留出持續參與的空間。
但在實際工作中,需求極少能在最初就交代得完美無缺。高質量產出往往需要人持續介入與反覆調整,而現有的「回合制」機制恰恰缺乏這樣的通道。
語言學者 Clark 和 Brennan 在 1991 年的研究表明:高效溝通依賴共在、同時性和並發性。雙方需共處同一情境,同步接收和表達資訊;同時,如 Walter Ong 在 1982 年關於「口語稍縱即逝性」的研究所示,對話的本質在於高頻參與。結合哈耶克 1945 年的理論,真正有價值的知識正存在於這類即時的細節傳遞中。
現在的模型工作時,用戶輸入,AI 等待;AI 輸出時,則對用戶的即時反應一無所知。Thinking Machines 將此比喻為:面對緊迫分歧不去當面溝通,而是靠發郵件來回拉扯。
目前的實時語音市場存在兩條存在局限的路線:大多數主流商業系統是靠在模型外接入語音活動檢測(VAD)等組件拼接出的「偽實時」。
這種外掛組件的管理方式局限性明顯:模型無法主動打斷對話,無法對螢幕報錯等視覺變化作即時反應,更難以勝任「邊聽邊同傳」這類高頻並發任務。 而另一方面,市場上雖然也出現了 Moshi、PersonaPlex 等無需 VAD 的原生全雙工
系統,但它們多為較小規模的模型,為了低延遲在綜合智能水平上做出了妥協。
系統,但它們多為較小規模的模型,為了低延遲在綜合智能水平上做出了妥協。Thinking Machines 認同強化學習學者 Richard Sutton 的觀點:依賴人工設計組件的系統最終會被通用學習趕超。交互能力必須成為模型原生的一部分。
為此,他們參考了業界在全雙工語音交互與異步智能體上的探索(如 Seeduplex、Qwen-omni、MoshiRAG 等),從頭訓練了原生支持實時交互的系統。該系統由感知時間的「交互模型」(前台)和異步運行的「後台模型」(負責深層推理)協同工作。

基於時間對齊的微輪次分析 / 微輪次機制
:模型以 200 毫秒為處理單元,持續交替處理輸入與輸出。用戶的沉默、搶話均作為真實資訊保留。
:模型以 200 毫秒為處理單元,持續交替處理輸入與輸出。用戶的沉默、搶話均作為真實資訊保留。
打破人為輪次邊界後,模型能隱式追蹤用戶是在思考、讓步、自我糾正還是邀請回應,無需獨立的對話管理模組。它不僅能同步說話、中途插話,甚至能在邊聽邊看的同時,並行調用工具、搜索網頁或生成 UI 界面。
在模態處理上,他們省去了獨立的大型編碼器,音影片經輕量處理後直接與 Transformer 主體聯合訓練。同時,為滿足高頻處理要求,團隊實現了「流式會話
」機制並優化了底層算力與通信,避免反覆重分配內存,確保了低延遲的穩定運行。
」機制並優化了底層算力與通信,避免反覆重分配內存,確保了低延遲的穩定運行。
當遇到複雜任務時,前台會把完整上下文拋給後台,後台將結果流式返回,前台再伺機自然地融入對話,在保證實時響應的同時兼顧深度推理。針對新衍生的安全挑戰,模型也進行了拒絕對話的擬真訓練與防越獄的魯棒性測試。
一份讓主流模型集體關注的成績單
測試中,這款名為 TML-Interaction-Small(活躍參數 12B)的模型表現亮眼。
在評估打斷、背景音干擾的 FD-bench v1.5 基準中,TML 獲 77.8 分,遠超 GPT Realtime-2.0(46.8 分)和 Gemini(54.3 分),輪次切換延遲僅 0.40 秒。在需深度推理的 FD-bench v3 中,其響應質量/Pass@1(82.8/68.0)也穩壓競品高延遲版本。
在其他綜合測試中,TML 同樣展現了極強的平衡性:QIVD 音影片問答(54.0 分)、BigBench Audio(75.7/96.5 分)以及 IFEval 指令遵循(82.1/89.7 分),並在 Harmbench 保持了 99.0% 的安全拒絕率。雖然在部分純智力單項上略微落後於 Qwen 3.5 Omni 或 GPT-2.0 極高延遲版,但它是唯一在響應速度與智能水平上實現雙優的模型。

為了更精準地衡量原生交互能力,Thinking Machines 自建了多項評測。
對比學術界現有的 StreamBridge、AURA 等文本輸出原型,TML 實現了真正的語音並發輸出。在考察主動發言的 TimeSpeak(得分 64.7)、同步糾錯的 CueSpeak(得分 81.7)、持續視覺追蹤的 RepCount-A(得分 35.4)以及看影片搶答的 ProactiveVideoQA 等單項測試中,TML 均取得有效成績,而對比的主流模型在這些場景下幾乎全部得零分或沉默以對。

當然,這套架構目前也有局限:長會話的上下文積累難以管理,且流式音影片高度依賴網路穩定性。此外,該架構尚未擴展至更大參數量的版本,計劃於今年晚些時候發布。
和 AI 說話,越來越像在和人說話
參與這項工作的研究員 Neal Wu 概括了他們的初衷:「如果和 AI 協作不再是對著聊天框輸入,而更像在和另一個人說話,會怎樣?」原生支持交互的模型,就是他們給出的初步嘗試。
Thinking Machines CTO Soumith Chintala 則將整體路線圖分為三步:第一步,提升人與 AI 之間的資訊頻寬;第二步,拉高人類加 AI 的智能上限;第三步,幫助人類在未來的體系中繼續發揮核心作用。

在許多 AI 研發方向傾向於讓模型更自主、減少人類介入的當下,Thinking Machines 選擇了一條不同的路徑:讓人類的介入變得更流暢,讓溝通頻寬本身成為一種基礎設施。
翁荔更是在推文中提到:「寫了 137 頁日誌,產出了 12 個版本。結果發現,人與人之間的協作,對於改善人與 AI 之間的協作至關重要。」這或許意味著,要研發出一個能理解人類溝通節奏的模型,研究者首先需要深刻體會人類溝通的本質。

不過,一個持續在場、能即時感知情緒和狀態的 AI,與傳統的工具型 AI 帶來的心理感受是截然不同的。當模型在每次交互中的在場感越來越強,人們對它的認知和依賴會發生怎樣的改變?
這些觸及靈魂的拷問,論文並沒有作答,只是留下了一個關於「實時對齊與安全」的開放性方向。但可以預見的是,當科幻電影裡的情節真正降臨桌面,AI 變成一個一個
始終陪伴左右的「存在」時,我們真正需要對齊的,或許不只是模型,更是人類自己在新世界中的位置。
始終陪伴左右的「存在」時,我們真正需要對齊的,或許不只是模型,更是人類自己在新世界中的位置。





