OpenAI 前 CTO 創業大模型首秀，第一劍先斬 ChatGPT 聊天框

2013 年的科幻電影《Her》中，作業系統 Samantha（薩曼莎）讓觀眾首次具象化了理想的 AI 存在方式：不等你說完即可開口、能感知語氣遲疑，且始終「在場」，而非被動等待喚醒。

贊助商廣告

十三年後，由 OpenAI 前 CTO Mira Murati 創立的 Thinking Machines Lab 發布了一篇研究預覽，其構建的交互模型 OpenAI前CTO創業大模型首秀第一劍先斬ChatGPT聊天框

在底層追求上，與 Samantha 的邏輯高度契合。

這篇題為《交互模型：人機協作的可擴展方案》的部落格，全篇反覆強調的核心便是一個詞：「presence」——持續在場 OpenAI前CTO創業大模型首秀第一劍先斬ChatGPT聊天框

。

部落格鏈接地址：https://thinkingmachines.ai/blog/interaction-models/

頗有意思的是，2024 年正是 Mira Murati 在 OpenAI 主持發布了 GPT-4o 的高級語音模式，讓人機交互開始更接近人與人的自然交流。

兩年後，她帶著出走的團隊另起爐灶，卻又把這件事從頭做了一遍。

贊助商廣告

留言區的吐槽也是一條比一條犀利。

人類已被移出 AI 協作群聊

文章開篇指出，結合 METR 在 2025 年的研究報告，主流 AI 公司普遍傾向將「模型自主完成長任務」作為最重要的能力指標，導致目前的交互界面幾乎沒給人類留出持續參與的空間。

但在實際工作中，需求極少能在最初就交代得完美無缺。高質量產出往往需要人持續介入與反覆調整，而現有的「回合制」機制恰恰缺乏這樣的通道。

語言學者 Clark 和 Brennan 在 1991 年的研究表明：高效溝通依賴共在、同時性和並發性。雙方需共處同一情境，同步接收和表達資訊；同時，如 Walter Ong 在 1982 年關於「口語稍縱即逝性」的研究所示，對話的本質在於高頻參與。結合哈耶克 1945 年的理論，真正有價值的知識正存在於這類即時的細節傳遞中。

現在的模型工作時，用戶輸入，AI 等待；AI 輸出時，則對用戶的即時反應一無所知。Thinking Machines 將此比喻為：面對緊迫分歧不去當面溝通，而是靠發郵件來回拉扯。

目前的實時語音市場存在兩條存在局限的路線：大多數主流商業系統是靠在模型外接入語音活動檢測（VAD）等組件拼接出的「偽實時」。

這種外掛組件的管理方式局限性明顯：模型無法主動打斷對話，無法對螢幕報錯等視覺變化作即時反應，更難以勝任「邊聽邊同傳」這類高頻並發任務。而另一方面，市場上雖然也出現了 Moshi、PersonaPlex 等無需 VAD 的原生全雙工 OpenAI前CTO創業大模型首秀第一劍先斬ChatGPT聊天框

系統，但它們多為較小規模的模型，為了低延遲在綜合智能水平上做出了妥協。

Thinking Machines 認同強化學習學者 Richard Sutton 的觀點：依賴人工設計組件的系統最終會被通用學習趕超。交互能力必須成為模型原生的一部分。

為此，他們參考了業界在全雙工語音交互與異步智能體上的探索（如 Seeduplex、Qwen-omni、MoshiRAG 等），從頭訓練了原生支持實時交互的系統。該系統由感知時間的「交互模型」（前台）和異步運行的「後台模型」（負責深層推理）協同工作。

贊助商廣告

基於時間對齊的微輪次分析 / 微輪次機制 OpenAI前CTO創業大模型首秀第一劍先斬ChatGPT聊天框

：模型以 200 毫秒為處理單元，持續交替處理輸入與輸出。用戶的沉默、搶話均作為真實資訊保留。

打破人為輪次邊界後，模型能隱式追蹤用戶是在思考、讓步、自我糾正還是邀請回應，無需獨立的對話管理模組。它不僅能同步說話、中途插話，甚至能在邊聽邊看的同時，並行調用工具、搜索網頁或生成 UI 界面。

在模態處理上，他們省去了獨立的大型編碼器，音影片經輕量處理後直接與 Transformer 主體聯合訓練。同時，為滿足高頻處理要求，團隊實現了「流式會話 OpenAI前CTO創業大模型首秀第一劍先斬ChatGPT聊天框

」機制並優化了底層算力與通信，避免反覆重分配內存，確保了低延遲的穩定運行。

當遇到複雜任務時，前台會把完整上下文拋給後台，後台將結果流式返回，前台再伺機自然地融入對話，在保證實時響應的同時兼顧深度推理。針對新衍生的安全挑戰，模型也進行了拒絕對話的擬真訓練與防越獄的魯棒性測試。

一份讓主流模型集體關注的成績單

測試中，這款名為 TML-Interaction-Small（活躍參數 12B）的模型表現亮眼。

在評估打斷、背景音干擾的 FD-bench v1.5 基準中，TML 獲 77.8 分，遠超 GPT Realtime-2.0（46.8 分）和 Gemini（54.3 分），輪次切換延遲僅 0.40 秒。在需深度推理的 FD-bench v3 中，其響應質量/Pass@1（82.8/68.0）也穩壓競品高延遲版本。

在其他綜合測試中，TML 同樣展現了極強的平衡性：QIVD 音影片問答（54.0 分）、BigBench Audio（75.7/96.5 分）以及 IFEval 指令遵循（82.1/89.7 分），並在 Harmbench 保持了 99.0% 的安全拒絕率。雖然在部分純智力單項上略微落後於 Qwen 3.5 Omni 或 GPT-2.0 極高延遲版，但它是唯一在響應速度與智能水平上實現雙優的模型。

贊助商廣告

為了更精準地衡量原生交互能力，Thinking Machines 自建了多項評測。

對比學術界現有的 StreamBridge、AURA 等文本輸出原型，TML 實現了真正的語音並發輸出。在考察主動發言的 TimeSpeak（得分 64.7）、同步糾錯的 CueSpeak（得分 81.7）、持續視覺追蹤的 RepCount-A（得分 35.4）以及看影片搶答的 ProactiveVideoQA 等單項測試中，TML 均取得有效成績，而對比的主流模型在這些場景下幾乎全部得零分或沉默以對。

當然，這套架構目前也有局限：長會話的上下文積累難以管理，且流式音影片高度依賴網路穩定性。此外，該架構尚未擴展至更大參數量的版本，計劃於今年晚些時候發布。

和 AI 說話，越來越像在和人說話

參與這項工作的研究員 Neal Wu 概括了他們的初衷：「如果和 AI 協作不再是對著聊天框輸入，而更像在和另一個人說話，會怎樣？」原生支持交互的模型，就是他們給出的初步嘗試。

Thinking Machines CTO Soumith Chintala 則將整體路線圖分為三步：第一步，提升人與 AI 之間的資訊頻寬；第二步，拉高人類加 AI 的智能上限；第三步，幫助人類在未來的體系中繼續發揮核心作用。

在許多 AI 研發方向傾向於讓模型更自主、減少人類介入的當下，Thinking Machines 選擇了一條不同的路徑：讓人類的介入變得更流暢，讓溝通頻寬本身成為一種基礎設施。

翁荔更是在推文中提到：「寫了 137 頁日誌，產出了 12 個版本。結果發現，人與人之間的協作，對於改善人與 AI 之間的協作至關重要。」這或許意味著，要研發出一個能理解人類溝通節奏的模型，研究者首先需要深刻體會人類溝通的本質。

贊助商廣告

不過，一個持續在場、能即時感知情緒和狀態的 AI，與傳統的工具型 AI 帶來的心理感受是截然不同的。當模型在每次交互中的在場感越來越強，人們對它的認知和依賴會發生怎樣的改變？

這些觸及靈魂的拷問，論文並沒有作答，只是留下了一個關於「實時對齊與安全」的開放性方向。但可以預見的是，當科幻電影裡的情節真正降臨桌面，AI 變成一個一個 OpenAI前CTO創業大模型首秀第一劍先斬ChatGPT聊天框

始終陪伴左右的「存在」時，我們真正需要對齊的，或許不只是模型，更是人類自己在新世界中的位置。