這項由以色列企業級對話智能平台Gong.io的研究團隊完成的工作,以arXiv論文編號2606.15641發表於2026年6月,被接收於計算語言學協會年度會議旗下的ACL 2026 Findings(計算語言學協會2026年發現專刊)。有興趣深入了解的讀者可以通過該編號在arXiv檢索到完整論文。
**一場專屬於商務世界的對話難題**
任何經歷過商務談判的人都知道,那種對話和日常聊天截然不同。當一個潛在客戶說"我們現在每周要花十個小時手動整理報表"的時候,一個經驗豐富的銷售人員立刻就能聽出這句話背後的信號——這是一個痛點,是一個購買動機,是整個銷售策略需要緊緊抓住的關鍵時刻。然而,教會一台電腦去理解這種充滿隱含意義、多方對話交織、語境隨時間演變的商務談判,長期以來都是一項極具挑戰性的工作。
Gong.io的研究團隊正是從這個現實困境出發,著手解決一個在企業界大量存在但技術界關注不足的問題:當企業積累了數以萬計的銷售電話錄音記錄,卻只有少量標註好的數據時,應該如何讓AI準確識別每段對話中那些關鍵的商業信號?
在人工智慧領域,研究者早就發展出了一種叫做"上下文學習"(in-context learning,通常縮寫為ICL)的技術,它的核心思想可以用一個生活場景來理解:假設你要教一個聰明但什麼都不懂行業知識的新人去識別客戶的購買意願,你不會給他安排幾個月的培訓課程,而是會直接給他看幾個典型案例——"你看,這句話是有購買意向的,那句話是沒有的"——然後讓他自己去判斷新的對話。上下文學習就是這樣,把幾個帶標籤的例子塞進AI的"眼前",讓它直接開始工作,不需要重新訓練整個模型。
這個方法在很多簡單任務上運行得相當不錯。但Gong.io的團隊發現,當他們把它用到真實的B2B銷售電話上,麻煩就來了。
**一、當例子越來越多,AI反而越來越糊塗**
B2B銷售電話有幾個讓AI頭疼的特點。首先,一段對話往往長達幾百個詞,裡面夾雜著買方、賣方好幾個人的發言,話題跳跳跳,從產品功能跳到合同細節再跳到內部審批流程,邏輯關係錯綜複雜。其次,企業每隔一段時間就會關心新的銷售概念,今天要識別"痛點",明天要識別"決策者",後天又要識別"競品比較",任務種類繁多且難以預期。
當傳統的上下文學習方法被用於這類場景時,一個直覺上反常的現象出現了:給AI看的例子越多,它的表現反而越差。研究團隊系統測試了從0個例子到100個例子的各種配置,結果觸目驚心——最基礎的"例子堆疊"方法的宏平均F1分數(一種衡量分類準確率的指標,滿分100,越高越好)從零樣本時的71.5%,一路滑落到100個例子時的60.7%,整整跌了將近11個百分點。這好比你教一個新人,給他看的案例越多他反而越暈,最後連最基本的判斷都開始出錯。
這個現象其實並不神秘。每一個銷售對話例子平均有將近280個詞,把100個這樣的例子統統塞進AI的"視野"里,那就是接近兩萬八千個詞的資訊量,就像把一本厚厚的長篇小說一頁不漏地塞在眼前讓你同時消化所有內容。AI在這種"資訊洪流"下會逐漸失去焦點,把太多注意力放在不重要的細節上,對真正的分類規律反而抓不住。
有人可能會想:那就把每個例子壓縮一下,簡短一點,是否就能解決問題?研究團隊也測試了這個思路,他們設計了一個叫"Summary-Ex"的方法,讓AI先把每個完整例子濃縮成三到五句話的摘要,再用這些摘要來做分類。結果有一定改善,但本質問題依然存在——在100個例子時,分數仍然跌到了64.7%,依然在往下走。摘要終究只是把"資訊洪流"變成了"資訊溪流",水流小了些,但方向沒有根本改變。
這正是Gong.io團隊在這篇論文裡最核心的洞察:僅僅壓縮資訊量還不夠,真正需要做的是改變資訊的形態。
**二、從"看例子學規律"到"直接告訴你規律是什麼"**
研究團隊由此提出了一個思路上的轉變,這個轉變用一個廚房場景來理解最為直觀。
假設你要教一個廚師判斷一道菜有沒有加鹽。最笨的方法是給他看一百道加了鹽的菜和一百道沒加鹽的菜,讓他自己琢磨規律。聰明一點的方法,是直接告訴他:"凡是嘗起來咸鮮、讓人想多喝水、口腔里有礦物質感的,就是加了鹽的;反之,口感淡薄、單調、缺乏層次感的,就是沒加鹽的。"第二種方法不需要他自己"悟",直接給了他可以操作的準則。
研究團隊的方法正是這樣。他們不再把原始例子直接塞給AI來分類,而是先用AI把那些例子"消化"一遍,提煉出明確的分類規則,然後在實際分類時只提供這些規則,而不是原始例子本身。這個過程被他們稱為"知識提取",最終產出兩種形態的知識:分類標準(Criteria)和任務描述(Description)。
分類標準的形態是一份清單,分成"正面標準"和"負面標準"兩組,每組包含五到十條具體條件。舉個例子,對於"痛點"這個概念,正面標準可能包括"客戶明確表達了在當前業務運營中遇到的困難或挫折"、"客戶提到了效率低下或資源浪費的具體情況"等;負面標準則可能包括"對話主要圍繞合同條款或付款細節而未涉及業務挑戰"、"對話內容是閒聊或與業務無關的話題"等。這些條件清晰、具體、可直接套用。
任務描述的形態則更像一段自然語言寫成的說明書,用連貫的段落解釋什麼樣的對話算作包含目標概念,什麼樣的不算,邊界條件在哪裡。如果說分類標準是一份檢查清單,任務描述就更像是一份帶有上下文解釋的操作指南。
最終的效果令人眼前一亮。在100個例子的配置下,Description-Ex方法的得分穩定在72.6%,Criteria-De方法達到72.2%,不僅遠超傳統例子堆疊方法的60.7%,而且從0到100個例子的整個區間內幾乎保持水平,不會隨著例子增多而崩潰。用宏平均AUC(一種綜合評估分類性能的指標)來衡量,這些新方法比傳統方法提升了最高7個百分點。
**三、五種研究場景,一個真實的商業世界基準測試**
為了讓研究有堅實的落地基礎,團隊構建了一個他們稱之為"Call Playbook"的全新數據集,這是本文的另一項重要貢獻。
這個數據集來自50通真實的英語B2B銷售電話,每通電話時長從30分鐘到90分鐘不等,由買方和賣方多位參與者共同完成。研究團隊把每通電話切成若干"片段",每個片段由連續五條發言組成,相鄰片段之間有一條發言的重疊,以保留對話的連貫語境。
數據集圍繞五個核心的銷售概念設計了五項分類任務。第一個概念叫"商業目標",指的是客戶希望通過這次採購達成的業務成果,比如提高某渠道的轉化率、縮短某個流程的處理時間;第二個叫"決策標準",指客戶在評估不同解決方案時所依據的考量維度,比如價格彈性、系統集成難度、技術支持響應速度;第三個叫"決策者",指誰是這次購買決定的實際拍板人或重要影響者;第四個叫"決策流程",指客戶內部從接觸產品到最終拍板所遵循的步驟和流程;第五個叫"痛點",指客戶當前面臨的業務困難和障礙。
三位經過專業訓練的標註員在領域專家的監督下,對每個片段進行了五項概念的獨立標註,凡是出現分歧的地方都通過討論達成一致。最終每個概念形成200個訓練樣本和200個測試樣本,兩組各保持正負樣本大致均衡。除了"決策者"這一概念因其在自然對話中出現頻率較低導致正樣本偏少(訓練集32個正樣本,測試集35個),其餘概念均接近五五開。
數據在發布之前還經歷了嚴格的匿名化處理:所有真實姓名、公司名、產品名、地名等敏感資訊都被替換成虛構詞語,數字資訊也被隨機化,最後還用Claude Sonnet 3.7對每個句子進行了改寫以消除原始語言風格,同時保留語義內容。團隊通過實驗確認,這種處理沒有影響數據的分類難度。
**四、五款AI參加同一場考試,結果差異明顯**
研究在五款不同的大型語言模型上進行了全面測試,涵蓋了市面上有代表性的主流選手:來自OpenAI的GPT-4o、來自Anthropic的Claude Sonnet 3.7和更輕量的Claude Haiku 3、來自Mistral AI的Mistral Large和Mistral Small。這五款模型代表了從強到弱、從大到小的不同能力層級,研究團隊在所有模型上使用完全相同的例子集,把溫度參數設為零以確保輸出穩定。
從整體表現來看,Claude Sonnet 3.7是這場考試的最優秀選手,綜合宏平均F1得分達到77%,並且在25個例子的配置下表現最佳,顯示出較強的"消化"多個例子的能力。GPT-4o則在50個例子以內保持穩定,超過之後開始輕微下滑。兩款Mistral模型則對例子數量最為敏感,隨著例子增多,得分下滑最為明顯,其中Mistral Small在僅10個例子時就達到了它的最高點,之後一路向下。Claude Haiku 3介於中間,中等樣本量以上變化不大但絕對分數偏低。
這個規律透露出一條有意義的資訊:模型越大、能力越強,越能從更多例子中挖掘出有用資訊;模型越小,越容易被大量例子"淹沒"。這與研究團隊提出的知識提取方法形成了呼應——對於能力較弱的小模型來說,直接告訴它清晰的分類規則,比讓它從海量例子裡自己摸索,效果要好得多。
從任務難度來看,五個概念之間也有明顯分化。"決策者"是所有概念中最容易被識別的,各方法在這個任務上最高能達到80%的F1分數,原因在於"決策者"的表述往往依賴特定的角色詞彙和人名提及,語言模式較為固定。相比之下,"痛點"的難度最高,不同方法之間的得分差距可以從55%跨越到75%,整整拉開了20個百分點。這是因為"痛點"的表達方式極度多樣,有時是一句隱晦的抱怨,有時是一段繞了很多彎的描述,描述性的任務說明在這種情況下比死板的標準清單更有效。"決策流程"則呈現出相反的特點,它更青睞結構化的標準清單方法,因為決策流程本身就是一個有步驟、有順序的概念,用明確的條件逐一核對反而更準確。
**五、壓縮詞符就能解決問題嗎?答案是否定的**
在這個領域,有另外一類技術方向試圖通過直接"刪減"對話內容來解決提示詞過長的問題,學術界把這類方法稱為"詞符級壓縮"(token-level compression)。研究團隊與其中兩款代表性方法進行了直接比較。
第一款叫Selective Context(SC),它的思路是計算每個詞語在自身上下文中的"資訊量",然後刪掉那些資訊量低的詞,只保留資訊密度高的核心詞彙。第二款叫LLMLingua-2,同樣是一個刪詞工具,但它針對的是整個提示詞(包括任務指令本身),而不僅僅是例子部分。兩款方法都被設置為壓縮50%的內容,也就是把原來的詞數減少一半。
測試結果顯示了這類方法的根本局限。LLMLingua-2在整個測試過程中始終徘徊在50%以下的F1分數,這個表現甚至不如隨機猜測好多少——原因在於它無法區分哪些詞是任務指令的核心、哪些才是可以刪減的冗餘,結果可能把"請識別客戶是否提及了痛點"這類關鍵的任務定義本身刪掉了一半,AI當然會暈頭轉向。SC的情況稍好,因為它只壓縮例子部分而不動任務指令,初始得分與研究團隊的新方法接近,但它的致命弱點與傳統方法一樣:隨著例子增多,得分急劇下滑,從71.4%跌到62.1%,足足跌了9.3個點。
被刪詞處理過的例子變成了支離破碎的詞語拼圖,缺乏連貫的語義邏輯,AI在閱讀這些"殘缺例子"時無法建立有效的理解框架。歸根結底,刪減詞符改變不了"讓AI從一堆例子裡自己悟規律"這件事的本質,而研究團隊的方法則從根本上繞開了這個問題——不是給AI更少的例子,而是把例子背後的規律直接用語言寫清楚,讓AI看的不再是例子,而是從例子裡提煉出的經驗總結。
**六、大模型"教"小模型,技巧可以轉移但文風不能**
知識提取方法還帶來了一個意外的應用可能:既然分類標準和任務描述是用語言寫成的,它們就可以被一個模型生成、供另一個模型使用,實現"知識轉移"。
研究團隊測試了一個具體設置:用更強大的大模型(Claude Sonnet 3.7或Mistral Large)生成分類標準或任務描述,然後把這些內容注入較小模型(Claude Haiku 3或Mistral Small)的分類提示詞中,看小模型的表現會不會有所提升。
結果發現了一個清晰而有趣的規律:當大模型生成的是結構化的分類標準(Criteria),注入小模型後,小模型的表現幾乎總是有所提升;但當大模型生成的是敘述性的任務描述(Description)時,小模型的表現反而往往有所下降。
這個差異背後的原因耐人尋味。分類標準就像一份通用的操作手冊,它的語言簡潔、邏輯清晰、不帶有寫作者的個人風格,就像數學公式一樣,對任何讀者來說理解起來差別不大。而任務描述是一段流暢的段落文字,它的措辭方式、表達習慣、強調重點都深深烙上了生成它的那個大模型的"語言風格"。這種風格對同款小模型而言可能是陌生甚至難以處理的,反而造成了干擾。簡而言之,小模型更容易理解別人整理好的"規則書",卻未必能適應別人寫作風格濃郁的"心得體會"。
**七、當人類專家接手AI生成的規則,會發生什麼**
研究團隊還專門設計了一個實驗,檢驗這套方法是否真的支持人類參與和優化,而不僅僅是一個"黑箱輸出"。
他們選取了Claude Sonnet 3.7在25個例子情況下生成的分類標準和任務描述(針對五個概念),邀請了五位人類標註員自由修改這些內容,可以增刪改寫,只要大體保持相似即可。修改完成後,將人類修改版與原始AI版本分別用於分類任務,對比最終準確率。
結果相當鼓舞人心:五位標註員中,有三位的修改讓分類標準方法的效果有所提升,有一位維持相當,只有一位略有下降;對於任務描述方法,四位標註員的修改都帶來了提升,最高一位讓得分提高了2.65個百分點。
通過對比具體改動內容,研究者總結出了有效修改和無效修改的典型模式。有效的修改往往是戰略性的簡化:把"直接影響他們做出採購決策的能力"這樣冗長的表述,精簡為"直接影響他們的能力";把"在採購過程背景下"這樣的限定詞去掉,讓標準的適用範圍更寬泛;刪除過於嚴格的限定條件,使規則更靈活。無效甚至有害的修改則往往是無意義的替換,比如把"潛在客戶"改成"潛在消費者",把"挑戰"改成"困擾",看似做了調整,實則只是換了近義詞,同時還引入了表述上的不一致,讓AI在應用標準時產生混亂。
這個實驗有力地證明了這套方法的一個獨特優勢:輸出的是人類可以讀懂、可以判斷、可以有意圖地改進的語言,而不是只有模型自己能理解的數字權重或編碼。在那些需要人類專家審核和把關AI決策的場景里,這一點至關重要。
**八、省了多少算力?數字說話**
實用價值的另一面是效率。研究團隊以GPT-4o為基準,統計了各種方法在不同例子數量下實際消耗的詞符(token,理解為模型處理資訊的基本計量單位)數量。
傳統例子堆疊方法的詞符消耗隨著例子數量線性增長,斜率約為每增加一個例子消耗236個詞符;Summary-Ex方法每例消耗126個詞符,比前者減少了約一半但仍在持續增長;而分類標準和任務描述方法的詞符消耗幾乎與例子數量無關——無論使用10個還是100個例子,最終生成的分類標準消耗的詞符穩定在600以內,任務描述方法則更節省,穩定在200以內。從最壞情況(100個例子)來看,新方法實現了高達99%的詞符節約。
詞符消耗的減少直接轉化為處理速度的提升。在實際測試中,分類標準方法相比傳統例子方法節省了70%的處理時間,任務描述方法也節省了57%。當需要處理成千上萬通銷售電話時,這種效率差距在商業層面具有切實的成本意義。
**說到底,這項研究告訴了我們什麼**
從表面上看,這是一篇關於如何改進AI分類技術的學術論文,但它真正觸碰到的是一個更普遍的問題:當AI面對大量資訊時,"告訴它例子"和"告訴它規律"究竟哪種方式更有效?
研究團隊給出的答案清晰而有說服力:在資訊密集、表達多樣、語境複雜的專業場景里,直接提煉和傳遞規律要比堆砌例子更有效。而且這種規律一旦被語言化,就變成了人類可以審查、修改和優化的對象,打破了AI決策過程對人類而言的不透明性。
對於那些需要在日常業務中大量處理專業對話的企業來說,這項研究提供了一個可以直接參考的技術路徑。對於AI研究者來說,它提出了一個值得繼續探索的方向:在上下文學習這條路上,如何更好地在"給例子"和"給規則"之間找到最優的平衡點,以及如何設計讓人類專家更容易參與和干預的AI工作流程。
這項研究目前聚焦在二元分類(有還是沒有)上,研究者也坦誠地指出,當需要區分三種、四種甚至更多類別時,提煉出的規則會隨著類別數量線性增長,可能在某個臨界點之後遇到新的效率挑戰。此外,知識提取環節的質量上限,根本上取決於被用來做提取的那個AI模型的推理能力——如果提取模型犯了錯,錯誤就會被固化在規則里並影響後續所有分類。
對這項研究感興趣的讀者,可以通過arXiv論文編號2606.15641找到完整的論文和數據集,研究團隊也已將代碼和數據開源,地址可在論文中獲取。
---
Q&A
Q1:上下文學習(ICL)為什麼在B2B銷售對話分類中會失效?
A:上下文學習在B2B銷售對話中失效的核心原因是"資訊過載"。每段B2B對話平均近300個詞,當把幾十上百個這樣的例子都塞進AI的視野時,總詞量接近三萬詞,AI無法在這麼大的資訊量中準確抓住分類規律,反而會被不相關的細節干擾。Gong.io的研究發現,隨著例子從0增加到100,傳統方法的準確率從71.5%跌到60.7%,跌幅超過10個百分點。
Q2:Criteria-Ex和Description-Ex這兩種新方法在實際使用中有什麼區別?
A:兩種方法的本質區別在於"規則的呈現形式"。Criteria-Ex(分類標準方法)把規律整理成一份檢查清單,分為"有這個概念的條件"和"沒有這個概念的條件"兩組,每組五到十條,邏輯清晰可逐條核對。Description-Ex(任務描述方法)則生成一段連貫的文字說明,更像一份操作手冊,包含邊界情況的解釋。研究發現,對於需要理解上下文關係的抽象概念(如"痛點"),描述方法更好;對於有明確步驟的系統性概念(如"決策流程"),標準清單方法更好。
Q3:Call Playbook數據集和普通的客服對話數據集有什麼不同?
A:Call Playbook數據集的核心差異在於它來自真實的多方B2B銷售談判,而非一對一的客服問答。普通客服數據集通常是單一問題加單一回答的結構,語境簡單。Call Playbook中每個片段包含買方和賣方多人的連續發言,話題在產品功能、合同細節、內部審批流程等之間自由切換,而且標註的五個概念(商業目標、決策標準、決策者、決策流程、痛點)都是隱含在對話語境中的業務信號,需要深度理解才能識別,難度遠超表面的關鍵詞匹配。






