
Horvitz在AI領域的資歷很難用一兩行概括。他1990年在斯坦福拿到博士學位,同時擁有MD學位,在微軟工作超過30年,是公司史上第一位首席科學官。他創立了斯坦福"AI百年研究"(AI100)項目和AI指數,聯合創辦了Partnership on AI。就在這場對話的幾天前,他剛剛加入美國決策教育聯盟(Alliance for Decision Education)的董事會,就任致辭里他說的話是:"決策卓越是人類繁榮的核心,尤其在一個被技術快速塑造的世界。"這句話基本可以當作他40年職業生涯的註腳。
更值得關注的時間點是:就在對話兩天前的2月19日,微軟剛剛發布了一份54頁的媒體完整性與認證報告,由Horvitz領導的LASER(Longer-term AI Safety in Engineering and Research,長期AI安全工程與研究)項目主導,專門研究深度偽造的技術攻防。在這個AI時代,原則上,我們能在螢幕上看到的任何東西都可能是偽造的。所以對判斷力的要求無上限提高了。
然後,繼續喊一下,有興趣進讀者群的朋友(雖然還沒建),先加小夥伴微信哈:rohanjojo。
1. "700年後回看,這個時代會有名字"
Horvitz被問到如果20年後回看今天,這個時期會被怎樣記住。他的回答出人意料——他說自己經常想像的是700年後,而非20年後。
"這會是歷史書上的一個命名時代,有插圖,有注釋,有一個名字。雖然我還不確定叫什麼。"
他沒有具體說可以類比哪個已知的時代。但我算了一下,700年前恰好是14世紀中葉,文藝復興的起點。按他的說法,我們正在經歷的這場變革,在歷史坐標上大致可以和文藝復興相提並論吧。文藝復興的催化劑是古騰堡印刷術——它本身不產生新知識,但讓知識的複製和傳播成本驟降,打破了教會和大學對資訊的壟斷。今天大語言模型的角色與此類似:它不創造新的物理定律,但我們正通過模型,將人類既有的知識進行二次挖掘,讓認知勞動的成本結構發生根本變化。
不過Horvitz很快把話題拉回地面。他說即便20年後回看,我們仍然處於"早期部署、早期實施"階段。他的邏輯鏈是這樣的:蒸汽機1769年左右出現第一台可用原型,真正改變工業面貌是100年後的事;電力從1880年代開始商用,滲透到生產端又花了數十年。"好吧,AI可能比蒸汽機或電力快——畢竟我們已經通電了。"他開了個玩笑,但話鋒一轉認真起來:"20年後我們仍然會處於相當快速的變革當中,不會收斂。"
但蒸汽和電力的類比有一個根本性的局限。他後來在回答一位MBA學生關於投資節奏的問題時點明了這一點:蒸汽和電力作為底層技術相對穩定——蒸汽機發明之後,蒸汽的物理原理不會變,變化的只是你怎麼用它。AI完全不同。今年的模型和去年的模型能力差距巨大,明年又會跳一級。你還沒搞清楚怎麼用當前的AI,它自己就變了。
被問到"錢該不該投",他很直接:"投。會有失望,也會有大贏。"但他也坦言擔心出現Gartner炒作周期(hype cycle,指新技術從狂熱到幻滅再到理性回歸的典型曲線)式的"過早退縮和失望"——整個行業情緒過熱之後,集體退縮,本來可以結果的項目也被砍掉。他判斷"火堆里有足夠的餘燼",能維持適當的投資水平繼續前進。蛋白質設計、材料科學、醫療轉寫這些領域已經產出了足夠真實的成果,不至於讓火完全熄滅。
還有一點他特別提到:和蒸汽機、電力時代不同的是,今天圍繞AI的"治理焦慮"史無前例。蒸汽機時代沒有人坐在會場裡討論新技術的倫理影響,甚至飛機發明的時候也沒有太多人在想"我們需不需要規範從飛機上扔燃燒彈這件事"。而今天,台下坐滿了關心AI走向的聽眾。Horvitz說這種廣泛的討論"令人暖心"(heartwarming),這些焦慮和辯論本身就是這個歷史時期最獨特的特徵之一。
2. "AI落地翻譯官"是一個好工作
Horvitz給學生的建議非常具體,遠超"去學AI"這種籠統的說法。
在給建議之前,他先糾正了一個普遍的認知偏差。他說1990年在斯坦福讀博的時候,AI在他眼裡是一幅"豐富的織錦,一個技術星座(a rich tapestry, a constellation of technologies)"。雖然深度神經網路帶來了某種表面上的同質化,好像AI就等於大語言模型,但他強調這個領域未來只會更加分化。"不要只想著Claude或ChatGPT或Gemini怎麼用這個用那個,要更深入地了解技術本身,去發現深度思考、決策、管理、監督和創造力方面的機會。"只盯著聊天機器人看,你會錯過整片森林。
然後他描述了一類正在崛起的公司——可以叫它們"AI落地翻譯官"。這些創業公司做的事情是:深入某個行業,拿到真實的數據和業務流程,觀察哪些環節AI已經產生了正向效果(他的原話是early sparks of positive gain,最初的正向火花),哪些環節遭到了排斥(repulsion,被業務方抵制),然後把這些洞察沉澱為行業專用的數據集和微調模型,讓通用AI系統能夠在非常具體的行業場景中工作。
"這是一個巨大的轉型需求,需要你真正深入理解某個具體領域,然後搞明白怎麼做應用——而這些應用只是長期變革中很小的一塊。"
這個觀察和微軟自己的戰略方向也吻合。微軟研究院2025年底開源了Magentic Marketplace模擬環境,專門研究AI agent在真實市場中如何交互、談判和協作。2026年1月底,微軟團隊在Communications of the ACM上發表了一篇關於"開放式agent經濟"(open agentic economy)的論文,描述了一個未來場景:每個人和每家企業都有自己的AI智能體,智能體之間在開放市場上代為採購、談判、簽約。論文團隊的擔憂是,如果不儘早推動開放標準,幾家大平台會形成"圍牆花園"(walled garden,封閉生態),把所有智能體交互鎖在自己的平台里。
所以Horvitz給學生的建議鏈條很清晰:找到你的熱情 → 在那個領域深耕 → 思考AI的相關性 → 跨學科擴展視野 → 去看那些正在超越炒作、真正做整合和應用的人。
他同時強調了另一層能力:不是光問"AI能做什麼",還要問"AI應該做什麼"。在組織里推行AI,你需要理解什麼該做、什麼不該做、如何負責任地落地。這是領導力的問題,不是技術問題。
他對稀缺人才畫像的描述值得記住原話的精神:帶著人工智慧知識和管理與商業技能來到談判桌前的人,將獲得溢價。這裡說的溢價,重點在於理解技術邊界的前提下,能做好洞察、決策和流程再造,而不是自己去訓練模型。
3. 好奇心、諾貝爾獎得主和姐姐的質問
這場對話中最生動的部分來自Horvitz談人機協作。他在分享具體經歷,每一個都很有畫面感。
先說一個概念:可行性邊界(edge of doability)。這是他在微軟研究院當主管時反覆問團隊的一個問題——"你們真的在可行性的邊界上工作嗎?"意思是:你做的事情,在幾個月前還會被認為不可能,甚至不會有人去想。只有在那個邊界上工作,才有可能產出真正重要的成果。
他發現大語言模型在被推到這個邊界時反而表現特別好。原話是這樣的:"人們總說早期這些工具會'幻覺'(hallucinate)。沒錯,它們是隨機引擎(stochastic engines),確實會這樣。我們也在努力確保在醫療這樣的高風險決策場景中不會造成傷害。但當你用這些工具來寫小說,或者想像什麼是可能的——我跟諾貝爾物理學獎得主一起坐下來用過這些系統——在前沿地帶,你以為它在幻覺的地方,其實我們是在把它推到未知空間。我們說:用你的隨機引擎幫我們探索,我們人類來當過濾器。我們有審美判斷,有領域理解,有方向感。"
這段話的關鍵在於角色分配:AI負責在可能性空間裡大範圍掃描,人負責判斷、篩選和引導方向。今天人們學會用各種AI工具來prompt,本質上就是在學當駕駛員——帶著非常人性化的目標、偏好、好奇心來使用系統,讓系統為你引入新的效率、新的模擬能力、新的可能性空間。
但話題隨即轉向了硬幣的另一面。Horvitz的姐姐是UNC Asheville的文學教授。2023年2月GPT發布後,那年感恩節她帶著怒氣回家,雙手叉腰質問他:"你對我的學生做了什麼?"
無論她怎麼強調,大一學生就是直接用AI寫作文,不再深度思考。Horvitz認同她的判斷:學習寫作,很可能就是學習思考的一個關鍵組成部分。當你繞過寫作直接拿到結果,你也繞過了思考過程本身。
這引出了他對下一代AI工具的設計方向:不能只依賴人類自己保持批判性思維——這太脆弱了。工具本身應該被設計成"理解人類目標"的,知道什麼時候該站出來輔助,什麼時候該退後讓人自己想。他用了一個短語:celebrating and nurturing the human(慶祝和培育人的獨特性)——這應該是工具設計的終極目標。
這兩個故事放在一起看,Horvitz對人機協作的立場就很清晰了:AI最強大的用法是把人推到能力的邊界之外,但前提是人保持在駕駛席上。如果工具讓人變懶了,那就是工具的設計出了問題,不能只怪使用者。
4. 五個關於人類福祉的具體預測
Sarah Soule問Horvitz,AI能否真正增進人類福祉。他的回答從"宇宙級視角"開始,一路收窄到具體時間表。
語言級別的意義。 他在密西根大學做Tanner講座時提出過一個判斷:AI技術在數千年到數萬年的尺度上,可能具有類似語言的歷史意義。語言讓人類從小群體狩獵採集者變成了能進行深度集體思考的文明——**"它是給了我們文明的秘密工具。"**他認為AI可能在很長的時間跨度里扮演類似角色。
順便說一句,他更願意把這個領域叫"計算智能"(computational intelligence)而非"人工智慧"(artificial intelligence),因為"計算智能同樣適用於生物神經系統和機器,合在一起我們可以走得更遠。"這個措辭的差異很重要——如果你接受"計算智能"這個框架,人腦和AI就處在同一頻譜上的不同位置,天然是協作關係。
然後他收窄到了具體預測:
神經退行性疾病將在我們有生之年迎來AI驅動的突破。 他明確說了阿爾茨海默症、ALS、FTD(額顳葉痴呆)這幾個名字,認為至少一種以上會在我們活著的時候出現基於AI洞察和療法的重大進展。
多種癌症在未來十年變成慢性病或被治癒。 "我希望在未來十年內,看到多種癌症變成人們所知的慢性病,或者被治癒。"他的信心來源:我們現在能設計分子、設計蛋白質、更好地理解生物網路——這些在沒有AI工具之前是不可能的。
教育的個性化突破。 他舉了一個特別貼近每個人經歷的例子:我們都曾遇到過某個讓自己卡住的數學題,可能正因為那個題從此遠離了數學。AI輔導系統能做到的是——根據你具體在哪裡卡住,用個性化的方式把你帶過去。"幫我突破那個曾經把我推開的點,用新的方式帶我前進。"這種系統同樣能幫勞動力在快速變化的就業環境中重新學習技能。
人際和國際溝通的改善。 這個預測更有前瞻性。他認為AI系統可以幫人們更好地溝通、理清觀點、把雙方的訴求結構化地呈現出來。從個人層面到國家層面,他期望看到"一場關於我們為什麼在這裡的文藝復興——優化目標、促進共情。"
他隨後點了幾個已經落地的領域名稱——材料科學、生物與醫療、教育、各行業生產效率——然後做了一個總括:"這些優化、整合、證據收集與綜合、專業化、泛化、湧現概念的工具,將改變一切。"
5. 深度偽造:一場攻防戰的十年演進
2015年前後,Horvitz看到斯坦福電腦系團隊的一個demo:用AI生成一段政客的影片,讓這個政客說出他從未說過的話——嘴型、表情、聲音全部以假亂真。當時是實驗室里的"酷炫演示",論文級別的技術突破,誰都沒太當回事。Horvitz做了一場演講,說這東西一旦普及會怎樣。九年後的今天,一切應驗。
他在微軟內部推動的解決思路,用一個比喻就能理解:給內容"蓋蠟章"。
問題的本質是:你在網上看到一張照片或一段影片,怎麼知道它是真實拍攝的,還是AI生成的?Horvitz給微軟團隊出了一道題——能不能建立一套系統,讓相機拍下的內容從拍攝那一刻起就帶上一個密碼學簽名,一路傳遞到你的螢幕上時可以驗證"這個簽名沒被動過"?就像古代用蠟封信件,收信人看到蠟封完好就知道信沒被拆過。
這個思路催生了C2PA內容憑證標準(Coalition for Content Provenance and Authenticity)。微軟在2021年與Adobe、BBC、Intel等機構聯合發起了這個標準組織,目前所有大型科技公司和主要相機廠商都已加入。C2PA做的就是數字版的蠟封——相機和麥克風在捕獲內容時蓋上密碼學的"蠟章",傳播鏈上的每一步都可以驗證蠟章是否完好。
好方案出來了之後,Horvitz做的下一件事不是慶祝,而是讓內部團隊攻擊自己。
2026年2月19日——也就是這場對話的五天前——微軟發布了一份54頁的媒體完整性與認證報告,核心內容就是他要求團隊做紅隊攻擊(red teaming,讓自己人扮演攻擊者找漏洞)的成果。
核心發現是:蠟章可以被反向利用。比如一張真實的新聞照片——底特律的人群在迎接Kamala Harris——有人可以通過篡改或剝離蠟章資訊,讓你懷疑這張真照片其實是AI偽造的。反過來,AI生成的假圖也可能被偽裝上看似合法的認證。報告的結論是單一技術手段不夠,需要把密碼學簽名和不可見水印(imperceptible watermarking,肉眼看不到但機器能識別的隱藏標記)疊加使用,才能實現較高的可信度。報告測試了60種溯源和水印方法的組合來評估不同方案的脆弱性。
但技術層面解決了,還有一個更難的問題。Horvitz把它叫做"最後一米"——普通人看到認證標記時,真的會去驗證嗎?真的相信嗎?
但還有一個更棘手的反向問題:如果"有認證的內容"成了可信的默認標準,那那些沒有C2PA認證的真實內容——比如突發事件現場用普通手機抓拍的影片——會不會反而變得更不可信?這就是報告裡提出的"社會技術溯源攻擊"(sociotechnical provenance attacks,指利用認證體系來操縱人的判斷)的含義:問題不在技術被破解,而在於認證體系本身改變了人們判斷真假的方式。
Horvitz在對話的最後分享了一個自己的小實踐。他讓微軟的設計師做了一個圖標——一個小圓圈,寫著"100% human crafted"(百分百人類手作)——他會貼在自己精心撰寫的郵件末尾。他問了台下的聽眾,有多少人收到過家人用AI寫的"精心"賀卡或詩,覺得"不是那個味兒了"?幾乎沒人舉手——但他說,這件事遲早會發生在每個人身上。在一個AI生成內容無處不在的世界裡,證明"這確實是一個人在認真對待另一個人"本身變成了一種新需求。
6. AI安全的轉折點:從技術問題到社會工程
一位管理科學與工程碩士生問了一個關於AI評估和安全的問題,Horvitz的回答非常精準,而且切入點出人意料。
他說:對於所有圍繞大語言模型的狂歡、投資和部署,有一個基本問題我們還沒解決——我們不知道怎麼對這些模型做概率校準(probabilistic calibration)。翻譯成人話就是:當一個AI系統告訴你一個答案時,它不會同時告訴你"我對這個答案有多大把握"。它不會說"我72%確定這是對的"或"我30%確定這是對的"。所有輸出看起來都一樣自信。
為什麼這很重要?因為在任何嚴肅的決策場景里——醫療、法律、金融、管理——你需要知道一條資訊的可靠程度,才能決定怎麼用它。如果AI能給出校準過的置信度,我們就能把它的輸出納入成本收益分析,理性地決定多認真地對待每一條建議。沒有這個,所有的AI安全討論都少了一個關鍵維度。
然後他做了一個更大膽的判斷。
他說微軟在AI安全方面投入了大量精力——評估指標、安全護欄、內容過濾——都是為了讓通用模型在發布後不會產生有害內容。但模型越來越強大,到了某個臨界點,生產模型的公司會變得像發電公司一樣:你不能要求發電公司保證所有用電場景的安全。你不能因為有人把收音機放在浴缸邊上就起訴電力公司。
到那時,安全的重心必須轉移——從模型安全轉向社會治理。就像我們有了電工資質認證、保險實驗室標準(Underwriters Laboratory,美國的產品安全認證機構)、建築規範,AI也需要一整套行業慣例、執業規範、監管框架和法律。他用了一個很直接的說法:"我正在讓自己準備好,去幫助完成這個轉型。"
關於監管的現狀,他的態度也很明確:無論是歐盟的AI法案還是美國各州各自為政的立法,都應該被視為探索過程的一部分,而不是最終定論。現在下的每一個規矩都是實驗性的,都需要在實踐中調整。
醫療領域是他舉的最具體的例子。他在一次美國國家醫學院(National Academy of Medicine)會議上分享了一個他稱之為"大秘密"的東西:醫療AI模型不可移植。你不能把A醫院訓練好的模型直接搬到B醫院就指望它好用。不同醫院的患者構成、數據採集方式、電子病歷系統都不一樣。這不是新發現——他們在貝葉斯網路時代就踩過這個坑——但很多人今天還在犯同樣的錯誤,以為一個模型在某個榜單上跑分高就可以到處部署。
微軟和斯坦福合作開發了MedHELM等醫療AI評估基準,試圖建立更系統的衡量方式。但Horvitz強調,對於接下來很多年來說,評估醫療AI的最終手段仍然是隨機對照臨床試驗——跟評估新藥一個標準。
最後他講了一個特別尖銳的分析框架。在醫療AI和自動駕駛領域,你不能只看平均表現就下結論。他拿Tesla舉例:有人拿整體統計數據說Tesla讓道路更安全。但另一些人馬上會指出——"那輛車鑽到卡車底下去了,這種災難性的失敗人類司機絕不會犯。"
FDA審查醫療AI時也是這樣拆開看的:一邊是整體的靈敏度和特異度(平均表現),一邊是安全邊緣的災難性故障。社會對後者的容忍度極低。你不能用"平均來看我們更好"來回應一個原本不可能發生的災難。這些邊緣失敗必須被單獨識別、刻畫和解決,不能被均值掩蓋。
對話快結束時,Sarah Soule分享了自己的親身經歷:她的醫生剛剛用了AI轉寫工具記錄問診,事後她看到系統生成的筆記里寫著她"表現為困惑和神志不清(confused and delirious)"。她立刻聯繫醫生,發現這段內容已經被系統用紅色標記了。她開玩笑說:"有人在幻覺,但那個人不是我。"
台下笑成一片。但這個真實案例,恰好把Horvitz前面講的概率校準、邊緣失敗、模型不可移植全部串了起來。
7. 150個實習生和一個關於人性價值的賭注
對話最後的話題是導師制。
Horvitz在微軟指導過超過150名博士級實習生,其中包括後來到斯坦福任教的Yuri Levic和Michael Bernstein等知名學者。他60歲生日時只邀請了歷年的實習生,整個房間坐滿了人。他看著每一張臉,都能回憶起兩個半月的合作項目。"我從他們身上學到的,可能比他們從我身上學到的更多。"他說現在已經有了"孫輩實習生"甚至"曾孫輩實習生"——他帶過的實習生成了教授,那些教授的學生又來微軟實習了。
這不只是感性的回憶。他是在用自己40年的實踐回答一個很多人都在問的問題:在自動化越來越強的世界裡,什麼是不會貶值的?
他的答案很明確:導師制、手工技藝、人際關懷、創造性協作。
"在我更樂觀的時刻,我相信無論AI工具多麼強大,人們反而會更加關注什麼讓我們成為人類。"他預測一個關懷經濟(caring economy)的崛起——人與人之間的照護、協作、創造性的聯合生產會變得更有價值。他也預期手工技藝和匠人精神會回歸,與之相關的學徒制和導師制只會更加重要。
在一次微軟舉辦的Foo Camp討論中(O'Reilly出品的小型邀請制深度研討會),主題是"在AI時代保護和培育人類能動性"。每個人分享自己在自動化世界裡最看重什麼。Horvitz的回答是:"我永遠珍視指導他人這件事。這是我的產出規則之一。AI不會把它奪走。"
這個回答和他之前讓設計師做的"100% human crafted"圖標形成了呼應。兩件事說的是同一個道理:在AI無處不在的未來,"證明一個人在認真對待另一個人"這件事本身,會變得越來越珍貴。AI當然可以模擬關懷,但當模擬變得太容易,真實的東西反而稀缺了。
55分鐘的對話里,Horvitz給出了罕見密度的具體判斷:時間線(神經退行性疾病有生之年突破,多種癌症十年內變慢性病),機制短板(概率校準是最大技術缺口,模型不可移植),趨勢拐點(模型公司終將變成電力公司,安全重心轉向社會治理),個人實踐(紅隊自己的解決方案,100% human crafted圖標)。
這些判斷之所以有分量,是因為給出判斷的人同時理解技術細節和社會影響,而且願意把自己的信譽押在具體預測上。在一個充斥著"AI將改變一切"或"AI被高估了"兩極論調的時代,這種有條件、有時間線、有機制解釋的判斷,才是真正有用的。
核心問答
Q1: 今天學AI、做AI應用的人,最應該關注什麼?別追最新模型,重點是深入一個行業,理解真實業務流程中AI哪裡有效、哪裡被排斥。把技術理解和管理決策能力結合起來,去做"AI落地翻譯官"。這個角色需要深入的行業知識和跨學科視野,在未來十年都會是稀缺的。Horvitz特別警告不要把AI等同於大語言模型——AI是一個豐富的技術星座,聊天機器人只是其中很小的一塊。
Q2: 深度偽造問題到底有沒有技術解?有方向但沒有銀彈。微軟推動的C2PA標準相當於給內容"蓋蠟章",從拍攝到顯示全程可驗證。但他們自己剛發布的54頁紅隊報告就證明了蠟章可以被反向利用——讓真照片看起來像假的,讓假圖看起來像真的。真正的出路是多層技術疊加(密碼學簽名 + 不可見水印),同時還得解決一個更深的問題:當"有認證"成為可信默認標準,那些沒有認證的真實內容(比如突發現場的手機抓拍)反而可能變得更不可信。
Q3: 在自動化加速的世界裡,什麼是不會貶值的人類能力?Horvitz的回答非常明確:導師制、手工技藝、人際關懷、批判性思考、審美判斷。他預測"關懷經濟"會崛起,人們會更加珍視來自真人的創造和溝通。他自己用的"100% human crafted"圖標就是這個趨勢的縮影——在AI無處不在的世界裡,"證明你是一個人在認真對待另一個人"本身成了一種價值。






