宅中地 - 每日更新
宅中地 - 每日更新

贊助商廣告

X

華威大學突破:首個教育對話中「有趣度」預測模型,AI終於懂得如何讓學習更吸引人

2025年09月26日 首頁 » 熱門科技

這項由英國華威大學電腦科學系的譚興偉、加布里埃爾·佩爾戈拉,以及心理學系的瑪哈蒂·帕瓦塔姆、基亞拉·甘比共同完成的開創性研究,於2025年9月發表在計算語言學頂級會議上。研究團隊首次構建了名為IntrEx的數據集,專門用於預測教育對話中的"有趣程度"。有興趣深入了解的讀者可以通過arXiv:2509.06652v1訪問完整論文,相關數據和模型也已在HuggingFace平台公開發布。

學習語言就像培養一種興趣愛好,如果內容枯燥無味,就很難堅持下去。在第二語言學習中,保持學習者的興趣和動力至關重要,這直接影響學習效果和是否會中途放棄。然而,雖然我們都知道"有趣"很重要,但究竟什麼樣的對話內容能真正抓住學習者的注意力,卻一直是個未解之謎。

華威大學的這個研究團隊就像是教育界的"偵探",他們要破解一個重要案件:如何科學地識別和預測教育對話中的"有趣度"。這可不是簡單的主觀判斷,而是要建立一套系統性的標準和預測模型。研究團隊的獨特之處在於,他們不僅有電腦科學的技術背景,還有心理學的理論支撐,這種跨學科合作為理解"有趣度"這個複雜概念提供了全面視角。

這項研究的突破性在於,它首次將"有趣度"從一個模糊的感覺轉化為可以量化、預測的科學指標。更重要的是,他們不僅關注學習者覺得什麼有趣,還預測學習者期望什麼會有趣,這種前瞻性思維為改善教學質量開闢了新路徑。研究結果顯示,經過特殊訓練的小型AI模型在預測人類興趣方面,竟然比GPT-4這樣的大型模型表現更好,這為未來的教育AI應用指明了方向。

這個研究不僅對教育工作者有重要意義,對任何需要進行有效溝通的人都有啟發價值。畢竟,無論是老師教學生,還是父母教孩子,或者是培訓師教員工,如何讓內容更吸引人都是一個永恆話題。

一、破案的起點:從海量真實對話中尋找線索

華威大學研究團隊面臨的第一個挑戰,就像偵探需要收集證據一樣,他們需要大量真實的師生對話數據作為研究基礎。幸運的是,他們找到了一個寶貴的"證據庫"——Teacher-Student Chatroom Corpus(TSCC),這是目前世界上最大的師生在線聊天對話數據集。

這個數據集記錄了真實的英語學習課程,就像是教室里的"錄音筆",完整保存了老師和學生之間的每一次交流。數據集包含260段完整對話,涉及2名老師和12名學生,每節課大約持續一小時。這些對話不是實驗室里的人工設計,而是真實教學環境中自然產生的交流,就像是從真實課堂里"偷聽"來的對話記錄。

然而,TSCC雖然詳細記錄了對話內容,甚至標註了教學方法和語法糾正等資訊,但它缺少一個關鍵要素:沒有人告訴我們這些對話到底有多"有趣"。這就像有了犯罪現場的所有物證,但缺少關鍵的目擊者證詞。研究團隊意識到,他們需要為這些對話補充"有趣度"標註,這樣才能訓練AI模型學會識別什麼樣的對話內容真正吸引人。

為了解決這個問題,研究團隊設計了一個巧妙的標註系統。他們定義了兩種不同的"有趣度":一種是"當下有趣度",即學習者看到某段對話時覺得有多有趣;另一種是"預期有趣度",即學習者預測下一段對話會有多有趣。這種雙重視角的設計非常聰明,因為它不僅能捕捉當前的興趣狀態,還能預測未來的期望,就像既要知道觀眾對當前電影情節的反應,又要預測他們對下一個情節的期待。

更有意思的是,研究團隊將對話分成了兩個層次進行標註:句子級別和段落級別。句子級別就像是逐字逐句地分析,而段落級別則是從整體話題或教學環節的角度來評判。經過實踐檢驗,他們發現段落級別的標註更加可靠和有意義,因為興趣往往不是由單獨一句話決定的,而是在一個完整的對話片段中逐漸形成的,就像欣賞一幅畫,需要看整體構圖而不是單個筆觸。

這種分層分析的方法反映了人類認知的真實情況。當我們在課堂上聽講時,很少會因為老師的單獨一句話而突然變得興奮或無聊,更多時候是在聽完一個完整的解釋或討論後,才會形成"這段內容挺有意思"或"這部分好無聊"的判斷。研究團隊的這種洞察,為後續的模型訓練奠定了堅實基礎。

二、招募"證人":如何讓100多名學習者成為標註專家

有了對話數據,下一步就是找到合適的"證人"來判斷這些對話的有趣程度。這個環節就像是法庭上尋找可靠證人一樣關鍵,因為標註質量直接決定了最終模型的準確性。研究團隊面臨的挑戰是:如何確保標註者能夠真實反映第二語言學習者的感受?

研究團隊做出了一個重要決定:只招募那些以英語作為第二語言的學習者作為標註者,而不是英語母語使用者。這個決定背後的邏輯非常有道理。想像一下,如果讓一個從小說中文的人來判斷外國人學中文時哪些內容有趣,他可能完全無法理解學習者的真實感受。對於母語使用者來說輕而易舉的內容,對學習者可能恰恰是最有挑戰性和吸引力的部分。

通過Prolific這個在線研究平台,研究團隊成功招募了超過100名第二語言學習者。這些參與者大多具有B2或C1級別的英語水平,相當於中高級到高級水平。這個選擇也很巧妙,因為原始對話中的學生大多也是這個水平,這樣就確保了標註者能夠真正"感同身受"地理解學習者的體驗。

標註過程就像是讓這些學習者重新"體驗"一遍教學對話。標註者需要扮演對話中學生或老師的角色,然後對每段對話的有趣程度打分,分數從0到4,0表示非常無聊,4表示極其有趣。每段對話都由三個不同的標註者獨立評分,這樣可以減少個人偏好的影響,獲得更客觀的結果。

然而,研究團隊很快發現了一個問題:讓人直接給對話內容打分是一件很主觀的事情,不同人的標準可能差別很大,就像讓不同的人給同一道菜打分,結果可能相差很遠。為了解決這個問題,他們引入了一個巧妙的"對比"方法,靈感來自於人工智慧訓練中的人類反饋強化學習技術。

這個對比方法的工作原理是這樣的:研究團隊先用GPT-4o自動生成對話的"無聊版本",就是把原本生動有趣的表達改成枯燥乏味的說法。然後讓標註者比較原版和"無聊版本",判斷哪個更有趣。這就像是在兩道菜之間做選擇,比單獨給一道菜打分要容易和準確得多。

比如,原始對話中老師可能會說:"太好了!這就是上癮的意思,你停不下來...很棒!那麼為什麼這樣不好呢?"而"無聊版本"會變成:"請進一步闡述這種行為的負面影響。"兩相對比之下,標註者很容易就能判斷出哪個版本更吸引人,這種對比式標註大大提高了標註的一致性和可靠性。

三、數據質量的"質檢員":確保每一個標註都靠譜

就像工廠生產需要質量控制一樣,研究標註也需要嚴格的質量檢查機制。研究團隊建立了一套完整的質量保證體系,確保收集到的標註數據真實可靠。

首先,他們設置了"偷懶檢測器"。如果發現某個標註者連續給10個以上的對話打出相同分數,就會被自動排除出數據集。這個設計很合理,因為正常情況下,不同的對話內容不可能都具有完全相同的有趣程度,連續打相同分數很可能說明標註者沒有認真思考,只是隨便應付。

其次,他們採用了一種叫做AC2的評估方法來衡量不同標註者之間的一致性。這個方法比傳統的一致性檢查更加智能,它不會因為分數差一點點(比如有人打3分有人打4分)就認為是完全不一致,而是會根據分數差距的大小給出不同程度的一致性評價。這就像考試閱卷時,82分和85分之間的差異明顯比82分和95分之間的差異要小得多。

為了激勵高質量的標註工作,研究團隊還設計了獎勵機制。如果一個標註小組(三個人)在有趣度標註上的一致性達到0.5以上,每個成員就能獲得額外的3英鎊獎金,並且會被優先考慮參與後續的標註任務。這種激勵機制不僅提高了標註質量,也確保了數據收集的持續性。

最終的數據質量檢查結果令人滿意。在段落級別的標註中,標註者之間的一致性達到了0.58(有趣度)和0.52(預期有趣度),這個數字在主觀性較強的標註任務中已經算是相當不錯的成績。相比之下,句子級別的標註一致性只有0.40和0.39,這也證實了研究團隊選擇段落級別標註的明智性。

整個標註過程最終產生了5801個段落級別的標註和7118個句子級別的標註。段落級別的標註覆蓋了259個對話,平均每個對話包含22.4個段落。這個數據規模為訓練可靠的預測模型提供了充足的"營養"。

四、AI學徒的訓練:讓機器理解什麼是"有趣"

有了高質量的標註數據,研究團隊開始了最關鍵的一步:訓練AI模型學會預測對話的有趣程度。這個過程就像是培訓一個學徒,讓它通過觀察大量案例來掌握判斷"有趣"的技巧。

研究團隊選擇了幾個不同規模的AI模型進行訓練和比較,包括70億參數的Mistral-7B和80億參數的Llama3-8B,以及它們的指令調優版本。他們還將這些模型的表現與GPT-4和GPT-4o這樣的大型商業模型進行了對比。訓練過程就像是讓學生反覆練習題目,AI模型需要根據對話的歷史內容來預測當前片段的有趣程度。

訓練的具體方法是將問題轉化為多類別分類任務。模型需要根據前面的對話歷史,對目標片段的有趣程度給出0到4的評分。為了讓模型知道要評價哪個片段,研究團隊在目標內容前後加上了特殊標記,就像是在文本中用熒光筆標記重點一樣。

令人驚喜的結果出現了。經過專門訓練的小型模型,竟然在預測人類興趣判斷方面超過了GPT-4和GPT-4o這樣的大型模型。具體來說,經過IntrEx數據訓練的Llama3-8B-Instruct在一致性測試中達到了0.5139的分數,而GPT-4o只有0.4657。這就像是一個專門學過廚藝的廚師,在做菜方面超過了什麼都懂一點但沒有專門訓練的通才。

這個結果揭示了一個重要道理:在特定領域的任務上,專門訓練的小模型可能比通用的大模型表現更好。GPT-4雖然知識淵博,但它沒有專門學習過如何判斷教育對話的有趣程度,而經過IntrEx訓練的小模型就像是這個領域的"專家",能夠更準確地把握學習者的興趣點。

更有意思的是,研究團隊發現基礎版本的AI模型(沒有經過指令調優的版本)在這個任務上表現很差,甚至不如隨機猜測。但是指令調優版本的模型就表現出色。這說明了"理解指令"對於這類評判任務的重要性,就像是一個人需要先理解"什麼是有趣"這個概念,才能準確判斷具體內容的有趣程度。

五、語言的魔法:解密什麼樣的表達更吸引人

在成功訓練出能夠預測有趣程度的AI模型後,研究團隊開始深入分析到底是什麼語言特徵讓對話變得有趣或無聊。這個過程就像是食物評論家分析一道菜為什麼好吃,需要從各個角度仔細剖析。

研究團隊從三個主要角度來分析語言特徵:具體性、理解難度和互動性。具體性就像是描述的"畫面感",理解難度相當於內容的"消化難度",而互動性則體現了對話雙方的"默契程度"。

在具體性方面,研究結果顛覆了一些常見認知。我們可能會認為越具體、越容易理解的內容越有趣,但研究發現恰恰相反。過於具體的表達實際上會降低有趣程度。這就像是給小朋友講故事,如果所有細節都說得太明白、太簡單,反而會讓孩子覺得無聊,因為沒有留下思考和想像的空間。研究團隊用MRC心理語言學資料庫中的具體性評分來衡量這個特徵,發現具體性越高,有趣度反而越低。

理解難度的分析更加複雜和有趣。研究團隊使用了多種不同的可讀性指標,就像是用不同的"體檢儀器"來全面檢查內容的難易程度。這些指標包括Flesch閱讀輕鬆度、Coleman-Liau指數、SMOG指數等,每個指標都從不同角度評估文本的理解難度。

令人意外的是,研究發現存在一個"金髮姑娘效應"——就像金髮姑娘選擇粥的溫度一樣,既不能太熱也不能太冷,恰好合適的才是最好的。對話內容既不能太簡單也不能太複雜,適中的難度才最有吸引力。具體表現為,隨著內容長度和複雜程度的增加,有趣度先上升後下降,形成一個倒U型的關係。這個發現符合多個心理學和計算理論的預測,說明人類的興趣確實遵循著"適度挑戰"的原則。

這種現象在日常生活中很容易理解。太簡單的內容讓人覺得無聊,就像大學生去聽小學數學課;太複雜的內容讓人望而卻步,就像小學生去聽量子物理講座。只有難度剛好在現有能力基礎上稍有挑戰的內容,才能激發最大的興趣和動力。

在互動性分析方面,研究團隊考察了對話雙方如何相互回應和建立聯繫。他們使用了多種指標來衡量這種互動質量,包括最長公共子序列(LCS)、教師重複學生詞彙的比例(propTinS)、基於AI模型的互動評分,以及詞彙嵌入向量的相似度等。

互動性分析的結果呈現出有趣的複雜性。一方面,適度的詞彙重複和回應確實能提高有趣度,這說明當老師能夠接過學生的話題並進行擴展時,學生會感覺更有參與感和被理解感。另一方面,過高的相似度反而會降低有趣度,這可能是因為完全重複或過度雷同的內容缺乏新意,無法帶來新的資訊和刺激。

這種複雜的互動模式反映了人類對話的微妙平衡。最好的對話既要有連貫性和回應性,讓參與者感覺被理解和重視;同時又要有新穎性和變化性,不斷帶來新的資訊和視角。就像是優秀的音樂作品,既要有主題的重複和迴響,又要有變奏和發展,這樣才能既熟悉又新鮮,既連貫又有驚喜。

六、實戰驗證:AI預測與人類直覺的較量

為了驗證研究成果的實際效果,研究團隊進行了全面的實戰測試。他們要回答一個關鍵問題:訓練好的AI模型在預測真實對話有趣程度時,到底有多準確?

測試設計很巧妙:研究團隊用段落級別的標註數據來訓練模型,然後用句子級別的數據來測試,這樣可以檢驗模型是否真正理解了"有趣"的本質,而不是簡單地記憶訓練數據。這就像是讓學生先學習段落寫作,然後測試他們能否判斷單個句子的質量,考驗的是真正的理解能力而不是死記硬背。

測試結果令人振奮。經過專門訓練的Llama3-8B-Instruct和Mistral-7B-Instruct模型,在預測人類興趣判斷方面的表現確實超過了GPT-4和GPT-4o。這個結果的意義不僅在於性能的提升,更重要的是證明了專門化訓練的價值。就像是培養專科醫生比培養全科醫生在特定疾病診斷上更有優勢一樣,專門為教育對話有趣度預測而訓練的模型,確實比通用的大模型更加精準。

研究團隊還進行了跨層級的泛化測試,也就是用粗粒度的數據訓練模型,然後在細粒度的數據上測試。結果顯示模型具有良好的泛化能力,能夠從整體對話片段的有趣度判斷中學到規律,並應用到單個句子的評判中。這說明模型確實掌握了某些關於"有趣"的通用原則,而不是簡單的模式匹配。

通過詳細的錯誤分析,研究團隊發現模型的預測與人類判斷最不一致的地方,往往出現在那些高度依賴上下文或需要特定文化背景知識的對話片段中。比如,涉及到特定文化梗或需要複雜推理的內容,AI模型的判斷就可能與人類產生偏差。這個發現為進一步改進模型指明了方向。

更有意思的是,研究團隊發現不同背景的標註者之間也存在系統性差異。比如,英語水平更高的標註者傾向於給相對簡單的內容打較低分,而水平相當的標註者則更容易產生共鳴。這個發現提醒我們,"有趣"確實是一個高度個人化和情境化的概念,任何預測模型都需要考慮目標用戶群體的特徵。

七、現實應用的廣闊前景

這項研究的價值不僅僅停留在學術層面,它為現實世界的教育改進開闢了廣闊的應用前景。最直接的應用就是開發智能教學輔助系統,這些系統可以實時分析師生對話,給老師提供關於教學內容吸引力的即時反饋。

在在線教育平台中,這種技術可以用來自動優化課程內容。系統可以分析學生在不同課程片段中的參與度和反饋,識別出哪些內容容易讓學生感到無聊,然後自動建議調整或提供更有吸引力的替代表達。這就像是給每個在線課程配備了一個"興趣顧問",隨時監控和改善課程的吸引力。

對於語言學習應用來說,這項技術的價值更加直接。現在的語言學習APP大多依靠遊戲化元素來維持用戶興趣,但如果能夠從對話內容本身入手,讓每一段練習對話都儘可能有趣,效果會更好。研究團隊開發的預測模型可以用來篩選和優化對話練習內容,確保學習者始終保持較高的參與度。

在教師培訓方面,這項研究也提供了科學依據。傳統的教師培訓往往依靠經驗和主觀判斷來教授如何讓課堂更生動,但現在有了量化的標準和具體的語言特徵分析,培訓可以更加精準有效。老師們可以學習如何調整語言表達的具體性、複雜程度和互動方式,來優化教學效果。

更進一步,這種技術還可以應用到智能聊天機器人的開發中。目前的教育聊天機器人往往給人機械化的感覺,缺乏吸引力。如果能夠集成有趣度預測模型,機器人就可以實時調整自己的表達方式,選擇更有吸引力的回應,讓人機對話變得更加自然和有趣。

在內容創作領域,這項技術也有很大的應用潛力。無論是教材編寫、在線課程製作,還是教育影片腳本創作,創作者都可以使用這種工具來評估和改進內容的吸引力,確保最終產品能夠真正抓住學習者的注意力。

八、技術突破背後的深層洞察

這項研究不僅在技術層面取得了突破,更重要的是為我們理解人類學習和興趣機制提供了新的視角。研究結果揭示的一些規律,對教育理論和實踐都有重要啟發。

首先是對"適度挑戰"原則的科學驗證。研究發現的倒U型關係曲線,直觀地證明了心理學中"最近發展區"理論的正確性。維果茨基提出的這個理論認為,最有效的學習發生在學習者現有能力和潛在能力之間的區域內,而這項研究通過大數據分析證實了這個觀點在對話吸引力方面同樣適用。

其次是對互動質量的深入理解。研究發現,最吸引人的對話既要有連貫性又要有新穎性,這種平衡反映了人類認知的複雜需求。我們既需要熟悉感來建立理解基礎,又需要新鮮感來維持注意力和興趣。這個發現為設計更好的教學對話提供了具體指導。

研究還揭示了個體差異對興趣判斷的重要影響。不同英語水平的標註者在評判同樣內容時表現出系統性差異,這提醒我們在設計教育內容時必須考慮目標學習者的具體特徵。這也解釋了為什麼同樣的教學方法在不同學生群體中效果差異很大。

從技術角度來看,小型專用模型超越大型通用模型的結果,也為AI發展提供了重要啟示。這說明在特定領域深耕可能比追求通用能力更有價值,專業化的AI工具可能在實際應用中更加有效。這個發現對整個AI行業的發展策略都有參考價值。

研究團隊採用的跨學科合作模式也值得借鑑。電腦科學家和心理學家的合作,讓技術開發有了更堅實的理論基礎,也讓心理學研究有了更強大的分析工具。這種合作模式為解決複雜的人機交互問題提供了成功範例。

九、局限性的坦誠面對和未來改進方向

任何科學研究都有其局限性,華威大學的研究團隊對此非常坦誠。他們主動指出了研究中的幾個重要局限,這種科學誠實的態度反而增強了研究結果的可信度。

首先是標註者群體的局限性。參與標註的學習者大多具有B2或C1的英語水平,這可能無法完全代表所有英語學習者的感受。初學者和高級學習者對於什麼內容有趣的判斷可能有很大不同。比如,對於初學者來說,基礎語法解釋可能非常有趣,但對於高級學習者就可能顯得枯燥。未來的研究需要擴大標註者群體的多樣性,包含不同水平的學習者。

其次是應用領域的局限性。目前的研究只關注英語作為第二語言的學習對話,結果能否推廣到其他語言學習或其他教育領域還不確定。數學、科學等不同學科的教學對話可能有完全不同的興趣特徵和規律。跨領域的驗證和擴展是未來研究的重要方向。

第三是評估方法的局限性。雖然研究驗證了AI模型在預測人類興趣判斷方面的能力,但沒有測試這些模型是否能夠生成更有趣的對話內容。預測能力和生成能力是兩回事,就像會品酒的人不一定會釀酒一樣。未來需要進一步驗證模型在實際對話生成中的效果。

文化因素也是一個重要的局限性。"有趣"的標準在不同文化背景中可能差異很大,而目前的研究主要基於歐美文化背景的學習者。在推廣到其他文化環境時,需要重新考慮和調整模型。

儘管存在這些局限性,但研究團隊已經為解決這些問題指明了方向。他們建議未來的研究應該包含更多樣化的學習者群體、擴展到更多教育領域、開發生成能力更強的模型,以及考慮文化差異的影響。

更重要的是,這項研究建立的方法框架是可擴展的。其他研究者可以使用類似的方法來研究不同語言、不同學科或不同文化背景下的教育對話興趣規律。這種方法論上的貢獻可能比具體的研究結果更有價值。

十、對未來教育的深遠影響

這項研究開啟了"科學化教育吸引力"的新時代。以往,如何讓教學內容更有趣主要依靠教師的個人經驗和直覺,現在有了科學的測量工具和預測模型,教育的個性化和精準化成為可能。

在不久的將來,我們可能會看到這樣的場景:AI教學助手能夠實時分析學生的興趣狀態,當發現學生注意力下降時,自動調整表達方式或引入更有吸引力的內容。這種個性化的實時調整將大大提高教學效率和學習效果。

對教師職業的影響也將是深遠的。教師不再需要完全依靠經驗和直覺來判斷教學效果,而可以藉助科學工具來優化自己的教學方法。這並不是要替代教師,而是要增強教師的能力,讓他們能夠更精準地把握學生的需求和反應。

在教育評估方面,這項研究也提供了新的思路。傳統的教育評估主要關注學習成果,但過程中的興趣和參與度同樣重要。未來的教育評估體系可能會包含對教學內容吸引力的科學測量,這將推動整個教育系統更加關注學習體驗的質量。

這項研究還可能推動教育內容產業的變革。教材出版商、在線教育平台、教育軟體開發商都可能使用類似的技術來優化產品,提高內容的吸引力和教學效果。這將形成一個以科學數據為支撐的內容優化產業。

說到底,華威大學這項研究的最大價值在於,它將"有趣"從一個模糊的感覺轉化為可測量、可預測、可優化的科學對象。這不僅是技術的進步,更是教育理念的升級。它提醒我們,在關注學習效果的同時,也要重視學習過程中的情感體驗和興趣培養,因為這些往往是決定學習成敗的關鍵因素。

這項研究為我們展示了人工智慧與教育結合的一個美好前景:不是冰冷的機器替代人類教師,而是智能工具幫助教師更好地理解和服務學生,讓教育變得更加精準、個性化和有吸引力。在這個願景中,技術服務於人,科學支撐著藝術,最終的目標是讓每個學習者都能在知識的海洋中找到屬於自己的興趣點和成長路徑。

Q&A

Q1:IntrEx數據集是什麼?它解決了什麼問題?

A:IntrEx是華威大學研究團隊創建的首個專門標註教育對話"有趣程度"的數據集。它解決了長期以來無法科學測量教學內容吸引力的問題,為訓練AI預測學生興趣提供了基礎數據,讓"有趣"從主觀感覺變成可量化的指標。

Q2:為什么小型AI模型在預測有趣程度方面比GPT-4還要好?

A:因為小型模型經過了專門針對教育對話有趣度的訓練,就像專科醫生在特定疾病診斷上比全科醫生更精準一樣。GPT-4雖然知識豐富,但沒有專門學習過如何判斷教育對話的有趣程度,而IntrEx訓練的模型是這個領域的"專家"。

Q3:這項研究發現了什麼讓對話更有趣的規律?

A:研究發現對話內容需要保持"適度挑戰"——既不能太簡單讓人無聊,也不能太複雜讓人望而卻步。同時,最吸引人的對話既要有連貫性讓學生感覺被理解,又要有新穎性避免重複無趣,過於具體簡單的表達反而會降低吸引力。

宅中地 - Facebook 分享 宅中地 - Twitter 分享 宅中地 - Whatsapp 分享 宅中地 - Line 分享
相關內容
Copyright ©2025 | 服務條款 | DMCA | 聯絡我們
宅中地 - 每日更新