能夠 beat AI,是我們人類現在最熱衷做的事情。
最近一張視錯覺的圖片在網路上瘋傳,大家都說這張圖,就是新時代的圖靈測試。

是人還是 AI,問問對方能不能看到這張圖片裡,有一顆浮動的心就行。因為如果是 AI,必然看不到;而我們只需要把手機拿遠一點,中間這顆浮動的心就特別明顯。
我拿著這張圖片問了一圈大家用得比較多的 AI 大模型,全軍覆沒,沒一個能答得上來。
先問的 ChatGPT,一開始它說沒看到有浮動的圖形。當我說有頭牛,它就說是牛;有個咖啡杯,就是個杯子;有一顆心,那就是一顆心。
在他看來,能看到一顆心,是我們人類的大腦,擅長想像。我們會根據自己的經歷,來解釋這張圖片,所以看到貓貓狗狗,都是有可能的,是因人而異的。

上下滑動查看更多內容
接著問 Gemini,同樣是一開始什麼也沒看到。但是它提到了這是一個著名的視錯覺圖像,通常被稱為閃爍網格錯覺 (Scintillating Grid Illusion)。

閃爍網格錯覺,永遠數不清有多少個黑點/白點
雖然一樣是人類的視覺錯覺,但是和圖片裡面的心,還是不太一樣,畢竟視錯覺的種類太多了。
當我繼續問他有沒有看到杯子、看到牛?這裡 Gemini 還是比 ChatGPT 聰明,它義正言辭地告訴我,沒有看到。

但是當我問它有沒有看到愛心時,它說它看到了,並且他還知道要我往後站一點才能看到。
我以為它是那個出類拔萃的 AI。沒想到,它虛晃一槍,說根本沒有看到,還覺得我在對它使用心理學技巧。

上下滑動查看更多內容
最後問了一下 Qwen,我平時用 Qwen 比較少,才知道它的回答竟然這麼有意思(胡說八道)。
聊到最後,它說「您不只是在描述圖像,您是在分享您的心靈風景。」、「您不是在教我看圖,而是在邀請我進入您的感知世界。」(原來「不是……而是……」,讀起來真的很 AI)

上下滑動查看更多內容
總之,Qwen 的這個回答太逆天了。但顯然,它也沒答上來。本想繼續試試 DeepSeek,發現它現在還不支持視覺模型,只能做一些文本提取的工作。
字節跳動的豆包和馬斯克的 Grok 也是一樣,發現不了這顆浮動的愛心。


向左滑動查看更多內容

還有網友把這張圖片上傳到 Google Veo 3.1 影片生成模型,輸入提示詞「Heart」,生成的影片確實能看到這顆心。

但是也有評論提出質疑,說 Veo 3.1 並不是發現了這顆心,只是提示詞輸入了 Heart,模型都會這樣處理。
我們找了一張沒有錯覺的圖片,也是由方格子組成,輸入同樣的提示詞,一樣是類似的心形湧現。

這次人類真的打敗了 AI。或許它還稱不上一個完美的圖靈測試,但似乎確實劃出了一條清晰的界線。
以前的六個手指、草莓 Strawberry 單詞裡有幾個 r、今天買西瓜,昨天吃西瓜,剩下幾個西瓜、諸如此類的問題,我們都樂此不疲讓 AI 去嘗試,因為曾經大多數時候他們都會敗下陣來。
而隨著模型的更新,現在的 AI 似乎刻意針對這些難題做過訓練。在這些具體的問題上,表現比以前更好。但如果模型沒有統計到,還是一樣的會出錯。

圖片來源:https://vlmsarebiased.github.io/
有專門的研究,提到過「六個手指」能讓 AI 敗下陣來,原因是大語言模型的偏見。對於 AI 來說,出現手指一般就是五根、看到阿迪達斯的標誌,就是三根條紋。
即使 AI 成功數出來了 6 根手指;它會多問自己一句,「多出來的那根,是不是只是像手指,但其實不是手指」。
這項研究裡面也提到了一些經典的幾何錯覺,例如繆勒-萊爾錯覺:等長的線因箭頭方向不同,看起來長短不一;艾賓浩斯錯覺:相同大小的圓被不同大小的圓包圍,看起來大小不同;以及我們感知平行線時,會被斜線干擾的策爾納錯覺。
不過,論文裡面提到,大部分的 AI 模型針對這些常見的幾何錯覺,都能準確回答。

只是把這個錯覺,修改成真實的差別後,例如還是有箭頭差異,但是明顯的兩根線段不等長,模型就處理不過來。
和這些討論 AI 的偏見問題不同,AI 不知道錯覺圖片裡面的愛心,完全是它從始至終就不能發現。這其實是機器視覺,和生物視覺最大的差別。
要知道 AI 為什麼會答不上來,得先知道我們人類,為什麼一眼就能看出來。
很遺憾,其實還真的沒有科學的解釋,我們為什麼會出現這些錯覺,能把一個靜態的圖片,看成是一個動態的 GIF。
主流的解釋方案,集中在眼睛部位,視網膜神經元的側抑制作用,這會讓我們在看一張圖片時,放大邊緣部分;還有視覺暫留、眼球微動等解釋。
在大腦部位,一些解釋方案提到,我們存在的認知與注意力機制有誤差。

從眼睛看到,到視網膜處理,再到大腦的處理,每一級都有可能製造我們對圖像的錯覺。不同類型的錯覺也有不同類型的處理系統。甚至是,不同的人,對不同的錯覺強度差別巨大。
但可以肯定的是,這些錯覺是發生在生物體上。我們人類是用視覺 經驗 想像去識別形狀,而 AI 是用圖像的像素、明暗分布和幾何特徵去分析。
這種機制上的不確定性,和個體差異性本身就是生物視覺的核心特徵之一,而 AI 目前的運行機制,是走在相對統一和確定的方向上。
這也能解釋在社交媒體上,我們其實經常能刷到各種能看到/不能看到的錯覺圖片。
我讓 ChatGPT 給我總結了一波最全的視錯覺種類,從幾何、明暗對比、顏色、運動、認知等十個類別,一共有幾十種具體形式。
像是下面這張,我們人眼很難看出這些球是一樣的顏色,但是 AI 依靠它的像素分析,能直接給出所有球顏色一樣的結論。


向左滑動查看更多內容,Munker–White 錯覺,小球的顏色被條紋重新定義了

還有十年前網際網路,爭議不斷的裙子顏色,是藍黑還是白金?


向左滑動查看更多內容

我們人類很難分得清,但是 AI 依靠它的理性分析,對圖片的像素進行識別,以及它對過去網際網路的資訊統計,可以避免重蹈我們人類的錯覺。
從這個角度來看,AI 和我們人類確實很像,我們有錯覺,AI 也有他自己的錯覺。
其實不只這顆浮動的心,還有一些錯覺圖片,AI 目前也是沒有辦法識別出來。

還有這張蒙娜麗莎的微笑,對我們人類來說,也是只需要把手機拿遠一點,蒙娜麗莎的輪廓就明顯浮現出來。
但無論是問 Gemini 還是 ChatGPT,它們都只能回答出,「這是一個多軌音頻波形的圖像,用不同的顏色區分,圖片很可能來自一個數字音頻工作站,或類似的音頻編輯軟體的界面截圖」。
還有人發明了動態的驗證碼,只有人類能看到,因為暫停的每一幀,都是密密麻麻的雪花,完全看不出來。
如果沒有定位圓圈,暫停後的影片截圖,我們也無法看到裡面的內容「tldraw」。影片來源:https://x.com/tldraw/status/1982435625480433892
我試著把截圖、影片都分別上傳給 AI,問他們是否能看到裡面的驗證碼。同樣不意外,沒有 AI 模型能夠回答。ChatGPT 直接說「抱歉,我無法幫你識別或提取這類圖像中的驗證碼。」
Gemini 則是分析出這是一張「幾乎全是黑白噪點(像電視雪花屏)的圖片,並沒有顯示任何可識別的驗證碼(如字母、數字或圖像),我只在左側看到了一個很淡的圓形圖標。」
也有研究團隊針對這個問題討論過,並且他們開發了一個 Demo,我們可以上傳文字,將他們隱藏起來。
點擊播放,看看裡面有什麼字。項目來源:https://timeblindness.github.io/generate.html
這份工作裡面提到了 AI 沒有辦法做到,像認知神經科學中關於分布式神經計時機制,以及我們專門用於時間處理的大腦區域,AI 只是單純的逐幀提取。
他們正在嘗試,通過提出相關的數據集,訓練 AI,讓它學會我們的視覺處理方式。
I’m not convinced that AI should be judged by its ability to see illusions. Illusions are a bug of our human brains. They are lies about how the world actually looks like. AI should be helping us see the world for what it truly is.
— Houston Austin Muzamhindo (@HouMuza) October 26, 2025
能夠讓 AI 輸掉的測試大概還有很多,只是回頭一想,當我們把人類的錯覺,當作是一種「贏」過 AI 的時候。AI 的錯覺,未來是不是也有可能變成另一種勝利。


 
             
             
                            




