
「人類文明有五千年歷史,地球生命史長達幾十億年,而現代技術是在三百年時間內發展起來的,從宇宙的時間尺度上看,這根本不是什麼發展,是爆炸!」
這段話出自知名科幻作品《三體》,作者劉慈欣以他的「技術爆炸」理論,引出了三體人與地球人之間的核心矛盾——猜疑鏈,並由此延展出了更多的奇思妙想,編織出了一部壯闊的宇宙史詩。
《三體》的故事發生在近未來,這些天馬行空的科幻概念理應與2023年的我們隔著一段遙遠的距離。不過事實是,在過去的半年裡,真正意義上的技術爆炸與猜疑鏈,其實已經悄然而至。一方面,AI繪畫正在以前所未有的進化速度席捲世界,每隔幾天都會出現全新的技術探索;

另一方面,畫師圈人心惶惶,在集體抵制AI的大背景下,誰也不知道螢幕那頭的畫作是否出自AI之手。網路上的「賽博獵巫」愈演愈烈,AI與畫師之間的戰爭至今仍未平息。

同人二創平台Lofter近日上線的「AI頭像生成器」功能惹惱了大量用戶
AI繪畫能有如今的成果,很大程度上歸功於去年8月大範圍傳播的SD(Stable Diffusion,穩定擴散模型)的開源屬性,自SD公開之後,大量基於該模型的全新AI模型應運而生,開放共享的網際網路精神加速了行業的發展進步,用「日新月異」一詞來描述這個領域的近況再合適不過。

國內知名度較高的NovelAI同樣基於SD模型
在這股科技浪潮之中,上一次破圈的熱點話題正是半個月前紅極一時的「賽博COSER」,當時的 AI訓練師們模糊了現實與幻想的邊界,以難辨真偽的寫實風格讓一眾網友重新認識到了AI的實力。
這其中,科技博主「勘雲工造」創作的一系列作品尤為突出,由他訓練而成的AI COSER不僅在國內的社交媒體瘋狂刷屏,更在日本引起了熱議,一時之間,AI繪畫的相關話題再次登上了熱門,成了每個人都在關注的話題。



勘雲工造的AI COS作品在日推引起波瀾
但與此同時,這項新興技術同樣也背負著與生俱來的爭議——版權。AI繪畫不可避免地借鑑了海量畫師苦練多年而成的畫風,未經授權的AI訓練總會讓畫師群體產生本能的厭惡與反感。在整個世界建立起一套可供參考的法律標準之前,圍繞著AI繪畫數字版權的爭議恐怕不會停歇。
現在AI繪畫的「技術痛點」是什麼,今後又該朝著哪個方向發展;AI作品的版權該怎麼界定, 創作者的權益又要如何保證……在AI繪畫相關話題持續霸榜的今天,這些問題成為了迷霧中的重點。
帶著這些問題,我們採訪到了前文提到的AI COSER創作者「勘雲工造」,與他聊了聊AI繪畫的現狀與未來。
以下是採訪正文:
我們:「勘雲工造」這個賬號現在算是小有名氣了,請問這次火出圈有對自己產生了什麼影響麼?
勘雲工造:感覺有一點責任感了,畢竟我也算傳播推廣者,目前正在編寫AI繪畫的教學,只是寫的東西不如AI的技術疊代快。我還打算做一些關於未來前景的分析探討,很多人擔心的不是科技進步,而是擔心科技進步能否讓他們的生活變得更好,所以我堅持AI開源,技術共享。
我們:你大概是什麼時候開始關注AI繪畫的呢?當時對AI繪畫這項新興技術有什麼看法嗎?
勘雲工造:AI也算是一種技術嘛,只要是科技相關的內容我都有興趣。我大概是去年三四月份開始接觸AI繪畫,當時申請了DALLE·2的試用。那個時候覺得生成類AI都挺有意思的,會在未來幾年內改變傳統行業,但沒想到AI的進步會這麼快。

OpenAI於去年4月推出的DALLE·2,基於擴散模型,自此text2image(文字轉圖像)技術開始廣為人知
我們:的確,AI的進步速度遠超大家想像。所以你這段時間在持續不斷地跟進AI繪畫技術的進步嗎?還是說中途暫時離開了這個領域?
勘雲工造:我在NovelAI推出後暫時放下了相關研究,因為覺得AI的增速太快了,不如等一段時間再看看,說不定我現在花很多時間才能實現的效果過幾個月可以輕鬆實現。LoRA推出的時候我感覺機會到了,於是重新返回了這個領域。

LoRA,AI模型訓練之一,能方便快捷地固定畫風、角色、動作等細節,賽博COSER的實現正是基於此技術
我們:這些「賽博COSER」選取的角色是出於興趣,還是有技術上的考量?是否會出現特定角色設計更有辨識度因此更容易生成的情況?
勘雲工造:個人興趣占比較大,從技術上來說也是有挑戰性的,因為需要針對每個角色訓練單獨的LoRA模型,每個模型根據訓練的情況,使用的效果也各不相同,基本上換個模型就要從頭調整參數。由於我訓練的模型比較少,碰到過最難的部分可能還是細節處理方面,比如手指,但是現在已經有新技術保證手指可以不出問題了。
我們:在解決了AI的「一生之敵」手指問題之後,今後的AI繪畫還可能在哪些有待改善的方向繼續進化?
勘雲工造:主要是三個方向,AI的基礎性能、可操作性,以及模型訓練方式。
其中,AI的基礎性能需要等待算法、採樣器的進一步研究發展,畢竟這是AI生成圖片的底層原理,能從根本上改變出圖的效果和效率;
可操作性是指找到讓AI可以徹底被控制的方法,就像車的方向盤,可操作性不強的話AI就只能停留在隨機出圖的玩具層面,沒法加入工業化流程。實際上現在以Controlnet為基礎開發出的很多操作方式都非常牛逼,除了之前的骨骼識別、邊緣檢測、深度檢測等功能,目前最新的seg語義控制的表現也很優秀;

新晉AI繪畫插件Controlnet,能大幅優化細節部分的處理與把控,大家普遍認為這是全新的技術突破
Seg插件通過色值綁定語義,然後直接在畫面里構圖來指定不同地方的組成元素。


我們:這是否可以理解為,AI的下一個進化方向是從娛樂性較強的出圖軟體,變成指向性更高、效率更高的工具?
勘雲工造:AI本身就應該是工具,沒有人操控的AI沒有意義。而且通過構建人機閉環系統,AI的效率能成倍提高,由AI進行重複作業,人來指定總體方向是理想狀態。
我們:所以你自己如何看待網際網路上鼓吹的「AI即將取代繪畫從業者」之類的論調呢?
勘雲工造:AI不會取代人,只有人才會取代人。說白了AI就是個高級點的PS。我認為在AI的使用中,人機閉環系統的建立是最重要的過程,哈佛商學院的標誌性刊物《哈佛商業評論》近年對大約1500家大型企業進行了調研,最後得出的結論是相比於只靠人或者只靠AI,只有人和AI合作才能最大化地提升效率。

2018年《哈佛商業評論》通過對12個行業的1075家公司的調查,發現這些公司對AI與人類的合作越是重視,他們的工作效率、成本節約、收入或其他運營措施方面的表現就越好
畫師其實才是AI的最佳使用者,畫師不但具有長久鍛煉得到的審美,而且可以直接在基於高度定製化生成的圖片上進一步修改,再把修改後的圖片傳回AI進行重新生成。AI的疊代與進化必須要由人類來引導方向,否則無法實現對於人類的價值。
我們:但是就如同很多工具一樣,工具的使用方式有時候也會引來爭議,例如目前受人追捧的幾個真人模型,由於熱度太高,作者擔心產生法律糾紛,於是乾脆將模型的所有權轉交給了平台方。請問你對AI畫真人存在的倫理道德問題以及潛在的違法問題怎麼看?
勘雲工造:AI畫真人是擺在檯面上的違法問題。對於各種犯罪,國家早就有比較周全的規定,比如用AI換臉很明顯是侵犯肖像權,這方面可以參考去年國家出台的《網際網路資訊服務深度合成管理規定》。

我認為這個問題的關鍵點不在於真人,而是做出來的人在現實中存不存在。AI一直都是做寫實風格的,直到去年NovelAI開始興起後才有人做二次元,只做二次元雖然可以規避肖像權風險,但也相當於自斷經脈了。而且做二次元的爭議完全不比寫實風格的要少,AI的問題在於數據來源的合法性,寫實類的數據源是照片,二次元的是畫作,後者在版權上的爭議還更大些。
我們:AI繪圖的版權糾紛確實是長期站在風口浪尖的話題,美國版權局在最近明確聲明AI製作的圖片不受版權保護,請問這算是為行業設立了可供參考的法律標準嗎?
勘雲工造:如果使用PS製作一張米老鼠的圖片並盈利,迪士尼會起訴圖片的使用者而不是Adobe公司,同理如果使用AI進行侵權行為,被侵權者直接起訴圖片的使用者才是合適的做法。
美國版權局的聲明是針對去年9月圍繞著Midjourney產生的一起版權保護申請案。當時Midjourney產出的圖片基本還是半隨機生成的,AI的部分遠大於人工部分,沒有今天的可操作性。如果AI的可操作性完善了,或者說AI幫助了作者更好地實現自我表達,那麼AI的版權問題可能會被重新定義。

美國版權局近日表示,AI繪畫工具Midjourney製作的一部漫畫中的插圖不受版權保護,因為作者只為AI繪畫工具提供文本提示(輸入關鍵字),並非最後生成圖像的「主腦」(Master Mind),不能算是創作者
只不過,未經授權將他人創作的圖片用於AI的i2i(image2image,圖像轉圖像)這一行為,需要整個行業的抵制。i2i洗稿跟用寫實模型換臉其實是同樣的性質,現在很多人指責AI抄襲然後放疊圖對比,就是因為有人用i2i來洗稿才會敗壞風氣。有些模型會跑出跟訓練素材一模一樣的圖,實際上這是一種過擬合現象,證明這個模型是失敗的。

i2i技術會在圖片生成階段疊一張底圖控制AI的創作方向,很容易形成相似度過高的「抄襲」行為
我們:想問問以你的視角來看,距離AI具備真正的「創造性」還有多遠?
勘雲工造:要看怎麼定義創造性了。如果說創造出現實中不存在的東西,比如半貓半狗,AI很輕鬆就可以做到;如果說是在藝術上的突破,那AI也只是對作者意識的投射,上限取決於作者的審美,因為科技進步不會推動審美進步。
我們:最後請展望一下AI繪畫的前景吧。
勘雲工造:首先,AI在小說行業可以廣泛使用廉價高質的插畫來提供更具視覺衝擊力的閱讀體驗。讓小說能夠更加全面的滿足讀者的需求,提高文學作品的傳播率;
其次,AI在動畫和漫畫行業可以優化工作流程,使用AI輔助製作原畫和中割。這將顯著減少製作動畫的時間和成本,並為創作者提供更多的時間去優化故事情節和角色表現,提高作品的質量和文化價值;
另外,AI在遊戲和電影行業可以輔助製作各種美術資產生成和自動建模,實現高效低費的產出。這將加速遊戲和電影的開發速度,同時也使得更多的遊戲和電影可以被製作和推廣,豐富了人們的文化娛樂生活。
AI的出現有助於解放人類的創造力,使人們不再受制於資本異化的束縛,更多地關注於個人的興趣和創造力。我認為在可預見的未來,將會有更多優質文化產品誕生。
結語
採訪結束後,勘雲工造給我們發來了一份3000字的文章,詳細闡述了他對AI繪畫的見解。受限於篇幅,我們稍作整理,從中挑出了幾條最有價值的觀點。
AI繪畫的原理:
目前主流的AI工具都是基於擴散算法的生成類AI。在模型訓練階段,AI會對訓練目標圖片其添加噪點並進行編碼,使作品進入一個「圖像資訊空間」。在訓練和生成的過程中,AI使用擴散概率模型來處理圖片,它的基本原理是通過從若干隨機樣本中學習來生成新的樣本,舉個例子的話,就是在一個裝有很多蘋果的籃子裡隨機挑選蘋果,然後再挑選一個比之前更大的蘋果,這個過程重複的越多,你挑出籃子中最大蘋果的概率也就越高。
不同於人類作畫的起點是從無到有,即逐漸增加顏色形成圖像。AI作畫是從有到無,從一個由噪點組成的圖像中不斷去掉無關的噪點,定向降噪直至保留最終目標圖像的過程。

擴散模型的原理示意圖,AI繪畫的本質其實是數學問題,將畫風轉換為公式,再通過解算公式獲取相似的像素排列方式
AI創作相關法律落實有何難點:
從原理上來說,AI學習的過程和人類學習沒有太多的本質區別,同樣是從瀏覽大量圖片並且模仿開始,只是效率超出了人類無數倍。而從法律角度出發,法律的落實首先要考慮可執行性,現有手段已經無法分辨部分經過修改過的AI作品與人類作品之間的區別,隨著技術發展只會更難分辨。假如認定AI參與工作流的作品均無版權,表面是維護版權,實際是在支持更廣泛的侵權行為,因為侵權方只需要聲稱侵權作品是AI生成,即可侵害任何人的版權。
為了防止被大家認為是個天真的理想主義者,勘雲工造叮囑我們為文章加上兩個必要的前提:首先 AI 作為一項技術,在問世後便無法被消滅,目前開源後全世界至少有上百萬本地備份;其次是生產力和生產關係的問題,當生產力突破生產關係的限制時,必然需要新的生產關係來適配。
作為人類使用的繪圖工具, Al 如今面臨的問題早已超出了單純的「科技」範疇,圍繞著這項新興技術產生的矛盾與爭議,並非一篇文章能說得清道得明。勘雲工造會在今後將他的思考與理解分享出來,想進一步深入探討AI 前景的朋友,可以持續關注 AI 繪畫今後是否還能跟得上時代與法律的變革和衝擊。