宅中地 - 每日更新
宅中地 - 每日更新

贊助商廣告

X

大觥科技趙彬:數字人,跨時代

2023年05月09日 首頁 » 熱門科技

大觥科技趙彬:數字人,跨時代

2021年的某一天,在亞馬遜科技組織的一個創業者圓桌論壇上,趙彬第一次遇到黃碩。

黃碩曾是螞蟻金服人工智慧部高級總監,在人工智慧,尤其是電腦視覺算法領域有著多年的開發經驗和項目管理經驗,彼時,已經創業多年的黃碩,是以一家與亞馬遜科技有著深度合作的人工智慧公司創始人的身份受邀參加活動。

黃碩當時創立的公司叫大觥科技,這一年,大觥科技剛好處於一個特殊時期——前兩年保持高速增長的圖像修復與增強業務已經相當成熟,黃碩開始尋找符合公司未來發展方向的新項目。

同樣作為人工智慧、電腦視覺領域的技術專家,趙彬當時在另一家人工智慧明星創業企業中負責著數字人項目的研發與業務搭建工作。對技術有著自己的執念的趙彬,彼時也在尋找一個有足夠彈藥和機會,尋找一個踏踏實實做事兒的公司,繼續將自己對數字人的執念進行下去。

數字人,剛好也在大觥科技的射程之內,於是,兩人就這樣你來我往地攀談起來。

同為科班出身,又有著相似的技術理念,再加上當時數字人的未知和潛力本就是一個足以令技術從業者興奮的話題,兩人相談甚歡之餘,黃碩向趙彬拋出了橄欖枝:

要不要一起做一個更酷的產品?

來自好萊塢的靈感

2022年4月1日,張國榮逝世19周年,這一天,張國榮2000年《熱·情》演唱會在網上瘋狂轉發,整個朋友圈都在懷念張國榮,懷念那個被風吹過的夏天。

這次復刻版線上演唱會除了讓人們再次懷念起一代歌神張國榮,也讓騰訊和它的多媒體影片修復技術浮出水面,據當時媒體報道,騰訊雲的相關團隊花了21天,將這場20年前的演唱會影片解析度提升了6倍,從480P提升到了將近4K畫質。

大觥科技趙彬:數字人,跨時代

成立於2018年的大觥科技,同樣是以影像修復算法起家,只不過,他們最初更多是為商業客戶提供專業影視級的影片修復解決方案,例如為新華社、中影基地、CCTV提供影像修復解決方案,並應用到國家級影像修復項目中。

實際上,大觥科技當時不只服務於中國的影視機構,也在為國際知名機構提供影像修復解決方案,一次,黃碩出差美國在為好萊塢某個項目奔忙時,一位好萊塢專業電影製片人向黃碩提了一個問題:

你們有這麼棒的技術,為什麼不把它用在街頭,讓大家都用起來呢?

商機往往就這樣來自於旁觀者的奇思妙想。

於是,大觥科技開始嘗試將專業影像處理技術應用到消費端,準確地來說,他們將這些「高階」算法封裝到了一款手機APP中。

2019年,大觥科技製作的這款圖像增強APP在海外上線,當時他們只是抱著試一試的心態,沒有想到的是,這款產品市場反響出奇地好,上線不到一年時間裡,用戶註冊數就從0增長到了1.2億。

後來大觥科技內部復盤這次產品成功的關鍵時,總結了以下三點:算法獨一無二、效果直觀明顯、成本足夠便宜。

說是三點,其實也可以歸結為一點,也就是出色的AI算法研發與工程化能力。

2019年,語音識別、電腦視覺在商用領域已經有所突破,智能音箱出現在普通人的家庭,安防攝影機甚至在張學友的演唱會上還幫助警察抓到了逃犯,但這還遠談不上什麼智能。據趙彬回憶,「當年的深度學習、神經網路算法還沒有那麼先進,開箱即用的AI算法依然稀缺,算力成本也比較高,不像現在,有很多成熟好用的算法可以直接調用。」

趙彬認為,AI算法大爆發,實際上是在2022年。

也是在這一年,大觥科技的老舊照片修復業務日漸成熟,他們也開始尋找新的業務方向。

用一個時髦的說法是,那時的他們需要尋找自己的「第二增長曲線」。

初識數字人

2020年,抗疫成了全球主色調,潛藏在疫情之下的,還有全球經濟衰退,尤其是伴隨著網際網路流量增速放緩、廣告營收下降,網際網路經濟也再次進入萎靡期。

面對這樣的大環境,以及企業自身的增長壓力,全球網際網路企業都開始尋找新的「增長曲線」,在這個過程中,兩大新興產業開始甚囂塵上,一個是元宇宙,另一個則是Web3。

元宇宙在隨著全球網際網路巨頭Facebook更名為Meta進入白熱化狀態後,2021年也被稱為元宇宙元年,這時,隨著一同跨入「元年」的,其實還有功能同樣炫酷但更容易落地的數字人。

2021年6月,騰訊虛擬數字人星瞳開始嘗試在B站直播;2021年9月,華為首個虛擬數字人「雲笙」上線併入職華為雲;2021年9月,阿里宣布超寫實數字人AYAYI入職阿里,成為天貓超級品牌日數字主理人;2021年11月,百度超寫實數字人龔俊在百度APP上線……,數字人這一年紛紛在網際網路大廠入職上崗。

大觥科技趙彬:數字人,跨時代

在網際網路巨頭集中發力下,在各地政策、扶持基金的共同推動下,數字人迅速井噴。

當年虛擬數字人被熱捧到一個怎樣的誇張程度?

據中國電子學會統計數據顯示,2021年國內數字人相關企業融資共有2843起,融資金額達2540億元。另有數據顯示,2021年我國僅僅是新增虛擬數字人企業就超過了6萬家。

在數字人井噴式增長的同時,這一年,數字人也在經歷著需求不明和全民吐槽。

花上百萬元做出一個數字人後,不知道如何用數字人開展業務的企業在這一年比比皆是,而拋開各種穿模、肢體僵硬、頻頻卡死數字人不談,這一年在網路上紅極一時的數字人博主柳夜熙,僅僅製作費就已經是百萬元級,就連第一條短影片成本也要幾十萬元。

這樣的數字人,顯然無法做到「人均一個數字人」。

在數字人席捲中國的這一年裡,趙彬正在一家人工智慧明星創業企業裡帶隊研發虛擬數字人,推動數字人在實際場景中應用落地。

趙彬告訴至頂網,「當年的數字人分為2D數字人和3D數字人,2D數字人圈內也叫紙片人,當時大家看了這類數字人除了做虛擬迎賓、虛擬主播,也幹不了別的事兒。」

「直到星瞳、AYAYI這類3D超寫實數字人出現後,我們發現,它的表現力很強,既可以自由地在 3D 空間中移動,也可以做出非常流暢的動作,還可以與其他數字人、場景及商品進行互動,超寫實的數字人無論是在美感上,還是質感上,都已經能夠打造成獨立的 IP 形象應用於文化傳播、直播帶貨、虛擬社交等。」

大觥科技趙彬:數字人,跨時代

3D數字人的出現,讓像趙彬這樣的技術從業者興奮起來,也讓他們更確定了數字人的價值和意義。

不過,趙彬真正著手研發3D數字人,還要再晚一年。2022年,趙彬接受了黃碩的邀請,加入大觥科技,並於這年3月在大觥科技正式啟動了3D數字人項目。

3D世界的「學費」與「路費」

2022年,當大觥科技正式啟動數字人項目時,最初選擇的是一條最為艱辛的路。

通過Maya或3DMax根據手繪圖、立繪圖、三視圖進行建模,是動畫、影視行業最常用的一種建模方式,也是最成熟的一種建模方式,這一方式,同樣延續到了後來3D數字人的建模中。

作為行業中的「新人」, 大觥科技需要親歷整個過程,才能了解數字人製作各個環節中涉及到的技術和知識,也只有掌握了這些基礎知識,才能更精準地進行技術選型與開發疊代。

然而,讓趙彬沒有想到的是,以此方法,僅僅研發第一個數字人,大觥科技花了整整三個月。

談到這個數字人,趙彬用了一個很形象的詞——「雕」來形容開發過程。

「我們首先需要雕出一個數字人,之後還需要為她雕衣服、雕頭髮、做綁定,中間涉及到大量的修改、優化與重做,一個細節修改通常要花幾天到幾周的時間,整個過程往往需要花費2-3個月的時間,成本則是在幾十萬到上百萬不等。」

大觥科技趙彬:數字人,跨時代

當時大觥科技用3D建模方式做出的數字人效果已經很不錯,也有一些B端用戶提出了這樣的需求,但在評估了盈利模式後,他們最終還是放棄了這條技術路線。

「一個數字人做3個月,我們自己的團隊一年也就只能做出4-6個數字人,無論是從投入成本還是研發周期來看,我們都無法接受。」趙彬如是說。

不過,這次的研發經歷讓趙彬和他的團隊親身實踐並學到了很多基礎知識和技術能力,用趙彬的話說就是「弄明白了3D世界是怎麼玩的」。

除去3D建模方式,業界還有三種主流數字人構建方式:相機陣列、掃描和手機自拍。

相機陣列多用於遊戲製作場景,具體是在一個房間中,通過在房間各個方位布設的專業相機,對進入房間的人進行環拍,並基於此建模,製作數字人。

這一模式存在兩個問題,首先是拍攝完生成的數據需要進行二次處理,建模時間依然需要很久,最重要的是,其中使用的專業相機動輒幾萬、十幾萬。據悉,騰訊遊戲團隊購置的空間掃描的整套設備一套就要2000多萬。

此外,掃描方式同樣存在類似的問題。

因而,要想造出大家都能用得起的3D數字人,通過「手機自拍」就成了最適合的模式。

在選定使用「手機自拍」這一模式後,大觥科技逐漸摸索出一條屬於自己的技術路線,據趙彬介紹,大觥科技現在通過3-4秒的自拍影片或者幾張不同角度的照片,就可以在幾分鐘內快速生成一個人3D數字人形象。

大觥科技趙彬:數字人,跨時代

與此同時,在前期調研中,趙彬還發現,當時市面上很多開源解決方案並沒有解決語音與數字人模型匹配的問題。

「一是中文口型不夠自然,二是面部表情不夠豐富,只有嘴動、面部沒有動。」

趙彬認為,這些都將會成為大觥科技數字人後續商業化道路上的障礙。於是,在研發數字人的過程中,趙彬和他的團隊基於主流的蘋果ARKit blendshape 52同步研發了一套語音與數字人進行模型匹配的算法。

由於這是大觥科技基於行業標準做的一套標準算法,而且當時在行業中也有稀缺性,這套算法後來也被一些做短影片內容生成的企業採購用於解決他們3D數字人的口型驅動問題。

至於數字人的商業應用場景,大觥科技最先找到的是電商直播。大觥科技第一代3D數字人在2023年2月正式落地到一家跨境電商的直播場景中,通過引入大觥科技的3D數字人,這家跨境電商的營收增加了數十萬美金。

也是在這次合作中,趙彬意識到,他們的數字人,需要繼續加速疊代。

數字人的3D時刻

2023年,ChatGPT的出現震驚了全世界,ChatGPT背後的AGI(通用人工智慧)也開始在各行業中形成蝴蝶效應。

這時,數字人這個本就歸屬於人工智慧產業中的一個細分領域,也難免會受到「波及」,更準確地來說,應該是加速了數字人產業的進程。

據趙彬觀察,今年數字人產業會發生兩個大的變化:

一個是stable diffusion ControlNet Mov2Mov,再加上一些新的類D-ID人工智慧技術,將會引發新一輪2D數字人產業變革;

另一個是數字人與GPT結合已成必然趨勢。

趙彬說,他現在已經在用ChatGPT寫代碼了。

「之前把一個複雜的C#代碼轉成C 是一件費時費力的事兒,轉成C 還需要查語法,重新寫代碼、調BUG,現在我只需要把C#代碼扔給ChatGPT,它就可以幫我把代碼翻譯成C 版本,之後再稍微花些時間進行調試就好了,比傳統方法省時省力很多。」

更重要的是趙彬和他的團隊已經在針對數字人與GPT的結合進行著緊鑼密鼓的技術研發。

趙彬說,對於用戶而言,數字人的使用實際上是通過一套SaaS軟體來實現的——用戶通過將商品資訊錄入資料庫,數字人就可以按照商品排列順序,進行24小時直播。

在大觥科技第一代數字人中,用戶還需要將商品資訊以文字形式錄入資料庫,趙彬和他的團隊現在正在做的是通過引入ChatGPT,直接由ChatGPT生成商品介紹,此外,GPT 還可以提供內容的改寫、翻譯、縮擴容等功能,可以根據不同的使用場景調整語言語義表達,數字人直播過程中的背景圖,也可以直接由AIGC生成並接入到直播影片中。

針對數字人電商直播場景,趙彬和他的團隊也在思考如何補齊數字人在交互能力上的短板。

趙彬告訴至頂網,大觥科技正在為第二代數字人加入問題回復能力。

具體而言,通過後台服務監聽直播間的彈幕資訊,針對諸如出貨、物流、倉儲周期等同類問題進行智能匯總,並通過ChatGPT的PDF檢索能力及私有化知識庫訓練,數字人就可以從大觥科技為商家構建的本地知識庫中提取出相應內容,在介紹下一個商品前做統一回復。

2023年,隨著ChatGPT爆火,AGI成了科技巨頭的新寵,作為舊寵的數字人開始趨於理性,大家更多開始思考數字人能為業務帶來怎樣的提升,也對數字人提出了更接地氣的需求。

趙彬經歷了數字人最狂熱的年代,也參與了大觥科技數字人從0到1的構建,他判斷,2023年會是3D數字人的元年,數字人在這一年將真正跨越2D時代。

而這一年數字人產業的巨變、3D數字人的「量產」,也將讓我們離「人均一個數字人」的時代更近一步。

宅中地 - Facebook 分享 宅中地 - Twitter 分享 宅中地 - Whatsapp 分享 宅中地 - Line 分享
相關內容
Copyright ©2025 | 服務條款 | DMCA | 聯絡我們
宅中地 - 每日更新