目前,虛擬人、數(shù)字人、虛擬數(shù)字人,這些與數(shù)字人有關(guān)的術(shù)語,在網(wǎng)絡(luò)上非常流行。 8月18日,明星龔俊數(shù)字人出現(xiàn)在百度與央視新聞聯(lián)合舉辦的“百度世界大會2021”上,并且上了熱搜。
今年5月,香港雀巢咖啡推出了新的虛擬代言人“Zoe”,并發(fā)布了名為《Re/Imagine》的品牌宣傳視頻。Zoe 也是香港一個由品牌創(chuàng)建的虛擬代言人。
香港雀巢咖啡虛擬代言人“Zoe”
屈臣氏也在5月份推出了X蘇打汽水廣告,由虛擬偶像imma作為其虛擬代言人。imma由日本公司AWW制作并運營。事實上,imma還有幾個兄弟姐妹。
屈臣氏X蘇打汽水虛擬代言人imma
同樣在5月,代號為“AYAYI”的超寫實數(shù)字人在社交平臺上走紅。它在小紅書上發(fā)表的一篇筆記獲得了近300萬次觀看,近10萬點贊,一個晚上,它擁有近40,000名粉絲。
AYAYI
虛擬人、數(shù)字人、虛擬數(shù)字人有什么區(qū)別?這些術(shù)語目前還沒有標準化和統(tǒng)一的定義。在這篇文章中,小編試圖從字面上、技術(shù)上以及強調(diào)的目的幾個方面來闡明它們的定義和它們之間的關(guān)系。討論其定義和關(guān)系的意義在于對數(shù)字人領(lǐng)域進行規(guī)范化和標準化,從而在交流過程中傳遞準確清晰的定義,建立統(tǒng)一的認知,更有利于行業(yè)發(fā)展。
名詞歷史
從歷史上看,醫(yī)學(xué)研究領(lǐng)域是最早使用虛擬人這些名詞的——20世紀80年代起,人類醫(yī)學(xué)開始針對人體結(jié)構(gòu)、生理反應(yīng)和物理反應(yīng)發(fā)展數(shù)字化模擬技術(shù),并發(fā)起了一系列針對人體的研究計劃。包括人類基因組計劃(human genome project,HGP)、虛擬人類計劃(virtual human project,VHP)、可視人類計劃(visible human project,VHP)和人類大腦計劃(human brain project,HBP)。21世紀初,美國科學(xué)家聯(lián)盟(FAS)基于上述計劃成立了數(shù)字人聯(lián)盟。目標是實現(xiàn)對DNA、蛋白質(zhì)、細胞、組織、器官、系統(tǒng)以及整個生命運作機制的精確模擬。
恰巧日本在1982年以《超時空要塞》中的林明美角色為基礎(chǔ)包裝了一位虛擬歌手,她的專輯成功進入了當(dāng)時的知名音樂排行榜。
《超時空要塞》角色林明美
1984年,英國創(chuàng)造了一部以Max Headroom的虛擬人物為主角的短片。播出后非?;鸨?,播出期間節(jié)目的收視率翻了一番。
Max Headroom
2007年,日本克理普敦未來媒體推出了虛擬歌手初音未來,一經(jīng)推出便大受歡迎。自推出以來,其創(chuàng)作熱度一直持續(xù)至今??梢哉f,初音未來打開了虛擬人創(chuàng)作的大門。
初音未來
2019 年,視覺特效公司的軟件研發(fā)負責(zé)人 Doug Roble 博士在 TED 演講中實時展示了由他的表演驅(qū)動的數(shù)字化身 Digi Doug。
Doug Roble在TED演講中演示Digi Doug
與醫(yī)學(xué)研究的目的不同,本文中提到的虛擬人、數(shù)字人、虛擬數(shù)字人的目標是通過計算機圖形(CG)技術(shù)創(chuàng)造出接近人類圖像的數(shù)字化形象,并賦予其特定的 角色的身份設(shè)定,在視覺上拉近與人的心理距離,為人類帶來更真實的情感互動。
虛擬人
網(wǎng)絡(luò)上流行的虛擬網(wǎng)紅和虛擬主播被稱為虛擬人。之所以稱為虛擬,一是因為角色的身份是虛構(gòu)的,在現(xiàn)實世界中并不存在,比如在Instagram上擁有超過300萬粉絲的熱門虛擬網(wǎng)紅莉爾·米克拉,她虛構(gòu)的身份設(shè)定是生活在洛杉磯的一名19歲女生。
Lil Miquela
如果身份是虛構(gòu)的,那么電視劇或電影中人類演員扮演的角色也可能是虛構(gòu)的,但人類角色不能稱為虛擬人,第二是因為虛擬人在現(xiàn)實世界中沒有身體,它是通過計算機圖形技術(shù)虛擬化的。虛擬人的本體存在于計算設(shè)備(如電腦、手機)中,通過顯示設(shè)備呈現(xiàn)出來,使人可以通過眼睛看到。
第三點是它具有人類的外觀和行為模式。虛擬人具有人體的外觀和結(jié)構(gòu),表現(xiàn)出的行為模式與人相似。虛擬人的影象通常呈現(xiàn)出某種人類活動。例如,初音未來的角色設(shè)定是一名 16 歲的歌姬,生日是8月31日,她身高和體重分別為158cm和42kg,擅長流行歌曲、搖滾音樂和舞蹈。網(wǎng)上流傳的初音未來的圖片和視頻,主要是歌舞類型。
數(shù)字人
“數(shù)字人”一詞來自英文Digital Human。中文翻譯為“數(shù)字人類”,簡稱數(shù)字人。目前,數(shù)字人還沒有統(tǒng)一的定義。之所以稱其為數(shù)字人,是強調(diào)它存在于數(shù)字世界中。數(shù)字世界是人類設(shè)計的在計算設(shè)備上運行的代碼和數(shù)據(jù)。它是運行在計算設(shè)備上的程序。數(shù)字世界的底層操縱著0和1這樣的數(shù)據(jù)。與人類的物理世界相比,物理世界是真實的,數(shù)字世界是虛擬的。數(shù)字人基本符合虛擬人的第二、三項特征。略有不同的是,數(shù)字人的身份可以根據(jù)現(xiàn)實世界中的人物進行設(shè)定,外貌也可以完全一致,按照真人還原制作的數(shù)字人也可以稱為數(shù)字孿生,比如數(shù)字王國制作的 Digi Doug。
數(shù)字王國軟件研發(fā)主管Doug Roble的照片和其數(shù)字孿生渲染圖的對比
虛擬人與數(shù)字人,如果虛擬人的定義摒棄了一項虛擬身份設(shè)定的要求,強調(diào)他們存在于虛擬數(shù)字世界的性質(zhì),那么和數(shù)字人就沒有區(qū)別。
虛擬數(shù)字人
中國人工智能產(chǎn)業(yè)發(fā)展聯(lián)盟總體組和中關(guān)村數(shù)智人工智能產(chǎn)業(yè)聯(lián)盟數(shù)字人工作委員會發(fā)布的《2020 年虛擬數(shù)字人發(fā)展白皮書》(以下簡稱“數(shù)字人白皮書”)中對虛擬數(shù)字人的描述是:
與上述醫(yī)療領(lǐng)域的數(shù)字化人體不同,本文所分析的虛擬數(shù)字人(以下簡稱“數(shù)字人”)是指具有數(shù)字化外形的虛擬人。與具備實體的機器人不同,虛擬數(shù)字人依賴于顯示設(shè)備而存在。虛擬數(shù)字人應(yīng)具備以下三個特征:一是擁有人的外觀,具有指定性別、外貌、性格等人物特征;第二,擁有人的行為,具有用語言、面部表情和肢體動作表達的能力;三是擁有人的思想,具備識別外部環(huán)境,可以與他人交流和互動的能力。
數(shù)字人白皮書中對“具有數(shù)字化外形的虛擬人物”的描述,強調(diào)了虛擬人物的性質(zhì)。,關(guān)于虛擬人物的定義,沒有解釋。百度百科對虛擬人物的定義是:
虛擬人物是指現(xiàn)實或歷史中不存在的人物。它可以存在于電影、電視劇、游戲、漫畫等創(chuàng)作作品中虛構(gòu)的人物。
根據(jù)百度百科對虛擬人物的定義,那么數(shù)字人白皮書中描述的虛擬數(shù)字人是對上述虛擬人描述的延伸。除了外表和行為,還增加了思想和交流互動的部分, 如果嚴格按照上述各定義的特征要求,數(shù)字人的范疇包括虛擬人,虛擬人的范疇包括虛擬數(shù)字人。
現(xiàn)在來看,大多數(shù)虛擬數(shù)字人不具備思考能力,他們與外界的交互大多是通過人工操作,比如虛擬主播。目前通過人工智能技術(shù)提供的交互能力,其能力與人力幼童相比也是非常初級的。主要是因為目前人工智能的智能水平還比較低,能做的事情非常有限。對此,用過智能音箱的朋友應(yīng)該都深有感觸。無論是小度、小愛同學(xué)、天貓精靈,他們都只能針對一些句式問題給出有效的答案。
虛擬數(shù)字人是否必須滿足數(shù)字人白皮書中描述的三個特征并不直接——“應(yīng)該為宜具備”。宜是一個多義詞。作為形容詞有“合適”的意思,作為動詞有“適合于”的意思,作為助動詞有“應(yīng)當(dāng)”和“應(yīng)該”的意思,但在現(xiàn)代漢語中是主要用作否定詞(不合適)。這里應(yīng)該理解為助動詞“應(yīng)該”比較合適語境,即“數(shù)字人應(yīng)該具備以下三個特征”,即不要求必須具備,只是期望具備。在不要求思考、交流和交互能力的前提下,虛擬人與虛擬數(shù)字人是等價的,虛擬數(shù)字人強調(diào)虛擬身份和數(shù)字化制作特性。
對于不要求必須具備交流互動能力,,數(shù)字人、虛擬人和虛擬數(shù)字人這三個概念可以認為是等同的。網(wǎng)上很多文章指的是這個級別的定義,三者經(jīng)常被混淆使用。嚴格來說,上述對數(shù)字人的定義范圍更廣,后文使用“數(shù)字人”一詞來進行討論。
2D數(shù)字人與3D數(shù)字人
2D是指幾何中的二維,而3D指的是幾何中的三維。2D是平面空間,3D是立體空間。2D數(shù)字人與3D數(shù)字人的區(qū)別不僅體現(xiàn)在視角上,還體現(xiàn)在制作技術(shù)上。從呈現(xiàn)的角度來看, 2D數(shù)字人只能從單一的角度進行瀏覽。一般來說,視角是在生產(chǎn)過程中確定的,用戶不能自行改變視角。但3D 數(shù)字人可以從任意視角進行瀏覽。至于是否開放視角供用戶自己調(diào)整,由產(chǎn)品制作團隊根據(jù)產(chǎn)品設(shè)定來定義。目前大部分顯示設(shè)備都是2D的,很多3D作品也是2D呈現(xiàn)的。比如科幻動作片《阿麗塔:戰(zhàn)斗天使》是3D制作的,影院同時放映2D和3D版本。但即使是3D版也只能有立體效果,無法調(diào)整視角。在制作技術(shù)上,3D數(shù)字人需要制作三維立體模型,2D數(shù)字人則不一定需要。為什么沒有必要,因為傳統(tǒng)的制作方式一般直接做2D圖像即可,而新的趨勢也有使用制作3D模型渲染成2D圖像的方法來制作。
照片寫實數(shù)字人
數(shù)字人的外觀風(fēng)格可以有多種類型,通常由藝術(shù)家定義,如卡通、寫實等。在3D數(shù)字人方向,特別強調(diào)外觀和動作看起來非常逼真,渲染效果達到很難區(qū)分是照片還是渲染圖的程度??梢苑Q之為照片寫實數(shù)字人(photorealistic digital human),典型代表是Siren。
Siren渲染圖
為什么今天要討論照片級寫實數(shù)字人?因為這是3D動畫行業(yè)數(shù)字人研究的最近進展。實現(xiàn)非常真實的動作,要達到動作尤其是表情非常真實的效果是非常難且復(fù)雜的,在很多方面都存在挑戰(zhàn),但也正是最接近真實人類外表的效果,人類在情感上接受度會更高。數(shù)字人可以應(yīng)用在娛樂、醫(yī)療、金融、快消等多個領(lǐng)域,比如在電影中扮演某個角色,作為銀行的虛擬客戶經(jīng)理,或者作為你的虛擬助手。這些應(yīng)用程序需要通過數(shù)字人傳達非常真實的人類情感。這些應(yīng)用要通過數(shù)字人傳遞非常真實人類的情感表現(xiàn),因此對數(shù)字人的外觀、表情、聲音、動作都希望達到與人類無差異的水平,這也推動了照片寫實數(shù)字人的發(fā)展。2021 年初,虛幻引擎開發(fā)商 Epic Games 推出了 MetaHuman Creator,用于快速創(chuàng)建非常逼真的數(shù)字人,并可以通過動作捕捉系統(tǒng)在虛幻引擎中實時驅(qū)動和渲染。
MetaHuman Creator 界面
近年來,明星代言人丑聞不斷,對代言品牌產(chǎn)生了非常大的負面影響。虛擬人設(shè)立的數(shù)字人作為品牌代言人,避免了人設(shè)崩盤的風(fēng)險。而且,數(shù)字人類可以7X24小時工作,這是人類也無法做到的。目前,目前多個行業(yè)都在進行數(shù)字人作為人類替代或補充的應(yīng)用探索,這也是數(shù)字人走向商業(yè)化的一種模式?,F(xiàn)在很火的元宇宙(Metaverse),正是一個巨大的虛擬數(shù)字世界,數(shù)字人在其中扮演著非常重要的角色。
數(shù)字人的浪潮正在席卷而來,無論是商業(yè)還是技術(shù)上,數(shù)字人在未來都有很大的發(fā)展空間。那么,我們離好的玩家中的虛擬世界還有多遠呢?