深度合成技術(shù)如何深度影響生活
一分為二的熒屏畫(huà)面,長(zhǎng)相一模一樣的主持人流暢對(duì)話——在今年全國(guó)兩會(huì)報(bào)道中,中央廣播電視總臺(tái)首個(gè)擁有超自然語(yǔ)音、超自然表情的超仿真主播“AI王冠”正式投入使用。真人與虛擬人同屏播報(bào),為兩會(huì)報(bào)道注入科技創(chuàng)新力。虛擬數(shù)字人走紅網(wǎng)絡(luò)的背后,深度合成技術(shù)功不可沒(méi)。
日前,清華大學(xué)人工智能研究院等聯(lián)合發(fā)布《深度合成十大趨勢(shì)報(bào)告(2022)》。數(shù)據(jù)顯示,在社交媒體、音視頻網(wǎng)站等平臺(tái)上,2021年新發(fā)布的深度合成視頻數(shù)量較2017年已增長(zhǎng)10倍以上。深度合成內(nèi)容在多領(lǐng)域落地,迎來(lái)爆發(fā)式增長(zhǎng)。何為深度合成技術(shù)?這項(xiàng)技術(shù)正如何影響著我們的生活?《科技周刊》記者特為此采訪相關(guān)領(lǐng)域?qū)<摇?/p>
從圖像合成到深度合成
高度逼真的人臉合成難在哪里
“談起圖像合成技術(shù),很多人都不陌生。其實(shí)深度合成技術(shù)就是從圖像合成技術(shù)發(fā)展而來(lái)。”東南大學(xué)網(wǎng)絡(luò)空間安全學(xué)院副教授宋宇波告訴記者,圖像合成技術(shù)目前已經(jīng)發(fā)展得非常成熟,其中包括基于圖像主體修改的方法和基于痕跡掩蓋的后處理方法,如我們常用的PS技術(shù)等。隨著人工智能的快速發(fā)展,人工智能技術(shù)和圖像合成技術(shù)逐步結(jié)合。源于人工智能系統(tǒng)生成對(duì)抗網(wǎng)絡(luò)(GAN)不斷進(jìn)步,深度合成技術(shù)應(yīng)運(yùn)而生,并在很短時(shí)間內(nèi)發(fā)展到驚人地步。
“典型的深度合成案例包括人臉替換、人臉再現(xiàn)、人臉合成和語(yǔ)音合成四種形式。”宋宇波介紹,人臉替換就是大家俗稱的“換臉”,即將某個(gè)人的臉部特征復(fù)制到另一個(gè)人的臉上,從而覆蓋目標(biāo)人物的面部;人臉再現(xiàn)則是利用深度合成技術(shù)改變?nèi)说拿娌刻卣?,從而操縱目標(biāo)對(duì)象的臉部表情;人臉合成可以創(chuàng)建全新的人臉圖像,而這些隨機(jī)生成的人臉很多都可以媲美真實(shí)的人臉圖像,甚至代替一些真實(shí)肖像的使用;語(yǔ)音合成則是基于設(shè)計(jì)創(chuàng)建的特定聲音模型,不僅可以將文字轉(zhuǎn)化成聲音,而且可以轉(zhuǎn)化為接近真人語(yǔ)調(diào)和節(jié)奏的聲音。
那么,如何才能實(shí)現(xiàn)高度逼真的人臉合成呢?“深度合成技術(shù)的難點(diǎn)主要有兩個(gè)方面,一方面是如何獲取精細(xì)的三維人臉模型、如何精確地跟蹤源人臉面部的剛性和非剛性運(yùn)動(dòng)以及如何將提取的參數(shù)映射到目標(biāo)人臉以實(shí)現(xiàn)表情遷移;另一方面則是如何控制生成圖像的內(nèi)容以及如何提高生成圖像的分辨率。”宋宇波表示,盡管人臉合成領(lǐng)域方法眾多,但就總體而言,三維人臉技術(shù)以及生成對(duì)抗網(wǎng)絡(luò)技術(shù)占據(jù)重要地位。在人臉合成領(lǐng)域中(尤其是人臉動(dòng)作或身份的合成),主要通過(guò)建立人臉的三維模型并對(duì)其形變或改變身份參數(shù),渲染出合成的人臉圖像;而生成對(duì)抗網(wǎng)絡(luò)憑借能夠生成多樣的、逼真圖像的能力成為近年來(lái)的研究熱點(diǎn),被廣泛應(yīng)用于人臉圖像處理的各類(lèi)任務(wù)。它也是人臉合成技術(shù)中持續(xù)輸出可控制的、高分辨率的逼真人臉圖像的重要一環(huán)。
應(yīng)用場(chǎng)景趨于多元成熟
“深度合成”成元宇宙發(fā)展關(guān)鍵技術(shù)
自2019年開(kāi)始,基于深度合成技術(shù)的各類(lèi)應(yīng)用火爆社交網(wǎng)絡(luò)。目前,這項(xiàng)技術(shù)在影視制作、廣告營(yíng)銷(xiāo)、社交娛樂(lè)等眾多領(lǐng)域落地生根。公開(kāi)數(shù)據(jù)顯示,2020年6月至2021年5月,共有32412位虛擬主播在嗶哩嗶哩開(kāi)播,同比增長(zhǎng)40%。一個(gè)月前,北京冬奧會(huì)自由式滑雪女子大跳臺(tái)決賽中,中國(guó)隊(duì)選手谷愛(ài)凌發(fā)揮出色逆轉(zhuǎn)奪冠,全球首個(gè)手語(yǔ)AI 合成主播“小聰”用手語(yǔ)解說(shuō)了這個(gè)激動(dòng)人心的奪冠時(shí)刻,幫助聽(tīng)障人士更好地享受數(shù)字化生活。此外,越來(lái)越多的企業(yè)機(jī)構(gòu)開(kāi)始利用深度合成技術(shù)提供面向公眾的產(chǎn)品和服務(wù),涵蓋圖像、視頻、音頻、文本等多個(gè)領(lǐng)域。例如作為人機(jī)交互中重要一環(huán)的語(yǔ)音合成,被廣泛應(yīng)用于智能客服、語(yǔ)音導(dǎo)航、有聲讀物、語(yǔ)音助手等場(chǎng)景。
隨著深度合成技術(shù)的不斷發(fā)展,對(duì)深度學(xué)習(xí)算法的要求也越來(lái)越高。這些算法的不斷優(yōu)化將促使深度學(xué)習(xí)技術(shù)應(yīng)用于更多不同的領(lǐng)域。宋宇波舉例解釋?zhuān)?jì)算機(jī)科學(xué)領(lǐng)域,通過(guò)深度學(xué)習(xí)技術(shù)可以建立起比傳統(tǒng)機(jī)器學(xué)習(xí)更深層次的模型,從而具有對(duì)文字、圖像和聲音等數(shù)據(jù)更強(qiáng)的處理與學(xué)習(xí)能力;在實(shí)時(shí)應(yīng)用領(lǐng)域,隨著深度學(xué)習(xí)算法、嵌入式計(jì)算硬件、物聯(lián)網(wǎng)的不斷發(fā)展,以深度學(xué)習(xí)為主要手段的人工智能技術(shù)將在嵌入式應(yīng)用領(lǐng)域得到更加廣泛的應(yīng)用,促使深層神經(jīng)網(wǎng)絡(luò)輕量化設(shè)計(jì),深層神經(jīng)網(wǎng)絡(luò)與網(wǎng)絡(luò)加速器的協(xié)同設(shè)計(jì)快速發(fā)展。
盡管發(fā)展迅猛,但深度合成技術(shù)這個(gè)“魔法盒”才剛剛被打開(kāi)。伴隨著元宇宙等新商業(yè)思維的提出,深度合成技術(shù)或?qū)⒅匦露x虛擬數(shù)字化空間,為智能化、視覺(jué)化、場(chǎng)景化、虛擬化的新交往常態(tài)提供技術(shù)支撐。深度合成技術(shù)可以用于自動(dòng)生成文本、語(yǔ)音、圖像、視頻等各種數(shù)字內(nèi)容,已成為了當(dāng)前元宇宙發(fā)展的關(guān)鍵技術(shù)。
今年初,國(guó)家網(wǎng)信辦公布《互聯(lián)網(wǎng)信息服務(wù)深度合成管理規(guī)定(征求意見(jiàn)稿)》,對(duì)作為元宇宙基石的深度合成技術(shù)作出了一系列較為明確的規(guī)定和指引。按照該管理規(guī)定的定義,AI語(yǔ)音、NFT生成藝術(shù)、虛擬演唱會(huì)、全息人像投影、虛擬數(shù)字人、AR購(gòu)物等元宇宙的重要組成部分都屬于深度合成技術(shù)的具體應(yīng)用。“深度合成技術(shù)逐漸成熟并進(jìn)入商業(yè)化應(yīng)用階段,其巨大的經(jīng)濟(jì)價(jià)值將更為凸顯。”宋宇波說(shuō)。
未來(lái),深度合成技術(shù)還將有怎樣的發(fā)展趨勢(shì)?業(yè)內(nèi)某科技公司有關(guān)負(fù)責(zé)人告訴《科技周刊》記者,在多模態(tài)生成方面,未來(lái)的應(yīng)用場(chǎng)景將覆蓋圖像、語(yǔ)音、文本等更多樣化模態(tài),會(huì)從單一模態(tài)內(nèi)容生成逐漸拓展為跨模態(tài)或多模態(tài)的內(nèi)容合成,如虛擬數(shù)字人中的語(yǔ)音或文本驅(qū)動(dòng)視頻生成等場(chǎng)景、高清化人像生成、通用場(chǎng)景圖像生成和實(shí)時(shí)生成技術(shù)等方面。“在不久的將來(lái),我們或許可以看到支持4K、8K模式的高清化人像生成。但必須要指出的是,深度合成技術(shù)將如何支持沉浸感更好的實(shí)時(shí)通信體驗(yàn),需要技術(shù)繼續(xù)攻關(guān)。比如,在低帶寬或視頻壓縮的情況下如何提高用戶體驗(yàn),是深度合成技術(shù)下一步需要解決的問(wèn)題。”
機(jī)遇與風(fēng)險(xiǎn)并存
虛實(shí)交界處期待多維度治理
換臉特效、老照片修復(fù)、輔助動(dòng)畫(huà)和游戲設(shè)計(jì)……深度合成技術(shù)為眾多全新場(chǎng)景提供了技術(shù)可能,支撐著實(shí)現(xiàn)更多虛實(shí)交互空間。然而,技術(shù)“平民化”的背后,一系列負(fù)面風(fēng)險(xiǎn)也隨之而來(lái)。僅需要少量音視頻樣本數(shù)據(jù),利用簡(jiǎn)易的合成工具,便可以解構(gòu)“眼見(jiàn)為實(shí)”的認(rèn)知論權(quán)威。實(shí)際上,利用深度合成技術(shù)偽造虛假音視頻,從而進(jìn)行詐騙勒索的違法行為和案例報(bào)道已屢見(jiàn)不鮮。
“深度合成技術(shù)所創(chuàng)造的‘現(xiàn)實(shí)’并不是虛擬現(xiàn)實(shí),而是一種新的現(xiàn)實(shí)類(lèi)型,因此必須、也已經(jīng)在現(xiàn)行的法律規(guī)制之下。”南京師范大學(xué)法學(xué)院副教授、中國(guó)法治現(xiàn)代化研究院研究員楊建表示,對(duì)于深度合成技術(shù)所造就的現(xiàn)實(shí)和所形成的社會(huì)關(guān)系來(lái)說(shuō),主要風(fēng)險(xiǎn)之一在于該技術(shù)應(yīng)用能夠制造以假亂真的虛假現(xiàn)實(shí),可能左右、誤導(dǎo)公眾的認(rèn)知與判斷;而規(guī)制這類(lèi)風(fēng)險(xiǎn)行為的困難在于,它與典型的違法行為追責(zé)模式不相對(duì)稱,以致傳統(tǒng)的行政、司法機(jī)制無(wú)法及時(shí)發(fā)揮管控、威懾、確權(quán)、止?fàn)幍茸饔谩?/p>
為規(guī)避風(fēng)險(xiǎn),我國(guó)正積極探尋有效的治理機(jī)制。2019年11月起先后出臺(tái)的《網(wǎng)絡(luò)音視頻信息服務(wù)管理規(guī)定》、《網(wǎng)絡(luò)信息內(nèi)容生態(tài)治理規(guī)定》、《中華人民共和國(guó)民法典》、《互聯(lián)網(wǎng)信息服務(wù)算法推薦管理規(guī)定》,均對(duì)生成合成類(lèi)內(nèi)容等提出了不同程度的監(jiān)管要求。
新的行為模式需要新的規(guī)制機(jī)制,同時(shí)也期待政府、社會(huì)和公民等多維度治理。“在智能社會(huì)的法律構(gòu)建中,特別要強(qiáng)調(diào)共治、共建、共享的理念。”楊建認(rèn)為,對(duì)于深度合成技術(shù)來(lái)說(shuō),目前有效的方案之一是確立深度合成技術(shù)應(yīng)用的事前備案制度、保證金制度,以確保事先管控的可能性,確保可公開(kāi)、可追查、可審核。此外,在事后的懲罰性賠償、準(zhǔn)入資格剝奪機(jī)制方面,必須確保有效的威懾、責(zé)任追究與權(quán)利維護(hù)的可行性。業(yè)內(nèi)某科技公司有關(guān)負(fù)責(zé)人表示,深度合成技術(shù)與深度偽造檢測(cè)技術(shù)相輔相成,互相促進(jìn)。更高清、自然、逼真的合成技術(shù)也將會(huì)不斷地促進(jìn)深度偽造檢測(cè)技術(shù)的發(fā)展,輔助負(fù)面虛假內(nèi)容治理。
記者 謝詩(shī)涵 葉真
江蘇蘇訊網(wǎng)版權(quán)及免責(zé)聲明:凡本網(wǎng)注明“來(lái)源:XXX(非江蘇蘇訊網(wǎng))”的作品,均轉(zhuǎn)載自其它媒體,轉(zhuǎn)載目的在于傳遞更多信息,并不代表本網(wǎng)贊同其觀點(diǎn)和對(duì)其真實(shí)性負(fù)責(zé)。 如因作品內(nèi)容、版權(quán)和其它問(wèn)題需要同本網(wǎng)聯(lián)系的,本網(wǎng)按規(guī)定給予一定的稿費(fèi)或要求直接刪除,請(qǐng)致電025-86163400 ,聯(lián)系郵箱:724922822@qq.com。
相關(guān)文章
- 金陵長(zhǎng)樂(lè)坊預(yù)計(jì)今年6月底開(kāi)業(yè)
- 省人大常委會(huì)會(huì)議通過(guò)、廢止和修改一批法規(guī)及決定 國(guó)內(nèi)唯一促進(jìn)軟件產(chǎn)業(yè)發(fā)展法規(guī)獲修訂
- 首次邀請(qǐng)公民旁聽(tīng)、首開(kāi)“代表通道” 今年江蘇省人代會(huì)有多項(xiàng)新變化
- 江蘇全面深化零基預(yù)算改革,大力優(yōu)化財(cái)政支出結(jié)構(gòu)——推動(dòng)“傳統(tǒng)財(cái)政”向“現(xiàn)代財(cái)政”轉(zhuǎn)變