關(guān)注民生 服務(wù)社會 發(fā)掘真相 傳播價值 感謝您瀏覽江蘇蘇訊網(wǎng)。 歡迎投稿:郵箱724922822@qq.com 客服電話:025-86163400 18061633398

深度合成技術(shù)如何深度影響生活

2022-03-16 11:25 來源: 編輯:中國江蘇網(wǎng) 瀏覽量:0

一分為二的熒屏畫面,長相一模一樣的主持人流暢對話——在今年全國兩會報道中,中央廣播電視總臺首個擁有超自然語音、超自然表情的超仿真主播“AI王冠”正式投入使用。真人與虛擬人同屏播報,為兩會報道注入科技創(chuàng)新力。虛擬數(shù)字人走紅網(wǎng)絡(luò)的背后,深度合成技術(shù)功不可沒。

日前,清華大學(xué)人工智能研究院等聯(lián)合發(fā)布《深度合成十大趨勢報告(2022)》。數(shù)據(jù)顯示,在社交媒體、音視頻網(wǎng)站等平臺上,2021年新發(fā)布的深度合成視頻數(shù)量較2017年已增長10倍以上。深度合成內(nèi)容在多領(lǐng)域落地,迎來爆發(fā)式增長。何為深度合成技術(shù)?這項技術(shù)正如何影響著我們的生活?《科技周刊》記者特為此采訪相關(guān)領(lǐng)域?qū)<摇?/p>

從圖像合成到深度合成

高度逼真的人臉合成難在哪里

“談起圖像合成技術(shù),很多人都不陌生。其實深度合成技術(shù)就是從圖像合成技術(shù)發(fā)展而來。”東南大學(xué)網(wǎng)絡(luò)空間安全學(xué)院副教授宋宇波告訴記者,圖像合成技術(shù)目前已經(jīng)發(fā)展得非常成熟,其中包括基于圖像主體修改的方法和基于痕跡掩蓋的后處理方法,如我們常用的PS技術(shù)等。隨著人工智能的快速發(fā)展,人工智能技術(shù)和圖像合成技術(shù)逐步結(jié)合。源于人工智能系統(tǒng)生成對抗網(wǎng)絡(luò)(GAN)不斷進(jìn)步,深度合成技術(shù)應(yīng)運而生,并在很短時間內(nèi)發(fā)展到驚人地步。

“典型的深度合成案例包括人臉替換、人臉再現(xiàn)、人臉合成和語音合成四種形式。”宋宇波介紹,人臉替換就是大家俗稱的“換臉”,即將某個人的臉部特征復(fù)制到另一個人的臉上,從而覆蓋目標(biāo)人物的面部;人臉再現(xiàn)則是利用深度合成技術(shù)改變?nèi)说拿娌刻卣?,從而操縱目標(biāo)對象的臉部表情;人臉合成可以創(chuàng)建全新的人臉圖像,而這些隨機生成的人臉很多都可以媲美真實的人臉圖像,甚至代替一些真實肖像的使用;語音合成則是基于設(shè)計創(chuàng)建的特定聲音模型,不僅可以將文字轉(zhuǎn)化成聲音,而且可以轉(zhuǎn)化為接近真人語調(diào)和節(jié)奏的聲音。

那么,如何才能實現(xiàn)高度逼真的人臉合成呢?“深度合成技術(shù)的難點主要有兩個方面,一方面是如何獲取精細(xì)的三維人臉模型、如何精確地跟蹤源人臉面部的剛性和非剛性運動以及如何將提取的參數(shù)映射到目標(biāo)人臉以實現(xiàn)表情遷移;另一方面則是如何控制生成圖像的內(nèi)容以及如何提高生成圖像的分辨率。”宋宇波表示,盡管人臉合成領(lǐng)域方法眾多,但就總體而言,三維人臉技術(shù)以及生成對抗網(wǎng)絡(luò)技術(shù)占據(jù)重要地位。在人臉合成領(lǐng)域中(尤其是人臉動作或身份的合成),主要通過建立人臉的三維模型并對其形變或改變身份參數(shù),渲染出合成的人臉圖像;而生成對抗網(wǎng)絡(luò)憑借能夠生成多樣的、逼真圖像的能力成為近年來的研究熱點,被廣泛應(yīng)用于人臉圖像處理的各類任務(wù)。它也是人臉合成技術(shù)中持續(xù)輸出可控制的、高分辨率的逼真人臉圖像的重要一環(huán)。

應(yīng)用場景趨于多元成熟

“深度合成”成元宇宙發(fā)展關(guān)鍵技術(shù)

自2019年開始,基于深度合成技術(shù)的各類應(yīng)用火爆社交網(wǎng)絡(luò)。目前,這項技術(shù)在影視制作、廣告營銷、社交娛樂等眾多領(lǐng)域落地生根。公開數(shù)據(jù)顯示,2020年6月至2021年5月,共有32412位虛擬主播在嗶哩嗶哩開播,同比增長40%。一個月前,北京冬奧會自由式滑雪女子大跳臺決賽中,中國隊選手谷愛凌發(fā)揮出色逆轉(zhuǎn)奪冠,全球首個手語AI 合成主播“小聰”用手語解說了這個激動人心的奪冠時刻,幫助聽障人士更好地享受數(shù)字化生活。此外,越來越多的企業(yè)機構(gòu)開始利用深度合成技術(shù)提供面向公眾的產(chǎn)品和服務(wù),涵蓋圖像、視頻、音頻、文本等多個領(lǐng)域。例如作為人機交互中重要一環(huán)的語音合成,被廣泛應(yīng)用于智能客服、語音導(dǎo)航、有聲讀物、語音助手等場景。

隨著深度合成技術(shù)的不斷發(fā)展,對深度學(xué)習(xí)算法的要求也越來越高。這些算法的不斷優(yōu)化將促使深度學(xué)習(xí)技術(shù)應(yīng)用于更多不同的領(lǐng)域。宋宇波舉例解釋,計算機科學(xué)領(lǐng)域,通過深度學(xué)習(xí)技術(shù)可以建立起比傳統(tǒng)機器學(xué)習(xí)更深層次的模型,從而具有對文字、圖像和聲音等數(shù)據(jù)更強的處理與學(xué)習(xí)能力;在實時應(yīng)用領(lǐng)域,隨著深度學(xué)習(xí)算法、嵌入式計算硬件、物聯(lián)網(wǎng)的不斷發(fā)展,以深度學(xué)習(xí)為主要手段的人工智能技術(shù)將在嵌入式應(yīng)用領(lǐng)域得到更加廣泛的應(yīng)用,促使深層神經(jīng)網(wǎng)絡(luò)輕量化設(shè)計,深層神經(jīng)網(wǎng)絡(luò)與網(wǎng)絡(luò)加速器的協(xié)同設(shè)計快速發(fā)展。

盡管發(fā)展迅猛,但深度合成技術(shù)這個“魔法盒”才剛剛被打開。伴隨著元宇宙等新商業(yè)思維的提出,深度合成技術(shù)或?qū)⒅匦露x虛擬數(shù)字化空間,為智能化、視覺化、場景化、虛擬化的新交往常態(tài)提供技術(shù)支撐。深度合成技術(shù)可以用于自動生成文本、語音、圖像、視頻等各種數(shù)字內(nèi)容,已成為了當(dāng)前元宇宙發(fā)展的關(guān)鍵技術(shù)。

今年初,國家網(wǎng)信辦公布《互聯(lián)網(wǎng)信息服務(wù)深度合成管理規(guī)定(征求意見稿)》,對作為元宇宙基石的深度合成技術(shù)作出了一系列較為明確的規(guī)定和指引。按照該管理規(guī)定的定義,AI語音、NFT生成藝術(shù)、虛擬演唱會、全息人像投影、虛擬數(shù)字人、AR購物等元宇宙的重要組成部分都屬于深度合成技術(shù)的具體應(yīng)用。“深度合成技術(shù)逐漸成熟并進(jìn)入商業(yè)化應(yīng)用階段,其巨大的經(jīng)濟價值將更為凸顯。”宋宇波說。

未來,深度合成技術(shù)還將有怎樣的發(fā)展趨勢?業(yè)內(nèi)某科技公司有關(guān)負(fù)責(zé)人告訴《科技周刊》記者,在多模態(tài)生成方面,未來的應(yīng)用場景將覆蓋圖像、語音、文本等更多樣化模態(tài),會從單一模態(tài)內(nèi)容生成逐漸拓展為跨模態(tài)或多模態(tài)的內(nèi)容合成,如虛擬數(shù)字人中的語音或文本驅(qū)動視頻生成等場景、高清化人像生成、通用場景圖像生成和實時生成技術(shù)等方面。“在不久的將來,我們或許可以看到支持4K、8K模式的高清化人像生成。但必須要指出的是,深度合成技術(shù)將如何支持沉浸感更好的實時通信體驗,需要技術(shù)繼續(xù)攻關(guān)。比如,在低帶寬或視頻壓縮的情況下如何提高用戶體驗,是深度合成技術(shù)下一步需要解決的問題。”

機遇與風(fēng)險并存

虛實交界處期待多維度治理

換臉特效、老照片修復(fù)、輔助動畫和游戲設(shè)計……深度合成技術(shù)為眾多全新場景提供了技術(shù)可能,支撐著實現(xiàn)更多虛實交互空間。然而,技術(shù)“平民化”的背后,一系列負(fù)面風(fēng)險也隨之而來。僅需要少量音視頻樣本數(shù)據(jù),利用簡易的合成工具,便可以解構(gòu)“眼見為實”的認(rèn)知論權(quán)威。實際上,利用深度合成技術(shù)偽造虛假音視頻,從而進(jìn)行詐騙勒索的違法行為和案例報道已屢見不鮮。

“深度合成技術(shù)所創(chuàng)造的‘現(xiàn)實’并不是虛擬現(xiàn)實,而是一種新的現(xiàn)實類型,因此必須、也已經(jīng)在現(xiàn)行的法律規(guī)制之下。”南京師范大學(xué)法學(xué)院副教授、中國法治現(xiàn)代化研究院研究員楊建表示,對于深度合成技術(shù)所造就的現(xiàn)實和所形成的社會關(guān)系來說,主要風(fēng)險之一在于該技術(shù)應(yīng)用能夠制造以假亂真的虛假現(xiàn)實,可能左右、誤導(dǎo)公眾的認(rèn)知與判斷;而規(guī)制這類風(fēng)險行為的困難在于,它與典型的違法行為追責(zé)模式不相對稱,以致傳統(tǒng)的行政、司法機制無法及時發(fā)揮管控、威懾、確權(quán)、止?fàn)幍茸饔谩?/p>

為規(guī)避風(fēng)險,我國正積極探尋有效的治理機制。2019年11月起先后出臺的《網(wǎng)絡(luò)音視頻信息服務(wù)管理規(guī)定》、《網(wǎng)絡(luò)信息內(nèi)容生態(tài)治理規(guī)定》、《中華人民共和國民法典》、《互聯(lián)網(wǎng)信息服務(wù)算法推薦管理規(guī)定》,均對生成合成類內(nèi)容等提出了不同程度的監(jiān)管要求。

新的行為模式需要新的規(guī)制機制,同時也期待政府、社會和公民等多維度治理。“在智能社會的法律構(gòu)建中,特別要強調(diào)共治、共建、共享的理念。”楊建認(rèn)為,對于深度合成技術(shù)來說,目前有效的方案之一是確立深度合成技術(shù)應(yīng)用的事前備案制度、保證金制度,以確保事先管控的可能性,確??晒_、可追查、可審核。此外,在事后的懲罰性賠償、準(zhǔn)入資格剝奪機制方面,必須確保有效的威懾、責(zé)任追究與權(quán)利維護的可行性。業(yè)內(nèi)某科技公司有關(guān)負(fù)責(zé)人表示,深度合成技術(shù)與深度偽造檢測技術(shù)相輔相成,互相促進(jìn)。更高清、自然、逼真的合成技術(shù)也將會不斷地促進(jìn)深度偽造檢測技術(shù)的發(fā)展,輔助負(fù)面虛假內(nèi)容治理。

記者 謝詩涵 葉真

原文地址:http://jsnews.jschina.com.cn/jsyw/202203/t20220316_2963142.shtml
江蘇蘇訊網(wǎng)客服:025-86163400
【責(zé)任編輯:陸超】

江蘇蘇訊網(wǎng)版權(quán)及免責(zé)聲明:凡本網(wǎng)注明“來源:XXX(非江蘇蘇訊網(wǎng))”的作品,均轉(zhuǎn)載自其它媒體,轉(zhuǎn)載目的在于傳遞更多信息,并不代表本網(wǎng)贊同其觀點和對其真實性負(fù)責(zé)。 如因作品內(nèi)容、版權(quán)和其它問題需要同本網(wǎng)聯(lián)系的,本網(wǎng)按規(guī)定給予一定的稿費或要求直接刪除,請致電025-86163400 ,聯(lián)系郵箱:724922822@qq.com。

圖片新聞
熱點資訊
熱點聚焦