中國消費者報報道(記者武曉莉)童話里有一種神奇的魔法盒,它可以變出你想要的任何一件物品?;谌斯ぶ悄芗夹g(shù)(AI)的虛擬深度合成技術(shù),正在將童話里的幻想變?yōu)楝F(xiàn)實:跟你通電話的可能是機器客服;播報新聞的可能是虛擬的數(shù)字人;你的臉可以換到任何一個電影場景中;家里的智能屏可以跟你聊天;數(shù)字人可以出演電影中的危險鏡頭……
然而,數(shù)字的魔法盒里也藏著危險。玩一下虛擬換臉游戲就有可能被盜刷支付寶,模擬一次你的聲音就可能騙走巨額款項……
在此前舉行的“深度合成技術(shù)應(yīng)用與治理研討會”上,有專家指出,《民法典》的人格權(quán)編為深度合成技術(shù)應(yīng)用提出了公民權(quán)益保護的具體要求,擴展了肖像權(quán)方面的規(guī)定,提出了對聲音的保護。開放性的人格權(quán)可以更好地應(yīng)對科技催生的新型人格權(quán)益保護,但立法不會阻礙技術(shù)的發(fā)展應(yīng)用。與會專家們認(rèn)為,對AI深度合成,應(yīng)該持包容的態(tài)度,應(yīng)審慎地打開新技術(shù)的魔法盒子。
魔法盒子剛剛打開
“快捷指令隨機生成的無版權(quán)虛擬人,居然有亞洲人了。”北京的設(shè)計師宋志文在朋友圈發(fā)了一組圖片,這是某網(wǎng)站上隨機生成的非常逼真的人臉。但這些栩栩如生的“人”,在現(xiàn)實中其實是不存在的,只是人臉合成技術(shù)的產(chǎn)品而已。“這個魔法盒才剛剛被打開。”騰訊優(yōu)圖實驗室研究員、總監(jiān)李季檁介紹說,深度合成背后的技術(shù)包括自動編碼器和生成對抗網(wǎng)絡(luò),典型的深度合成是輸入一個隨機向量,生成器據(jù)此合成出一張圖像,與一張真實的圖像一起輸入鑒別器進行差異計算,通過訓(xùn)練最終達到一個均衡狀態(tài)。此時就能合成足夠逼真的圖像,讓鑒別器難以區(qū)分其和真實圖像之間的差異。
很多人都能感覺到,基于AI的深度合成技術(shù)正被廣泛應(yīng)用于社交、影視、醫(yī)療、虛擬現(xiàn)實等諸多領(lǐng)域。深度學(xué)習(xí)、神經(jīng)網(wǎng)絡(luò)等人工智能技術(shù)降低了AI深度合成的制作門檻,激發(fā)了新形式的創(chuàng)造。
“目前,深度合成主要有四種形式。”騰訊研究院秘書長張欽坤指出,一是最為人們熟知的人臉替換,即將圖像或視頻中的人臉替換為另一個人的臉,俗稱AI換臉;二是人臉再現(xiàn),通過對目標(biāo)人物的臉部特征進行修改,從而改變其面部表情,這種方式可以讓目標(biāo)人物表達他們在現(xiàn)實當(dāng)中沒有說過的話或者做沒有做過的事;三是目前應(yīng)用廣泛的語音合成,通過創(chuàng)建特定的聲音模型,把文字轉(zhuǎn)化成逼真的人聲,一些語音播報類應(yīng)用中的名人語音播報,就是這種技術(shù)的一種應(yīng)用;四是人臉合成,通過深度合成技術(shù)生成虛擬的、現(xiàn)實中完全不存在的人臉,這也是生成對抗網(wǎng)絡(luò)的典型應(yīng)用。
以AI換臉為例,消費者還在嘗鮮,深度合成的商業(yè)化應(yīng)用尚在探索中。“AI換臉APP引發(fā)了一定的行業(yè)熱度,但體驗相對單一,未來還需要跟更多落地的商業(yè)應(yīng)用結(jié)合才能持續(xù)發(fā)展。”艾瑞咨詢泛娛樂研究主任郭成杰說。在文娛和社交領(lǐng)域,基于深度合成技術(shù)的換臉APP因其獨特的功能,一度風(fēng)靡。但由于功能限制,用戶體驗單調(diào),目前還沒有找到能夠盈利的完整商業(yè)模式。在實現(xiàn)商業(yè)落地的探索中,還需要嘗試開發(fā)更多的功能,同時解決目前存在的法律風(fēng)險問題,形成完整的商業(yè)模式。
郭成杰認(rèn)為,深度合成可以與影視行業(yè)更多地結(jié)合。一是可以大幅降低合成影像的技術(shù)門檻,實現(xiàn)低成本特效;二是利用AI換臉技術(shù),可以解決由于演員身故、生病或丑聞等因素,而使得影視作品不能繼續(xù)拍攝的問題。雖然國內(nèi)一些影視劇也在嘗試AI換臉,但對影視所要求的高品質(zhì)而言,換臉的效果還有待提升。
魔法盒子也有風(fēng)險
在國外,有人利用英國某能源公司在德國母公司CEO的聲音,通過電話詐騙騙走了20多萬歐元。
李季檁說,合成的效果越來越難分辨真假。一幅真實圖像是由光線、距離、姿態(tài)、形狀、材質(zhì)、觀察者的視角、光學(xué)傳感器的特性等大量真實的物理因素共同作用的結(jié)果,傳統(tǒng)的數(shù)字合成會不可避免地出現(xiàn)一些瑕疵,一般只能以大塊的區(qū)域為單位進行合成或者編輯,很難對單個像素進行精確的合成和修改。而深度合成是基于深度網(wǎng)絡(luò)和大量數(shù)據(jù),在訓(xùn)練過程中,上述大量物理因素會蘊含在深度網(wǎng)絡(luò)的參數(shù)之中,算法可以同時考慮這些因素的影響,精確地進行單個像素的合成。即使局部出現(xiàn)了瑕疵,算法在訓(xùn)練過程中也可以不斷優(yōu)化和修補,直至達到逼真的程度。
張欽坤認(rèn)為,深度合成技術(shù)從出現(xiàn)之初就存在法律、道德等方方面面的風(fēng)險。不法分子會通過深度合成技術(shù),偽造虛假的或是真假難辨的圖片、音視頻等來進行非法活動,包括政治干擾、色情報復(fù)、商業(yè)詆毀、假冒身份詐騙、非法獲取個人信息等。
色情性的深度合成視頻,是深度合成技術(shù)濫用的重災(zāi)區(qū)。騰訊研究院、騰訊優(yōu)圖實驗室發(fā)布的《AI生成內(nèi)容發(fā)展報告2020——“深度合成”商業(yè)化元年》(以下簡稱《報告》)顯示,2019年12月,全網(wǎng)共有14678個深度合成視頻,其中96%屬于色情性的深度合成視頻,主要存在于色情網(wǎng)站。
監(jiān)管應(yīng)當(dāng)包容審慎
作為一種極富創(chuàng)造力和突破性的技術(shù),AI深度合成雖然也催生了一系列必須面對的難題,但并不會磨滅其給消費者帶來的全新的視聽享受和給社會帶來的進步。中國人民大學(xué)未來法治研究院執(zhí)行院長張吉豫認(rèn)為,應(yīng)遵循包容審慎的監(jiān)管基本原則,更好地規(guī)范深度合成技術(shù)應(yīng)用。具體法律和監(jiān)管應(yīng)設(shè)置必要的法律底線,并為深度合成技術(shù)發(fā)展留出空間。
張吉豫指出,現(xiàn)有的立法為深度合成技術(shù)設(shè)置了一些必要的法律底線,規(guī)定了適當(dāng)?shù)钠脚_責(zé)任,同時推動法律和技術(shù)的結(jié)合。例如,《民法典》的人格權(quán)編為深度合成技術(shù)應(yīng)用提出了公民權(quán)益保護的具體要求,擴展了肖像權(quán)方面的規(guī)定,并提出了對聲音的保護。這說明新的科技會催生新的權(quán)利要求,而人格權(quán)編規(guī)定的開放性的人格權(quán)可以更好地應(yīng)對科技催生的新型人格利益保護,但立法不會阻礙技術(shù)發(fā)展應(yīng)用。在平臺責(zé)任方面,《民法典》的“通知-必要措施”規(guī)則也蘊含了對網(wǎng)絡(luò)服務(wù)提供者進行分層、分類的責(zé)任分配的基本原則。此外,《網(wǎng)絡(luò)信息內(nèi)容生態(tài)治理規(guī)定》中提到不得利用深度合成等技術(shù)從事法律禁止的活動,在強調(diào)底線的同時,也表示了允許和鼓勵深度合成等新技術(shù)發(fā)展的態(tài)度。該規(guī)定還要求對非真實的音視頻信息進行標(biāo)識,這表明需要結(jié)合技術(shù)進行一定的治理,充分發(fā)揮掌握技術(shù)的平臺企業(yè)的主觀能動性,實現(xiàn)共建、共治、共享的治理理念。
張吉豫表示,對深度合成等互聯(lián)網(wǎng)新技術(shù)的治理和未來法治建設(shè),首先需要以人為本,這也充分體現(xiàn)在《民法典》人格權(quán)編相應(yīng)的規(guī)則中,尤其是對人格權(quán)的法定性和開放性的平衡;智能社會的治理需要法治與技術(shù)治理的有機統(tǒng)一、協(xié)調(diào)結(jié)合;需要建立信用機制。比如深度合成技術(shù)可能存在不合理的使用,因此認(rèn)證溯源機制可能是保證未來發(fā)展的重要路徑。
騰訊研究院高級研究員曹建峰指出,深度合成和其他人工智能技術(shù)的治理需要權(quán)衡、兼顧四個目標(biāo):數(shù)字技術(shù)和數(shù)字市場的發(fā)展與創(chuàng)新;消費者權(quán)益保護尤其是個人數(shù)據(jù)和隱私保護;商業(yè)利益;公共利益和國家利益。
積極探索立法實踐
世界各國都在積極探索AI深度合成技術(shù)的立法實踐?!秷蟾妗穼獾囊恍┝⒎ㄅe措進行了梳理,主要有五個方面的措施:一是要求深度合成和人工智能技術(shù)的使用不得誤導(dǎo)大眾,例如當(dāng)AI機器人以商業(yè)或政治目的與人交流或互動時,必須披露其人工智能身份;二是為深度合成的應(yīng)用劃定紅線,不能將深度合成技術(shù)應(yīng)用于政治干擾、淫穢色情、假冒身份等非法行為和活動;三是要求深度合成的內(nèi)容制作者承擔(dān)披露的義務(wù),采取嵌入數(shù)字水印、文字、語音標(biāo)識等方式披露、標(biāo)記合成信息后,才可將深度合成內(nèi)容放置于網(wǎng)絡(luò)上傳播;四是呼吁研究開發(fā)包括深度合成在內(nèi)的圖像、音視頻操縱技術(shù)的檢測識別和反制技術(shù);五是從隱私和個人信息保護的角度規(guī)范深度合成技術(shù),遵守相關(guān)要求,例如GDPR將可以適用于那些可能被用于制作深度合成內(nèi)容的公民圖片和聲音,或是網(wǎng)絡(luò)平臺發(fā)布的換臉軟件產(chǎn)品中潛在的個人隱私泄露問題。
據(jù)張欽坤介紹,我國正在積極回應(yīng)深度合成技術(shù)帶來的問題。2019年5月發(fā)布的《數(shù)據(jù)安全管理辦法(征求意見稿)》要求對自動合成的新聞、博文、帖子、評論等信息都要標(biāo)明“合成”字樣;同年11月,由國家網(wǎng)信辦、文旅部、國家廣電總局出臺的《網(wǎng)絡(luò)音視頻信息服務(wù)管理規(guī)定》也明確要求開展安全評估,對于非真實的音視頻信息進行標(biāo)識,禁止基于深度學(xué)習(xí)的虛假新聞信息,同時要求平臺部署鑒別技術(shù),建立辟謠機制;同年12月,國家網(wǎng)信辦發(fā)布的《網(wǎng)絡(luò)信息內(nèi)容生態(tài)治理規(guī)定》也明確,禁止利用深度學(xué)習(xí)技術(shù)從事法律、行政法規(guī)禁止的活動;前不久頒布的《民法典》人格權(quán)編的有關(guān)規(guī)定,意味著未來在數(shù)字人、語音合成等相關(guān)應(yīng)用上,使用明星的肖像和聲音需要先獲得授權(quán)。這些規(guī)定能夠有效防范深度合成技術(shù)的濫用風(fēng)險,并給受害人提供必要的救濟。
用技術(shù)來約束“魔力”
提起AI深度合成,大部分人首先想到的都是AI換臉。其實,AI換臉只是最早進入公眾視野,目前應(yīng)用較多而已。除此之外,深度合成技術(shù)還包括人臉再現(xiàn)、人臉生成、語音合成等技術(shù),并朝著全身合成、數(shù)字虛擬人等方向發(fā)展。
根據(jù)《報告》梳理,人臉再現(xiàn)涉及對目標(biāo)人物的臉部表情進行驅(qū)動;人臉合成涉及創(chuàng)建媲美真實人臉的全新人臉圖像;語音合成涉及創(chuàng)建特定的聲音模型,可以將文字轉(zhuǎn)化成接近真人語調(diào)和節(jié)奏的聲音。同時,深度合成正從局部合成轉(zhuǎn)向全身合成,從二維合成轉(zhuǎn)向3D合成。前者如對目標(biāo)人物的全身動作進行操控,后者則以數(shù)字虛擬人技術(shù)為代表。
AI深度合成令人不安的原因,還在于不少人認(rèn)為任何人都可以制作高質(zhì)量、高仿真的深度合成內(nèi)容?!秷蟾妗分赋?,這是不可能的。AI深度合成內(nèi)容的制作門檻雖然已大為降低,普通用戶在智能手機、電腦等終端設(shè)備上,借助深度合成應(yīng)用程序,即可輕易制作、獲取AI換臉、人臉合成、語音合成等娛樂性的深度合成內(nèi)容,但這類合成內(nèi)容往往較為容易辨別,且存在來源標(biāo)記,不至于以假亂真。因此,就目前而言,雖然像FakeApp、ZAO等APP讓更多的人接觸到了深度合成技術(shù),但高質(zhì)量、高仿真的深度合成內(nèi)容仍然難以創(chuàng)建,需要掌握專業(yè)技能和專業(yè)工具的專業(yè)人員的大量投入。
還有一種誤解認(rèn)為,深度合成內(nèi)容無法通過技術(shù)工具鑒別,只能通過生物特征測試(例如“眨眼測試”)。
實際上,眨眼測試等根據(jù)生物特征進行鑒別的方式,是非常低效、不可靠的,只能階段性地起作用?!秷蟾妗分赋觯S著深度合成技術(shù)的發(fā)展進化,生物特征測試將越來越難以發(fā)揮作用。相反,AI深度合成內(nèi)容的檢測識別,需要基于AI的鑒別技術(shù)來實現(xiàn)對深度合成內(nèi)容的自動化檢測。目前,業(yè)界已在大量投入和支持鑒別技術(shù)的開發(fā)。優(yōu)圖實驗室的人臉合成檢測平臺——FaceIn人臉防偽,就支持對多種換臉方法進行檢測,達到了很高的準(zhǔn)確率。
“要用技術(shù)的發(fā)展解決技術(shù)的問題。”李季檁認(rèn)為,既然AI深度合成是深度學(xué)習(xí)的產(chǎn)物,那么也可以通過深度學(xué)習(xí)技術(shù)進行識別,針對特定場景定制特殊的防御手段。在日常的技術(shù)演練中,優(yōu)圖已經(jīng)有比較切身的體會和豐富的經(jīng)驗。雖然有些深度合成的視頻可以騙過我們的眼睛,但是在極度精細的像素層面,和相機拍攝的真實圖像還是有所不同。真實世界的光線從鏡頭進入到傳感器,經(jīng)過光電轉(zhuǎn)換、模擬信號轉(zhuǎn)換數(shù)字信號再進行若干圖像處理,才得到最終的照片,這其中包含了光學(xué)、電路、溫度等各種真實因素引起的噪音和退化,目前生成對抗網(wǎng)絡(luò)還不能精確合成這些信息。因此,可以通過制作大量的深度合成數(shù)據(jù),用深度網(wǎng)絡(luò)來學(xué)習(xí)真實視頻和合成視頻的差異。實驗室的檢測能力也會通過云計算的方式對外輸出,用戶上傳視頻時就可以判斷它是不是合成的。因此,深度合成并不可怕,既然其魔力來自于深度學(xué)習(xí),那可以約束這種魔力的也是深度學(xué)習(xí)。
此外,互聯(lián)網(wǎng)行業(yè)對深度合成內(nèi)容也并未呈放任狀態(tài)?!秷蟾妗分赋?,主流網(wǎng)絡(luò)平臺已經(jīng)著手采取自律措施應(yīng)對深度合成技術(shù)的潛在濫用。國外主流科技公司開發(fā)的甄別AI合成內(nèi)容、對抗深度合成技術(shù)濫用的工具,可掃描用戶瀏覽的圖像、視頻或其他數(shù)字媒介,標(biāo)記并報告可疑的偽造內(nèi)容,檢測經(jīng)竄改的人工合成內(nèi)容;降低合成內(nèi)容的權(quán)重,讓算法不再為用戶推薦被認(rèn)定為深度合成并可能造成負(fù)面影響的內(nèi)容。
這些科技公司積極構(gòu)建深度合成數(shù)據(jù)集,并開放給研究人員免費使用,以此來促進檢測技術(shù)的研究與開發(fā)。同時,各平臺之間還攜手開展深度合成檢測挑戰(zhàn)賽,為檢測技術(shù)的開發(fā)提供資金和深度合成數(shù)據(jù)集,以促進更多檢測識別技術(shù)的開發(fā)。在國內(nèi),騰訊信息安全團隊自主研發(fā)的GFN網(wǎng)絡(luò)算法鑒別AI換臉、騰訊優(yōu)圖實驗室研發(fā)的人臉合成檢測技術(shù),對相關(guān)深度合成內(nèi)容的檢測都達到了很高的準(zhǔn)確率。
深度合成造福社會
大家熟悉的著名科學(xué)家霍金,晚年只能用一個發(fā)聲器與外界交流。對于更多失聲的“漸凍人”來說,他們將可以用“自己的聲音”而非機器的聲音“說話”——深度合成技術(shù)的發(fā)展,已經(jīng)能夠做出以自己的聲音發(fā)聲的發(fā)聲器了。
《報告》指出,AI虛擬主播、數(shù)字試穿、電影后期、社交產(chǎn)品中的人臉融合、合成人臉和合成虛擬形象用于在線營銷、合成聲音用于失聲患者發(fā)聲以及數(shù)字虛擬人等,隨著創(chuàng)新性的應(yīng)用持續(xù)涌現(xiàn),深度合成技術(shù)的社會福祉日益彰顯。
“就深度合成的發(fā)展趨勢來講,特別是從互聯(lián)網(wǎng)行業(yè)的應(yīng)用來看,數(shù)字人是一個重要的發(fā)展方向。”張欽坤說,數(shù)字人是多個人工智能技術(shù)的集大成者,它需要綜合運用各種AI技術(shù)和方法,如計算機視覺、視頻合成、語音合成、自然語言處理等。目前,“數(shù)字人”已經(jīng)成為 AI領(lǐng)域的新風(fēng)口,國內(nèi)外的主流互聯(lián)網(wǎng)公司都在加強布局,未來這個技術(shù)會應(yīng)用在非常廣泛的領(lǐng)域。例如,騰訊AI實驗室已將數(shù)字人列為兩大攻堅方向之一,基于深度神經(jīng)網(wǎng)絡(luò)的3D人臉和人體重建、文本/語音/口型驅(qū)動和神經(jīng)網(wǎng)絡(luò)渲染等技術(shù),使所生成的數(shù)字人看起來真實自然。深度合成在多個領(lǐng)域落地應(yīng)用,同時發(fā)揮出科技向善的潛力。
據(jù)了解,目前,國內(nèi)外互聯(lián)網(wǎng)公司紛紛試水?dāng)?shù)字虛擬人技術(shù),例如,2018年騰訊攜手Epic等企業(yè)啟動“Siren”虛擬人項目,2019年騰訊AILab正式發(fā)布首個電競虛擬人“T.E.G”(天鵝靜),整合3D人臉和人體重建、文本/語音/口型驅(qū)動和神經(jīng)網(wǎng)絡(luò)渲染等技術(shù),特別是利用生成對抗網(wǎng)絡(luò)完成人體動作的遷移。隨著5G時代的到來,這種捕捉和渲染將會更加靈敏生動,數(shù)字虛擬人在游戲、社交、影視、醫(yī)療等領(lǐng)域?qū)⒋笥锌蔀椤?/p>
李季檁認(rèn)為,從應(yīng)用上看,深度合成技術(shù)將與各種多維信息、視頻信息融合,可以實現(xiàn)合成之后與人類進行互動,這些發(fā)展應(yīng)用在數(shù)字虛擬人、VR內(nèi)容等產(chǎn)業(yè)上,可能會取得一些重大的突破。
郭成杰也認(rèn)為數(shù)字虛擬人是值得關(guān)注的方向,具有非常大的延展性。目前,該技術(shù)正在應(yīng)用到更多領(lǐng)域,如虛擬主持、虛擬主播等。數(shù)字虛擬人在與智能家居、IoT結(jié)合,讓用戶與智能家居的交互更加自然真實,提升了智能家居服務(wù)的體驗。在教育、旅游、公共場所咨詢等需要較多重復(fù)性人力接待、播報或者講解的場合,都是數(shù)字虛擬人大有可為的場景。未來,隨著深度合成技術(shù)的發(fā)展,行業(yè)可以更好地結(jié)合現(xiàn)有的商業(yè)模式和服務(wù)模式,利用深度合成技術(shù)提升服務(wù)體驗。
官方微信公眾號
官方微博