深度信息可以實(shí)時(shí)揭示深度偽造(Deepfake)
來自意大利的新研究發(fā)現(xiàn),從圖像中獲得的深度信息可以成為檢測深度偽造的有用工具——即使是實(shí)時(shí)檢測也是如此。
鑒于過去五年中對深度偽造檢測的大部分研究都集中在偽影識別(可以通過改進(jìn)技術(shù)來緩解,或者被誤認(rèn)為是較差的視頻編解碼器壓縮)、環(huán)境照明、生物特征、時(shí)間中斷,甚至是人類本能,這項(xiàng)新研究首次表明深度信息可能是深度偽造內(nèi)容的寶貴密碼。
派生深度圖的示例,以及真實(shí)和虛假圖像之間感知深度信息的差異。
至關(guān)重要的是,為新研究開發(fā)的檢測框架在Xception等輕量級網(wǎng)絡(luò)上運(yùn)行良好,在MobileNet上運(yùn)行良好,并且新論文承認(rèn)通過此類網(wǎng)絡(luò)提供的低延遲推理可以實(shí)現(xiàn)針對實(shí)時(shí)深度偽造欺詐的新趨勢,例如最近對Binance的攻擊。
由于系統(tǒng)不需要全彩色圖像來確定假深度圖和真實(shí)深度圖之間的差異,因此可以實(shí)現(xiàn)更大的推理時(shí)間經(jīng)濟(jì)性,但可以僅在深度信息的灰度圖像上高效地運(yùn)行。
作者說:“這一結(jié)果表明,在這種情況下,深度比顏色偽影對分類的貢獻(xiàn)更大。”
這些發(fā)現(xiàn)代表了針對DeepFaceLive等實(shí)時(shí)面部合成系統(tǒng)的新一波深度偽造檢測研究的一部分——在FBI3月份發(fā)出警告之后,這一努力在過去3-4個(gè)月內(nèi)顯著加速。實(shí)時(shí)視頻和音頻深度偽造的風(fēng)險(xiǎn)。
這篇論文的標(biāo)題是DepthFake:一種基于深度的檢測深度偽造視頻的策略,來自羅馬Sapienza大學(xué)的五位研究人員。
邊緣案例
在訓(xùn)練過程中,基于自動(dòng)編碼器的深度偽造模型優(yōu)先考慮面部的內(nèi)部區(qū)域,例如眼睛、鼻子和嘴巴。在大多數(shù)情況下,在DeepFaceLab和FaceSwap等開源發(fā)行版中(均源自2017年Reddit刪除之前的原始代碼),面部的外部輪廓直到訓(xùn)練的后期才變得清晰,并且不太可能匹配內(nèi)面部區(qū)域的合成質(zhì)量。
從之前的研究中,我們看到了面部“顯著性圖”的可視化。
通常,這并不重要,因?yàn)槲覀儍A向于首先關(guān)注眼睛并優(yōu)先考慮,在注意力水平下降時(shí)“向外”意味著我們不太可能被這些外圍質(zhì)量下降所困擾——尤其是當(dāng)我們在現(xiàn)場與偽造另一個(gè)身份的人,這會觸發(fā)我們評估“渲染”深度偽造鏡頭時(shí)不存在的社會慣例和處理限制。
但是,可以通過算法檢測到深度偽造人臉受影響邊緣區(qū)域缺乏細(xì)節(jié)或準(zhǔn)確性。3月,發(fā)布了可在外圍面部區(qū)域進(jìn)行按鍵操作的系統(tǒng)。但是,由于它需要高于平均水平的訓(xùn)練數(shù)據(jù)量,因此它僅適用于可能出現(xiàn)在流行的面部數(shù)據(jù)集(例如ImageNet)中的名人,這些數(shù)據(jù)集在當(dāng)前計(jì)算機(jī)視覺和深度偽造檢測技術(shù)中具有淵源。
相反,名為DepthFake的新系統(tǒng)可以通過區(qū)分真實(shí)和虛假視頻內(nèi)容中估計(jì)的深度圖信息的質(zhì)量,甚至在模糊或未知的身份上進(jìn)行通用操作。
深入
深度圖信息越來越多地融入智能手機(jī),包括對計(jì)算機(jī)視覺研究特別有用的人工智能輔助立體實(shí)現(xiàn)。在這項(xiàng)新研究中,作者使用了愛爾蘭國立大學(xué)的FaceDepth模型,這是一種卷積編碼器/解碼器網(wǎng)絡(luò),可以有效地從單源圖像估計(jì)深度圖。
FaceDepth模型在行動(dòng)。
接下來,意大利研究人員的新框架的管道從原始RGB圖像和派生的深度圖中提取對象面部的224×224像素塊。至關(guān)重要的是,這允許進(jìn)程復(fù)制核心內(nèi)容而不調(diào)整其大??;這很重要,因?yàn)槌叽鐦?biāo)準(zhǔn)調(diào)整算法會對目標(biāo)區(qū)域的質(zhì)量產(chǎn)生不利影響。
利用這些來自真實(shí)和深度偽造來源的信息,研究人員隨后訓(xùn)練了一個(gè)卷積神經(jīng)網(wǎng)絡(luò)(CNN),該網(wǎng)絡(luò)能夠根據(jù)各個(gè)深度圖的感知質(zhì)量之間的差異來區(qū)分真實(shí)實(shí)例和偽造實(shí)例。
DepthFake的概念管道。
FaceDepth模型使用混合函數(shù)在真實(shí)和合成數(shù)據(jù)上進(jìn)行訓(xùn)練,該函數(shù)在面部外邊緣提供更多細(xì)節(jié),非常適合DepthFake。它使用MobileNet實(shí)例作為特征提取器,并使用480×640輸入圖像進(jìn)行訓(xùn)練,輸出240×320深度圖。每個(gè)深度圖代表新項(xiàng)目鑒別器中使用的四個(gè)輸入通道的四分之一。
深度圖會自動(dòng)嵌入到原始RGB圖像中,以提供現(xiàn)代智能手機(jī)相機(jī)可以輸出的充滿深度信息的RGBD圖像。
訓(xùn)練
該模型是在已經(jīng)在ImageNet上預(yù)訓(xùn)練的Xception網(wǎng)絡(luò)上訓(xùn)練的,盡管該架構(gòu)需要一些調(diào)整以適應(yīng)額外的深度信息,同時(shí)保持權(quán)重的正確初始化。
此外,深度信息與網(wǎng)絡(luò)預(yù)期值之間的值范圍不匹配,研究人員必須將這些值標(biāo)準(zhǔn)化為0-255。
在訓(xùn)練過程中,只應(yīng)用了翻轉(zhuǎn)和旋轉(zhuǎn)。在許多情況下,模型會出現(xiàn)各種其他視覺擾動(dòng),以便進(jìn)行穩(wěn)健的推理,但在源照片中保留有限且非常脆弱的邊緣深度圖信息的必要性迫使研究人員采用了縮減機(jī)制。
該系統(tǒng)還接受了簡單的2通道灰度訓(xùn)練,以確定源圖像需要多復(fù)雜才能獲得可行的算法。
通過TensorFlow API在具有8GB VRAM的NVIDIA GTX 1080上進(jìn)行訓(xùn)練,使用ADAMAX優(yōu)化器,進(jìn)行25個(gè)epoch,批量大小為32。在裁剪期間輸入分辨率固定為224×224,人臉檢測和提取是使用dlib C++庫完成。
結(jié)果
使用FaceForensic++框架針對深度偽造、Face2Face、FaceSwap、Neural Texture以及具有RGB和RGBD輸入的完整數(shù)據(jù)集測試結(jié)果的準(zhǔn)確性。
四種深度偽造方法以及整個(gè)未拆分?jǐn)?shù)據(jù)集的準(zhǔn)確性結(jié)果。結(jié)果分為源RGB圖像分析和具有嵌入式推斷深度圖的相同圖像。最佳結(jié)果以粗體顯示,下方的百分比數(shù)字顯示了深度圖信息改善結(jié)果的程度。
在所有情況下,深度通道都會提高模型在所有配置中的性能。Xception獲得了最好的結(jié)果,敏捷的MobileNet緊隨其后。對此,作者評論說:
'[有趣的是]MobileNet略遜于Xception,并且優(yōu)于更深的ResNet50。在考慮減少實(shí)時(shí)應(yīng)用程序的推理時(shí)間的目標(biāo)時(shí),這是一個(gè)顯著的結(jié)果。雖然這不是這項(xiàng)工作的主要貢獻(xiàn),但我們?nèi)匀徽J(rèn)為這是對未來發(fā)展的一個(gè)令人鼓舞的結(jié)果。
研究人員還注意到RGBD和2通道灰度輸入相對于RGB和直接灰度輸入的一致優(yōu)勢,觀察到深度推理的灰度轉(zhuǎn)換在計(jì)算上非常便宜,允許模型在非常有限的本地資源下獲得改進(jìn)的結(jié)果,促進(jìn)基于深度信息的實(shí)時(shí)深度偽造檢測的未來發(fā)展。
- 上一篇
金融犯罪中基于人工智能系統(tǒng)的偏見和公平
在打擊金融犯罪方面,存在的挑戰(zhàn)超出了僅僅阻止欺詐者或其他不良行為者的范圍。一些正在推出的最新、先進(jìn)的技術(shù)通常有自己的特定問題,在采用階段必須考慮這些問題,以便在不受監(jiān)
- 下一篇
行業(yè)敦促彌合人工智能性別差距
聯(lián)合國教科文組織的加布里埃拉·拉莫斯·帕蒂諾(Gabriela I.Ramos Patiño)表示,人工智能行業(yè)中的性別差距可能會導(dǎo)致經(jīng)濟(jì)和技術(shù)體系中女性人數(shù)嚴(yán)重不足。