資訊詳情

深度學(xué)習(xí)模型可能難以識別AI生成的圖像

2022-09-02 10:08:024636

一篇新論文的研究結(jié)果表明，最先進(jìn)的人工智能識別和解釋人工智能合成圖像的能力明顯低于人類，這在即將到來的機(jī)器學(xué)習(xí)模型越來越多地接受合成數(shù)據(jù)訓(xùn)練的氣候中可能會引起關(guān)注，并且不一定知道數(shù)據(jù)是否“真實(shí)”。

預(yù)測模型在百吉餅類別中掙扎

在這里，我們看到resnext101_32x8d_wsl預(yù)測模型在“百吉餅”類別中掙扎。在測試中，如果核心目標(biāo)詞（在本例中為“百吉餅”）未出現(xiàn)在前五個預(yù)測結(jié)果中，則認(rèn)為發(fā)生了識別失敗。

新研究測試了兩類基于計(jì)算機(jī)視覺的識別框架：對象識別和視覺問答(VQA)。

左側(cè)是對象識別系統(tǒng)的推理成功和失敗；在右側(cè)，VQA任務(wù)旨在以更具探索性和意義的方式探索AI對場景和圖像的理解

左側(cè)是對象識別系統(tǒng)的推理成功和失?。辉谟覀?cè)，VQA任務(wù)旨在以更具探索性和意義的方式探索AI對場景和圖像的理解。

在由圖像合成框架DALL-E 2和Midjourney生成的精選數(shù)據(jù)集上測試的十個最先進(jìn)的模型中，表現(xiàn)最好的模型在兩種類型中只能達(dá)到60%和80%的top-5準(zhǔn)確率測試，而在非合成的真實(shí)數(shù)據(jù)上訓(xùn)練的ImageNet在相同類別中分別可以達(dá)到91%和99%，而人類的表現(xiàn)通常明顯更高。

解決分布變化（又名“模型漂移”，即預(yù)測模型在從訓(xùn)練數(shù)據(jù)轉(zhuǎn)移到“真實(shí)”數(shù)據(jù)時預(yù)測能力下降）的問題，該論文指出：

'人類能夠識別生成的圖像并輕松回答有關(guān)它們的問題。我們得出結(jié)論：a)深度模型難以理解生成的內(nèi)容，并且在微調(diào)后可能會做得更好，并且b)生成的圖像和真實(shí)照片之間存在很大的分布偏移。分布變化似乎與類別有關(guān)。

鑒于在上周轟動一時的強(qiáng)大的穩(wěn)定擴(kuò)散潛擴(kuò)散合成模型開源之后，大量的合成圖像已經(jīng)充斥著互聯(lián)網(wǎng)，隨著“假”圖像涌入諸如Common Crawl等行業(yè)標(biāo)準(zhǔn)數(shù)據(jù)集的可能性自然會出現(xiàn)，多年來準(zhǔn)確性的變化可能會受到“虛幻”圖像的顯著影響。

盡管合成數(shù)據(jù)被認(rèn)為是數(shù)據(jù)匱乏的計(jì)算機(jī)視覺研究領(lǐng)域的潛在救星，該領(lǐng)域通常缺乏超大規(guī)模管理的資源和預(yù)算，但穩(wěn)定擴(kuò)散圖像的新洪流（以及自問世以來合成圖像的普遍上升和DALL-E 2的商業(yè)化不太可能都帶有方便的標(biāo)簽、注釋和主題標(biāo)簽，以便在貪婪的機(jī)器視覺系統(tǒng)從互聯(lián)網(wǎng)上抓取它們時將它們區(qū)分為“假”。

開源圖像合成框架的發(fā)展速度明顯超過了我們對來自這些系統(tǒng)的圖像進(jìn)行分類的能力，導(dǎo)致人們對“假圖像”檢測系統(tǒng)的興趣日益濃厚，類似于deepfake檢測系統(tǒng)，但其任務(wù)是評估整個圖像而不是部分圖像面孔。

這篇新論文的標(biāo)題是深度模型在理解生成的圖像方面有多好？來自舊金山機(jī)器學(xué)習(xí)初創(chuàng)公司Quintic AI的Ali Borji。

數(shù)據(jù)

該研究早于Stable Diffusion發(fā)布，實(shí)驗(yàn)使用DALL-E 2和Midjourney生成的17個類別的數(shù)據(jù)，包括大象、蘑菇、比薩餅、椒鹽卷餅、拖拉機(jī)和兔子。

測試識別和VQA系統(tǒng)面臨挑戰(zhàn)以識別最重要的關(guān)鍵概念的圖像示例

測試識別和VQA系統(tǒng)面臨挑戰(zhàn)以識別最重要的關(guān)鍵概念的圖像示例。

圖像是通過網(wǎng)絡(luò)搜索和Twitter獲得的，并且根據(jù)DALL-E 2的政策（至少在當(dāng)時），不包括任何人臉圖像。只選擇了人類可識別的高質(zhì)量圖像。

策劃了兩組圖像，一組用于對象識別和VQA任務(wù)。

每個測試類別中用于對象識別的圖像數(shù)量

每個測試類別中用于對象識別的圖像數(shù)量。

測試對象識別

對于對象識別測試，十個模型都在ImageNet上進(jìn)行了測試：AlexNet、ResNet152、MobileNetV2、DenseNet、ResNext、GoogleNet、ResNet101、Inception_V3、Deit和ResNext_WSL。

測試系統(tǒng)中的某些類比其他類更細(xì)化，因此需要應(yīng)用平均方法。例如，ImageNet包含三個保留到“時鐘”的類，并且有必要定義某種仲裁度量，其中在任何圖像的前五個獲得的標(biāo)簽中包含任何類型的任何“時鐘”被認(rèn)為是成功的在那種情況下。

17個類別的每個模型的性能

17個類別的每個模型的性能。

這一輪中表現(xiàn)最好的模型是resnext101_32x8d_ws，在前1名中達(dá)到了近60%（即，它在五次猜測中的首選預(yù)測是圖像中體現(xiàn)的正確概念的時間），在前五名中達(dá)到了80%（即期望的概念至少在模型對圖片的五種猜測中的某個地方列出）。

作者認(rèn)為，該模型的良好性能是由于它經(jīng)過訓(xùn)練用于社交媒體平臺中的主題標(biāo)簽的弱監(jiān)督預(yù)測。然而，作者指出，這些領(lǐng)先的結(jié)果明顯低于ImageNet在真實(shí)數(shù)據(jù)上所能達(dá)到的水平，即91%和99%。他認(rèn)為這是由于ImageNet圖像（也是從網(wǎng)絡(luò)上抓取的）和生成圖像的分布之間存在重大差異所致。

該系統(tǒng)最難的五個類別，按照難度順序，分別是風(fēng)箏、烏龜、松鼠、太陽鏡和頭盔。該論文指出，風(fēng)箏類經(jīng)常與氣球、降落傘和雨傘混淆，盡管這些區(qū)別對于人類觀察者來說很容易區(qū)分。

某些類別，包括風(fēng)箏和烏龜，導(dǎo)致所有模型普遍失敗，而其他類別（特別是椒鹽卷餅和拖拉機(jī)）在測試模型中幾乎普遍成功。

兩極分化類別：選擇的一些目標(biāo)類別要么固定所有模型，要么對所有模型都相當(dāng)容易識別

兩極分化類別：選擇的一些目標(biāo)類別要么固定所有模型，要么對所有模型都相當(dāng)容易識別。

作者假設(shè)這些發(fā)現(xiàn)表明所有對象識別模型都可能具有相似的優(yōu)勢和劣勢。

測試視覺問答

接下來，作者在開放式和自由形式的VQA上測試了VQA模型，帶有二進(jìn)制問題（即答案只能是“是”或“否”的問題）。該論文指出，最近最先進(jìn)的VQA模型能夠在VQA-v2數(shù)據(jù)集上達(dá)到95%的準(zhǔn)確率。

在這一階段的測試中，作者策劃了50張圖片，并圍繞它們制定了241個問題，其中132個有正面答案，109個負(fù)面答案。平均問題長度為5.12個單詞。

本輪使用OFA模型，一個任務(wù)無關(guān)和模態(tài)無關(guān)的框架來測試任務(wù)的全面性，并且最近是VQA-v2測試標(biāo)準(zhǔn)集的領(lǐng)先得分者。OFA在生成的圖像上獲得了77.27%的準(zhǔn)確度，而在VQA-v2測試標(biāo)準(zhǔn)集中它自己的得分為94.7%。

測試的VQA部分的示例問題和結(jié)果

測試的VQA部分的示例問題和結(jié)果。“GT”是“Ground Truth”，即正確答案。

該論文的作者認(rèn)為，部分原因可能是生成的圖像包含VQA-v2數(shù)據(jù)集中不存在的語義概念，并且為VQA測試編寫的問題可能更具挑戰(zhàn)VQA-v2問題的一般標(biāo)準(zhǔn)，盡管他認(rèn)為前一種原因的可能性更大。

數(shù)據(jù)流中的LSD？

意見AI合成圖像的新擴(kuò)散可以呈現(xiàn)自然界中不存在的核心概念的即時連接和抽象，并且通過傳統(tǒng)方法生成會非常耗時，這可能會給弱監(jiān)督數(shù)據(jù)帶來特殊問題-收集系統(tǒng)，可能無法正常失敗——主要是因?yàn)樗鼈兊脑O(shè)計(jì)目的不是處理大量、未標(biāo)記的合成數(shù)據(jù)。

在這種情況下，這些系統(tǒng)可能會將一定比例的“奇異”合成圖像歸入不正確的類別，因?yàn)檫@些圖像具有不同的對象，而這些對象并不真正屬于一起。

宇航員騎馬圖像合成

“宇航員騎馬”可能已成為新一代圖像合成系統(tǒng)最具象征意義的視覺效果——但這些“不真實(shí)”的關(guān)系可能會進(jìn)入真正的檢測系統(tǒng)，除非小心謹(jǐn)慎。

除非在訓(xùn)練之前的預(yù)處理階段可以防止這種情況，否則這種自動化管道可能會導(dǎo)致將不可能甚至怪誕的關(guān)聯(lián)訓(xùn)練到機(jī)器學(xué)習(xí)系統(tǒng)中，從而降低其有效性，并有可能將高級關(guān)聯(lián)傳遞到下游系統(tǒng)和子類中和類別。

或者，不連貫的合成圖像可能會對后來系統(tǒng)的準(zhǔn)確性產(chǎn)生“寒蟬效應(yīng)”，最終會出現(xiàn)新的或修正的架構(gòu)，試圖解釋臨時合成圖像，并撒下太寬的網(wǎng)。

在任何一種情況下，后穩(wěn)定擴(kuò)散時代的合成圖像都可能讓計(jì)算機(jī)視覺研究部門頭疼，他們的努力使這些奇怪的創(chuàng)造和能力成為可能——尤其是因?yàn)樗＜霸摬块T希望收集和管理數(shù)據(jù)能夠最終將比現(xiàn)在更加自動化，而且成本和耗時也更少。