深度學(xué)習(xí)模型可能難以識別AI生成的圖像
一篇新論文的研究結(jié)果表明,最先進(jìn)的人工智能識別和解釋人工智能合成圖像的能力明顯低于人類,這在即將到來的機(jī)器學(xué)習(xí)模型越來越多地接受合成數(shù)據(jù)訓(xùn)練的氣候中可能會引起關(guān)注,并且不一定知道數(shù)據(jù)是否“真實(shí)”。
在這里,我們看到resnext101_32x8d_wsl預(yù)測模型在“百吉餅”類別中掙扎。在測試中,如果核心目標(biāo)詞(在本例中為“百吉餅”)未出現(xiàn)在前五個預(yù)測結(jié)果中,則認(rèn)為發(fā)生了識別失敗。
新研究測試了兩類基于計(jì)算機(jī)視覺的識別框架:對象識別和視覺問答(VQA)。
左側(cè)是對象識別系統(tǒng)的推理成功和失?。辉谟覀?cè),VQA任務(wù)旨在以更具探索性和意義的方式探索AI對場景和圖像的理解。
在由圖像合成框架DALL-E 2和Midjourney生成的精選數(shù)據(jù)集上測試的十個最先進(jìn)的模型中,表現(xiàn)最好的模型在兩種類型中只能達(dá)到60%和80%的top-5準(zhǔn)確率測試,而在非合成的真實(shí)數(shù)據(jù)上訓(xùn)練的ImageNet在相同類別中分別可以達(dá)到91%和99%,而人類的表現(xiàn)通常明顯更高。
解決分布變化(又名“模型漂移”,即預(yù)測模型在從訓(xùn)練數(shù)據(jù)轉(zhuǎn)移到“真實(shí)”數(shù)據(jù)時預(yù)測能力下降)的問題,該論文指出:
'人類能夠識別生成的圖像并輕松回答有關(guān)它們的問題。我們得出結(jié)論:a)深度模型難以理解生成的內(nèi)容,并且在微調(diào)后可能會做得更好,并且b)生成的圖像和真實(shí)照片之間存在很大的分布偏移。分布變化似乎與類別有關(guān)。
鑒于在上周轟動一時的強(qiáng)大的穩(wěn)定擴(kuò)散潛擴(kuò)散合成模型開源之后,大量的合成圖像已經(jīng)充斥著互聯(lián)網(wǎng),隨著“假”圖像涌入諸如Common Crawl等行業(yè)標(biāo)準(zhǔn)數(shù)據(jù)集的可能性自然會出現(xiàn),多年來準(zhǔn)確性的變化可能會受到“虛幻”圖像的顯著影響。
盡管合成數(shù)據(jù)被認(rèn)為是數(shù)據(jù)匱乏的計(jì)算機(jī)視覺研究領(lǐng)域的潛在救星,該領(lǐng)域通常缺乏超大規(guī)模管理的資源和預(yù)算,但穩(wěn)定擴(kuò)散圖像的新洪流(以及自問世以來合成圖像的普遍上升和DALL-E 2的商業(yè)化不太可能都帶有方便的標(biāo)簽、注釋和主題標(biāo)簽,以便在貪婪的機(jī)器視覺系統(tǒng)從互聯(lián)網(wǎng)上抓取它們時將它們區(qū)分為“假”。
開源圖像合成框架的發(fā)展速度明顯超過了我們對來自這些系統(tǒng)的圖像進(jìn)行分類的能力,導(dǎo)致人們對“假圖像”檢測系統(tǒng)的興趣日益濃厚,類似于deepfake檢測系統(tǒng),但其任務(wù)是評估整個圖像而不是部分圖像面孔。
這篇新論文的標(biāo)題是深度模型在理解生成的圖像方面有多好?來自舊金山機(jī)器學(xué)習(xí)初創(chuàng)公司Quintic AI的Ali Borji。
數(shù)據(jù)
該研究早于Stable Diffusion發(fā)布,實(shí)驗(yàn)使用DALL-E 2和Midjourney生成的17個類別的數(shù)據(jù),包括大象、蘑菇、比薩餅、椒鹽卷餅、拖拉機(jī)和兔子。
測試識別和VQA系統(tǒng)面臨挑戰(zhàn)以識別最重要的關(guān)鍵概念的圖像示例。
圖像是通過網(wǎng)絡(luò)搜索和Twitter獲得的,并且根據(jù)DALL-E 2的政策(至少在當(dāng)時),不包括任何人臉圖像。只選擇了人類可識別的高質(zhì)量圖像。
策劃了兩組圖像,一組用于對象識別和VQA任務(wù)。
每個測試類別中用于對象識別的圖像數(shù)量。
測試對象識別
對于對象識別測試,十個模型都在ImageNet上進(jìn)行了測試:AlexNet、ResNet152、MobileNetV2、DenseNet、ResNext、GoogleNet、ResNet101、Inception_V3、Deit和ResNext_WSL。
測試系統(tǒng)中的某些類比其他類更細(xì)化,因此需要應(yīng)用平均方法。例如,ImageNet包含三個保留到“時鐘”的類,并且有必要定義某種仲裁度量,其中在任何圖像的前五個獲得的標(biāo)簽中包含任何類型的任何“時鐘”被認(rèn)為是成功的在那種情況下。
17個類別的每個模型的性能。
這一輪中表現(xiàn)最好的模型是resnext101_32x8d_ws,在前1名中達(dá)到了近60%(即,它在五次猜測中的首選預(yù)測是圖像中體現(xiàn)的正確概念的時間),在前五名中達(dá)到了80%(即期望的概念至少在模型對圖片的五種猜測中的某個地方列出)。
作者認(rèn)為,該模型的良好性能是由于它經(jīng)過訓(xùn)練用于社交媒體平臺中的主題標(biāo)簽的弱監(jiān)督預(yù)測。然而,作者指出,這些領(lǐng)先的結(jié)果明顯低于ImageNet在真實(shí)數(shù)據(jù)上所能達(dá)到的水平,即91%和99%。他認(rèn)為這是由于ImageNet圖像(也是從網(wǎng)絡(luò)上抓取的)和生成圖像的分布之間存在重大差異所致。
該系統(tǒng)最難的五個類別,按照難度順序,分別是風(fēng)箏、烏龜、松鼠、太陽鏡和頭盔。該論文指出,風(fēng)箏類經(jīng)常與氣球、降落傘和雨傘混淆,盡管這些區(qū)別對于人類觀察者來說很容易區(qū)分。
某些類別,包括風(fēng)箏和烏龜,導(dǎo)致所有模型普遍失敗,而其他類別(特別是椒鹽卷餅和拖拉機(jī))在測試模型中幾乎普遍成功。
兩極分化類別:選擇的一些目標(biāo)類別要么固定所有模型,要么對所有模型都相當(dāng)容易識別。
作者假設(shè)這些發(fā)現(xiàn)表明所有對象識別模型都可能具有相似的優(yōu)勢和劣勢。
測試視覺問答
接下來,作者在開放式和自由形式的VQA上測試了VQA模型,帶有二進(jìn)制問題(即答案只能是“是”或“否”的問題)。該論文指出,最近最先進(jìn)的VQA模型能夠在VQA-v2數(shù)據(jù)集上達(dá)到95%的準(zhǔn)確率。
在這一階段的測試中,作者策劃了50張圖片,并圍繞它們制定了241個問題,其中132個有正面答案,109個負(fù)面答案。平均問題長度為5.12個單詞。
本輪使用OFA模型,一個任務(wù)無關(guān)和模態(tài)無關(guān)的框架來測試任務(wù)的全面性,并且最近是VQA-v2測試標(biāo)準(zhǔn)集的領(lǐng)先得分者。OFA在生成的圖像上獲得了77.27%的準(zhǔn)確度,而在VQA-v2測試標(biāo)準(zhǔn)集中它自己的得分為94.7%。
測試的VQA部分的示例問題和結(jié)果。“GT”是“Ground Truth”,即正確答案。
該論文的作者認(rèn)為,部分原因可能是生成的圖像包含VQA-v2數(shù)據(jù)集中不存在的語義概念,并且為VQA測試編寫的問題可能更具挑戰(zhàn)VQA-v2問題的一般標(biāo)準(zhǔn),盡管他認(rèn)為前一種原因的可能性更大。
數(shù)據(jù)流中的LSD?
意見AI合成圖像的新擴(kuò)散可以呈現(xiàn)自然界中不存在的核心概念的即時連接和抽象,并且通過傳統(tǒng)方法生成會非常耗時,這可能會給弱監(jiān)督數(shù)據(jù)帶來特殊問題-收集系統(tǒng),可能無法正常失敗——主要是因?yàn)樗鼈兊脑O(shè)計(jì)目的不是處理大量、未標(biāo)記的合成數(shù)據(jù)。
在這種情況下,這些系統(tǒng)可能會將一定比例的“奇異”合成圖像歸入不正確的類別,因?yàn)檫@些圖像具有不同的對象,而這些對象并不真正屬于一起。
“宇航員騎馬”可能已成為新一代圖像合成系統(tǒng)最具象征意義的視覺效果——但這些“不真實(shí)”的關(guān)系可能會進(jìn)入真正的檢測系統(tǒng),除非小心謹(jǐn)慎。
除非在訓(xùn)練之前的預(yù)處理階段可以防止這種情況,否則這種自動化管道可能會導(dǎo)致將不可能甚至怪誕的關(guān)聯(lián)訓(xùn)練到機(jī)器學(xué)習(xí)系統(tǒng)中,從而降低其有效性,并有可能將高級關(guān)聯(lián)傳遞到下游系統(tǒng)和子類中和類別。
或者,不連貫的合成圖像可能會對后來系統(tǒng)的準(zhǔn)確性產(chǎn)生“寒蟬效應(yīng)”,最終會出現(xiàn)新的或修正的架構(gòu),試圖解釋臨時合成圖像,并撒下太寬的網(wǎng)。
在任何一種情況下,后穩(wěn)定擴(kuò)散時代的合成圖像都可能讓計(jì)算機(jī)視覺研究部門頭疼,他們的努力使這些奇怪的創(chuàng)造和能力成為可能——尤其是因?yàn)樗<霸摬块T希望收集和管理數(shù)據(jù)能夠最終將比現(xiàn)在更加自動化,而且成本和耗時也更少。
- 上一篇
AR和VR帶來的影響會像互聯(lián)網(wǎng)一樣大嗎?
AR和VR正在進(jìn)入主流應(yīng)用,但它們帶來的影響會像互聯(lián)網(wǎng)那樣大嗎?德國云商務(wù)平臺Commercetools公司首席產(chǎn)品官Kelly Goetsch對此持肯定態(tài)度,他認(rèn)為當(dāng)AR和VR發(fā)展成熟時,其影響將與19
- 下一篇
低代碼在數(shù)字化轉(zhuǎn)型中可以發(fā)揮什么作用?
面對構(gòu)建出色的業(yè)務(wù)應(yīng)用程序和流程時,CIO 遇到的一個重大障礙是程序員(而不是最終用戶)開發(fā)這些項(xiàng)目。不幸的是,這一事實(shí)通常會在現(xiàn)實(shí)中最有效的方法與 IT 認(rèn)為在開發(fā)過程中最有