資訊詳情

對(duì)抗性機(jī)器學(xué)習(xí)的權(quán)威指南

2023-01-30 08:51:194636

機(jī)器學(xué)習(xí)正在成為我們每天使用的許多應(yīng)用程序的重要組成部分。ML模型通過面部和語音識(shí)別、標(biāo)記圖像、交友和購物建議、在互聯(lián)網(wǎng)上搜索內(nèi)容、編寫代碼、撰寫電子郵件，甚至駕駛汽車來驗(yàn)證我們的身份。由于有如此多的關(guān)鍵任務(wù)被轉(zhuǎn)移到機(jī)器學(xué)習(xí)和深度學(xué)習(xí)模型中，因此有點(diǎn)擔(dān)心它們的安全性是公平的。

隨著機(jī)器學(xué)習(xí)的使用越來越多，人們對(duì)其安全威脅的興趣也越來越大。最前面的是對(duì)抗性示例，即操縱機(jī)器學(xué)習(xí)模型行為的輸入的不可察覺的變化。對(duì)抗性攻擊可能導(dǎo)致從煩人的錯(cuò)誤到致命的錯(cuò)誤。

關(guān)于對(duì)抗性機(jī)器學(xué)習(xí)的論文如此之多，你很難全神貫注于該領(lǐng)域正在發(fā)生的一切。幸運(yùn)的是，AI研究人員Pin-Yu Chen和Cho-Jui Hsieh合著的《機(jī)器學(xué)習(xí)的對(duì)抗魯棒性》提供了對(duì)該主題的全面概述。

Chen和Hsieh將對(duì)抗性機(jī)器學(xué)習(xí)關(guān)鍵組成部分背后的直覺和科學(xué)結(jié)合在一起：攻擊、防御、認(rèn)證和應(yīng)用。以下是您將學(xué)到的內(nèi)容的摘要。

對(duì)抗性攻擊

對(duì)抗性攻擊基于在機(jī)器學(xué)習(xí)系統(tǒng)中發(fā)現(xiàn)故障模式的技巧。最著名的對(duì)抗性攻擊類型是逃避攻擊或針對(duì)計(jì)算機(jī)視覺系統(tǒng)進(jìn)行的測(cè)試時(shí)間攻擊。在這些攻擊中，對(duì)手會(huì)在圖像中添加難以察覺的噪聲層，從而導(dǎo)致目標(biāo)機(jī)器學(xué)習(xí)模型對(duì)其進(jìn)行錯(cuò)誤分類。被操縱的數(shù)據(jù)通常被稱為對(duì)抗樣本。

對(duì)抗性攻擊百吉餅

對(duì)抗性攻擊的例子

對(duì)抗性攻擊技術(shù)通常根據(jù)攻擊成功率(ASR)進(jìn)行評(píng)估，即成功改變目標(biāo)ML模型行為的示例的百分比。對(duì)抗性攻擊的第二個(gè)標(biāo)準(zhǔn)是導(dǎo)致攻擊成功所需的擾動(dòng)量。擾動(dòng)越小，技術(shù)越強(qiáng)，越難檢測(cè)。

可以根據(jù)對(duì)手對(duì)目標(biāo)ML模型的訪問和知識(shí)對(duì)對(duì)抗性攻擊進(jìn)行分類：

白盒對(duì)抗攻擊：在白盒攻擊中，對(duì)手完全了解目標(biāo)模型，包括其架構(gòu)和權(quán)重。白盒對(duì)抗攻擊使用目標(biāo)模型的權(quán)重和梯度來計(jì)算對(duì)抗噪聲。白盒攻擊是創(chuàng)建對(duì)抗性示例的最簡(jiǎn)單方法。它們還具有最高的ASR并且需要最低的擾動(dòng)。

在生產(chǎn)系統(tǒng)中，攻擊者通常無法直接訪問模型。但是白盒攻擊是在將機(jī)器學(xué)習(xí)模型部署到公眾之前測(cè)試其對(duì)抗性魯棒性的非常好的工具。

黑盒對(duì)抗攻擊：在黑盒攻擊中，對(duì)手通過中間系統(tǒng)訪問機(jī)器學(xué)習(xí)模型，例如Web應(yīng)用程序或應(yīng)用程序編程接口(API)，例如Google Cloud Vision API、Microsoft Azure Cognitive Services和亞馬遜識(shí)別。

黑盒對(duì)抗性攻擊不知道底層ML模型的架構(gòu)和權(quán)重。他們只能查詢模型并評(píng)估結(jié)果。如果ML系統(tǒng)返回多個(gè)類別及其置信度分?jǐn)?shù)（例如，鋼琴：85%、百吉餅：5%、鯊魚：1%等），則對(duì)手可以進(jìn)行軟標(biāo)簽黑盒攻擊。通過逐漸對(duì)圖像添加擾動(dòng)并觀察ML系統(tǒng)輸出分?jǐn)?shù)的變化，攻擊者可以創(chuàng)建對(duì)抗性示例。

在某些情況下，ML系統(tǒng)返回單個(gè)輸出標(biāo)簽（例如，鋼琴）。在這種情況下，對(duì)手必須進(jìn)行硬標(biāo)簽黑盒攻擊。這種類型的攻擊更加困難，但并非不可能。

除了擾動(dòng)級(jí)別和ASR之外，黑盒攻擊的評(píng)估還基于它們的查詢效率，即創(chuàng)建對(duì)抗性示例所需的查詢數(shù)量。

對(duì)抗性攻擊類型

不同類型的機(jī)器學(xué)習(xí)對(duì)抗攻擊

傳輸攻擊是一種攻擊類型，在這種攻擊中，對(duì)手使用源ML模型為目標(biāo)模型創(chuàng)建對(duì)抗性示例。在典型的傳輸攻擊設(shè)置中，對(duì)手試圖以黑盒模型為目標(biāo)，并使用本地白盒模型作為代理來創(chuàng)建對(duì)抗性示例。代理模型可以使用從黑盒模型獲得的軟標(biāo)簽進(jìn)行預(yù)訓(xùn)練或微調(diào)。

遷移攻擊很困難，尤其是當(dāng)目標(biāo)模型是深度神經(jīng)網(wǎng)絡(luò)時(shí)。如果不了解目標(biāo)模型的架構(gòu)，就很難創(chuàng)建可以創(chuàng)建可轉(zhuǎn)移的對(duì)抗性示例的替代模型。但這并非不可能，有多種技術(shù)可以幫助梳理出有關(guān)目標(biāo)模型的足夠信息，以創(chuàng)建有效的替代模型。傳輸攻擊的優(yōu)勢(shì)在于它們克服了訪問遠(yuǎn)程ML系統(tǒng)的瓶頸，特別是當(dāng)目標(biāo)API系統(tǒng)為每個(gè)推理向客戶收費(fèi)或具有防止對(duì)抗性探測(cè)的防御機(jī)制時(shí)。

在機(jī)器學(xué)習(xí)的對(duì)抗魯棒性中，Chen和Hsieh深入探討了每種類型的攻擊并提供了相關(guān)論文的參考。

其他類型的對(duì)抗性攻擊

雖然針對(duì)計(jì)算機(jī)視覺系統(tǒng)的測(cè)試時(shí)間攻擊受到了最多的媒體關(guān)注，但它們并不是針對(duì)機(jī)器學(xué)習(xí)的唯一威脅。在機(jī)器學(xué)習(xí)的對(duì)抗性魯棒性中，您將了解其他幾種類型的對(duì)抗性攻擊：

物理對(duì)抗攻擊是一種攻擊類型，在這種攻擊中，攻擊者創(chuàng)建可以欺騙機(jī)器學(xué)習(xí)系統(tǒng)的物理對(duì)象。物理對(duì)抗性示例的一些流行示例包括針對(duì)面部識(shí)別系統(tǒng)的對(duì)抗性眼鏡和化妝品、用于躲避行人檢測(cè)器的對(duì)抗性T恤，以及在自動(dòng)駕駛汽車中欺騙路標(biāo)檢測(cè)器的對(duì)抗性貼紙。

AI對(duì)抗攻擊人臉識(shí)別

卡內(nèi)基梅隆大學(xué)的研究人員發(fā)現(xiàn)，通過戴上特殊眼鏡，他們可以欺騙面部識(shí)別算法，將他們誤認(rèn)為是名人

訓(xùn)練時(shí)對(duì)抗性攻擊：如果對(duì)手可以訪問機(jī)器學(xué)習(xí)系統(tǒng)的訓(xùn)練管道，他們將能夠操縱學(xué)習(xí)過程以發(fā)揮自己的優(yōu)勢(shì)。在數(shù)據(jù)中毒攻擊中，對(duì)手修改訓(xùn)練數(shù)據(jù)以降低訓(xùn)練模型的一般準(zhǔn)確性或特定類別的準(zhǔn)確性。在后門攻擊中，對(duì)手通過添加帶有觸發(fā)模式的示例來污染訓(xùn)練數(shù)據(jù)。經(jīng)過訓(xùn)練的模型對(duì)模式變得敏感，攻擊者可以在推理時(shí)使用它來觸發(fā)所需的行為。

圖像之外的對(duì)抗性攻擊：圖像分類器并不是唯一可以成為對(duì)抗性攻擊目標(biāo)的機(jī)器學(xué)習(xí)模型。在機(jī)器學(xué)習(xí)的對(duì)抗性魯棒性中，Chen和Hsieh討論了針對(duì)處理文本、音頻信號(hào)、圖形數(shù)據(jù)、計(jì)算機(jī)指令和表格數(shù)據(jù)的機(jī)器學(xué)習(xí)系統(tǒng)的對(duì)抗性示例。每個(gè)都有其特定的挑戰(zhàn)和技術(shù)，作者在書中討論了這些。

對(duì)抗防御技術(shù)

對(duì)抗性防御技術(shù)保護(hù)機(jī)器學(xué)習(xí)模型免受篡改示例的侵害。一些防御技術(shù)會(huì)修改訓(xùn)練過程，使模型對(duì)對(duì)抗性示例更加穩(wěn)健。其他是可以降低對(duì)抗性示例有效性的后處理計(jì)算。

值得注意的是，沒有任何防御技術(shù)是完美的。然而，許多防御技術(shù)是兼容的，可以結(jié)合起來提高模型對(duì)對(duì)抗性攻擊的魯棒性。

對(duì)抗訓(xùn)練：訓(xùn)練模型后，ML工程團(tuán)隊(duì)使用白盒攻擊技術(shù)創(chuàng)建對(duì)抗樣本。然后，該團(tuán)隊(duì)使用對(duì)抗性示例及其適當(dāng)?shù)臉?biāo)簽進(jìn)一步訓(xùn)練ML模型。對(duì)抗訓(xùn)練是使用最廣泛的防御方法。

隨機(jī)化：另一種保護(hù)機(jī)器學(xué)習(xí)模型的方法是將隨機(jī)化的組件集成到模型中。一些技術(shù)可以是隨機(jī)丟棄和層切換。隨機(jī)化使攻擊者更難對(duì)模型進(jìn)行固定攻擊。

分層隨機(jī)切換對(duì)抗樣本防御

隨機(jī)切換可以提高對(duì)抗魯棒性

檢測(cè)：使機(jī)器學(xué)習(xí)模型能夠抵抗各種對(duì)抗性攻擊是非常困難的。改進(jìn)對(duì)抗防御的一種補(bǔ)充方法是創(chuàng)建一個(gè)額外的系統(tǒng)來檢測(cè)異常示例。

過濾和投影：一個(gè)額外的防御向量在將輸入傳遞給機(jī)器學(xué)習(xí)模型之前對(duì)輸入進(jìn)行修改。這些修改旨在過濾可能已添加到輸入數(shù)據(jù)中的可能的對(duì)抗性噪聲。例如，可以訓(xùn)練生成式ML模型以將圖像作為輸入并通過保留主要特征并去除分布外噪聲來再現(xiàn)它。

離散組件：大多數(shù)對(duì)抗性攻擊技術(shù)都基于梯度計(jì)算。因此，另一種防御方法是將分立組件集成到機(jī)器學(xué)習(xí)模型中。離散組件是不可微分的，這使得基于梯度的攻擊變得更加困難。

對(duì)抗性機(jī)器學(xué)習(xí)的不同心態(tài)

機(jī)器學(xué)習(xí)的對(duì)抗性穩(wěn)健性討論了對(duì)抗性機(jī)器學(xué)習(xí)的其他方面，包括驗(yàn)證ML模型的認(rèn)證穩(wěn)健性。該書還探討了對(duì)抗性示例的一些積極方面，例如為新應(yīng)用程序重新編程經(jīng)過訓(xùn)練的模型并生成對(duì)比解釋。

黑盒對(duì)抗性重編程

黑盒對(duì)抗性重新編程可以將神經(jīng)網(wǎng)絡(luò)重新用于新任務(wù)，而無需完全訪問深度學(xué)習(xí)模型。

Chen和Hsieh提出的重要觀點(diǎn)之一是需要重新思考我們?nèi)绾卧u(píng)估機(jī)器學(xué)習(xí)模型。目前，經(jīng)過訓(xùn)練的模型根據(jù)其對(duì)測(cè)試集進(jìn)行分類的準(zhǔn)確性進(jìn)行分級(jí)。但是標(biāo)準(zhǔn)的準(zhǔn)確性指標(biāo)并沒有說明ML模型對(duì)對(duì)抗性攻擊的穩(wěn)健性。事實(shí)上，一些研究表明，在許多情況下，更高的標(biāo)準(zhǔn)精度與對(duì)對(duì)抗性擾動(dòng)的高靈敏度相關(guān)。

作者寫道：“標(biāo)準(zhǔn)準(zhǔn)確度和對(duì)抗魯棒性之間的這種不受歡迎的權(quán)衡表明，人們應(yīng)該采用本書中討論的技術(shù)來評(píng)估和改進(jìn)機(jī)器學(xué)習(xí)的對(duì)抗魯棒性。”