資訊詳情

對(duì)抗性機(jī)器學(xué)習(xí)在受限特征應(yīng)用中的挑戰(zhàn)

2022-09-22 11:00:514636

機(jī)器學(xué)習(xí)對(duì)抗攻擊防御

圖片來源：123RF（有修改）

本文是我們對(duì)最新AI 研究報(bào)道的一部分。

人們對(duì)機(jī)器學(xué)習(xí)模型的安全性越來越感興趣和擔(dān)憂。專家們知道，用于多種應(yīng)用的機(jī)器學(xué)習(xí)和深度學(xué)習(xí)模型很容易受到對(duì)抗性攻擊。

但是，在 ML 模型中查找和修復(fù)對(duì)抗性漏洞說起來容易做起來難。近年來，該領(lǐng)域有很多研究，但大部分都集中在處理視覺數(shù)據(jù)的 ML 模型上。

我們看到機(jī)器學(xué)習(xí)在網(wǎng)絡(luò)數(shù)據(jù)分析、欺詐檢測(cè)和垃圾郵件過濾等應(yīng)用程序中的使用越來越多，這些應(yīng)用程序使用表格和文本數(shù)據(jù)。不幸的是，許多用于發(fā)現(xiàn)針對(duì)計(jì)算機(jī)視覺系統(tǒng)的對(duì)抗性攻擊的技術(shù)并不適用于這些其他類型的數(shù)據(jù)。

同時(shí)，對(duì)這些數(shù)據(jù)類型的對(duì)抗性攻擊的研究大多未能產(chǎn)生通用的工具和方法來創(chuàng)建強(qiáng)大的 ML 模型。

在2022 年國際人工智能聯(lián)合會(huì)議 (IJCAI) 上發(fā)表的一項(xiàng)新研究中，盧森堡大學(xué)的科學(xué)家們提出了新技術(shù)，可以幫助為這些其他應(yīng)用找到對(duì)抗性攻擊和防御。該研究可以幫助找到解決機(jī)器學(xué)習(xí)系統(tǒng)中對(duì)抗性漏洞的系統(tǒng)方法。

受限特征空間中的對(duì)抗性攻擊

對(duì)抗性攻擊是對(duì)操縱機(jī)器學(xué)習(xí)系統(tǒng)行為的模型輸入的小擾動(dòng)。在以下示例中，對(duì)圖像像素顏色所做的微小更改會(huì)導(dǎo)致圖像分類器更改其輸出。在將機(jī)器學(xué)習(xí)用于敏感功能（例如驗(yàn)證用戶或檢測(cè)惡意網(wǎng)絡(luò)流量）的應(yīng)用程序中，對(duì)抗性攻擊可能會(huì)產(chǎn)生嚴(yán)重的安全影響。

人工智能對(duì)抗性示例熊貓

為左邊的熊貓圖像添加一層噪聲，將其變成一個(gè)對(duì)抗樣本

為了有效，對(duì)抗性擾動(dòng)必須足夠小，以將修改后的數(shù)據(jù)保持在有效范圍或“域約束”內(nèi)。在計(jì)算機(jī)視覺中，這些約束相當(dāng)寬松，只要求人類觀察者察覺不到對(duì)抗性擾動(dòng)。

“在計(jì)算機(jī)視覺中，圖像的任何相當(dāng)小的擾動(dòng)都會(huì)產(chǎn)生有效的圖像（在人眼看來仍然是一樣的），”盧森堡大學(xué)研究科學(xué)家、對(duì)抗性攻擊新論文的合著者馬克西姆·科迪（Maxime Cordy）和防御，告訴TechTalks。“相比之下，擾亂文本很容易導(dǎo)致語法錯(cuò)誤（拼寫或語法）或造成語義不一致。金融或惡意軟件安全等許多其他領(lǐng)域也是如此。”

這些其他應(yīng)用程序的性質(zhì)對(duì)特征施加了更嚴(yán)格的限制，這使得通過隨機(jī)擾動(dòng)創(chuàng)建對(duì)抗性示例變得非常困難。由于對(duì)抗性機(jī)器學(xué)習(xí)的大部分研究都是在計(jì)算機(jī)視覺系統(tǒng)上完成的，因此對(duì)抗性攻擊基于不考慮目標(biāo)系統(tǒng)約束的通用技術(shù)。因此，它們不適用于處理其他類型數(shù)據(jù)的 ML 模型。

Cordy 和他的同事之前進(jìn)行的研究表明，不知道這些限制的對(duì)抗性攻擊大多會(huì)產(chǎn)生不可行的例子。

盧森堡大學(xué)的研究團(tuán)隊(duì)多年來一直在進(jìn)行對(duì)抗性機(jī)器學(xué)習(xí)的研究。與此同時(shí)，他們一直在與行業(yè)合作伙伴合作，研究實(shí)際應(yīng)用中使用的機(jī)器學(xué)習(xí)模型的對(duì)抗魯棒性。

“我們對(duì)現(xiàn)實(shí)世界的金融機(jī)器學(xué)習(xí)模型進(jìn)行了實(shí)證研究，并意識(shí)到對(duì)抗性攻擊需要了解‘域約束’才能產(chǎn)生有效的輸入，”Cordy 說。“通過對(duì)文獻(xiàn)的分析，我們意識(shí)到其他研究人員在其他領(lǐng)域也面臨同樣的問題，并提出了針對(duì)特定領(lǐng)域的對(duì)抗性攻擊。”

這導(dǎo)致團(tuán)隊(duì)創(chuàng)建了一個(gè)可以應(yīng)用于許多領(lǐng)域的通用框架。

對(duì)抗性攻擊和防御的通用框架

這不是第一次研究針對(duì)受限域問題的對(duì)抗性攻擊。但大多數(shù)技術(shù)都有限制，無法跨領(lǐng)域推廣。

一種方法是“問題空間”攻擊，它通過在將它們映射到 ML 模型的特征之前操縱域?qū)ο螅鐞阂廛浖a（用于惡意軟件檢測(cè)系統(tǒng)）和純文本（例如，用于垃圾郵件檢測(cè)）來工作空間。

“這些攻擊不會(huì)泛化到單個(gè)域之外，因?yàn)樗鼈円蕾囉谔囟ǖ霓D(zhuǎn)換來改變域?qū)ο螅?rdquo;Cordy 說。對(duì)象操作在計(jì)算上也比處理數(shù)字特征向量更昂貴。

另一類技術(shù)是“特征空間”攻擊，它直接嘗試修改模型的輸入特征。

“在特征空間中，所有數(shù)據(jù)都?xì)w結(jié)為數(shù)字，因此有泛化的空間，”Cordy 說。“然而，定義輸入特征有效性規(guī)則的域約束仍然受限于所考慮的域。”

一旦為一個(gè)領(lǐng)域開發(fā)了特征空間對(duì)抗性攻擊技術(shù)，就需要對(duì)其進(jìn)行重大修改，然后才能將其應(yīng)用于其他領(lǐng)域。

“挑戰(zhàn)在于提供一種語言來定義足夠表達(dá)的約束，同時(shí)使攻擊算法能夠有效地處理這些約束，”Cordy 說。

各種數(shù)據(jù)類型

圖片來源：123RF

在他們的論文中，Cordy 和他的合著者提出了一個(gè)“約束特征空間攻擊的統(tǒng)一框架”，它可以創(chuàng)建可行的示例并在不進(jìn)行調(diào)整的情況下應(yīng)用于不同的領(lǐng)域。

該框架由“約束語言”和對(duì)抗性攻擊技術(shù)組成。約束語言是定義特征邊界和特征之間關(guān)系的通用系統(tǒng)。然后這些特征會(huì)自動(dòng)轉(zhuǎn)換為對(duì)抗性攻擊技術(shù)。

研究人員提出了兩種攻擊技術(shù)。第一個(gè)是“約束投影梯度下降”（C-PGD），是 PGD 的修改版本，一種流行的對(duì)抗性攻擊方法。C-PGD 將可微約束合并到算法最大化的損失函數(shù)中（與 ML 模型一樣，PGD 使用可微損失和基于梯度的算法來調(diào)整其參數(shù)）。然后，該算法使用后處理計(jì)算將不可微約束應(yīng)用于生成的示例。

第二種攻擊技術(shù)“多目標(biāo)進(jìn)化對(duì)抗攻擊”（MoEvA2）使用遺傳算法，將錯(cuò)誤分類、擾動(dòng)距離和約束滿足作為三個(gè)優(yōu)化目標(biāo)。遺傳算法方法在約束不能表示為可微函數(shù)的應(yīng)用中特別方便。

他們的實(shí)驗(yàn)表明，與經(jīng)典的對(duì)抗性攻擊技術(shù)相比，C-PGD 和 MoEvA2 顯著提高了成功率。研究人員寫道：“雖然不知道域約束的對(duì)抗性攻擊失敗了，但將約束知識(shí)作為攻擊目標(biāo)可以成功生成受約束的對(duì)抗性示例。”

然而，MoEvA2 與所有其他技術(shù)相比具有明顯的優(yōu)勢(shì)，并且在某些應(yīng)用中可以達(dá)到 100% 的成功率。

“遺傳算法（更一般地說，黑盒搜索算法）的優(yōu)勢(shì)在于它們可以直接在多目標(biāo)適應(yīng)度函數(shù)中包含約束滿足（在模型錯(cuò)誤分類和擾動(dòng)閾值旁邊），”Cordy 說。“基于梯度的攻擊需要一個(gè)可微的損失函數(shù)才能工作。使這些攻擊具有約束意識(shí)的唯一方法是將約束作為一個(gè)新的、可微分項(xiàng)合并到損失函數(shù)中。然而，我們觀察到的許多現(xiàn)實(shí)世界的約束是不可微的。這就是為什么我們的基于約束的基于梯度的攻擊（在論文中命名為 C-PGD）只能取得有限的成功。”

研究人員測(cè)試了針對(duì)神經(jīng)網(wǎng)絡(luò)和隨機(jī)森林的攻擊技術(shù)，這些攻擊技術(shù)針對(duì)四種二進(jìn)制分類應(yīng)用程序進(jìn)行了訓(xùn)練，包括信用審批、網(wǎng)絡(luò)流量分類、惡意軟件檢測(cè)和網(wǎng)絡(luò)釣魚 URL 檢測(cè)。根據(jù) Cordy 的說法，該技術(shù)可以很容易地?cái)U(kuò)展到更復(fù)雜的領(lǐng)域。

“我們的方法可以通過修改錯(cuò)誤分類目標(biāo)直接擴(kuò)展到多類模型，”Cordy 說。“它既可以用于非目標(biāo)目標(biāo)（模型應(yīng)將輸入分類為任何不正確），也可以用于目標(biāo)目標(biāo)（模型應(yīng)分類為指定類別）。”

C-PGD和MoEvA2性能

C-PGD 和 MoEvA2 在特征受限領(lǐng)域中優(yōu)于其他對(duì)抗性攻擊技術(shù)

防御對(duì)抗性攻擊

擴(kuò)展他們的工作，研究人員試圖了解他們的發(fā)現(xiàn)如何用于使機(jī)器學(xué)習(xí)模型對(duì)對(duì)抗性攻擊更加健壯。首先，他們使用了對(duì)抗性再訓(xùn)練，這是一種常見的防御技術(shù)，其中 ML 模型對(duì)對(duì)抗性示例及其正確標(biāo)簽進(jìn)行額外訓(xùn)練。在這種情況下，ML 模型在 C-PGD 和 MoEvA2 生成的示例上進(jìn)行了重新訓(xùn)練。

研究人員的研究結(jié)果表明，使用這兩種技術(shù)進(jìn)行對(duì)抗性再訓(xùn)練是針對(duì)受限對(duì)抗性攻擊的有效防御。然而，MoEvA2 仍然設(shè)法保持了大約 85% 的效率，據(jù)研究人員稱，這表明“該搜索算法探索的大型搜索空間保留了其有效性。”

研究人員提出了第二種防御機(jī)制，他們稱之為“工程約束”。基本上，這種方法通過添加不可微分的特征在 ML 模型中引入了一些非凸約束。

可以預(yù)料，這種新方法會(huì)使基于梯度的對(duì)抗性攻擊極其不穩(wěn)定，并將其成功率降至接近于零。另一方面，MoEvA2 仍然可以保持其成功率，但搜索空間變得更大、更復(fù)雜。因此，遺傳算法需要比以前多十倍的代數(shù)才能達(dá)到以前的準(zhǔn)確性。

研究人員看到了進(jìn)一步建立和改進(jìn)這些技術(shù)的潛在方向。

“作為研究人員，我們的最終目標(biāo)是幫助保護(hù)現(xiàn)實(shí)世界的模型免受對(duì)抗性威脅，”Cordy 說。“為了這個(gè)目標(biāo)，我們的工作可以通過兩種方式改進(jìn)。首先，通過混合可行示例（由我們的方法產(chǎn)生）和不可行示例（由經(jīng)典攻擊產(chǎn)生，這比我們的約束方法更有效）來提高對(duì)抗性訓(xùn)練的計(jì)算效率。其次，通過開發(fā)自動(dòng)化方法從可用輸入中學(xué)習(xí)約束來促進(jìn)約束引發(fā)階段。這兩項(xiàng)貢獻(xiàn)相結(jié)合，將能夠正確評(píng)估和改進(jìn)模型對(duì)現(xiàn)實(shí)攻擊的魯棒性。”

亚洲先锋影音人AV成_免费A级毛片一分钟_人人爽人人爽人人插_日韩少妇极品熟妇人妻潮喷

資訊詳情

對(duì)抗性機(jī)器學(xué)習(xí)在受限特征應(yīng)用中的挑戰(zhàn)

受限特征空間中的對(duì)抗性攻擊

對(duì)抗性攻擊和防御的通用框架

防御對(duì)抗性攻擊

用于快速數(shù)字化轉(zhuǎn)型的7大可觀察性工具

合作的人工智能基礎(chǔ)設(shè)施可以提供監(jiān)控和流行病服務(wù)

相關(guān)資訊