亚洲先锋影音人AV成_免费A级毛片一分钟_人人爽人人爽人人插_日韩少妇极品熟妇人妻潮喷

沃卡惠移動(dòng)端logo

主動(dòng)學(xué)習(xí)以及樣本不均衡在圖數(shù)據(jù)場(chǎng)景的探索

2023-09-26 09:50:124636

圖片

一、問(wèn)題背景

首先和大家簡(jiǎn)單介紹一下圖問(wèn)題的背景。

圖片

圖這種數(shù)據(jù)形式在我們的生活中無(wú)處不在。從宇宙的角度來(lái)看,太陽(yáng)、地球和月亮之間的關(guān)系可以被建模成一個(gè)圖;從生物的角度來(lái)看,微觀級(jí)別的分子之間的相互關(guān)系也可以被視作一種微觀的圖關(guān)系;在日常生活場(chǎng)景中,已經(jīng)有許多探索分析是基于社交網(wǎng)絡(luò)的圖數(shù)據(jù)進(jìn)行的;而在風(fēng)控場(chǎng)景中,用戶交易網(wǎng)絡(luò)實(shí)際上也可以被建模成一個(gè)圖結(jié)構(gòu)的數(shù)據(jù),從而進(jìn)行相關(guān)的分析。

圖片

接下來(lái)將對(duì)風(fēng)控場(chǎng)景下的圖問(wèn)題進(jìn)行介紹。近年來(lái),關(guān)于如何利用圖數(shù)據(jù)進(jìn)行分析和建模以控制風(fēng)險(xiǎn)的問(wèn)題引起了廣泛關(guān)注,其中一個(gè)重要的應(yīng)用領(lǐng)域是欺詐檢測(cè)。許多情況下,我們可以將欺詐檢測(cè)建模成一個(gè)圖的問(wèn)題。在這個(gè)圖中,涵蓋了各種各樣的節(jié)點(diǎn)和相互之間的關(guān)系。舉例而言,我們可以探究黑產(chǎn)是否會(huì)通過(guò)某些鏈路向其他用戶發(fā)送欺詐信息,這就涉及到鏈路預(yù)測(cè)的問(wèn)題。此外,正如之前提到的,黑產(chǎn)往往是一個(gè)群體的行為。因此,我們的分析也需要考慮群體異常檢測(cè),以便識(shí)別出這些異常行為,這可以被視為一種社區(qū)檢測(cè),即識(shí)別出在整個(gè)網(wǎng)絡(luò)中相互關(guān)聯(lián)的群體。另一個(gè)關(guān)鍵領(lǐng)域是用戶風(fēng)險(xiǎn)分析。在這方面,我們關(guān)心的問(wèn)題是如何確定某個(gè)特定用戶是否存在風(fēng)險(xiǎn)。這可以被視為對(duì)圖中節(jié)點(diǎn)進(jìn)行分類的任務(wù),我們需要判斷每個(gè)節(jié)點(diǎn)是否屬于“風(fēng)險(xiǎn)用戶”的類別。

圖片

現(xiàn)在我們進(jìn)一步審視一下。在近幾年里,圖神經(jīng)網(wǎng)絡(luò)已被廣泛應(yīng)用于風(fēng)險(xiǎn)控制領(lǐng)域的多個(gè)問(wèn)題中,并且取得了顯著的成效。然而,我們也必須認(rèn)識(shí)到,這個(gè)方法仍然存在兩個(gè)極其重要的問(wèn)題:

樣本標(biāo)簽的獲取相當(dāng)具有挑戰(zhàn)性。這一點(diǎn)可以理解,因?yàn)槲覀兇蠖鄶?shù)時(shí)候只能觀察到普通正常用戶的行為,他們出于合法需求注冊(cè)并使用平臺(tái)。然而,那些從事不正當(dāng)行為的用戶,比如那些試圖濫用系統(tǒng)的薅羊毛用戶,在總體用戶中所占比例較小。因此,我們能夠獲得的有關(guān)這些少數(shù)不良用戶的標(biāo)簽相對(duì)較少。這種標(biāo)簽的稀缺性也導(dǎo)致了另一個(gè)問(wèn)題。

樣本不均衡。由于不良用戶的數(shù)量較少,這就造成了不同類別之間樣本數(shù)量的不平衡。這種情況會(huì)進(jìn)一步影響模型的訓(xùn)練和性能。標(biāo)簽獲取困難以及樣本不均衡問(wèn)題都會(huì)影響模型的效果和穩(wěn)健性。

接下來(lái),將專注于這兩個(gè)問(wèn)題展開(kāi)分享和探討。

二、圖數(shù)據(jù)上的語(yǔ)義感知的主動(dòng)學(xué)習(xí)

圖片

在數(shù)據(jù)樣本稀缺的情況下,我們應(yīng)該如何應(yīng)對(duì)呢?在深度學(xué)習(xí)和機(jī)器學(xué)習(xí)領(lǐng)域,我們都了解樣本的重要性。如果我們能夠?yàn)榇蠖鄶?shù)樣本提供準(zhǔn)確的標(biāo)簽信息,就能夠更好地學(xué)習(xí)到分類的決策邊界。這將使得對(duì)新用戶進(jìn)行分類變得更加容易,我們可以輕松地確定他們應(yīng)該歸入紅色類別還是紫色類別。然而,當(dāng)數(shù)據(jù)樣本本身的標(biāo)簽非常有限時(shí),情況就會(huì)變得復(fù)雜。在這種情況下,我們可能會(huì)陷入困境。因此,標(biāo)簽信息的可用性至關(guān)重要。但是,標(biāo)簽的獲取卻面臨兩個(gè)主要問(wèn)題:

標(biāo)簽獲取通常具有挑戰(zhàn)性,這是由于其難以獲取。

標(biāo)簽獲取也可能非常昂貴。在風(fēng)控?cái)?shù)據(jù)等領(lǐng)域,情況并不像在計(jì)算機(jī)視覺(jué)領(lǐng)域那樣普遍。雖然大多數(shù)人都可以成為計(jì)算機(jī)視覺(jué)數(shù)據(jù)的標(biāo)注員,但是在我們的問(wèn)題中,數(shù)據(jù)的標(biāo)注與業(yè)務(wù)場(chǎng)景緊密相關(guān)。這就導(dǎo)致了數(shù)據(jù)反饋和收集的周期較長(zhǎng),以及成本較高的問(wèn)題。

因此,如何利用策略來(lái)更快、更好地縮短數(shù)據(jù)標(biāo)注的流程,無(wú)論是時(shí)間還是數(shù)量,成為了一個(gè)備受關(guān)注的焦點(diǎn)。正是在這種背景下,主動(dòng)學(xué)習(xí)的概念應(yīng)運(yùn)而生。主動(dòng)學(xué)習(xí)旨在通過(guò)一些策略來(lái)更有效地選擇需要標(biāo)注的樣本,從而加速學(xué)習(xí)過(guò)程,降低標(biāo)注成本,這是我們接下來(lái)將深入探討的內(nèi)容。

圖片

現(xiàn)在我們來(lái)探討一下主動(dòng)學(xué)習(xí)的思路。既然我們需要進(jìn)行一部分?jǐn)?shù)據(jù)標(biāo)注,那么我們肯定希望這些標(biāo)注能夠提供更多有價(jià)值的信息。因此,主動(dòng)學(xué)習(xí)著眼于如何對(duì)未標(biāo)注的數(shù)據(jù)進(jìn)行巧妙的區(qū)分和排序,精選出對(duì)模型訓(xùn)練最有價(jià)值的未標(biāo)注數(shù)據(jù),從而訓(xùn)練出高效準(zhǔn)確的模型。這樣的策略可以讓我們?cè)谟邢薜臉?biāo)注資源下,充分發(fā)揮數(shù)據(jù)的信息價(jià)值。一種常見(jiàn)的做法是將這些選取出的重要的樣本推薦給專家進(jìn)行標(biāo)注。

圖片

在圖像領(lǐng)域中,我們經(jīng)常會(huì)遇到所謂的 valuable samples。通常情況下,我們會(huì)使用 uncertainty 這個(gè)概念來(lái)衡量這些有價(jià)值樣本。換句話說(shuō):“我是否需要更多的信息來(lái)更好地判斷這個(gè)樣本是處于邊界附近,還是距離邊界較遠(yuǎn)?” 這就引出了我們所稱的 the hardest samples 或者 informative examples 的概念。在圖像領(lǐng)域這種數(shù)據(jù)獨(dú)立同分布的情況下,每張圖片之間都被認(rèn)為是相互獨(dú)立的。因此,我們通常會(huì)選擇那些難度較大、不確定性最高的樣本作為有價(jià)值樣本。這樣做的目的是為了更好地捕捉樣本的邊界情況,從而更有效地訓(xùn)練我們的模型。

圖片

然而,圖數(shù)據(jù)的情況比較特殊。因?yàn)閳D中的每個(gè)節(jié)點(diǎn)并不是孤立的,它們之間通過(guò)邊相互連接以傳遞信息。不同類別之間也會(huì)存在邊緣的連接信息。因此,在這個(gè)背景下,業(yè)界的研究員和工程師們開(kāi)始思考,如何在圖數(shù)據(jù)上應(yīng)用主動(dòng)學(xué)習(xí)。這個(gè)問(wèn)題可以分成兩種方法:

我們?cè)谶x擇樣本時(shí),不僅會(huì)利用模型對(duì)樣本進(jìn)行分類并選擇不確定性最高的樣本,還會(huì)考慮圖結(jié)構(gòu)本身的特性。例如,我們會(huì)關(guān)注節(jié)點(diǎn)的度以及中心性等。這些信息與圖的結(jié)構(gòu)緊密相關(guān),會(huì)指導(dǎo)我們制定具體的算法。這種方法的一個(gè)重點(diǎn)在于,在提高不確定性的同時(shí),也要考慮選取代表性樣本,以增強(qiáng)主動(dòng)學(xué)習(xí)在圖數(shù)據(jù)上的效果。

借鑒社交網(wǎng)絡(luò)或圖分析中的關(guān)鍵節(jié)點(diǎn)發(fā)現(xiàn)的思想。舉個(gè)例子,我們要思考哪些節(jié)點(diǎn)的信息傳播對(duì)整個(gè)圖的影響最大,還要考慮信息的多樣性,通過(guò)引入多樣性來(lái)增強(qiáng)模型的穩(wěn)健性。

然而,我們也注意到了一個(gè)問(wèn)題,即使一個(gè)節(jié)點(diǎn)具有較高的信息傳播能力,由于圖神經(jīng)網(wǎng)絡(luò)通常會(huì)對(duì)信息進(jìn)行聚合和平滑處理,兩個(gè)不同類別的節(jié)點(diǎn)屬性可能存在差異。因此,簡(jiǎn)單地根據(jù)信息傳播的影響來(lái)選擇樣本可能會(huì)導(dǎo)致語(yǔ)義混淆??紤]到這一點(diǎn),我們提出了一個(gè)名為“語(yǔ)義感知的圖主動(dòng)學(xué)習(xí)”的解決方案,以應(yīng)對(duì)這種挑戰(zhàn)。

圖片

圖片

https://arxiv.org/abs/2308.08823。

我們采用了一種通用的主動(dòng)學(xué)習(xí)方法,在這個(gè)過(guò)程中,涵蓋了幾個(gè)關(guān)鍵步驟:

我們首先需要獲得一些用戶以及他們之間的關(guān)聯(lián)關(guān)系。利用圖神經(jīng)網(wǎng)絡(luò)(例如GNN、GCN)來(lái)學(xué)習(xí)他們的一些基本嵌入信息。基于這些嵌入信息,我們能夠計(jì)算節(jié)點(diǎn)的影響力。節(jié)點(diǎn)的影響力表示的是在整個(gè)圖中節(jié)點(diǎn)自身的信息變化如何影響到其他節(jié)點(diǎn)信息的一種衡量。

此外,我們還希望結(jié)合節(jié)點(diǎn)的語(yǔ)義信息對(duì)其進(jìn)行修正。我們的目標(biāo)是,盡管節(jié)點(diǎn)可能在結(jié)構(gòu)上具有較大的影響力,但這種影響力應(yīng)僅體現(xiàn)在與其同類的節(jié)點(diǎn)上。通過(guò)這些步驟,我們得到了一種正向的影響力衡量方式。利用這個(gè)衡量方法,我們可以選擇那些對(duì)相同類型的節(jié)點(diǎn)產(chǎn)生更大影響的一組數(shù)據(jù)樣本。隨后,在對(duì)這些數(shù)據(jù)樣本進(jìn)行標(biāo)注時(shí),我們可以基于其影響力進(jìn)行有針對(duì)性的標(biāo)注工作。

圖片

在上述基礎(chǔ)之上,還有一點(diǎn)需要考慮,就是在機(jī)器學(xué)習(xí)中樣本的選擇。我們希望選取的樣本在整個(gè)數(shù)據(jù)中分布在不同的中心位置,以增加更多的不確定性,從而提升模型的穩(wěn)健性。通常情況下,人們會(huì)嘗試通過(guò)聚類或計(jì)算樣本間的相似性來(lái)實(shí)現(xiàn)這一點(diǎn)。然而,這些方法的效率可能較低。在此背景下,我們借鑒了“prototype”這一概念。對(duì)于選取出的節(jié)點(diǎn)樣本,我們計(jì)算它們的中心,即計(jì)算可直接獲得的中心點(diǎn)。然后,我們對(duì)每個(gè)樣本計(jì)算其與這些中心點(diǎn)之間的距離,通過(guò)這種方式,我們能夠快速計(jì)算樣本與中心的相似性。我們希望選擇那些距離特定類型中心更遠(yuǎn)的樣本,因?yàn)檫@意味著這些樣本可能具有更多的信息量。這樣的選擇方式不僅增加了樣本的不確定性,還提升了模型的穩(wěn)健性。綜合起來(lái),我們將影響力和不確定性作為評(píng)價(jià)的指標(biāo),計(jì)算出分?jǐn)?shù),從而得到最終的樣本集合。這些樣本集合會(huì)被推薦給標(biāo)注專家進(jìn)行進(jìn)一步標(biāo)注。標(biāo)注專家將針對(duì)這些樣本進(jìn)行不斷的標(biāo)注工作,并將反饋信息回饋到模型中。通過(guò)幾輪的迭代,我們可以逐步達(dá)到預(yù)期的效果。以上就是在圖數(shù)據(jù)上應(yīng)用主動(dòng)學(xué)習(xí)的整體流程。

圖片

我們也在多個(gè)不同類型的公開(kāi)數(shù)據(jù)集以及我們?nèi)A為自身金融場(chǎng)景中的交易數(shù)據(jù)上進(jìn)行了一些研究探索。從實(shí)驗(yàn)結(jié)果來(lái)看,我們發(fā)現(xiàn)整體效果相較于現(xiàn)有的 SOTA 方法(如基于隨機(jī)選擇或節(jié)點(diǎn)度量,以及基于不確定性熵的方法等)要更為顯著。在這些實(shí)驗(yàn)中,我們的方法在效果提升方面表現(xiàn)出明顯的優(yōu)勢(shì)。

圖片

通過(guò)融合語(yǔ)義信息并采用基于 prototype 多樣性的方法,我們的效果得到了明顯提升。與其他 baseline 模型相比,我們的方法在效果上表現(xiàn)出相對(duì)優(yōu)勢(shì),并且在效率方面也表現(xiàn)出色。僅利用少量的標(biāo)注樣本,我們就能夠?qū)崿F(xiàn)更高水平的實(shí)際效果。以上我們介紹了在圖數(shù)據(jù)中應(yīng)用主動(dòng)學(xué)習(xí),特別是在樣本不足的情況下,探索了借助如何更有效的選擇樣本并借助專家標(biāo)注的方式來(lái)提升學(xué)習(xí)效果。

三、不均衡圖上的節(jié)點(diǎn)標(biāo)注問(wèn)題探索

圖片

正如前面所提到的,在風(fēng)險(xiǎn)控制領(lǐng)域,數(shù)據(jù)的標(biāo)注相對(duì)不足的情況下,例如針對(duì)黑產(chǎn)用戶、薅羊毛用戶等,這些正樣本數(shù)量本身就非常有限。因此,樣本分布呈現(xiàn)出明顯的不均衡。針對(duì)這樣的樣本不均衡問(wèn)題,我們可以探究以下幾個(gè)方面。

圖片

 

我們可以考慮采取一些樣本平衡的策略。比如,對(duì)于數(shù)量較少的類型樣本進(jìn)行過(guò)采樣,對(duì)于數(shù)量較多的樣本進(jìn)行降采樣,以實(shí)現(xiàn)兩類樣本的相對(duì)平衡。

我們還可以在損失函數(shù)中進(jìn)行優(yōu)化,對(duì)不同類型的樣本賦予不同的權(quán)重。對(duì)于樣本數(shù)量較少的類型,可以賦予較大的權(quán)重,以期在模型學(xué)習(xí)過(guò)程中更加關(guān)注這些樣本。

這些方法在處理數(shù)據(jù)不均衡問(wèn)題時(shí)都具有實(shí)際效果,但在圖數(shù)據(jù)上的拓展則相對(duì)復(fù)雜。如何在圖數(shù)據(jù)上處理樣本不均衡問(wèn)題并不是一件容易的事情。

圖片

從2021年開(kāi)始,針對(duì)樣本不均衡問(wèn)題,人們開(kāi)始嘗試各種方法。在采樣方面,有一個(gè)經(jīng)典的方法叫做 SMOTE,即通過(guò)函數(shù)對(duì)少樣本數(shù)據(jù)進(jìn)行合成。在圖數(shù)據(jù)中,需要考慮節(jié)點(diǎn)屬性信息以及邊的連接方式。節(jié)點(diǎn)屬性信息相對(duì)較易合成,但在連接節(jié)點(diǎn)時(shí)需要思考哪些節(jié)點(diǎn)應(yīng)該與新合成的節(jié)點(diǎn)相連。這一問(wèn)題具有重要意義。在這方面,GraphSMOTE 提供了一個(gè)有趣的技術(shù)。盡管在實(shí)際嘗試時(shí),該方案的計(jì)算復(fù)雜度相對(duì)較高,但它為解決這一問(wèn)題提供了有價(jià)值的嘗試和思路,值得借鑒。

GraphSMOTE 的方法包括以下幾個(gè)關(guān)鍵步驟。首先,我們需要生成節(jié)點(diǎn)屬性。這可以通過(guò)獲取原始數(shù)據(jù)并通過(guò)一層或兩層的圖模型(如 GNN )得到不同節(jié)點(diǎn)的嵌入來(lái)實(shí)現(xiàn)。然后,在新的樣本空間中,我們可以進(jìn)行節(jié)點(diǎn)屬性的合成。在合成屬性后,接下來(lái)的問(wèn)題是如何確定邊的連接方式。前面提到過(guò),節(jié)點(diǎn)的連接關(guān)系可以看作是鏈接預(yù)測(cè)的問(wèn)題。因此,我們可以在模型中將鏈接預(yù)測(cè)作為一項(xiàng)額外的任務(wù),將其融合進(jìn)模型中。具體做法是隨機(jī)地選擇一些現(xiàn)有節(jié)點(diǎn),并判斷新合成的節(jié)點(diǎn)與哪些節(jié)點(diǎn)連接會(huì)對(duì)整個(gè)模型訓(xùn)練更有效。因此,GraphSMOTE 的核心思想是將連接預(yù)測(cè)作為一個(gè)額外的任務(wù),并將其納入模型中。最終的損失函數(shù)設(shè)計(jì)包括兩部分,一部分用于改進(jìn)節(jié)點(diǎn)分類效果,另一部分用于確保合成節(jié)點(diǎn)的邊連接更加準(zhǔn)確。通過(guò)這種方式,既能提升節(jié)點(diǎn)分類準(zhǔn)確性,又能更準(zhǔn)確地表示節(jié)點(diǎn)屬性。

圖片

還有一些新的研究工作涉及如何根據(jù)圖的特性來(lái)進(jìn)行采樣,因?yàn)樵谀承┣闆r下,圖的結(jié)構(gòu)并不適合進(jìn)行降采樣或過(guò)采樣。在這方面,例如 Renode 和 TAM 這兩項(xiàng)研究,它們從節(jié)點(diǎn)的結(jié)構(gòu)信息出發(fā),根據(jù)分類邊界上的距離以及節(jié)點(diǎn)的拓?fù)湫畔ⅲO(shè)計(jì)了如何選擇樣本的方法。然而,需要指出的是,這些工作主要是基于現(xiàn)有的機(jī)器學(xué)習(xí)方法,結(jié)合了圖的節(jié)點(diǎn)特性,進(jìn)而調(diào)整用于處理樣本不均衡問(wèn)題的策略。

圖片

然而,在我們進(jìn)一步探究樣本分類和節(jié)點(diǎn)分類問(wèn)題時(shí),除了處理樣本不均衡的問(wèn)題外,還存在一類情況:其中一部分節(jié)點(diǎn)已經(jīng)被標(biāo)注,但大多數(shù)節(jié)點(diǎn)仍然未標(biāo)注。這并非典型的樣本不均衡問(wèn)題,而是純粹的信息不完整問(wèn)題。因此,我們的出發(fā)點(diǎn)非常簡(jiǎn)單,我們是否可以采用某種方式為它們打上標(biāo)簽?zāi)??例如:把那些可能性很大是正樣本(少?shù)類樣本)的節(jié)點(diǎn),我們直接將它們添加到模型中進(jìn)行訓(xùn)練。這種思路與自監(jiān)督學(xué)習(xí)非常相似。然而,如果直接將現(xiàn)有的自監(jiān)督學(xué)習(xí)方法應(yīng)用于圖問(wèn)題,實(shí)際上會(huì)遇到許多問(wèn)題。特別是在初始階段,標(biāo)注樣本數(shù)量有限,樣本不均衡問(wèn)題非常嚴(yán)重,因此模型效果可能會(huì)嚴(yán)重下降。基于這一觀察和發(fā)現(xiàn),我們開(kāi)始考慮是否可以通過(guò)利用圖數(shù)據(jù)本身的特性來(lái)提升相應(yīng)的方法。

圖片

因此,我們提出了一個(gè)名為“雙通道信息對(duì)齊”的機(jī)制,以選擇更具信息價(jià)值的節(jié)點(diǎn)。在具體實(shí)踐中,對(duì)于一個(gè)新的圖數(shù)據(jù),我們旨在通過(guò)一個(gè)簡(jiǎn)單的 GNN 模型進(jìn)行預(yù)訓(xùn)練,從而獲得不同節(jié)點(diǎn)的嵌入表示。通過(guò)這些嵌入表示,我們可以同時(shí)進(jìn)行兩種任務(wù):

分類任務(wù):預(yù)測(cè)節(jié)點(diǎn)所屬的類型;

聚類任務(wù):獲得節(jié)點(diǎn)應(yīng)當(dāng)歸屬于的簇。

我們利用這兩個(gè)信息來(lái)進(jìn)行信息的對(duì)齊。換句話說(shuō),在預(yù)測(cè)節(jié)點(diǎn)任務(wù)中,當(dāng)模型對(duì)某節(jié)點(diǎn)的類型預(yù)測(cè)更加 confident 時(shí),我們認(rèn)為該節(jié)點(diǎn)的信息更加可靠。同時(shí),在聚類的角度來(lái)看,如果節(jié)點(diǎn)距離聚類中心更近,我們也將其視為更加可靠。因此,我們選擇了在幾何和置信度兩方面都較高的節(jié)點(diǎn)作為備選節(jié)點(diǎn),從而解決了初始信息不足和樣本不均衡問(wèn)題,提高了樣本選擇的可靠性。

同時(shí),值得注意的是,對(duì)于那些存在于兩個(gè)不同社區(qū)之間的節(jié)點(diǎn),其信息的不確定性較大。因此,將這些節(jié)點(diǎn)引入模型可能會(huì)對(duì)其產(chǎn)生影響。因此,我們還需要考慮節(jié)點(diǎn)的中心性。對(duì)于某個(gè)節(jié)點(diǎn),我們不僅要考慮其在當(dāng)前社區(qū)中的距離,還要考慮其與其他潛在社區(qū)的距離。我們希望選擇那些距離自身中心較近,同時(shí)與其他中心較遠(yuǎn)的節(jié)點(diǎn)。這些節(jié)點(diǎn)被視為更具確定性,從而可以作為可信的標(biāo)簽用于輔助模型訓(xùn)練。通過(guò)這種方式,我們?cè)诓桓淖儓D結(jié)構(gòu)的情況下,實(shí)現(xiàn)了對(duì)少數(shù)樣本的良好擴(kuò)增,從而有效解決了樣本不均衡問(wèn)題。

四、結(jié)論

圖片

我們對(duì)不同場(chǎng)景的數(shù)據(jù)進(jìn)行了一些實(shí)驗(yàn)和分析。例如,我們運(yùn)用在諸如 Cora 和 Citeseer 等數(shù)據(jù)集上,通過(guò)一些綜合的方法來(lái)調(diào)整樣本比例進(jìn)行了金融分析。在我們的實(shí)驗(yàn)中,我們發(fā)現(xiàn)這種方法在不同的不均衡比例場(chǎng)景下都表現(xiàn)出色。盡管文章中只提及了少數(shù)實(shí)驗(yàn),但實(shí)際上,我們進(jìn)行了大量的實(shí)驗(yàn),證明了通過(guò)不同的信息對(duì)齊策略,能夠有效解決未標(biāo)注數(shù)據(jù)不均衡的節(jié)點(diǎn)分類問(wèn)題,并取得了良好的效果。

圖片

另外對(duì)于樣本不均衡問(wèn)題,一方面,我們進(jìn)行了自身的樣本采樣,以調(diào)整不均衡的比例。另一方面,我們也在一些已有的公開(kāi)數(shù)據(jù)集中處理了類別不均衡的情況,例如,我們?cè)?Computer-Random 數(shù)據(jù)集中遇到了1:25的樣本不均衡比例。我們觀察到,我們的方法在這些情況下同樣也表現(xiàn)出色。同時(shí),類似TAM這樣的方法也是一個(gè)可行的選擇,它可以作為一個(gè)插件加入到損失函數(shù)中,通過(guò)根據(jù)分類邊界的邊緣來(lái)調(diào)整樣本權(quán)重。這樣的方法可以與其他策略如Renode和GraphEns相結(jié)合。再有,我們也對(duì)比了Re-weight方法,它在計(jì)算機(jī)視覺(jué)領(lǐng)域被廣泛使用,提供了一個(gè)簡(jiǎn)單但strong的baseline。

以上就是我們?cè)陲L(fēng)險(xiǎn)控制場(chǎng)景中對(duì)于樣本不均衡問(wèn)題所做的一系列探索和調(diào)研的工作。