亚洲先锋影音人AV成_免费A级毛片一分钟_人人爽人人爽人人插_日韩少妇极品熟妇人妻潮喷

沃卡惠移動(dòng)端logo

太全了!多模態(tài)深度學(xué)習(xí)的綜述!

沃卡惠2024-04-08 09:56:044636

1.介紹

我們對(duì)世界的體驗(yàn)是多模態(tài)的——我們看到物體,聽(tīng)到聲音,感覺(jué)到質(zhì)地,聞到氣味,嘗到味道。模態(tài)是指某件事發(fā)生或經(jīng)歷的方式,當(dāng)一個(gè)研究問(wèn)題包含多個(gè)模態(tài)時(shí),它就具有多模態(tài)的特征。為了讓人工智能在理解我們周?chē)氖澜绶矫嫒〉眠M(jìn)展,它需要能夠同時(shí)解釋這些多模態(tài)的信號(hào)。

例如,圖像通常與標(biāo)簽和文本解釋相關(guān)聯(lián),文本包含圖像,以更清楚地表達(dá)文章的中心思想。不同的模態(tài)具有非常不同的統(tǒng)計(jì)特性。這些數(shù)據(jù)被稱(chēng)為多模態(tài)大數(shù)據(jù),包含豐富的多模態(tài)和跨模態(tài)信息,對(duì)傳統(tǒng)的數(shù)據(jù)融合方法提出了巨大的挑戰(zhàn)。

在這篇綜述中,我們會(huì)介紹一些開(kāi)創(chuàng)性的深度學(xué)習(xí)模型來(lái)融合這些多模態(tài)大數(shù)據(jù)。隨著對(duì)多模態(tài)大數(shù)據(jù)的探索越來(lái)越多,仍有一些挑戰(zhàn)需要解決。因此,本文對(duì)多模態(tài)數(shù)據(jù)融合的深度學(xué)習(xí)進(jìn)行了綜述,旨在為讀者(無(wú)論其原始社區(qū)如何)提供多模態(tài)深度學(xué)習(xí)融合方法的基本原理,并激發(fā)深度學(xué)習(xí)的新型多模態(tài)數(shù)據(jù)融合技術(shù)。

太全了!多模態(tài)深度學(xué)習(xí)的綜述!

通過(guò)多模態(tài)深度學(xué)習(xí),結(jié)合不同的模態(tài)或信息類(lèi)型來(lái)提高效果,從直觀(guān)上看是一項(xiàng)很有吸引力的任務(wù),但在實(shí)踐中,如何結(jié)合不同的噪聲水平和模態(tài)之間的沖突是一個(gè)挑戰(zhàn)。此外,模型對(duì)預(yù)測(cè)結(jié)果有不同的定量影響。在實(shí)踐中最常見(jiàn)的方法是將不同輸入的高級(jí)嵌入連接起來(lái),然后應(yīng)用softmax。

太全了!多模態(tài)深度學(xué)習(xí)的綜述!

這種方法的問(wèn)題是,它將給予所有子網(wǎng)絡(luò)/模式同等的重要性,這在現(xiàn)實(shí)情況中是非常不可能的。這里需要采用子網(wǎng)絡(luò)的加權(quán)組合,以便每個(gè)輸入模態(tài)可以對(duì)輸出預(yù)測(cè)有一個(gè)學(xué)習(xí)貢獻(xiàn)(Theta)。

太全了!多模態(tài)深度學(xué)習(xí)的綜述!

2.具有代表性的深度學(xué)習(xí)架構(gòu)

在本節(jié)中,我們將介紹多模態(tài)數(shù)據(jù)融合深度學(xué)習(xí)模型的代表性深度學(xué)習(xí)架構(gòu)。具體而言,給出了深度架構(gòu)的定義、前饋計(jì)算和反向傳播計(jì)算,以及典型的變體。表1總結(jié)了代表性模型。

表1:代表性深度學(xué)習(xí)模型摘要。

太全了!多模態(tài)深度學(xué)習(xí)的綜述!

2.1、深度信念網(wǎng)絡(luò)(DBN)

受限玻爾茲曼機(jī)(RBM)是深度信念網(wǎng)的基本塊(Zhang,Ding,Zhang,&Xue,2018;Bengio,2009年)。RBM是玻爾茲曼機(jī)的特殊變體(見(jiàn)圖1)。它由可見(jiàn)層和隱藏層組成;可見(jiàn)層的單元與隱藏層的單元之間存在全連接連接,但同一層中的單元之間沒(méi)有連接。RBM也是一個(gè)生成圖形模型,它使用能量函數(shù)以捕獲可見(jiàn)單元和隱藏單元之間的概率分布.

最近,有人提出了一些先進(jìn)的RBM來(lái)提高性能。例如,為了避免網(wǎng)絡(luò)過(guò)度擬合,Chen,Zhang,Yeung,and Chen(2017)設(shè)計(jì)了稀疏玻爾茲曼機(jī),該機(jī)基于分層潛在樹(shù)學(xué)習(xí)網(wǎng)絡(luò)結(jié)構(gòu)。Ning,Pittman,and Shen (2018)將快速對(duì)比發(fā)散算法引入RBM,其中基于邊界的濾波和delta積用于減少計(jì)算中的冗余點(diǎn)積計(jì)算。為了保護(hù)多維數(shù)據(jù)的內(nèi)部結(jié)構(gòu),Ju et al.(2019)提出了張量RBM,學(xué)習(xí)隱藏在多維數(shù)據(jù)中的高級(jí)分布,其中使用張量分解來(lái)避免維災(zāi)難。

DBM是一種典型的深度架構(gòu),由多個(gè)RBM堆疊而成(Hinton&Salakhutdinov,2006)。它是一種基于預(yù)訓(xùn)練和微調(diào)訓(xùn)練策略,可以利用能量來(lái)捕捉可見(jiàn)物體與相應(yīng)標(biāo)簽之間的關(guān)節(jié)分布的生成模型。在預(yù)訓(xùn)練中,每個(gè)隱藏層都被貪婪地建模為在無(wú)監(jiān)督策略中訓(xùn)練的RBM。之后,通過(guò)監(jiān)督策略中訓(xùn)練標(biāo)簽的判別信息進(jìn)一步訓(xùn)練每個(gè)隱藏層。DBN已被用于解決許多領(lǐng)域的問(wèn)題,例如數(shù)據(jù)降維、表示學(xué)習(xí)和語(yǔ)義哈希。具有代表性的DBM如圖1所示。

圖1:

太全了!多模態(tài)深度學(xué)習(xí)的綜述!

2.2、堆疊式自動(dòng)編碼器(SAE)

堆疊式自動(dòng)編碼器(SAE)是編碼器-解碼器架構(gòu)的典型深度學(xué)習(xí)模型(Michael,Olivier和Mario,2018;翁,盧,譚,和周,2016)。它可以通過(guò)以無(wú)監(jiān)督-監(jiān)督方式將原始輸入轉(zhuǎn)換為中間表示來(lái)捕獲輸入的簡(jiǎn)潔特征。SAE已廣泛應(yīng)用于許多領(lǐng)域,包括降維(Wang,Yao,&Zhao,2016),圖像識(shí)別(Jia,Shao,Li,Zhao,&Fu,2018)和文本分類(lèi)(Chen&Zaki,2017)。圖2展示了具有代表性的SAE。

圖2:

太全了!多模態(tài)深度學(xué)習(xí)的綜述!

2.3、卷積神經(jīng)網(wǎng)絡(luò)(CNN)

DBN和SAE是完全連接的神經(jīng)網(wǎng)絡(luò)。在這兩個(gè)網(wǎng)絡(luò)中,隱藏層中的每個(gè)神經(jīng)元都連接到前一層的每個(gè)神經(jīng)元,這種拓?fù)浣Y(jié)構(gòu)會(huì)產(chǎn)生大量連接。為了訓(xùn)練這些連接的權(quán)重,全連接的神經(jīng)網(wǎng)絡(luò)需要大量的訓(xùn)練對(duì)象來(lái)避免過(guò)度擬合和欠擬合,這是計(jì)算密集型的。此外,全連接拓?fù)洳豢紤]神經(jīng)元之間所包含的特征的位置信息。因此,完全連接的深度神經(jīng)網(wǎng)絡(luò)(DBN、SAE及其變體)無(wú)法處理高維數(shù)據(jù),尤其是大圖像和大音頻數(shù)據(jù)。

卷積神經(jīng)網(wǎng)絡(luò)是一種特殊的深度網(wǎng)絡(luò),它考慮了數(shù)據(jù)的局部拓?fù)浣Y(jié)構(gòu)(Li,Xia,Du,Lin,&Samat,2017;Sze,Chen,Yang和Emer,2017)。卷積神經(jīng)網(wǎng)絡(luò)包括全連接網(wǎng)絡(luò)和包含卷積層和池化層的約束網(wǎng)絡(luò)。約束網(wǎng)絡(luò)使用卷積和池化運(yùn)算來(lái)實(shí)現(xiàn)局部感受野和參數(shù)約簡(jiǎn)。與DBN和SAE一樣,卷積神經(jīng)網(wǎng)絡(luò)也通過(guò)隨機(jī)梯度下降算法進(jìn)行訓(xùn)練。它在醫(yī)學(xué)圖像識(shí)別(Maggiori,Tarabalka,Charpiat和Alliez,2017)和語(yǔ)義分析(胡,Lu,Li,&Chen,2014)方面取得了很大進(jìn)展。具有代表性的CNN如圖3所示。

圖3:

太全了!多模態(tài)深度學(xué)習(xí)的綜述!

2.4、循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)

遞歸神經(jīng)網(wǎng)絡(luò)是一種處理串行數(shù)據(jù)的神經(jīng)計(jì)算架構(gòu)(Martens&Sutskever,2011;Sutskever,Martens和Hinton,2011)。與深度前向架構(gòu)(即DBN,SAE和CNN)不同,它不僅將輸入模式映射到輸出結(jié)果,而且還通過(guò)利用隱藏單元之間的連接將隱藏狀態(tài)傳輸?shù)捷敵觯℅raves&Schmidhuber,2008)。通過(guò)使用這些隱藏的連接,RNN對(duì)時(shí)間依賴(lài)性進(jìn)行建模,從而在時(shí)間維度上共享對(duì)象之間的參數(shù)。它已被應(yīng)用于各個(gè)領(lǐng)域,如語(yǔ)音分析(Mulder,Bethard和Moens,2015),圖像標(biāo)題(Xu等人,2015)和語(yǔ)言翻譯(Graves&Jaitly,2014),取得了出色的性能。與深度前向架構(gòu)類(lèi)似,其計(jì)算也包括前向傳遞和反向傳播階段。在前向傳遞計(jì)算中,RNN同時(shí)獲取輸入和隱藏狀態(tài)。在反向傳播計(jì)算中,它使用時(shí)間反向傳播算法來(lái)反向傳播時(shí)間步長(zhǎng)的損耗。圖4顯示了具有代表性的RNN。

圖4:

太全了!多模態(tài)深度學(xué)習(xí)的綜述!

3.面向多模態(tài)數(shù)據(jù)融合的深度學(xué)習(xí)

在本節(jié)中,我們從模型任務(wù)、模型框架和評(píng)估數(shù)據(jù)集的角度回顧了最具代表性的多模態(tài)數(shù)據(jù)融合深度學(xué)習(xí)模型。根據(jù)所使用的深度學(xué)習(xí)架構(gòu),它們分為四類(lèi)。表2總結(jié)了具有代表性的多模態(tài)深度學(xué)習(xí)模型。

表2:

代表性多模態(tài)深度學(xué)習(xí)模型摘要.

太全了!多模態(tài)深度學(xué)習(xí)的綜述!

3.1基于網(wǎng)絡(luò)的深度信念多模態(tài)數(shù)據(jù)融合

3.1.1示例1

Srivastava和Salakhutdinov(2012)提出了一種基于深度玻爾茲曼學(xué)習(xí)模型的多模態(tài)生成模型,通過(guò)擬合多模態(tài)數(shù)據(jù)在各種模態(tài)(如圖像、文本和音頻)上的聯(lián)合分布來(lái)學(xué)習(xí)多模態(tài)表示。

太全了!多模態(tài)深度學(xué)習(xí)的綜述!

所提出的多模態(tài)DBN的每個(gè)模塊均采用無(wú)監(jiān)督逐層方式進(jìn)行初始化,并采用基于MCMC的近似方法進(jìn)行模型訓(xùn)練。

為了評(píng)估學(xué)習(xí)到的多模態(tài)表示,執(zhí)行了大量的任務(wù),例如生成缺失模態(tài)任務(wù)、推斷聯(lián)合表示任務(wù)和判別任務(wù)。實(shí)驗(yàn)驗(yàn)證了學(xué)習(xí)到的多模態(tài)表示是否滿(mǎn)足所需的屬性。

3.1.2示例2

為了在早期有效診斷阿爾茨海默病,Suk、Lee、Shen和阿爾茨海默病神經(jīng)影像學(xué)計(jì)劃(2014)提出了一種多模態(tài)玻爾茲曼模型,該模型可以融合多模態(tài)數(shù)據(jù)中的互補(bǔ)知識(shí)。具體來(lái)說(shuō),為了解決淺層特征學(xué)習(xí)方法造成的局限性,DBN用于通過(guò)將特定領(lǐng)域的表示轉(zhuǎn)移到分層抽象表示來(lái)學(xué)習(xí)每個(gè)模態(tài)的深度表示。然后,在串聯(lián)向量上構(gòu)建單層RBM,該向量是來(lái)自每個(gè)模態(tài)的分層抽象表示的線(xiàn)性組合。它用于通過(guò)構(gòu)建不同多模態(tài)特征的聯(lián)合分布來(lái)學(xué)習(xí)多模態(tài)表示。最后,根據(jù)三種典型診斷對(duì)ADNI數(shù)據(jù)集對(duì)所提出的模型進(jìn)行了廣泛的評(píng)估,實(shí)現(xiàn)了最先進(jìn)的診斷準(zhǔn)確性。

3.1.3示例3

為了準(zhǔn)確估計(jì)人類(lèi)姿勢(shì),Ouyang,Chu,and Wang(2014)設(shè)計(jì)了一個(gè)多源深度學(xué)習(xí)模型,該模型通過(guò)提取高階空間中身體模式的聯(lián)合分布,從混合類(lèi)型、外觀(guān)得分和變形模態(tài)中學(xué)習(xí)多模態(tài)表示。在人-姿態(tài)多源深度模型中,從圖像結(jié)構(gòu)模型中提取了三種廣泛使用的模態(tài),這些模型基于條件隨機(jī)場(chǎng)理論組合了身體的各個(gè)部位。為了獲得多模態(tài)數(shù)據(jù),通過(guò)線(xiàn)性支持向量機(jī)對(duì)圖形結(jié)構(gòu)模型進(jìn)行訓(xùn)練。之后,這三個(gè)特征中的每一個(gè)都被輸入到一個(gè)兩層受限玻爾茲曼模型中,以從特定于特征的表示中捕獲高階姿態(tài)空間的抽象表示。通過(guò)無(wú)監(jiān)督初始化,每個(gè)特定模態(tài)的受限玻爾茲曼模型都會(huì)捕獲全局空間的固有表示。然后,使用RBM進(jìn)一步學(xué)習(xí)基于高級(jí)混合類(lèi)型、外觀(guān)得分和變形表示的串聯(lián)向量的人體姿態(tài)表示。為了訓(xùn)練所提出的多源深度學(xué)習(xí)模型,設(shè)計(jì)了一個(gè)同時(shí)考慮身體位置和人體檢測(cè)的任務(wù)特定目標(biāo)函數(shù)。所提出的模型在LSP、PARSE和UIUC上進(jìn)行了驗(yàn)證,并產(chǎn)生了高達(dá)8.6%的改進(jìn)。

最近,人們提出了一些新的基于DBN的多模態(tài)特征學(xué)習(xí)模型。例如,Amer、Shields、Siddiquie和Tamrakar(2018)提出了一種用于序列事件檢測(cè)的混合方法,其中采用條件RBM來(lái)提取具有附加判別標(biāo)簽信息的模態(tài)和跨模態(tài)特征。Al-Waisy、Qahwaji、Ipson和Al-Fahdawi(2018)引入了一種識(shí)別人臉的多模態(tài)方法。在這種方法中,使用基于DBN的模型對(duì)Curvelet變換捕獲的局部手工特征的多模態(tài)分布進(jìn)行建模,可以合并局部特征和深度特征的優(yōu)勢(shì)(Al-Waisy等人,2018)。

3.1.4小結(jié)

這些基于DBN的多模態(tài)模型使用概率圖形網(wǎng)絡(luò)將特定于模態(tài)的表示轉(zhuǎn)換為共享空間中的語(yǔ)義特征。然后,根據(jù)共享空間的特征對(duì)模態(tài)上的聯(lián)合分布進(jìn)行建模。這些基于DBN的多模態(tài)模型在無(wú)監(jiān)督、半監(jiān)督和監(jiān)督學(xué)習(xí)策略中更加靈活和穩(wěn)健。它們非常適合捕獲輸入數(shù)據(jù)的信息特征。然而,他們忽略了多模態(tài)數(shù)據(jù)的空間和時(shí)間拓?fù)浣Y(jié)構(gòu)。

3.2基于堆疊自編碼器的多模態(tài)數(shù)據(jù)融合

3.2.1示例4

Ngiam et al.(2011)提出的多模態(tài)深度學(xué)習(xí)是基于堆疊自編碼器(SAE)的多模態(tài)數(shù)據(jù)融合最具代表性的深度學(xué)習(xí)模型。這種深度學(xué)習(xí)模型旨在解決兩個(gè)數(shù)據(jù)融合問(wèn)題:跨模態(tài)和共享模態(tài)表征學(xué)習(xí)。前者旨在利用來(lái)自其他模態(tài)的知識(shí)來(lái)捕捉更好的單模態(tài)表示,而后者則在中級(jí)學(xué)習(xí)模態(tài)之間的復(fù)雜相關(guān)性。為了實(shí)現(xiàn)這些目標(biāo),設(shè)計(jì)了三種學(xué)習(xí)場(chǎng)景——多模態(tài)、跨模態(tài)和共享模態(tài)學(xué)習(xí),如表3和圖6所示。

圖6:多模態(tài)、跨模態(tài)和共享模態(tài)學(xué)習(xí)的架構(gòu)。

多模態(tài)、跨模態(tài)和共享模態(tài)學(xué)習(xí)的架構(gòu)。

表3:多模態(tài)學(xué)習(xí)的設(shè)置。

太全了!多模態(tài)深度學(xué)習(xí)的綜述!

在多模態(tài)學(xué)習(xí)場(chǎng)景中,音頻頻譜圖和視頻幀以線(xiàn)性方式連接成向量。將串聯(lián)向量饋入稀疏受限玻爾茲曼機(jī)(SRBM),以學(xué)習(xí)音頻和視頻之間的相關(guān)性。該模型只能學(xué)習(xí)多個(gè)模態(tài)的陰影聯(lián)合表示,因?yàn)橄嚓P(guān)性隱含在原始級(jí)別的高維表示中,而單層SRBM無(wú)法對(duì)它們進(jìn)行建模。受此啟發(fā),中級(jí)表示的串聯(lián)向量被輸入到SRBM中,以模擬多個(gè)模態(tài)的相關(guān)性,從而顯示出更好的性能。

在跨模態(tài)學(xué)習(xí)場(chǎng)景中,提出了一種深度堆疊多模態(tài)自編碼器來(lái)顯式學(xué)習(xí)模態(tài)之間的相關(guān)性。具體來(lái)說(shuō),音頻和視頻都作為特征學(xué)習(xí)中的輸入呈現(xiàn),在監(jiān)督訓(xùn)練和測(cè)試中,只有其中一個(gè)被輸入到模型中。該模型以多模態(tài)學(xué)習(xí)的方式進(jìn)行初始化,能夠很好地模擬跨模態(tài)關(guān)系。

在共享模態(tài)表示中,在去噪自編碼器的激勵(lì)下,引入了特定于模態(tài)的深度堆疊多模態(tài)自編碼器,以探索模態(tài)之間的聯(lián)合表示,尤其是在缺少一個(gè)模態(tài)時(shí)。通過(guò)將其中一個(gè)模態(tài)替換為零而擴(kuò)大的訓(xùn)練數(shù)據(jù)集被輸入到特征學(xué)習(xí)的模型中。

最后,在CUAVE和AVLetters數(shù)據(jù)集上進(jìn)行了詳細(xì)的實(shí)驗(yàn),以評(píng)估多模態(tài)深度學(xué)習(xí)在特定任務(wù)特征學(xué)習(xí)中的性能。

3.2.2示例5

為了從一系列圖像(尤其是視頻)中生成視覺(jué)和語(yǔ)義上有效的人體骨骼,Hong,Yu,Wan,Tao和Wang(2015)提出了一種多模態(tài)深度自動(dòng)編碼器來(lái)捕獲圖像和姿勢(shì)之間的融合關(guān)系。特別是,所提出的多模態(tài)深度自編碼器通過(guò)三階段策略進(jìn)行訓(xùn)練,以構(gòu)建二維圖像和三維姿態(tài)之間的非線(xiàn)性映射。在特征融合階段,利用多視圖超圖低秩表示,基于流形學(xué)習(xí),從一系列圖像特征(如定向梯度直方圖和形狀上下文)構(gòu)建內(nèi)部二維表示。在第二階段,訓(xùn)練單層自動(dòng)編碼器來(lái)學(xué)習(xí)抽象表示,該抽象表示用于通過(guò)重建二維圖像間特征來(lái)恢復(fù)三維姿態(tài)。同時(shí),以類(lèi)似的方式訓(xùn)練單層自動(dòng)編碼器,以學(xué)習(xí)三維姿勢(shì)的抽象表示。在獲得每個(gè)單一模態(tài)的抽象表示后,使用神經(jīng)網(wǎng)絡(luò)通過(guò)最小化兩個(gè)模態(tài)互表示之間的平方歐幾里得距離來(lái)學(xué)習(xí)二維圖像和三維姿態(tài)之間的多模態(tài)相關(guān)性。所提出的多模態(tài)深度自編碼器的學(xué)習(xí)由初始化和微調(diào)階段組成。在初始化中,從相應(yīng)的自編碼器和神經(jīng)網(wǎng)絡(luò)復(fù)制多模態(tài)深度自編碼器每個(gè)子部分的參數(shù)。然后,通過(guò)隨機(jī)梯度下降算法對(duì)整個(gè)模型的參數(shù)進(jìn)行進(jìn)一步微調(diào),從相應(yīng)的二維圖像中構(gòu)造出三維姿態(tài)。

3.2.3小結(jié)

基于SAE的多模態(tài)模型采用編碼器-解碼器架構(gòu),通過(guò)無(wú)監(jiān)督方式通過(guò)重構(gòu)方法提取內(nèi)在的模態(tài)特征和跨模態(tài)特征。由于它們基于SAE,這是一個(gè)完全連接的模型,因此需要訓(xùn)練許多參數(shù)。此外,他們忽略了多模態(tài)數(shù)據(jù)中的空間和時(shí)間拓?fù)浣Y(jié)構(gòu)。

3.3基于卷積神經(jīng)網(wǎng)絡(luò)的多模態(tài)數(shù)據(jù)融合

3.3.1示例6

為了模擬圖像和句子之間的語(yǔ)義映射分布,馬,Lu,Shang和Li(2015)提出了一個(gè)多模態(tài)卷積神經(jīng)網(wǎng)絡(luò)。為了充分捕捉語(yǔ)義相關(guān)性,在端到端架構(gòu)中設(shè)計(jì)了三級(jí)融合策略——詞級(jí)、階段級(jí)和句子級(jí)。該架構(gòu)由影像子網(wǎng)、匹配子網(wǎng)和多模態(tài)子網(wǎng)組成。圖像子網(wǎng)是一個(gè)具有代表性的深度卷積神經(jīng)網(wǎng)絡(luò),例如Alexnet和Inception,它有效地將圖像輸入編碼為簡(jiǎn)潔的表示。匹配子網(wǎng)對(duì)將圖像內(nèi)容與語(yǔ)義空間中句子的單詞片段相關(guān)聯(lián)的聯(lián)合表示進(jìn)行建模。

3.3.2示例7

為了將視覺(jué)識(shí)別系統(tǒng)擴(kuò)展到無(wú)限數(shù)量的離散類(lèi)別,F(xiàn)rome等人(2013)通過(guò)利用文本數(shù)據(jù)中的語(yǔ)義信息提出了一種多模態(tài)卷積神經(jīng)網(wǎng)絡(luò)。該網(wǎng)絡(luò)由語(yǔ)言子模型和視覺(jué)子模型組成。語(yǔ)言子模型基于skip-gram模型,該模型可以將文本信息傳輸?shù)秸Z(yǔ)義空間的密集表示中。視覺(jué)子模型是一個(gè)具有代表性的卷積神經(jīng)網(wǎng)絡(luò),例如Alexnet,它在1000類(lèi)ImageNet數(shù)據(jù)集上進(jìn)行預(yù)訓(xùn)練以捕獲視覺(jué)特征。為了對(duì)圖像和文本之間的語(yǔ)義關(guān)系進(jìn)行建模,語(yǔ)言和視覺(jué)子模型通過(guò)線(xiàn)性投影層進(jìn)行組合。每個(gè)子模型都由每個(gè)模態(tài)的參數(shù)初始化。之后,為了訓(xùn)練這種視覺(jué)語(yǔ)義多模態(tài)模型,提出了一種新的損失函數(shù),通過(guò)結(jié)合點(diǎn)積相似度和鉸鏈秩損失,可以為正確的圖像和標(biāo)簽對(duì)提供高相似性分?jǐn)?shù)。該模型可以在ImageNet數(shù)據(jù)集上產(chǎn)生最先進(jìn)的性能,避免語(yǔ)義上不合理的結(jié)果。

3.3.3小結(jié)

基于CNN的多模態(tài)模型可以通過(guò)局部字段和池化操作來(lái)學(xué)習(xí)模態(tài)之間的局部多模態(tài)特征。它們顯式地對(duì)多模態(tài)數(shù)據(jù)的空間拓?fù)溥M(jìn)行建模。而且它們不是參數(shù)數(shù)量大大減少的完全連接模型。

3.4基于遞歸神經(jīng)網(wǎng)絡(luò)的多模態(tài)數(shù)據(jù)融合

3.4.1示例8

為了生成圖像的標(biāo)題,毛等人(2014)提出了一種多模態(tài)遞歸神經(jīng)架構(gòu)。這種多模態(tài)遞歸神經(jīng)網(wǎng)絡(luò)可以彌合圖像和句子之間的概率相關(guān)性。它解決了以前工作無(wú)法生成新圖像標(biāo)題的局限性,因?yàn)橐郧暗墓ぷ鞲鶕?jù)學(xué)習(xí)的圖像-文本映射在句子數(shù)據(jù)庫(kù)中檢索相應(yīng)的標(biāo)題。與以前的工作不同,多模態(tài)遞歸神經(jīng)模型(MRNN)根據(jù)給定的單詞和圖像學(xué)習(xí)語(yǔ)義空間上的聯(lián)合分布。當(dāng)圖像出現(xiàn)時(shí),它會(huì)根據(jù)捕獲的聯(lián)合分布逐字生成句子。具體來(lái)說(shuō),多模態(tài)遞歸神經(jīng)網(wǎng)絡(luò)由語(yǔ)言子網(wǎng)、視覺(jué)子網(wǎng)和多模態(tài)子網(wǎng)組成,如圖7所示。語(yǔ)言子網(wǎng)由兩層詞嵌入部分和單層循環(huán)神經(jīng)部分組成,前者捕獲有效的特定任務(wù)表示,后者對(duì)句子的時(shí)間依賴(lài)性進(jìn)行建模。視覺(jué)子網(wǎng)本質(zhì)上是一個(gè)深度卷積神經(jīng)網(wǎng)絡(luò),如Alexnet、Resnet或Inception,它將高維圖像編碼為緊湊的表示。最后,多模態(tài)子網(wǎng)是一個(gè)隱藏網(wǎng)絡(luò),它對(duì)學(xué)習(xí)語(yǔ)言和視覺(jué)表示的聯(lián)合語(yǔ)義分布進(jìn)行建模。

圖7:

太全了!多模態(tài)深度學(xué)習(xí)的綜述!

3.4.2示例9

為了解決當(dāng)前視覺(jué)識(shí)別系統(tǒng)無(wú)法一目了然地生成圖像豐富描述的局限性,通過(guò)橋接視覺(jué)和文本數(shù)據(jù)之間的模態(tài)間關(guān)系,提出了一種多模態(tài)對(duì)齊模型(Karpathy&Li,2017)。為了實(shí)現(xiàn)這一點(diǎn),提出了一個(gè)雙重方案。首先,設(shè)計(jì)了一個(gè)可視化語(yǔ)義嵌入模型來(lái)生成多模態(tài)訓(xùn)練數(shù)據(jù)集。然后,在此數(shù)據(jù)集上訓(xùn)練多模態(tài)RNN,以生成圖像的豐富描述。

在視覺(jué)語(yǔ)義嵌入模型中,區(qū)域卷積神經(jīng)網(wǎng)絡(luò)用于獲取豐富的圖像表示,這些圖像表示包含與句子相對(duì)應(yīng)的內(nèi)容的足夠信息。然后使用雙向RNN將每個(gè)句子編碼為具有圖像表示的相同維度的密集向量。此外,還給出了一個(gè)多模態(tài)評(píng)分函數(shù)來(lái)衡量圖像和句子之間的語(yǔ)義相似性。最后,利用馬爾可夫隨機(jī)場(chǎng)方法生成多模態(tài)數(shù)據(jù)集。

在多模態(tài)RNN中,提出了一種基于文本內(nèi)容和圖像輸入的更有效的擴(kuò)展模型。該多模態(tài)模型由對(duì)圖像輸入進(jìn)行編碼的卷積神經(jīng)網(wǎng)絡(luò)和對(duì)圖像特征和句子進(jìn)行編碼的RNN組成。該模型還通過(guò)隨機(jī)梯度下降算法進(jìn)行訓(xùn)練。這兩種多模態(tài)模型都在Flickr和Mscoco數(shù)據(jù)集上進(jìn)行了廣泛的評(píng)估,并實(shí)現(xiàn)了最先進(jìn)的性能。

3.4.3小結(jié)

基于RNN的多模態(tài)模型能夠借助隱藏單元計(jì)算中的顯式狀態(tài)傳遞來(lái)分析隱藏在多模態(tài)數(shù)據(jù)中的時(shí)間依賴(lài)性。他們使用時(shí)間反向傳播算法來(lái)訓(xùn)練參數(shù)。由于在隱藏狀態(tài)傳輸中進(jìn)行計(jì)算,因此很難在高性能設(shè)備上并行化。

4.總結(jié)與展望

我們將模型總結(jié)為基于DBN、SAE、CNN和RNN的四組多模態(tài)數(shù)據(jù)深度學(xué)習(xí)模型。這些開(kāi)創(chuàng)性的模式已經(jīng)取得了一些進(jìn)展。然而,這些模型仍處于初步階段,因此仍然存在挑戰(zhàn)。

首先,多模態(tài)數(shù)據(jù)融合深度學(xué)習(xí)模型中存在大量的自由權(quán)重,特別是對(duì)目標(biāo)任務(wù)影響不大的冗余參數(shù)。為了訓(xùn)練這些捕獲數(shù)據(jù)特征結(jié)構(gòu)的參數(shù),將大量數(shù)據(jù)輸入到基于反向傳播算法的多模態(tài)數(shù)據(jù)融合深度學(xué)習(xí)模型中,該算法計(jì)算密集且耗時(shí)。因此,如何結(jié)合現(xiàn)有的壓縮策略設(shè)計(jì)新的多模態(tài)深度學(xué)習(xí)壓縮方法也是一個(gè)潛在的研究方向。

其次,多模態(tài)數(shù)據(jù)不僅包含跨模態(tài)信息,而且包含豐富的跨模態(tài)信息。因此,深度學(xué)習(xí)和語(yǔ)義融合策略的結(jié)合可能是解決探索多模態(tài)數(shù)據(jù)所帶來(lái)的挑戰(zhàn)的一種方式。

第三,從動(dòng)態(tài)環(huán)境中收集多模態(tài)數(shù)據(jù),表明數(shù)據(jù)是不確定的。因此,隨著動(dòng)態(tài)多模態(tài)數(shù)據(jù)的爆炸式增長(zhǎng),必須解決用于數(shù)據(jù)融合的在線(xiàn)和增量多模態(tài)深度學(xué)習(xí)模型的設(shè)計(jì)問(wèn)題。