資訊詳情

太全了！多模態(tài)深度學(xué)習(xí)的綜述！

沃卡惠2024-04-08 09:56:044636

1.介紹

我們對(duì)世界的體驗(yàn)是多模態(tài)的——我們看到物體，聽(tīng)到聲音，感覺(jué)到質(zhì)地，聞到氣味，嘗到味道。模態(tài)是指某件事發(fā)生或經(jīng)歷的方式，當(dāng)一個(gè)研究問(wèn)題包含多個(gè)模態(tài)時(shí)，它就具有多模態(tài)的特征。為了讓人工智能在理解我們周?chē)氖澜绶矫嫒〉眠M(jìn)展，它需要能夠同時(shí)解釋這些多模態(tài)的信號(hào)。

例如，圖像通常與標(biāo)簽和文本解釋相關(guān)聯(lián)，文本包含圖像，以更清楚地表達(dá)文章的中心思想。不同的模態(tài)具有非常不同的統(tǒng)計(jì)特性。這些數(shù)據(jù)被稱(chēng)為多模態(tài)大數(shù)據(jù)，包含豐富的多模態(tài)和跨模態(tài)信息，對(duì)傳統(tǒng)的數(shù)據(jù)融合方法提出了巨大的挑戰(zhàn)。

在這篇綜述中，我們會(huì)介紹一些開(kāi)創(chuàng)性的深度學(xué)習(xí)模型來(lái)融合這些多模態(tài)大數(shù)據(jù)。隨著對(duì)多模態(tài)大數(shù)據(jù)的探索越來(lái)越多，仍有一些挑戰(zhàn)需要解決。因此，本文對(duì)多模態(tài)數(shù)據(jù)融合的深度學(xué)習(xí)進(jìn)行了綜述，旨在為讀者（無(wú)論其原始社區(qū)如何）提供多模態(tài)深度學(xué)習(xí)融合方法的基本原理，并激發(fā)深度學(xué)習(xí)的新型多模態(tài)數(shù)據(jù)融合技術(shù)。

太全了！多模態(tài)深度學(xué)習(xí)的綜述！

通過(guò)多模態(tài)深度學(xué)習(xí)，結(jié)合不同的模態(tài)或信息類(lèi)型來(lái)提高效果，從直觀(guān)上看是一項(xiàng)很有吸引力的任務(wù)，但在實(shí)踐中，如何結(jié)合不同的噪聲水平和模態(tài)之間的沖突是一個(gè)挑戰(zhàn)。此外，模型對(duì)預(yù)測(cè)結(jié)果有不同的定量影響。在實(shí)踐中最常見(jiàn)的方法是將不同輸入的高級(jí)嵌入連接起來(lái)，然后應(yīng)用softmax。

太全了！多模態(tài)深度學(xué)習(xí)的綜述！

這種方法的問(wèn)題是，它將給予所有子網(wǎng)絡(luò)/模式同等的重要性，這在現(xiàn)實(shí)情況中是非常不可能的。這里需要采用子網(wǎng)絡(luò)的加權(quán)組合，以便每個(gè)輸入模態(tài)可以對(duì)輸出預(yù)測(cè)有一個(gè)學(xué)習(xí)貢獻(xiàn)(Theta)。

太全了！多模態(tài)深度學(xué)習(xí)的綜述！

2.具有代表性的深度學(xué)習(xí)架構(gòu)

在本節(jié)中，我們將介紹多模態(tài)數(shù)據(jù)融合深度學(xué)習(xí)模型的代表性深度學(xué)習(xí)架構(gòu)。具體而言，給出了深度架構(gòu)的定義、前饋計(jì)算和反向傳播計(jì)算，以及典型的變體。表1總結(jié)了代表性模型。

表1：代表性深度學(xué)習(xí)模型摘要。

太全了！多模態(tài)深度學(xué)習(xí)的綜述！

2.1、深度信念網(wǎng)絡(luò)（DBN）

受限玻爾茲曼機(jī)（RBM）是深度信念網(wǎng)的基本塊（Zhang，Ding，Zhang，&Xue，2018;Bengio，2009年）。RBM是玻爾茲曼機(jī)的特殊變體（見(jiàn)圖1）。它由可見(jiàn)層和隱藏層組成;可見(jiàn)層的單元與隱藏層的單元之間存在全連接連接，但同一層中的單元之間沒(méi)有連接。RBM也是一個(gè)生成圖形模型，它使用能量函數(shù)以捕獲可見(jiàn)單元和隱藏單元之間的概率分布.

最近，有人提出了一些先進(jìn)的RBM來(lái)提高性能。例如，為了避免網(wǎng)絡(luò)過(guò)度擬合，Chen，Zhang，Yeung，and Chen（2017）設(shè)計(jì)了稀疏玻爾茲曼機(jī)，該機(jī)基于分層潛在樹(shù)學(xué)習(xí)網(wǎng)絡(luò)結(jié)構(gòu)。Ning，Pittman，and Shen （2018）將快速對(duì)比發(fā)散算法引入RBM，其中基于邊界的濾波和delta積用于減少計(jì)算中的冗余點(diǎn)積計(jì)算。為了保護(hù)多維數(shù)據(jù)的內(nèi)部結(jié)構(gòu)，Ju et al.（2019）提出了張量RBM，學(xué)習(xí)隱藏在多維數(shù)據(jù)中的高級(jí)分布，其中使用張量分解來(lái)避免維災(zāi)難。

DBM是一種典型的深度架構(gòu)，由多個(gè)RBM堆疊而成（Hinton&Salakhutdinov，2006）。它是一種基于預(yù)訓(xùn)練和微調(diào)訓(xùn)練策略，可以利用能量來(lái)捕捉可見(jiàn)物體與相應(yīng)標(biāo)簽之間的關(guān)節(jié)分布的生成模型。在預(yù)訓(xùn)練中，每個(gè)隱藏層都被貪婪地建模為在無(wú)監(jiān)督策略中訓(xùn)練的RBM。之后，通過(guò)監(jiān)督策略中訓(xùn)練標(biāo)簽的判別信息進(jìn)一步訓(xùn)練每個(gè)隱藏層。DBN已被用于解決許多領(lǐng)域的問(wèn)題，例如數(shù)據(jù)降維、表示學(xué)習(xí)和語(yǔ)義哈希。具有代表性的DBM如圖1所示。

圖1：

太全了！多模態(tài)深度學(xué)習(xí)的綜述！

2.2、堆疊式自動(dòng)編碼器（SAE）

堆疊式自動(dòng)編碼器（SAE）是編碼器-解碼器架構(gòu)的典型深度學(xué)習(xí)模型（Michael，Olivier和Mario，2018;翁，盧，譚，和周，2016）。它可以通過(guò)以無(wú)監(jiān)督-監(jiān)督方式將原始輸入轉(zhuǎn)換為中間表示來(lái)捕獲輸入的簡(jiǎn)潔特征。SAE已廣泛應(yīng)用于許多領(lǐng)域，包括降維（Wang，Yao，&Zhao，2016），圖像識(shí)別（Jia，Shao，Li，Zhao，&Fu，2018）和文本分類(lèi)（Chen&Zaki，2017）。圖2展示了具有代表性的SAE。

圖2：

太全了！多模態(tài)深度學(xué)習(xí)的綜述！

2.3、卷積神經(jīng)網(wǎng)絡(luò)（CNN）

DBN和SAE是完全連接的神經(jīng)網(wǎng)絡(luò)。在這兩個(gè)網(wǎng)絡(luò)中，隱藏層中的每個(gè)神經(jīng)元都連接到前一層的每個(gè)神經(jīng)元，這種拓?fù)浣Y(jié)構(gòu)會(huì)產(chǎn)生大量連接。為了訓(xùn)練這些連接的權(quán)重，全連接的神經(jīng)網(wǎng)絡(luò)需要大量的訓(xùn)練對(duì)象來(lái)避免過(guò)度擬合和欠擬合，這是計(jì)算密集型的。此外，全連接拓?fù)洳豢紤]神經(jīng)元之間所包含的特征的位置信息。因此，完全連接的深度神經(jīng)網(wǎng)絡(luò)（DBN、SAE及其變體）無(wú)法處理高維數(shù)據(jù)，尤其是大圖像和大音頻數(shù)據(jù)。

卷積神經(jīng)網(wǎng)絡(luò)是一種特殊的深度網(wǎng)絡(luò)，它考慮了數(shù)據(jù)的局部拓?fù)浣Y(jié)構(gòu)（Li，Xia，Du，Lin，&Samat，2017;Sze，Chen，Yang和Emer，2017）。卷積神經(jīng)網(wǎng)絡(luò)包括全連接網(wǎng)絡(luò)和包含卷積層和池化層的約束網(wǎng)絡(luò)。約束網(wǎng)絡(luò)使用卷積和池化運(yùn)算來(lái)實(shí)現(xiàn)局部感受野和參數(shù)約簡(jiǎn)。與DBN和SAE一樣，卷積神經(jīng)網(wǎng)絡(luò)也通過(guò)隨機(jī)梯度下降算法進(jìn)行訓(xùn)練。它在醫(yī)學(xué)圖像識(shí)別（Maggiori，Tarabalka，Charpiat和Alliez，2017）和語(yǔ)義分析（胡，Lu，Li，&Chen，2014）方面取得了很大進(jìn)展。具有代表性的CNN如圖3所示。

圖3：

太全了！多模態(tài)深度學(xué)習(xí)的綜述！

2.4、循環(huán)神經(jīng)網(wǎng)絡(luò)（RNN）

遞歸神經(jīng)網(wǎng)絡(luò)是一種處理串行數(shù)據(jù)的神經(jīng)計(jì)算架構(gòu)（Martens&Sutskever，2011;Sutskever，Martens和Hinton，2011）。與深度前向架構(gòu)（即DBN，SAE和CNN）不同，它不僅將輸入模式映射到輸出結(jié)果，而且還通過(guò)利用隱藏單元之間的連接將隱藏狀態(tài)傳輸?shù)捷敵觯℅raves&Schmidhuber，2008）。通過(guò)使用這些隱藏的連接，RNN對(duì)時(shí)間依賴(lài)性進(jìn)行建模，從而在時(shí)間維度上共享對(duì)象之間的參數(shù)。它已被應(yīng)用于各個(gè)領(lǐng)域，如語(yǔ)音分析（Mulder，Bethard和Moens，2015），圖像標(biāo)題（Xu等人，2015）和語(yǔ)言翻譯（Graves&Jaitly，2014），取得了出色的性能。與深度前向架構(gòu)類(lèi)似，其計(jì)算也包括前向傳遞和反向傳播階段。在前向傳遞計(jì)算中，RNN同時(shí)獲取輸入和隱藏狀態(tài)。在反向傳播計(jì)算中，它使用時(shí)間反向傳播算法來(lái)反向傳播時(shí)間步長(zhǎng)的損耗。圖4顯示了具有代表性的RNN。

圖4：

太全了！多模態(tài)深度學(xué)習(xí)的綜述！

3.面向多模態(tài)數(shù)據(jù)融合的深度學(xué)習(xí)

在本節(jié)中，我們從模型任務(wù)、模型框架和評(píng)估數(shù)據(jù)集的角度回顧了最具代表性的多模態(tài)數(shù)據(jù)融合深度學(xué)習(xí)模型。根據(jù)所使用的深度學(xué)習(xí)架構(gòu)，它們分為四類(lèi)。表2總結(jié)了具有代表性的多模態(tài)深度學(xué)習(xí)模型。

表2：

代表性多模態(tài)深度學(xué)習(xí)模型摘要.

太全了！多模態(tài)深度學(xué)習(xí)的綜述！

3.1基于網(wǎng)絡(luò)的深度信念多模態(tài)數(shù)據(jù)融合

3.1.1示例1

Srivastava和Salakhutdinov（2012）提出了一種基于深度玻爾茲曼學(xué)習(xí)模型的多模態(tài)生成模型，通過(guò)擬合多模態(tài)數(shù)據(jù)在各種模態(tài)（如圖像、文本和音頻）上的聯(lián)合分布來(lái)學(xué)習(xí)多模態(tài)表示。

太全了！多模態(tài)深度學(xué)習(xí)的綜述！

所提出的多模態(tài)DBN的每個(gè)模塊均采用無(wú)監(jiān)督逐層方式進(jìn)行初始化，并采用基于MCMC的近似方法進(jìn)行模型訓(xùn)練。

為了評(píng)估學(xué)習(xí)到的多模態(tài)表示，執(zhí)行了大量的任務(wù)，例如生成缺失模態(tài)任務(wù)、推斷聯(lián)合表示任務(wù)和判別任務(wù)。實(shí)驗(yàn)驗(yàn)證了學(xué)習(xí)到的多模態(tài)表示是否滿(mǎn)足所需的屬性。

3.1.2示例2

為了在早期有效診斷阿爾茨海默病，Suk、Lee、Shen和阿爾茨海默病神經(jīng)影像學(xué)計(jì)劃（2014）提出了一種多模態(tài)玻爾茲曼模型，該模型可以融合多模態(tài)數(shù)據(jù)中的互補(bǔ)知識(shí)。具體來(lái)說(shuō)，為了解決淺層特征學(xué)習(xí)方法造成的局限性，DBN用于通過(guò)將特定領(lǐng)域的表示轉(zhuǎn)移到分層抽象表示來(lái)學(xué)習(xí)每個(gè)模態(tài)的深度表示。然后，在串聯(lián)向量上構(gòu)建單層RBM，該向量是來(lái)自每個(gè)模態(tài)的分層抽象表示的線(xiàn)性組合。它用于通過(guò)構(gòu)建不同多模態(tài)特征的聯(lián)合分布來(lái)學(xué)習(xí)多模態(tài)表示。最后，根據(jù)三種典型診斷對(duì)ADNI數(shù)據(jù)集對(duì)所提出的模型進(jìn)行了廣泛的評(píng)估，實(shí)現(xiàn)了最先進(jìn)的診斷準(zhǔn)確性。

3.1.3示例3

為了準(zhǔn)確估計(jì)人類(lèi)姿勢(shì)，Ouyang，Chu，and Wang（2014）設(shè)計(jì)了一個(gè)多源深度學(xué)習(xí)模型，該模型通過(guò)提取高階空間中身體模式的聯(lián)合分布，從混合類(lèi)型、外觀(guān)得分和變形模態(tài)中學(xué)習(xí)多模態(tài)表示。在人-姿態(tài)多源深度模型中，從圖像結(jié)構(gòu)模型中提取了三種廣泛使用的模態(tài)，這些模型基于條件隨機(jī)場(chǎng)理論組合了身體的各個(gè)部位。為了獲得多模態(tài)數(shù)據(jù)，通過(guò)線(xiàn)性支持向量機(jī)對(duì)圖形結(jié)構(gòu)模型進(jìn)行訓(xùn)練。之后，這三個(gè)特征中的每一個(gè)都被輸入到一個(gè)兩層受限玻爾茲曼模型中，以從特定于特征的表示中捕獲高階姿態(tài)空間的抽象表示。通過(guò)無(wú)監(jiān)督初始化，每個(gè)特定模態(tài)的受限玻爾茲曼模型都會(huì)捕獲全局空間的固有表示。然后，使用RBM進(jìn)一步學(xué)習(xí)基于高級(jí)混合類(lèi)型、外觀(guān)得分和變形表示的串聯(lián)向量的人體姿態(tài)表示。為了訓(xùn)練所提出的多源深度學(xué)習(xí)模型，設(shè)計(jì)了一個(gè)同時(shí)考慮身體位置和人體檢測(cè)的任務(wù)特定目標(biāo)函數(shù)。所提出的模型在LSP、PARSE和UIUC上進(jìn)行了驗(yàn)證，并產(chǎn)生了高達(dá)8.6%的改進(jìn)。

最近，人們提出了一些新的基于DBN的多模態(tài)特征學(xué)習(xí)模型。例如，Amer、Shields、Siddiquie和Tamrakar（2018）提出了一種用于序列事件檢測(cè)的混合方法，其中采用條件RBM來(lái)提取具有附加判別標(biāo)簽信息的模態(tài)和跨模態(tài)特征。Al-Waisy、Qahwaji、Ipson和Al-Fahdawi（2018）引入了一種識(shí)別人臉的多模態(tài)方法。在這種方法中，使用基于DBN的模型對(duì)Curvelet變換捕獲的局部手工特征的多模態(tài)分布進(jìn)行建模，可以合并局部特征和深度特征的優(yōu)勢(shì)（Al-Waisy等人，2018）。

3.1.4小結(jié)

這些基于DBN的多模態(tài)模型使用概率圖形網(wǎng)絡(luò)將特定于模態(tài)的表示轉(zhuǎn)換為共享空間中的語(yǔ)義特征。然后，根據(jù)共享空間的特征對(duì)模態(tài)上的聯(lián)合分布進(jìn)行建模。這些基于DBN的多模態(tài)模型在無(wú)監(jiān)督、半監(jiān)督和監(jiān)督學(xué)習(xí)策略中更加靈活和穩(wěn)健。它們非常適合捕獲輸入數(shù)據(jù)的信息特征。然而，他們忽略了多模態(tài)數(shù)據(jù)的空間和時(shí)間拓?fù)浣Y(jié)構(gòu)。

3.2基于堆疊自編碼器的多模態(tài)數(shù)據(jù)融合

3.2.1示例4

Ngiam et al.（2011）提出的多模態(tài)深度學(xué)習(xí)是基于堆疊自編碼器（SAE）的多模態(tài)數(shù)據(jù)融合最具代表性的深度學(xué)習(xí)模型。這種深度學(xué)習(xí)模型旨在解決兩個(gè)數(shù)據(jù)融合問(wèn)題：跨模態(tài)和共享模態(tài)表征學(xué)習(xí)。前者旨在利用來(lái)自其他模態(tài)的知識(shí)來(lái)捕捉更好的單模態(tài)表示，而后者則在中級(jí)學(xué)習(xí)模態(tài)之間的復(fù)雜相關(guān)性。為了實(shí)現(xiàn)這些目標(biāo)，設(shè)計(jì)了三種學(xué)習(xí)場(chǎng)景——多模態(tài)、跨模態(tài)和共享模態(tài)學(xué)習(xí)，如表3和圖6所示。

圖6：多模態(tài)、跨模態(tài)和共享模態(tài)學(xué)習(xí)的架構(gòu)。

多模態(tài)、跨模態(tài)和共享模態(tài)學(xué)習(xí)的架構(gòu)。

表3：多模態(tài)學(xué)習(xí)的設(shè)置。

太全了！多模態(tài)深度學(xué)習(xí)的綜述！

在多模態(tài)學(xué)習(xí)場(chǎng)景中，音頻頻譜圖和視頻幀以線(xiàn)性方式連接成向量。將串聯(lián)向量饋入稀疏受限玻爾茲曼機(jī)（SRBM），以學(xué)習(xí)音頻和視頻之間的相關(guān)性。該模型只能學(xué)習(xí)多個(gè)模態(tài)的陰影聯(lián)合表示，因?yàn)橄嚓P(guān)性隱含在原始級(jí)別的高維表示中，而單層SRBM無(wú)法對(duì)它們進(jìn)行建模。受此啟發(fā)，中級(jí)表示的串聯(lián)向量被輸入到SRBM中，以模擬多個(gè)模態(tài)的相關(guān)性，從而顯示出更好的性能。

在跨模態(tài)學(xué)習(xí)場(chǎng)景中，提出了一種深度堆疊多模態(tài)自編碼器來(lái)顯式學(xué)習(xí)模態(tài)之間的相關(guān)性。具體來(lái)說(shuō)，音頻和視頻都作為特征學(xué)習(xí)中的輸入呈現(xiàn)，在監(jiān)督訓(xùn)練和測(cè)試中，只有其中一個(gè)被輸入到模型中。該模型以多模態(tài)學(xué)習(xí)的方式進(jìn)行初始化，能夠很好地模擬跨模態(tài)關(guān)系。

在共享模態(tài)表示中，在去噪自編碼器的激勵(lì)下，引入了特定于模態(tài)的深度堆疊多模態(tài)自編碼器，以探索模態(tài)之間的聯(lián)合表示，尤其是在缺少一個(gè)模態(tài)時(shí)。通過(guò)將其中一個(gè)模態(tài)替換為零而擴(kuò)大的訓(xùn)練數(shù)據(jù)集被輸入到特征學(xué)習(xí)的模型中。

最后，在CUAVE和AVLetters數(shù)據(jù)集上進(jìn)行了詳細(xì)的實(shí)驗(yàn)，以評(píng)估多模態(tài)深度學(xué)習(xí)在特定任務(wù)特征學(xué)習(xí)中的性能。

3.2.2示例5

為了從一系列圖像（尤其是視頻）中生成視覺(jué)和語(yǔ)義上有效的人體骨骼，Hong，Yu，Wan，Tao和Wang（2015）提出了一種多模態(tài)深度自動(dòng)編碼器來(lái)捕獲圖像和姿勢(shì)之間的融合關(guān)系。特別是，所提出的多模態(tài)深度自編碼器通過(guò)三階段策略進(jìn)行訓(xùn)練，以構(gòu)建二維圖像和三維姿態(tài)之間的非線(xiàn)性映射。在特征融合階段，利用多視圖超圖低秩表示，基于流形學(xué)習(xí)，從一系列圖像特征（如定向梯度直方圖和形狀上下文）構(gòu)建內(nèi)部二維表示。在第二階段，訓(xùn)練單層自動(dòng)編碼器來(lái)學(xué)習(xí)抽象表示，該抽象表示用于通過(guò)重建二維圖像間特征來(lái)恢復(fù)三維姿態(tài)。同時(shí)，以類(lèi)似的方式訓(xùn)練單層自動(dòng)編碼器，以學(xué)習(xí)三維姿勢(shì)的抽象表示。在獲得每個(gè)單一模態(tài)的抽象表示后，使用神經(jīng)網(wǎng)絡(luò)通過(guò)最小化兩個(gè)模態(tài)互表示之間的平方歐幾里得距離來(lái)學(xué)習(xí)二維圖像和三維姿態(tài)之間的多模態(tài)相關(guān)性。所提出的多模態(tài)深度自編碼器的學(xué)習(xí)由初始化和微調(diào)階段組成。在初始化中，從相應(yīng)的自編碼器和神經(jīng)網(wǎng)絡(luò)復(fù)制多模態(tài)深度自編碼器每個(gè)子部分的參數(shù)。然后，通過(guò)隨機(jī)梯度下降算法對(duì)整個(gè)模型的參數(shù)進(jìn)行進(jìn)一步微調(diào)，從相應(yīng)的二維圖像中構(gòu)造出三維姿態(tài)。

3.2.3小結(jié)

基于SAE的多模態(tài)模型采用編碼器-解碼器架構(gòu)，通過(guò)無(wú)監(jiān)督方式通過(guò)重構(gòu)方法提取內(nèi)在的模態(tài)特征和跨模態(tài)特征。由于它們基于SAE，這是一個(gè)完全連接的模型，因此需要訓(xùn)練許多參數(shù)。此外，他們忽略了多模態(tài)數(shù)據(jù)中的空間和時(shí)間拓?fù)浣Y(jié)構(gòu)。

3.3基于卷積神經(jīng)網(wǎng)絡(luò)的多模態(tài)數(shù)據(jù)融合

3.3.1示例6

為了模擬圖像和句子之間的語(yǔ)義映射分布，馬，Lu，Shang和Li（2015）提出了一個(gè)多模態(tài)卷積神經(jīng)網(wǎng)絡(luò)。為了充分捕捉語(yǔ)義相關(guān)性，在端到端架構(gòu)中設(shè)計(jì)了三級(jí)融合策略——詞級(jí)、階段級(jí)和句子級(jí)。該架構(gòu)由影像子網(wǎng)、匹配子網(wǎng)和多模態(tài)子網(wǎng)組成。圖像子網(wǎng)是一個(gè)具有代表性的深度卷積神經(jīng)網(wǎng)絡(luò)，例如Alexnet和Inception，它有效地將圖像輸入編碼為簡(jiǎn)潔的表示。匹配子網(wǎng)對(duì)將圖像內(nèi)容與語(yǔ)義空間中句子的單詞片段相關(guān)聯(lián)的聯(lián)合表示進(jìn)行建模。

3.3.2示例7

為了將視覺(jué)識(shí)別系統(tǒng)擴(kuò)展到無(wú)限數(shù)量的離散類(lèi)別，F(xiàn)rome等人（2013）通過(guò)利用文本數(shù)據(jù)中的語(yǔ)義信息提出了一種多模態(tài)卷積神經(jīng)網(wǎng)絡(luò)。該網(wǎng)絡(luò)由語(yǔ)言子模型和視覺(jué)子模型組成。語(yǔ)言子模型基于skip-gram模型，該模型可以將文本信息傳輸?shù)秸Z(yǔ)義空間的密集表示中。視覺(jué)子模型是一個(gè)具有代表性的卷積神經(jīng)網(wǎng)絡(luò)，例如Alexnet，它在1000類(lèi)ImageNet數(shù)據(jù)集上進(jìn)行預(yù)訓(xùn)練以捕獲視覺(jué)特征。為了對(duì)圖像和文本之間的語(yǔ)義關(guān)系進(jìn)行建模，語(yǔ)言和視覺(jué)子模型通過(guò)線(xiàn)性投影層進(jìn)行組合。每個(gè)子模型都由每個(gè)模態(tài)的參數(shù)初始化。之后，為了訓(xùn)練這種視覺(jué)語(yǔ)義多模態(tài)模型，提出了一種新的損失函數(shù)，通過(guò)結(jié)合點(diǎn)積相似度和鉸鏈秩損失，可以為正確的圖像和標(biāo)簽對(duì)提供高相似性分?jǐn)?shù)。該模型可以在ImageNet數(shù)據(jù)集上產(chǎn)生最先進(jìn)的性能，避免語(yǔ)義上不合理的結(jié)果。

3.3.3小結(jié)

基于CNN的多模態(tài)模型可以通過(guò)局部字段和池化操作來(lái)學(xué)習(xí)模態(tài)之間的局部多模態(tài)特征。它們顯式地對(duì)多模態(tài)數(shù)據(jù)的空間拓?fù)溥M(jìn)行建模。而且它們不是參數(shù)數(shù)量大大減少的完全連接模型。

3.4基于遞歸神經(jīng)網(wǎng)絡(luò)的多模態(tài)數(shù)據(jù)融合

3.4.1示例8

為了生成圖像的標(biāo)題，毛等人（2014）提出了一種多模態(tài)遞歸神經(jīng)架構(gòu)。這種多模態(tài)遞歸神經(jīng)網(wǎng)絡(luò)可以彌合圖像和句子之間的概率相關(guān)性。它解決了以前工作無(wú)法生成新圖像標(biāo)題的局限性，因?yàn)橐郧暗墓ぷ鞲鶕?jù)學(xué)習(xí)的圖像-文本映射在句子數(shù)據(jù)庫(kù)中檢索相應(yīng)的標(biāo)題。與以前的工作不同，多模態(tài)遞歸神經(jīng)模型（MRNN）根據(jù)給定的單詞和圖像學(xué)習(xí)語(yǔ)義空間上的聯(lián)合分布。當(dāng)圖像出現(xiàn)時(shí)，它會(huì)根據(jù)捕獲的聯(lián)合分布逐字生成句子。具體來(lái)說(shuō)，多模態(tài)遞歸神經(jīng)網(wǎng)絡(luò)由語(yǔ)言子網(wǎng)、視覺(jué)子網(wǎng)和多模態(tài)子網(wǎng)組成，如圖7所示。語(yǔ)言子網(wǎng)由兩層詞嵌入部分和單層循環(huán)神經(jīng)部分組成，前者捕獲有效的特定任務(wù)表示，后者對(duì)句子的時(shí)間依賴(lài)性進(jìn)行建模。視覺(jué)子網(wǎng)本質(zhì)上是一個(gè)深度卷積神經(jīng)網(wǎng)絡(luò)，如Alexnet、Resnet或Inception，它將高維圖像編碼為緊湊的表示。最后，多模態(tài)子網(wǎng)是一個(gè)隱藏網(wǎng)絡(luò)，它對(duì)學(xué)習(xí)語(yǔ)言和視覺(jué)表示的聯(lián)合語(yǔ)義分布進(jìn)行建模。

圖7：

太全了！多模態(tài)深度學(xué)習(xí)的綜述！

3.4.2示例9

為了解決當(dāng)前視覺(jué)識(shí)別系統(tǒng)無(wú)法一目了然地生成圖像豐富描述的局限性，通過(guò)橋接視覺(jué)和文本數(shù)據(jù)之間的模態(tài)間關(guān)系，提出了一種多模態(tài)對(duì)齊模型（Karpathy&Li，2017）。為了實(shí)現(xiàn)這一點(diǎn)，提出了一個(gè)雙重方案。首先，設(shè)計(jì)了一個(gè)可視化語(yǔ)義嵌入模型來(lái)生成多模態(tài)訓(xùn)練數(shù)據(jù)集。然后，在此數(shù)據(jù)集上訓(xùn)練多模態(tài)RNN，以生成圖像的豐富描述。

在視覺(jué)語(yǔ)義嵌入模型中，區(qū)域卷積神經(jīng)網(wǎng)絡(luò)用于獲取豐富的圖像表示，這些圖像表示包含與句子相對(duì)應(yīng)的內(nèi)容的足夠信息。然后使用雙向RNN將每個(gè)句子編碼為具有圖像表示的相同維度的密集向量。此外，還給出了一個(gè)多模態(tài)評(píng)分函數(shù)來(lái)衡量圖像和句子之間的語(yǔ)義相似性。最后，利用馬爾可夫隨機(jī)場(chǎng)方法生成多模態(tài)數(shù)據(jù)集。

在多模態(tài)RNN中，提出了一種基于文本內(nèi)容和圖像輸入的更有效的擴(kuò)展模型。該多模態(tài)模型由對(duì)圖像輸入進(jìn)行編碼的卷積神經(jīng)網(wǎng)絡(luò)和對(duì)圖像特征和句子進(jìn)行編碼的RNN組成。該模型還通過(guò)隨機(jī)梯度下降算法進(jìn)行訓(xùn)練。這兩種多模態(tài)模型都在Flickr和Mscoco數(shù)據(jù)集上進(jìn)行了廣泛的評(píng)估，并實(shí)現(xiàn)了最先進(jìn)的性能。

3.4.3小結(jié)

基于RNN的多模態(tài)模型能夠借助隱藏單元計(jì)算中的顯式狀態(tài)傳遞來(lái)分析隱藏在多模態(tài)數(shù)據(jù)中的時(shí)間依賴(lài)性。他們使用時(shí)間反向傳播算法來(lái)訓(xùn)練參數(shù)。由于在隱藏狀態(tài)傳輸中進(jìn)行計(jì)算，因此很難在高性能設(shè)備上并行化。

4.總結(jié)與展望

我們將模型總結(jié)為基于DBN、SAE、CNN和RNN的四組多模態(tài)數(shù)據(jù)深度學(xué)習(xí)模型。這些開(kāi)創(chuàng)性的模式已經(jīng)取得了一些進(jìn)展。然而，這些模型仍處于初步階段，因此仍然存在挑戰(zhàn)。

首先，多模態(tài)數(shù)據(jù)融合深度學(xué)習(xí)模型中存在大量的自由權(quán)重，特別是對(duì)目標(biāo)任務(wù)影響不大的冗余參數(shù)。為了訓(xùn)練這些捕獲數(shù)據(jù)特征結(jié)構(gòu)的參數(shù)，將大量數(shù)據(jù)輸入到基于反向傳播算法的多模態(tài)數(shù)據(jù)融合深度學(xué)習(xí)模型中，該算法計(jì)算密集且耗時(shí)。因此，如何結(jié)合現(xiàn)有的壓縮策略設(shè)計(jì)新的多模態(tài)深度學(xué)習(xí)壓縮方法也是一個(gè)潛在的研究方向。

其次，多模態(tài)數(shù)據(jù)不僅包含跨模態(tài)信息，而且包含豐富的跨模態(tài)信息。因此，深度學(xué)習(xí)和語(yǔ)義融合策略的結(jié)合可能是解決探索多模態(tài)數(shù)據(jù)所帶來(lái)的挑戰(zhàn)的一種方式。

第三，從動(dòng)態(tài)環(huán)境中收集多模態(tài)數(shù)據(jù)，表明數(shù)據(jù)是不確定的。因此，隨著動(dòng)態(tài)多模態(tài)數(shù)據(jù)的爆炸式增長(zhǎng)，必須解決用于數(shù)據(jù)融合的在線(xiàn)和增量多模態(tài)深度學(xué)習(xí)模型的設(shè)計(jì)問(wèn)題。