資訊詳情

在計(jì)算機(jī)視覺(jué)中分離“融合”的人類(lèi)

2022-10-13 09:24:294636

在計(jì)算機(jī)視覺(jué)中分離融合的人類(lèi)

新加坡現(xiàn)代汽車(chē)集團(tuán)創(chuàng)新中心的一篇新論文提供了一種在計(jì)算機(jī)視覺(jué)中分離“融合”人類(lèi)的方法——在物體識(shí)別框架發(fā)現(xiàn)人類(lèi)在某種程度上與另一個(gè)人類(lèi)“太接近”的情況下（例如作為“擁抱”動(dòng)作或“站在后面”的姿勢(shì)），并且無(wú)法解開(kāi)所代表的兩個(gè)人，將他們混淆為一個(gè)人或一個(gè)實(shí)體。

在計(jì)算機(jī)視覺(jué)中分離融合的人類(lèi)

兩者合而為一，但這在語(yǔ)義分割中并不是一件好事。在這里，我們看到論文的新系統(tǒng)在復(fù)雜且具有挑戰(zhàn)性的圖像中對(duì)相互交織的人進(jìn)行個(gè)體化方面取得了最先進(jìn)的結(jié)果。

這是一個(gè)值得注意的問(wèn)題，近年來(lái)在研究界受到了極大的關(guān)注。在沒(méi)有明顯但通常負(fù)擔(dān)不起的超大規(guī)模費(fèi)用的情況下解決這個(gè)問(wèn)題，以人為主導(dǎo)的自定義標(biāo)簽最終可以改善文本到圖像系統(tǒng)中的人類(lèi)個(gè)性化，例如穩(wěn)定擴(kuò)散，在提示姿勢(shì)需要多人的情況下，這種系統(tǒng)經(jīng)常將人們“融化”在一起彼此靠近。

擁抱恐怖

擁抱恐怖——文本到圖像的模型，如 DALL-E 2 和 Stable Diffusion（均在上面介紹）難以代表彼此非常接近的人。

盡管 DALL-E 2 和 Stable Diffusion 等生成模型（據(jù)任何人所知，在閉源 DALL-E 2 的情況下）目前無(wú)論如何都沒(méi)有使用語(yǔ)義分割或?qū)ο笞R(shí)別，但這些怪誕的人工合成器不能目前可以通過(guò)應(yīng)用這種上游方法來(lái)治愈——因?yàn)樽钕冗M(jìn)的對(duì)象識(shí)別庫(kù)和資源在解開(kāi)人方面并不比基于CLIP的潛在擴(kuò)散模型工作流好多少。

為了解決這個(gè)問(wèn)題，題為“人類(lèi)不需要標(biāo)記更多人類(lèi)：遮擋復(fù)制和粘貼用于遮擋人類(lèi)實(shí)例分割”的新論文調(diào)整并改進(jìn)了最近對(duì)半合成數(shù)據(jù)的“剪切和粘貼”方法，以實(shí)現(xiàn)新的 SOTA 領(lǐng)先任務(wù)，即使面對(duì)最具挑戰(zhàn)性的源材料：

新的遮擋復(fù)制和粘貼方法目前在該領(lǐng)域處于領(lǐng)先地位

新的遮擋復(fù)制和粘貼方法目前在該領(lǐng)域處于領(lǐng)先地位，甚至與以前的框架和方法相比，這些框架和方法以復(fù)雜和更專(zhuān)用的方式應(yīng)對(duì)挑戰(zhàn)，例如專(zhuān)門(mén)為遮擋建模。

把它剪掉！

修改后的方法——名為Occlusion Copy & Paste——源自 Google Research 領(lǐng)導(dǎo)的 2021 年Simple Copy-Paste論文，該論文表明，將提取的對(duì)象和人疊加在不同的源訓(xùn)練圖像中可以提高圖像識(shí)別系統(tǒng)的離散化能力在圖像中找到的每個(gè)實(shí)例：

從一張照片遷移到其他照片的元素

從 2021 年 Google Research 主導(dǎo)的論文“Simple Copy-Paste is a Strong Data Augmentation Method for Instance Segmentation”中，我們看到從一張照片“遷移”到其他照片的元素，目的是訓(xùn)練更好的圖像識(shí)別模型。

新版本在這種自動(dòng)和算法“重新粘貼”中增加了限制和參數(shù)，將這個(gè)過(guò)程類(lèi)比為一個(gè)圖像“籃子”，其中充滿(mǎn)了基于幾個(gè)關(guān)鍵因素“轉(zhuǎn)移”到其他圖像的潛在候選者。

OC&P 的概念工作流程

OC&P 的概念工作流程。

控制元素

這些限制因素包括發(fā)生剪切和粘貼的可能性，這確保了該過(guò)程不會(huì)一直發(fā)生，這將實(shí)現(xiàn)破壞數(shù)據(jù)增強(qiáng)的“飽和”效果；一個(gè)籃子在任何時(shí)候都會(huì)擁有的圖像數(shù)量，其中更多的“片段”可能會(huì)提高實(shí)例的多樣性，但會(huì)增加預(yù)處理時(shí)間；和range，它確定將粘貼到“主機(jī)”圖像中的圖像數(shù)量。

關(guān)于后者，論文指出“我們需要發(fā)生足夠的遮擋，但不要太多，因?yàn)樗鼈兛赡軙?huì)使圖像過(guò)度混亂，這可能不利于學(xué)習(xí)。”

OC&P 的另外兩項(xiàng)創(chuàng)新是目標(biāo)粘貼和增強(qiáng)實(shí)例粘貼。

有針對(duì)性的粘貼可確保合適的圖像落在目標(biāo)圖像中的現(xiàn)有實(shí)例附近。在之前的方法中，從之前的工作來(lái)看，新元素只被限制在圖像的邊界內(nèi)，沒(méi)有考慮上下文。

增加視覺(jué)真實(shí)性并不一定很重要，甚至可能是一種負(fù)擔(dān)

盡管這種帶有針對(duì)性粘貼的“粘貼”對(duì)人眼來(lái)說(shuō)是顯而易見(jiàn)的，但 OC&P 及其前身都發(fā)現(xiàn)，增加視覺(jué)真實(shí)性并不一定很重要，甚至可能是一種負(fù)擔(dān)（參見(jiàn)下面的“現(xiàn)實(shí)咬傷”）。

另一方面，增強(qiáng)的實(shí)例粘貼確保粘貼的實(shí)例不會(huì)表現(xiàn)出“獨(dú)特的外觀(guān)”，最終可能會(huì)以某種方式被系統(tǒng)分類(lèi)，這可能會(huì)導(dǎo)致排除或“特殊處理”，從而阻礙泛化和適用性. 增強(qiáng)粘貼可調(diào)節(jié)亮度和銳度、縮放和旋轉(zhuǎn)以及飽和度等視覺(jué)因素以及其他因素。

將 OC&P 添加到現(xiàn)有的識(shí)別框架中是相當(dāng)簡(jiǎn)單的

從新論文的補(bǔ)充材料來(lái)看：將 OC&P 添加到現(xiàn)有的識(shí)別框架中是相當(dāng)簡(jiǎn)單的，并且會(huì)在非常接近的范圍內(nèi)產(chǎn)生優(yōu)越的個(gè)體化。

此外，OC&P 規(guī)定了任何粘貼實(shí)例的最小大小。例如，可以從大量人群場(chǎng)景中提取一個(gè)人的圖像，然后將其粘貼到另一幅圖像中——但在這種情況下，所涉及的少量像素不太可能有助于識(shí)別。因此，系統(tǒng)根據(jù)目標(biāo)圖像的均衡邊長(zhǎng)比應(yīng)用最小比例。

此外，OC&P 制定了規(guī)模感知粘貼，除了尋找與粘貼主題相似的主題外，它還考慮了目標(biāo)圖像中邊界框的大小。然而，這并不會(huì)導(dǎo)致人們認(rèn)為合理或真實(shí)的合成圖像（見(jiàn)下圖），而是以有助于訓(xùn)練的方式將語(yǔ)義上恰當(dāng)?shù)脑亟M合在一起。

眼見(jiàn)為實(shí)

OC&P 所基于的先前工作和當(dāng)前實(shí)施都對(duì)真實(shí)性或任何最終“蒙太奇”圖像的“照片真實(shí)性”給予了低溢價(jià)。雖然重要的是最終的組裝不要完全落入達(dá)達(dá)主義（否則受過(guò)訓(xùn)練的系統(tǒng)的真實(shí)世界部署永遠(yuǎn)不會(huì)希望在他們接受訓(xùn)練的場(chǎng)景中遇到元素），但這兩項(xiàng)舉措都發(fā)現(xiàn)“視覺(jué)”的顯著增加可信度”不僅增加了預(yù)處理時(shí)間，而且這種“真實(shí)感增強(qiáng)”實(shí)際上可能適得其反。

帶有隨機(jī)混合的增強(qiáng)圖像示例

來(lái)自新論文的補(bǔ)充材料：帶有“隨機(jī)混合”的增強(qiáng)圖像示例。盡管這些場(chǎng)景對(duì)一個(gè)人來(lái)說(shuō)可能會(huì)讓人產(chǎn)生幻覺(jué)，但它們?nèi)匀粚⑾嗨频闹黝}放在一起；盡管遮擋對(duì)人眼來(lái)說(shuō)是奇幻的，但無(wú)法提前知道潛在遮擋的性質(zhì)，也無(wú)法對(duì)其進(jìn)行訓(xùn)練——因此，這種奇異的“截?cái)?rdquo;形式足以迫使受過(guò)訓(xùn)練的系統(tǒng)去尋找識(shí)別出部分目標(biāo)對(duì)象，而無(wú)需開(kāi)發(fā)復(fù)雜的 Photoshop 風(fēng)格的方法來(lái)使場(chǎng)景更加合理。

數(shù)據(jù)和測(cè)試

在測(cè)試階段，該系統(tǒng)在MS COCO數(shù)據(jù)集的person類(lèi)上進(jìn)行了訓(xùn)練，包含 64,115 張圖像中的 262,465 個(gè)人類(lèi)示例。然而，為了獲得比 MS COCO 質(zhì)量更好的掩碼，圖像還接受了LVIS掩碼注釋。

Facebook 研究的 LVIS 于 2019 年發(fā)布

來(lái)自 Facebook 研究的 LVIS 于 2019 年發(fā)布，是用于大型詞匯實(shí)例分割的海量數(shù)據(jù)集。

為了評(píng)估增強(qiáng)系統(tǒng)對(duì)抗大量被遮擋的人體圖像的能力，研究人員將 OC&P 與OCHuman（Occluded Human）基準(zhǔn)進(jìn)行對(duì)比。

OCHuman 數(shù)據(jù)集的示例

OCHuman 數(shù)據(jù)集的示例，在 2018 年為支持 Pose2Seg 檢測(cè)項(xiàng)目而引入。該計(jì)劃旨在通過(guò)使用人的姿態(tài)和姿勢(shì)作為代表身體的像素的語(yǔ)義分隔符來(lái)改進(jìn)人的語(yǔ)義分割。

由于沒(méi)有對(duì) OCHuman 基準(zhǔn)進(jìn)行詳盡的注釋?zhuān)抡撐牡难芯咳藛T創(chuàng)建了一個(gè)僅包含完全標(biāo)記的示例的子集，名為 OCHuman ^FL。這將用于驗(yàn)證的 1,113 個(gè)圖像中的人員實(shí)例數(shù)量減少到 2,240 個(gè)，在用于測(cè)試的 951 個(gè)實(shí)際圖像中減少 1,923 個(gè)實(shí)例。使用平均平均精度 (mAP) 作為核心指標(biāo)，對(duì)原始集和新策劃的集進(jìn)行了測(cè)試。

為了保持一致性，該架構(gòu)由具有ResNet-50主干和特征金字塔網(wǎng)絡(luò)的Mask R-CNN組成，后者在準(zhǔn)確性和訓(xùn)練速度之間提供了可接受的折衷。

由于研究人員已經(jīng)注意到上游ImageNet影響在類(lèi)似情況下的有害影響，整個(gè)系統(tǒng)在 4 個(gè) NVIDIA V100 GPU 上從頭開(kāi)始訓(xùn)練 75 個(gè) epoch，遵循 Facebook 2021 年發(fā)布的Detectron 2的初始化參數(shù)。

結(jié)果

除了上述結(jié)果之外，針對(duì)測(cè)試的MMDetection（及其三個(gè)相關(guān)模型）的基線(xiàn)結(jié)果表明，OC&P 在從復(fù)雜的姿勢(shì)中識(shí)別出人類(lèi)的能力方面明顯領(lǐng)先。

除了優(yōu)于PoSeg和Pose2Seg 之外，也許該論文最杰出的成就之一是該系統(tǒng)可以非常普遍地應(yīng)用于現(xiàn)有框架，包括那些在試驗(yàn)中與之抗衡的框架（參見(jiàn)第一個(gè)結(jié)果框中的有/無(wú)比較，在文章開(kāi)頭附近）。

論文的結(jié)論是：

'我們方法的一個(gè)主要好處是它很容易與任何模型或其他以模型為中心的改進(jìn)一起應(yīng)用?？紤]到深度學(xué)習(xí)領(lǐng)域發(fā)展的速度，擁有與訓(xùn)練的其他各個(gè)方面高度互操作的方法對(duì)每個(gè)人都是有利的。作為未來(lái)的工作，我們將其與以模型為中心的改進(jìn)相結(jié)合，以有效解決被遮擋的人實(shí)例分割問(wèn)題。

改進(jìn)文本到圖像合成的潛力

主要作者 Evan Ling 在給我們的一封電子郵件中觀(guān)察到，OC&P 的主要好處是它可以保留原始面具標(biāo)簽，并在新的環(huán)境中“免費(fèi)”從它們那里獲得新的價(jià)值——即它們一直存在的圖像粘貼到。

盡管人類(lèi)的語(yǔ)義分割似乎與穩(wěn)定擴(kuò)散等模型在個(gè)體化人方面的困難密切相關(guān)（而不是像通常那樣“將它們混合在一起”），但語(yǔ)義標(biāo)簽文化可能對(duì)噩夢(mèng)般的人類(lèi)產(chǎn)生任何影響SD和DALL-E 2經(jīng)常輸出的渲染是非常非常上游的。

填充穩(wěn)定擴(kuò)散生成能力的數(shù)十億個(gè)LAION 5B子集圖像不包含對(duì)象級(jí)標(biāo)簽，例如邊界框和實(shí)例掩碼，即使從圖像和數(shù)據(jù)庫(kù)內(nèi)容組成渲染的 CLIP 架構(gòu)可能在某些時(shí)候受益于此類(lèi)實(shí)例化；相反，LAION 圖像被標(biāo)記為“免費(fèi)”，因?yàn)樗鼈兊臉?biāo)簽來(lái)自元數(shù)據(jù)和環(huán)境說(shuō)明等，當(dāng)它們從網(wǎng)絡(luò)上抓取到數(shù)據(jù)集中時(shí)，它們與圖像相關(guān)聯(lián)。

“但除此之外，”玲告訴我們。'在文本到圖像生成模型訓(xùn)練期間可以使用類(lèi)似于我們的 OC&P 的某種增強(qiáng)。但我認(rèn)為增強(qiáng)訓(xùn)練圖像的真實(shí)性可能會(huì)成為一個(gè)問(wèn)題。

“在我們的工作中，我們表明，監(jiān)督實(shí)例分割通常不需要‘完美’的真實(shí)性，但我不太確定是否可以為文本到圖像生成模型訓(xùn)練得出相同的結(jié)論（尤其是當(dāng)它們的輸出預(yù)計(jì)將是高度現(xiàn)實(shí)的）。在這種情況下，可能需要在增強(qiáng)圖像的“完美”真實(shí)性方面做更多的工作。

CLIP已經(jīng)被用作語(yǔ)義分割的一種可能的多模態(tài)工具，這表明改進(jìn)的人識(shí)別和個(gè)性化系統(tǒng)（如 OC&P）最終可以開(kāi)發(fā)成系統(tǒng)內(nèi)過(guò)濾器或分類(lèi)器，可以任意拒絕“融合”和扭曲的人類(lèi)表征——這是一項(xiàng)任務(wù)目前使用 Stable Diffusion 很難做到這一點(diǎn)，因?yàn)樗斫忮e(cuò)誤所在的能力有限（如果它有這樣的能力，它可能一開(kāi)始就不會(huì)犯錯(cuò)誤）。

只是目前使用 OpenAI 的 CLIP 框架（DALL-E 2 和穩(wěn)定擴(kuò)散的核心）進(jìn)行語(yǔ)義分割的眾多項(xiàng)目之一。

“另一個(gè)問(wèn)題是，”凌建議道。'會(huì)在訓(xùn)練工作期間簡(jiǎn)單地為這些生成模型提供被遮擋的人類(lèi)圖像，而不需要補(bǔ)充模型架構(gòu)設(shè)計(jì)來(lái)緩解“人類(lèi)融合”的問(wèn)題嗎？這可能是一個(gè)很難直接回答的問(wèn)題?？纯次覀?nèi)绾卧谖谋镜綀D像生成模型訓(xùn)練期間注入某種實(shí)例級(jí)指導(dǎo)（通過(guò)實(shí)例級(jí)標(biāo)簽，如實(shí)例掩碼）肯定會(huì)很有趣。

亚洲先锋影音人AV成_免费A级毛片一分钟_人人爽人人爽人人插_日韩少妇极品熟妇人妻潮喷

資訊詳情

在計(jì)算機(jī)視覺(jué)中分離“融合”的人類(lèi)

為什么大數(shù)據(jù)和機(jī)器學(xué)習(xí)對(duì)于推動(dòng)應(yīng)用程序開(kāi)發(fā)增長(zhǎng)至關(guān)重要

生成與判別機(jī)器學(xué)習(xí)模型

相關(guān)資訊