在計(jì)算機(jī)視覺(jué)中分離“融合”的人類(lèi)
新加坡現(xiàn)代汽車(chē)集團(tuán)創(chuàng)新中心的一篇新論文提供了一種在計(jì)算機(jī)視覺(jué)中分離“融合”人類(lèi)的方法——在物體識(shí)別框架發(fā)現(xiàn)人類(lèi)在某種程度上與另一個(gè)人類(lèi)“太接近”的情況下(例如作為“擁抱”動(dòng)作或“站在后面”的姿勢(shì)),并且無(wú)法解開(kāi)所代表的兩個(gè)人,將他們混淆為一個(gè)人或一個(gè)實(shí)體。
兩者合而為一,但這在語(yǔ)義分割中并不是一件好事。在這里,我們看到論文的新系統(tǒng)在復(fù)雜且具有挑戰(zhàn)性的圖像中對(duì)相互交織的人進(jìn)行個(gè)體化方面取得了最先進(jìn)的結(jié)果。
這是一個(gè)值得注意的問(wèn)題,近年來(lái)在研究界受到了極大的關(guān)注。在沒(méi)有明顯但通常負(fù)擔(dān)不起的超大規(guī)模費(fèi)用的情況下解決這個(gè)問(wèn)題,以人為主導(dǎo)的自定義標(biāo)簽最終可以改善文本到圖像系統(tǒng)中的人類(lèi)個(gè)性化,例如穩(wěn)定擴(kuò)散,在提示姿勢(shì)需要多人的情況下,這種系統(tǒng)經(jīng)常將人們“融化”在一起彼此靠近。
擁抱恐怖——文本到圖像的模型,如 DALL-E 2 和 Stable Diffusion(均在上面介紹)難以代表彼此非常接近的人。
盡管 DALL-E 2 和 Stable Diffusion 等生成模型(據(jù)任何人所知,在閉源 DALL-E 2 的情況下)目前無(wú)論如何都沒(méi)有使用語(yǔ)義分割或?qū)ο笞R(shí)別,但這些怪誕的人工合成器不能目前可以通過(guò)應(yīng)用這種上游方法來(lái)治愈——因?yàn)樽钕冗M(jìn)的對(duì)象識(shí)別庫(kù)和資源在解開(kāi)人方面并不比基于CLIP的潛在擴(kuò)散模型工作流好多少。
為了解決這個(gè)問(wèn)題,題為“人類(lèi)不需要標(biāo)記更多人類(lèi):遮擋復(fù)制和粘貼用于遮擋人類(lèi)實(shí)例分割”的新論文調(diào)整并改進(jìn)了最近對(duì)半合成數(shù)據(jù)的“剪切和粘貼”方法,以實(shí)現(xiàn)新的 SOTA 領(lǐng)先任務(wù),即使面對(duì)最具挑戰(zhàn)性的源材料:
新的遮擋復(fù)制和粘貼方法目前在該領(lǐng)域處于領(lǐng)先地位,甚至與以前的框架和方法相比,這些框架和方法以復(fù)雜和更專(zhuān)用的方式應(yīng)對(duì)挑戰(zhàn),例如專(zhuān)門(mén)為遮擋建模。
把它剪掉!
修改后的方法——名為Occlusion Copy & Paste——源自 Google Research 領(lǐng)導(dǎo)的 2021 年Simple Copy-Paste論文,該論文表明,將提取的對(duì)象和人疊加在不同的源訓(xùn)練圖像中可以提高圖像識(shí)別系統(tǒng)的離散化能力在圖像中找到的每個(gè)實(shí)例:
從 2021 年 Google Research 主導(dǎo)的論文“Simple Copy-Paste is a Strong Data Augmentation Method for Instance Segmentation”中,我們看到從一張照片“遷移”到其他照片的元素,目的是訓(xùn)練更好的圖像識(shí)別模型。
新版本在這種自動(dòng)和算法“重新粘貼”中增加了限制和參數(shù),將這個(gè)過(guò)程類(lèi)比為一個(gè)圖像“籃子”,其中充滿(mǎn)了基于幾個(gè)關(guān)鍵因素“轉(zhuǎn)移”到其他圖像的潛在候選者。
OC&P 的概念工作流程。
控制元素
這些限制因素包括發(fā)生剪切和粘貼的可能性,這確保了該過(guò)程不會(huì)一直發(fā)生,這將實(shí)現(xiàn)破壞數(shù)據(jù)增強(qiáng)的“飽和”效果;一個(gè)籃子在任何時(shí)候都會(huì)擁有的圖像數(shù)量,其中更多的“片段”可能會(huì)提高實(shí)例的多樣性,但會(huì)增加預(yù)處理時(shí)間;和range,它確定將粘貼到“主機(jī)”圖像中的圖像數(shù)量。
關(guān)于后者,論文指出“我們需要發(fā)生足夠的遮擋,但不要太多,因?yàn)樗鼈兛赡軙?huì)使圖像過(guò)度混亂,這可能不利于學(xué)習(xí)。”
OC&P 的另外兩項(xiàng)創(chuàng)新是目標(biāo)粘貼和增強(qiáng)實(shí)例粘貼。
有針對(duì)性的粘貼可確保合適的圖像落在目標(biāo)圖像中的現(xiàn)有實(shí)例附近。在之前的方法中,從之前的工作來(lái)看,新元素只被限制在圖像的邊界內(nèi),沒(méi)有考慮上下文。
盡管這種帶有針對(duì)性粘貼的“粘貼”對(duì)人眼來(lái)說(shuō)是顯而易見(jiàn)的,但 OC&P 及其前身都發(fā)現(xiàn),增加視覺(jué)真實(shí)性并不一定很重要,甚至可能是一種負(fù)擔(dān)(參見(jiàn)下面的“現(xiàn)實(shí)咬傷”)。
另一方面,增強(qiáng)的實(shí)例粘貼確保粘貼的實(shí)例不會(huì)表現(xiàn)出“獨(dú)特的外觀(guān)”,最終可能會(huì)以某種方式被系統(tǒng)分類(lèi),這可能會(huì)導(dǎo)致排除或“特殊處理”,從而阻礙泛化和適用性. 增強(qiáng)粘貼可調(diào)節(jié)亮度和銳度、縮放和旋轉(zhuǎn)以及飽和度等視覺(jué)因素以及其他因素。
從新論文的補(bǔ)充材料來(lái)看:將 OC&P 添加到現(xiàn)有的識(shí)別框架中是相當(dāng)簡(jiǎn)單的,并且會(huì)在非常接近的范圍內(nèi)產(chǎn)生優(yōu)越的個(gè)體化。
此外,OC&P 規(guī)定了任何粘貼實(shí)例的最小大小。例如,可以從大量人群場(chǎng)景中提取一個(gè)人的圖像,然后將其粘貼到另一幅圖像中——但在這種情況下,所涉及的少量像素不太可能有助于識(shí)別。因此,系統(tǒng)根據(jù)目標(biāo)圖像的均衡邊長(zhǎng)比應(yīng)用最小比例。
此外,OC&P 制定了規(guī)模感知粘貼,除了尋找與粘貼主題相似的主題外,它還考慮了目標(biāo)圖像中邊界框的大小。然而,這并不會(huì)導(dǎo)致人們認(rèn)為合理或真實(shí)的合成圖像(見(jiàn)下圖),而是以有助于訓(xùn)練的方式將語(yǔ)義上恰當(dāng)?shù)脑亟M合在一起。
眼見(jiàn)為實(shí)
OC&P 所基于的先前工作和當(dāng)前實(shí)施都對(duì)真實(shí)性或任何最終“蒙太奇”圖像的“照片真實(shí)性”給予了低溢價(jià)。雖然重要的是最終的組裝不要完全落入達(dá)達(dá)主義(否則受過(guò)訓(xùn)練的系統(tǒng)的真實(shí)世界部署永遠(yuǎn)不會(huì)希望在他們接受訓(xùn)練的場(chǎng)景中遇到元素),但這兩項(xiàng)舉措都發(fā)現(xiàn)“視覺(jué)”的顯著增加可信度”不僅增加了預(yù)處理時(shí)間,而且這種“真實(shí)感增強(qiáng)”實(shí)際上可能適得其反。
來(lái)自新論文的補(bǔ)充材料:帶有“隨機(jī)混合”的增強(qiáng)圖像示例。盡管這些場(chǎng)景對(duì)一個(gè)人來(lái)說(shuō)可能會(huì)讓人產(chǎn)生幻覺(jué),但它們?nèi)匀粚⑾嗨频闹黝}放在一起;盡管遮擋對(duì)人眼來(lái)說(shuō)是奇幻的,但無(wú)法提前知道潛在遮擋的性質(zhì),也無(wú)法對(duì)其進(jìn)行訓(xùn)練——因此,這種奇異的“截?cái)?rdquo;形式足以迫使受過(guò)訓(xùn)練的系統(tǒng)去尋找識(shí)別出部分目標(biāo)對(duì)象,而無(wú)需開(kāi)發(fā)復(fù)雜的 Photoshop 風(fēng)格的方法來(lái)使場(chǎng)景更加合理。
數(shù)據(jù)和測(cè)試
在測(cè)試階段,該系統(tǒng)在MS COCO數(shù)據(jù)集的person類(lèi)上進(jìn)行了訓(xùn)練,包含 64,115 張圖像中的 262,465 個(gè)人類(lèi)示例。然而,為了獲得比 MS COCO 質(zhì)量更好的掩碼,圖像還接受了LVIS掩碼注釋。
來(lái)自 Facebook 研究的 LVIS 于 2019 年發(fā)布,是用于大型詞匯實(shí)例分割的海量數(shù)據(jù)集。
為了評(píng)估增強(qiáng)系統(tǒng)對(duì)抗大量被遮擋的人體圖像的能力,研究人員將 OC&P 與OCHuman(Occluded Human)基準(zhǔn)進(jìn)行對(duì)比。
OCHuman 數(shù)據(jù)集的示例,在 2018 年為支持 Pose2Seg 檢測(cè)項(xiàng)目而引入。該計(jì)劃旨在通過(guò)使用人的姿態(tài)和姿勢(shì)作為代表身體的像素的語(yǔ)義分隔符來(lái)改進(jìn)人的語(yǔ)義分割。
由于沒(méi)有對(duì) OCHuman 基準(zhǔn)進(jìn)行詳盡的注釋?zhuān)抡撐牡难芯咳藛T創(chuàng)建了一個(gè)僅包含完全標(biāo)記的示例的子集,名為 OCHuman FL。這將用于驗(yàn)證的 1,113 個(gè)圖像中的人員實(shí)例數(shù)量減少到 2,240 個(gè),在用于測(cè)試的 951 個(gè)實(shí)際圖像中減少 1,923 個(gè)實(shí)例。使用平均平均精度 (mAP) 作為核心指標(biāo),對(duì)原始集和新策劃的集進(jìn)行了測(cè)試。
為了保持一致性,該架構(gòu)由具有ResNet-50主干和特征金字塔網(wǎng)絡(luò)的Mask R-CNN組成,后者在準(zhǔn)確性和訓(xùn)練速度之間提供了可接受的折衷。
由于研究人員已經(jīng)注意到上游ImageNet影響在類(lèi)似情況下的有害影響,整個(gè)系統(tǒng)在 4 個(gè) NVIDIA V100 GPU 上從頭開(kāi)始訓(xùn)練 75 個(gè) epoch,遵循 Facebook 2021 年發(fā)布的Detectron 2的初始化參數(shù)。
結(jié)果
除了上述結(jié)果之外,針對(duì)測(cè)試的MMDetection(及其三個(gè)相關(guān)模型)的基線(xiàn)結(jié)果表明,OC&P 在從復(fù)雜的姿勢(shì)中識(shí)別出人類(lèi)的能力方面明顯領(lǐng)先。
除了優(yōu)于PoSeg和Pose2Seg 之外,也許該論文最杰出的成就之一是該系統(tǒng)可以非常普遍地應(yīng)用于現(xiàn)有框架,包括那些在試驗(yàn)中與之抗衡的框架(參見(jiàn)第一個(gè)結(jié)果框中的有/無(wú)比較,在文章開(kāi)頭附近)。
論文的結(jié)論是:
'我們方法的一個(gè)主要好處是它很容易與任何模型或其他以模型為中心的改進(jìn)一起應(yīng)用??紤]到深度學(xué)習(xí)領(lǐng)域發(fā)展的速度,擁有與訓(xùn)練的其他各個(gè)方面高度互操作的方法對(duì)每個(gè)人都是有利的。作為未來(lái)的工作,我們將其與以模型為中心的改進(jìn)相結(jié)合,以有效解決被遮擋的人實(shí)例分割問(wèn)題。
改進(jìn)文本到圖像合成的潛力
主要作者 Evan Ling 在給我們的一封電子郵件中觀(guān)察到,OC&P 的主要好處是它可以保留原始面具標(biāo)簽,并在新的環(huán)境中“免費(fèi)”從它們那里獲得新的價(jià)值——即它們一直存在的圖像粘貼到。
盡管人類(lèi)的語(yǔ)義分割似乎與穩(wěn)定擴(kuò)散等模型在個(gè)體化人方面的困難密切相關(guān)(而不是像通常那樣“將它們混合在一起”),但語(yǔ)義標(biāo)簽文化可能對(duì)噩夢(mèng)般的人類(lèi)產(chǎn)生任何影響SD和DALL-E 2經(jīng)常輸出的渲染是非常非常上游的。
填充穩(wěn)定擴(kuò)散生成能力的數(shù)十億個(gè)LAION 5B子集圖像不包含對(duì)象級(jí)標(biāo)簽,例如邊界框和實(shí)例掩碼,即使從圖像和數(shù)據(jù)庫(kù)內(nèi)容組成渲染的 CLIP 架構(gòu)可能在某些時(shí)候受益于此類(lèi)實(shí)例化;相反,LAION 圖像被標(biāo)記為“免費(fèi)”,因?yàn)樗鼈兊臉?biāo)簽來(lái)自元數(shù)據(jù)和環(huán)境說(shuō)明等,當(dāng)它們從網(wǎng)絡(luò)上抓取到數(shù)據(jù)集中時(shí),它們與圖像相關(guān)聯(lián)。
“但除此之外,”玲告訴我們。'在文本到圖像生成模型訓(xùn)練期間可以使用類(lèi)似于我們的 OC&P 的某種增強(qiáng)。但我認(rèn)為增強(qiáng)訓(xùn)練圖像的真實(shí)性可能會(huì)成為一個(gè)問(wèn)題。
“在我們的工作中,我們表明,監(jiān)督實(shí)例分割通常不需要‘完美’的真實(shí)性,但我不太確定是否可以為文本到圖像生成模型訓(xùn)練得出相同的結(jié)論(尤其是當(dāng)它們的輸出預(yù)計(jì)將是高度現(xiàn)實(shí)的)。在這種情況下,可能需要在增強(qiáng)圖像的“完美”真實(shí)性方面做更多的工作。
CLIP已經(jīng)被用作語(yǔ)義分割的一種可能的多模態(tài)工具,這表明改進(jìn)的人識(shí)別和個(gè)性化系統(tǒng)(如 OC&P)最終可以開(kāi)發(fā)成系統(tǒng)內(nèi)過(guò)濾器或分類(lèi)器,可以任意拒絕“融合”和扭曲的人類(lèi)表征——這是一項(xiàng)任務(wù)目前使用 Stable Diffusion 很難做到這一點(diǎn),因?yàn)樗斫忮e(cuò)誤所在的能力有限(如果它有這樣的能力,它可能一開(kāi)始就不會(huì)犯錯(cuò)誤)。
只是目前使用 OpenAI 的 CLIP 框架(DALL-E 2 和穩(wěn)定擴(kuò)散的核心)進(jìn)行語(yǔ)義分割的眾多項(xiàng)目之一。
“另一個(gè)問(wèn)題是,”凌建議道。'會(huì)在訓(xùn)練工作期間簡(jiǎn)單地為這些生成模型提供被遮擋的人類(lèi)圖像,而不需要補(bǔ)充模型架構(gòu)設(shè)計(jì)來(lái)緩解“人類(lèi)融合”的問(wèn)題嗎?這可能是一個(gè)很難直接回答的問(wèn)題??纯次覀?nèi)绾卧谖谋镜綀D像生成模型訓(xùn)練期間注入某種實(shí)例級(jí)指導(dǎo)(通過(guò)實(shí)例級(jí)標(biāo)簽,如實(shí)例掩碼)肯定會(huì)很有趣。
- 上一篇
為什么大數(shù)據(jù)和機(jī)器學(xué)習(xí)對(duì)于推動(dòng)應(yīng)用程序開(kāi)發(fā)增長(zhǎng)至關(guān)重要
目前全球有50億臺(tái)移動(dòng)設(shè)備,這對(duì)應(yīng)用程序開(kāi)發(fā)人員來(lái)說(shuō)意味著巨大的業(yè)務(wù)。據(jù)預(yù)測(cè),到2020年,應(yīng)用程序開(kāi)發(fā)行業(yè)的價(jià)值將達(dá)到200億美元,但如果沒(méi)有大數(shù)據(jù)的幫助,達(dá)到這個(gè)階段的可能性
- 下一篇
生成與判別機(jī)器學(xué)習(xí)模型
一些機(jī)器學(xué)習(xí)模型屬于“生成”或“判別”模型類(lèi)別。然而,這兩類(lèi)模型之間有什么區(qū)別?模型具有判別性或生成性意味著什么?簡(jiǎn)短的回答是,生成模型是那些包含數(shù)
相關(guān)資訊
- 人工智能和物聯(lián)網(wǎng)如何合作?
- 深入解析網(wǎng)絡(luò)分段:企業(yè)數(shù)據(jù)保護(hù)的
- 談?wù)剬?dǎo)致數(shù)字化轉(zhuǎn)型脫節(jié)的五大問(wèn)
- 人工智能注釋可以增強(qiáng)UI和UX嗎?
- 云計(jì)算對(duì)中小企業(yè)的十大好處
- 人類(lèi)已達(dá)硅計(jì)算架構(gòu)上限!預(yù)計(jì)2030
- 物聯(lián)網(wǎng)將如何發(fā)展?
- 為下一波創(chuàng)新做準(zhǔn)備:人工智能和元
- 物聯(lián)網(wǎng)如何徹底改變可持續(xù)發(fā)展
- 區(qū)塊鏈在發(fā)展智慧城市和物聯(lián)網(wǎng)中