使用AI總結(jié)冗長的“操作方法”視頻
主圖:DALL-E 2
如果您喜歡加快油管操作視頻的速度以獲取您真正想要的信息;查閱視頻的文字記錄,以收集隱藏在漫長且經(jīng)常充滿贊助商的運行時中的基本信息;或者希望WikiHow能夠在教學(xué)視頻中創(chuàng)建一個耗時更少的版本;那么你可能會對加州大學(xué)伯克利分校、谷歌研究院和布朗大學(xué)的一個新項目感興趣。
標(biāo)題TL;DW?總結(jié)具有任務(wù)相關(guān)性和跨模式顯著性的教學(xué)視頻,新論文詳細(xì)介紹了人工智能輔助視頻摘要系統(tǒng)的創(chuàng)建,該系統(tǒng)可以識別視頻中的相關(guān)步驟并丟棄其他所有內(nèi)容,從而產(chǎn)生快速切入正題的簡短摘要。
IV-Sum項目使用WikiHow對文本和視頻信息的現(xiàn)有長視頻剪輯的利用來生成虛假摘要,這些摘要提供了訓(xùn)練系統(tǒng)的基本事實。
生成的摘要只有原始視頻運行時間的一小部分,而在此過程中還會記錄多模式(即基于文本)信息,以便未來的系統(tǒng)可能自動創(chuàng)建能夠自動解析的WikiHow風(fēng)格的博客文章將冗長的操作方法視頻轉(zhuǎn)換為簡潔且可搜索的短文,并配有插圖,可能會節(jié)省時間和挫敗感。
新系統(tǒng)稱為IV-Sum(“教學(xué)視頻匯總器”),它使用開源ResNet-50計算機(jī)視覺識別算法以及其他幾種技術(shù)來區(qū)分冗長源視頻的相關(guān)幀和片段。
IV-Sum的概念工作流程。
該系統(tǒng)根據(jù)WikiHow網(wǎng)站的內(nèi)容結(jié)構(gòu)生成的偽摘要進(jìn)行訓(xùn)練,其中真實的人經(jīng)常將流行的教學(xué)視頻轉(zhuǎn)化為更扁平的基于文本的多媒體形式,經(jīng)常使用從源教學(xué)視頻中獲取的短片和動畫GIF。
在討論該項目使用WikiHow總結(jié)作為系統(tǒng)的基本事實數(shù)據(jù)來源時,作者指出:
“WikiHow視頻網(wǎng)站上的每篇文章都包含一個主要的教學(xué)視頻,該視頻演示了一項任務(wù),該任務(wù)通常包括宣傳內(nèi)容、教練對著攝像機(jī)說話的剪輯,沒有任務(wù)的視覺信息,以及對執(zhí)行任務(wù)并不重要的步驟。
“想要了解任務(wù)概覽的觀眾會更喜歡沒有上述所有不相關(guān)信息的較短視頻。WikiHow文章(例如,請參閱如何制作壽司飯)包含以下內(nèi)容:包含視頻中列出的所有重要步驟的相應(yīng)文本以及說明任務(wù)中各個步驟的隨附圖像/剪輯。
這種網(wǎng)絡(luò)抓取生成的數(shù)據(jù)庫稱為WikiHow摘要。該數(shù)據(jù)庫包含2,106個輸入視頻及其相關(guān)摘要。這是一個比視頻摘要項目通??捎玫臄?shù)據(jù)集大得多的數(shù)據(jù)集,這些項目通常需要昂貴且勞動密集型的手動標(biāo)記和注釋——由于摘要范圍更受限制,這一過程在新工作中已基本自動化教學(xué)(而不是一般)視頻。
IV-Sum利用時間3D卷積神經(jīng)網(wǎng)絡(luò)表示,而不是表征先前類似工作的基于幀的表示,并且論文中詳述的消融研究證實,這種方法的所有組件對于系統(tǒng)的功能都是必不可少的。
IV-Sum針對各種可比較的框架進(jìn)行了良好的測試,包括CLIP-It(該論文的幾位作者也參與了該框架)。
與一般的視頻摘要計劃相比,IV-Sum與可比較的方法相比得分很高,這可能是由于其應(yīng)用范圍更受限制。本文將進(jìn)一步詳細(xì)介紹指標(biāo)和評分方法。方法摘要過程的第一階段涉及使用相對省力、弱監(jiān)督的算法為大量網(wǎng)絡(luò)抓取的教學(xué)視頻創(chuàng)建偽摘要和逐幀重要性分?jǐn)?shù),每個視頻中只有一個任務(wù)標(biāo)簽.
接下來,根據(jù)這些數(shù)據(jù)訓(xùn)練一個教學(xué)摘要網(wǎng)絡(luò)。該系統(tǒng)將自動轉(zhuǎn)錄的語音(例如,油管自己的AI為視頻生成的字幕)和源視頻作為輸入。
該網(wǎng)絡(luò)包括一個視頻編碼器和一個分段評分轉(zhuǎn)換器(SST),訓(xùn)練由偽摘要中分配的重要性分?jǐn)?shù)指導(dǎo)。最終摘要是通過連接獲得高重要性分?jǐn)?shù)的段來創(chuàng)建的。
從論文中:
“我們的偽摘要生成管道背后的主要直覺是,給定任務(wù)的許多視頻,對任務(wù)至關(guān)重要的步驟可能會出現(xiàn)在多個視頻中(任務(wù)相關(guān)性)。
“此外,如果一個步驟很重要,示范者通常會在執(zhí)行之前、期間或之后談?wù)撛摬襟E。因此,使用自動語音識別(ASR)獲得的視頻字幕可能會參考這些關(guān)鍵步驟(跨模態(tài)顯著性)。
為了生成偽摘要,首先將視頻統(tǒng)一劃分為多個片段,然后根據(jù)它們的視覺相似性將這些片段分組為“步驟”(上圖中的不同顏色)。然后根據(jù)“任務(wù)相關(guān)性”和“跨模態(tài)顯著性”(即ASR文本和圖像之間的相關(guān)性)為這些步驟分配重要性分?jǐn)?shù)。然后選擇高分步驟來表示偽摘要中的階段。
該系統(tǒng)通過將解釋的語音與視頻中的圖像和動作進(jìn)行比較,使用跨模態(tài)顯著性來幫助建立每個步驟的相關(guān)性。這是通過使用預(yù)訓(xùn)練的視頻文本模型來實現(xiàn)的,其中每個元素都在MIL-NCE損失下聯(lián)合訓(xùn)練,使用由DeepMind等開發(fā)的3D CNN視頻編碼器。
然后從這些任務(wù)相關(guān)性和跨模態(tài)分析階段的計算平均值中獲得一般重要性分?jǐn)?shù)。
數(shù)據(jù)為該過程生成了一個初始偽摘要數(shù)據(jù)集,包括兩個先前數(shù)據(jù)集的大部分內(nèi)容——COIN,一個2019年的集合,包含與180個任務(wù)相關(guān)的11,000個視頻;和Cross-Task,其中包含4,700個教學(xué)視頻,其中3,675個用于研究。Cross-Task包含83個不同的任務(wù)。
以上,來自COIN的示例;下面,來自跨任務(wù)。
使用在兩個數(shù)據(jù)集中僅出現(xiàn)一次的視頻,研究人員因此能夠獲得12,160個視頻,涵蓋263個不同的任務(wù),并為他們的數(shù)據(jù)集獲取628.53小時的內(nèi)容。
為了填充基于WikiHow的數(shù)據(jù)集并為系統(tǒng)提供基本事實,作者從WikiHow視頻中提取了所有長教學(xué)視頻,以及與每個步驟相關(guān)的圖像和視頻剪輯(即GIF)。因此,WikiHow派生內(nèi)容的結(jié)構(gòu)將用作新系統(tǒng)中步驟個性化的模板。
通過ResNet50提取的特征用于交叉匹配WikiHow圖像中精選的視頻部分,并執(zhí)行步驟的本地化。在5秒視頻窗口內(nèi)獲得的最相似的圖像被用作錨點。
然后將這些較短的剪輯拼接成視頻,這些視頻將構(gòu)成模型訓(xùn)練的基本事實。
標(biāo)簽被分配給輸入視頻中的每一幀,以聲明它們是否屬于輸入摘要,每個視頻從研究人員那里接收一個幀級二進(jìn)制標(biāo)簽,并通過所有幀的重要性分?jǐn)?shù)獲得平均摘要分?jǐn)?shù)在段中。
在這個階段,每個教學(xué)視頻中的“步驟”現(xiàn)在都與基于文本的數(shù)據(jù)相關(guān)聯(lián)并進(jìn)行了標(biāo)記。
培訓(xùn)、測試和指標(biāo)
最終的WikiHow數(shù)據(jù)集分為1,339個測試視頻和768個驗證視頻——與專門用于視頻分析的非原始數(shù)據(jù)集的平均大小相比顯著增加。
新網(wǎng)絡(luò)中的視頻和文本編碼器在S3D網(wǎng)絡(luò)上聯(lián)合訓(xùn)練,權(quán)重從預(yù)訓(xùn)練的HowTo100M模型加載,在MIL-NCE損失下。
該模型使用Adam優(yōu)化器進(jìn)行訓(xùn)練,學(xué)習(xí)率為0.01,批量大小為24,分布式數(shù)據(jù)并行鏈接將訓(xùn)練分布在8個NVIDIA RTX 2080 GPU上,總共24GB的分布式VRAM。
然后根據(jù)類似的先前工作(包括對CLIP-It的研究)將IV-Sum與CLIP-It的各種場景進(jìn)行比較。使用的指標(biāo)是精度、召回率和F-Score值,跨越三個無監(jiān)督基線(詳見論文)。
結(jié)果列在前面的圖像中,但研究人員還指出,CLIP-It在測試的各個階段錯過了一些可能的步驟,而IV-Sum沒有。他們將此歸因于CLIP-It使用比新的WikiHow語料庫小得多的數(shù)據(jù)集進(jìn)行訓(xùn)練和開發(fā)。
影響這一系列研究的長期價值(IV-Sum與視頻分析的更廣泛挑戰(zhàn)共享)可能是使教學(xué)視頻剪輯更容易被傳統(tǒng)搜索引擎索引訪問,并實現(xiàn)那種減少的結(jié)果Google經(jīng)常從較長的傳統(tǒng)文章中提取視頻的“片段”。
顯然,任何人工智能輔助流程的開發(fā)都可以減少我們對視頻內(nèi)容應(yīng)用線性和獨家關(guān)注的義務(wù),這可能會對媒體對一代營銷人員的吸引力產(chǎn)生影響,對他們來說,視頻的不透明性可能是他們認(rèn)為的唯一方式他們可以專門與我們互動。
由于“有價值”內(nèi)容的位置難以確定,用戶貢獻(xiàn)的視頻在產(chǎn)品放置、贊助商位置和視頻價值主張的一般自我宣傳方面受到媒體消費者的廣泛(如果不情愿)放縱經(jīng)常躺著。IV-Sum等項目承諾最終視頻內(nèi)容的子方面將變得細(xì)化,并與許多人認(rèn)為是內(nèi)容內(nèi)廣告和非內(nèi)容即興化的“壓艙物”分開。
- 上一篇
網(wǎng)絡(luò)安全何去何從?
我有機(jī)會聽到Krebs Stamos Group的創(chuàng)始合伙人、網(wǎng)絡(luò)安全和基礎(chǔ)設(shè)施安全局(CISA)前任主任Chris Krebs在第25屆黑帽安全會議上發(fā)表開幕主題演講。25年來,InfoSec社區(qū)和行業(yè)通過研究和對手洞察力消除了技術(shù)中的安全漏洞。
- 下一篇
大數(shù)據(jù)與小數(shù)據(jù)的主要區(qū)別
為當(dāng)今許多各種規(guī)模的企業(yè)提供動力的是數(shù)據(jù),這是數(shù)據(jù)驅(qū)動的轉(zhuǎn)型和人工智能(AI)戰(zhàn)略背后的關(guān)鍵。在當(dāng)今的商業(yè)環(huán)境中是絕對必要的,也是很多高層對話的焦點。由于數(shù)據(jù)是如此基礎(chǔ)