亚洲先锋影音人AV成_免费A级毛片一分钟_人人爽人人爽人人插_日韩少妇极品熟妇人妻潮喷

沃卡惠移動(dòng)端logo

擴(kuò)散模型與文生視頻

沃卡惠2024-05-11 09:39:164636

<a href=http://lifelonghealthcenter.com/ai/ target=_blank class=infotextkey>人工智能</a>

一、快速發(fā)展的文生視頻

在當(dāng)前的人工智能領(lǐng)域,文生視頻技術(shù)有著引人注目的進(jìn)展。該技術(shù)的核心任務(wù)非常明確,就是利用文本指令來控制視頻內(nèi)容的生成。具體而言,用戶可以輸入特定文本,系統(tǒng)則根據(jù)這段文本生成相應(yīng)的視覺畫面。這一過程并不局限于單一的輸出,相同的文本可能會(huì)引導(dǎo)生成多種不同的視覺場景,顯示出該技術(shù)的靈活性和多樣性。

基于擴(kuò)散模型模式的視頻生成技術(shù),是從 2022 年上半年才開始出現(xiàn)的。在兩年的時(shí)間里,這一技術(shù)取得了顯著的進(jìn)步。由上圖中可以看到,從 Google 在2022 年 4 月發(fā)布的文章所展示的效果,到騰訊在 2023 年 12 月發(fā)布的 hunyuan 的效果,無論在畫質(zhì)、光影的重建,還是整個(gè)畫面的連續(xù)性上,都實(shí)現(xiàn)了顯著的提升。

在過去兩年間,這一領(lǐng)域吸引了眾多參與者,包括各大公司和研究機(jī)構(gòu),比如上海人工智能研究院,以及一些高校。在這個(gè)賽道中,誕生了許多引人注目的成果。從最初的 VDM 模型,到我們常聽到的老玩家 Runway Gen1 和 Gen2 的工作,以及去年備受關(guān)注的 PikaLab。PikaLab 由兩位華人女性科學(xué)家創(chuàng)立,它的上市甚至引發(fā)了中國 A 股市場上某些股票的劇烈波動(dòng)。此外,還有騰訊之前的 VideoCrafter 系列,以及阿里的 ModelScope 系列等。

當(dāng)然,最讓人印象深刻的是在今年 2 月 15 日,OpenAI 發(fā)布了頗具影響力的 Sora 模型。這款 Sora 模型的出現(xiàn),使得其它模型相比之下顯得普通了許多。我們當(dāng)時(shí)還在糾結(jié)于生成 4 秒到 8 秒的視頻,而 Sora 模型直接將視頻生成的時(shí)長擴(kuò)展到了 1 分鐘。這一突破顯著提升了視頻生成技術(shù)的能力。

在視頻生成領(lǐng)域,我們主要依賴于 diffusion model。為什么這種模型能夠相對(duì)于之前的 GAN 生成或者 VAE 生成技術(shù)實(shí)現(xiàn)顯著的效果提升呢?關(guān)鍵的區(qū)別在于,以往的模型通常采用單步生成或稱為 decoder 的方法,直接從隱空間一步生成最終的數(shù)據(jù) x。這種單步從隱空間映射到數(shù)據(jù)空間的生成過程,建模非常復(fù)雜,過去的模型往往難以實(shí)現(xiàn)有效的建模。

然而,diffusion model 的獨(dú)特之處在于它采用多步驟過程。為什么稱之為“diffusion”呢?“擴(kuò)散”的概念類似于一滴墨水滴入水杯中,墨水緩緩擴(kuò)散開來,最終均勻分布,使我們難以區(qū)分它與其他水的不同。這種自然界中廣泛存在的擴(kuò)散過程被用來模擬數(shù)據(jù)生成:假設(shè)一個(gè)人臉圖像或任何信號(hào),通過 n 步加噪聲的迭代,最終變?yōu)榧冊(cè)肼暋_@就是 diffusion 的過程,它極大地增強(qiáng)了模型處理復(fù)雜數(shù)據(jù)的能力。

與 diffusion 相對(duì)應(yīng)的,在 diffusion model 中核心學(xué)習(xí)的任務(wù)是 denoising,通過逐步去除噪聲最終生成我們所需的圖像信號(hào)。從無序的噪聲中重建有序的信號(hào),這個(gè)過程被稱為 denoising。

具體來說,diffusion model 主要包括兩個(gè)過程:一個(gè)是加噪過程,稱為 diffusion;另一個(gè)是降噪過程,稱為 denoising。在加噪的過程中,通過每一步的計(jì)算添加高斯噪聲,從而實(shí)現(xiàn)加噪。相比之下,denoising 過程更為復(fù)雜,也就是模型訓(xùn)練去擬合的過程,旨在使模型學(xué)會(huì)在每一個(gè)單步上,即從 t 步到 t-1 中的噪聲預(yù)測。

因此,在每一步的噪聲預(yù)測中,生成的模型會(huì)生成高斯噪聲,并將整個(gè)預(yù)測的域限定在高斯分布上,這樣可以使整個(gè) diffusion model 更有效地學(xué)習(xí)這個(gè)過程。相對(duì)于以前的 VAE 的 encoder-decoder 架構(gòu),或者是基于 GAN 的通過discriminator 去修正 generator 生成的模式,diffusion model 能夠?qū)崿F(xiàn)更優(yōu)的生成效果。

Diffusion 模型最初主要應(yīng)用于圖像生成,原因在于圖像數(shù)據(jù)更容易收集,而且相對(duì)于視頻,圖像生成所需注入的信息量較少。在眾多突出的研究中,stable diffusion 是最著名的一項(xiàng)工作。這個(gè)框架的設(shè)計(jì)主要基于三個(gè)模塊:encoder和 decoder 模塊、unet 模塊以及 condition 模塊。使用 encoder 和 decoder 模塊的原因在于,這種設(shè)計(jì)復(fù)用了之前 VAE 模型的架構(gòu)。這樣做的好處是能夠?qū)⒄鎸?shí)圖像映射到隱空間,實(shí)現(xiàn)圖像的下采樣和數(shù)據(jù)壓縮,從而在后續(xù)過程中減少所需的計(jì)算量。此外,在隱空間中,像 VAE 模型那樣對(duì) z 的約束形成高斯分布,使得 latent space 的分布較為標(biāo)準(zhǔn)。這種設(shè)置使得在隱空間中進(jìn)行 denoising 學(xué)習(xí)變得相對(duì)容易。這就是第一個(gè)主要模塊,即 VAE 模塊。

第二個(gè)介紹的是 condition 模塊,它在生成過程中起著至關(guān)重要的作用。例如,在文生視頻的應(yīng)用中,我們通常提到的是從文本到視頻的轉(zhuǎn)換,這里的 condition 即為文本,也就是對(duì)畫面的描述性文本提示(prompt)。除此之外,condition 模塊還可以包含其他多種形式的條件輸入,如圖像本身、代表特定特征的向量,以及如語義分割圖這類的圖像等。這些條件的引入,允許模型根據(jù)不同的輸入信息產(chǎn)生定制化的輸出,從而增強(qiáng)生成內(nèi)容的相關(guān)性和準(zhǔn)確性。

中間核心部分是 unet 模塊,這是實(shí)際進(jìn)行 denoising 預(yù)測的模塊。上圖中展示的流程是從第 t 步到第 t-1 步的過程。整個(gè)生成流程是通過迭代 T 步迭代到第 0 步,但每個(gè)模塊的構(gòu)成是一致的。在 unet 模塊中,通過 down sampling 和 up sampling 恢復(fù)到與輸入相同的尺寸,核心包含一個(gè) convolutional layer,其后加入了 transformer layer,通過 attention 機(jī)制將 condition 的 embedding 注入進(jìn)來。例如,文本通過一個(gè) text encoder 轉(zhuǎn)換成text embedding,然后以 KV 形式與 latent space 進(jìn)行 cross attention 計(jì)算,以實(shí)現(xiàn)條件的注入。

經(jīng)過這樣的模型設(shè)計(jì),就可以預(yù)測出一步的 epsilon(噪聲),下一個(gè) ZT-1就是 ZT減去預(yù)測出的噪聲?;谶@樣的邏輯,通過 t 步的迭代 denoising 最終會(huì)生成一個(gè)與目標(biāo) x 相關(guān)的 z,通過 decoder 就可以還原出最終的圖像。

這就是 text to image 的框架。與圖像相比,視頻數(shù)據(jù)更難收集,視頻中的時(shí)間信息和動(dòng)態(tài)信息建模難度更大,數(shù)據(jù)標(biāo)注的成本也非常高。因此,現(xiàn)在基于text video 的模型多是在 text image 模型基礎(chǔ)上,進(jìn)行時(shí)空建模的設(shè)計(jì)來實(shí)現(xiàn)視頻生成。即在原有的 spatial layer 上加入 motion layer,通過這種結(jié)合實(shí)現(xiàn)生成視頻的模型。其中兩個(gè)較為著名的方法包括 AnimateDiff,由上海人工智能實(shí)驗(yàn)室提出,在時(shí)間軸上使用 self-attention,以及 ModelScope 系列,使用基于 3D convolution layer 的 temporal 建模。

這種框架實(shí)際上保留了模型由文本生成靜態(tài)圖像的能力,并且通過引入 motion layer,實(shí)現(xiàn)了在時(shí)間軸上的平滑過渡。這相當(dāng)于在每一幀圖片生成的基礎(chǔ)上,通過將這些幀相互連接生成一個(gè)連續(xù)動(dòng)態(tài)的視頻。這種方法可以有效地將單幀的靜態(tài)圖像轉(zhuǎn)變?yōu)檎宫F(xiàn)動(dòng)態(tài)序列的視頻,使得生成的內(nèi)容不僅限于靜態(tài)畫面,而是展現(xiàn)出時(shí)間維度上的連貫動(dòng)態(tài)。

二、視頻生成的主要難點(diǎn)

下面介紹開發(fā)過程中的主要難點(diǎn),以及我們?yōu)閮?yōu)化模型生成圖像的效率和最終性能所設(shè)計(jì)的解決方案。

1.難點(diǎn)1:動(dòng)作建模合理

我們發(fā)現(xiàn)在一些模型中會(huì)出現(xiàn)問題,例如在模擬鼓掌動(dòng)作的圖像中,手部可能會(huì)融合在一起,或者大臂與小臂的比例和運(yùn)動(dòng)不符合機(jī)械原理,導(dǎo)致動(dòng)作看起來不自然。此外,由于每一幀的時(shí)空建模是獨(dú)立進(jìn)行的,若沒有通過 motion layer 有效地串聯(lián)這些幀,就可能出現(xiàn)動(dòng)作不連貫的現(xiàn)象。例如,一幀中狗可能朝左,而下一幀突然朝右,造成觀感上的劇烈變化。這些問題都需要在模型的動(dòng)作建模方面進(jìn)行優(yōu)化,以確保生成的視頻動(dòng)作連貫且自然。

2.難點(diǎn)2:語義對(duì)齊準(zhǔn)確

當(dāng)我們的 condition 僅有文字時(shí),在實(shí)際工業(yè)應(yīng)用中,需要模型對(duì)這些文字描述有更好的響應(yīng)能力。例如,控制生成的數(shù)量,比如是四只還是五只,以及對(duì)特定局部區(qū)域的空間控制。用戶可能希望生成的背景是黃色或白色,或者想要白色的潛艇、白色的狗等特定對(duì)象。因此,對(duì)語義的準(zhǔn)確理解和響應(yīng)在整個(gè)生成框架中是影響生成效果的一個(gè)關(guān)鍵點(diǎn),對(duì)提高模型的實(shí)用性和用戶滿意度至關(guān)重要。

3.難點(diǎn)3:畫質(zhì)細(xì)節(jié)精美

第三個(gè)難點(diǎn)是對(duì)畫質(zhì)的進(jìn)一步雕琢。考慮到當(dāng)前互聯(lián)網(wǎng)統(tǒng)計(jì)數(shù)據(jù)顯示,大約七八十甚至九十以上的網(wǎng)絡(luò)流量來自視頻,因此用戶對(duì)視頻的畫質(zhì)、分辨率以及幀率有著更高的期望。在生成模型中,我們面臨的挑戰(zhàn)是如何在生成速度和畫質(zhì)之間找到平衡。因此,我們必須對(duì)模型進(jìn)行優(yōu)化,以確保在滿足實(shí)時(shí)生成的同時(shí),也能夠提供高質(zhì)量的視頻輸出。

針對(duì)這些難點(diǎn),我們?cè)O(shè)計(jì)了一些解決方案。

4.方案 1:運(yùn)動(dòng)質(zhì)量提升

為了提升運(yùn)動(dòng)質(zhì)量,我們?cè)O(shè)計(jì)了一個(gè)整體的模型框架,在 text condition 的基礎(chǔ)上,注入 image condition。這種 image condition 為模型提供了一個(gè)生成時(shí)的基準(zhǔn),可以理解為一個(gè)錨點(diǎn)(anchor)。通常這個(gè)錨點(diǎn)是視頻的第一幀,基于這一幀,模型會(huì)在后續(xù)幀的生成中保持人物和背景的基本分布,以及大致的運(yùn)動(dòng)空間。這樣的設(shè)計(jì)使得訓(xùn)練過程中視頻的生成結(jié)構(gòu)更穩(wěn)定,運(yùn)動(dòng)更加合理。這樣相當(dāng)于降低了模型在訓(xùn)練時(shí)對(duì)整個(gè)視頻畫面的理解難度,從而優(yōu)化了生成過程的效率和質(zhì)量。這種方法不僅提升了視頻的視覺連貫性,還確保了生成內(nèi)容的動(dòng)態(tài)自然性和逼真度。

為了訓(xùn)練這種模型,我們?cè)跀?shù)據(jù)集的增廣方面進(jìn)行了一些探索。圖片數(shù)據(jù)遠(yuǎn)多于視頻數(shù)據(jù),一般來說,訓(xùn)練一個(gè)圖像模型可能會(huì)使用到 10 億條數(shù)據(jù),而視頻數(shù)據(jù)可能只有千萬到億級(jí)別。

為了彌補(bǔ)這種差距,第一,我們通過對(duì)圖片進(jìn)行增廣處理,比如縮放、左移、右移、上移、下移等操作,使圖片模擬簡單的運(yùn)動(dòng)視頻,從而擴(kuò)大訓(xùn)練集。第二,我們?cè)诙喾直媛实沫h(huán)境下設(shè)計(jì)了一種訓(xùn)練框架,可以同時(shí)處理不同幀率、幀數(shù)和視頻分辨率的數(shù)據(jù),這樣可以實(shí)現(xiàn)更豐富的數(shù)據(jù)樣態(tài),提高模型的效果。第三,我們?cè)趫D像和文本的控制(condition)上進(jìn)行了有條件的融合,通過數(shù)據(jù)學(xué)習(xí)擬合條件的權(quán)重和參數(shù)。另外,還借鑒了南洋理工大學(xué) ziwei liu 教授的研究,采用多輪生成的方法構(gòu)建模型,利用上一輪生成的低頻信號(hào)信息指導(dǎo)下一輪的生成。我們可以將低頻信號(hào)理解為在運(yùn)動(dòng)中相對(duì)保持固定的一些特征,例如一個(gè)人跑步時(shí)背景相對(duì)固定,而跑步動(dòng)作則是有節(jié)奏的規(guī)律運(yùn)動(dòng)?;谶@樣的低頻信號(hào)指導(dǎo),最終生成的視頻信號(hào)將更加穩(wěn)定。

5.方案 2:語義對(duì)齊準(zhǔn)確

關(guān)于語義對(duì)齊,我們發(fā)現(xiàn)開源的數(shù)據(jù)集通常比較簡單,對(duì)畫面的描述僅是一個(gè)籠統(tǒng)的概念,例如“女孩在家中學(xué)習(xí)”。然而,在生成模型的預(yù)訓(xùn)練中,我們需要精確地對(duì)齊畫面中的各種元素。例如,不僅要描述“女孩在家中學(xué)習(xí)”,還要包括更具體的場景和元素,如“她在廚房里用 iPad 學(xué)習(xí),穿著牛仔襯衫,她是一位黑人女孩”。

為了提高對(duì)這種復(fù)雜場景的理解,我們嘗試使用過去的視頻理解專家模型和現(xiàn)在較多使用的視頻基礎(chǔ)模型(video foundation model),來實(shí)現(xiàn)對(duì)視頻的多維度描述生成。最后,再通過大型語言模型進(jìn)行融合。在這個(gè)大模型的時(shí)代,研究方向的一個(gè)新范式是需要團(tuán)隊(duì)合作。因此,我們使用騰訊內(nèi)部的多模態(tài)包括語言文本模型的資源進(jìn)行組合,最終生成了一個(gè)對(duì)畫面更優(yōu)質(zhì)的理解。通過這種深入的理解,就能夠訓(xùn)練出更好的生成模型。這也是對(duì)“更好的理解帶來更好的生成”這一理念的實(shí)踐。未來,我們可能還會(huì)探索基于知識(shí)圖譜的畫面描述,以通過知識(shí)圖譜的結(jié)構(gòu)更好地生成最終的視頻效果。

在模型中對(duì)文本的理解至關(guān)重要。我們之前通常使用的開源模型是 CLIP 的 text encoder。CLIP 主要學(xué)習(xí)文本與圖像數(shù)據(jù)之間的關(guān)聯(lián),它本質(zhì)上是一個(gè)二分類模型。這樣的關(guān)聯(lián)可能導(dǎo)致對(duì)細(xì)節(jié)和不同區(qū)域下的表征不充分。因此會(huì)出現(xiàn)一些問題,例如,當(dāng)我們輸入描述為“四只貓”的時(shí)候,結(jié)果可能只顯示三只貓的情況,或者在需要生成鏡頭運(yùn)動(dòng)的場景時(shí),模型表現(xiàn)不佳。

因此,我們發(fā)現(xiàn)對(duì)于文本的響應(yīng),CLIP 的 text encoder 是不夠的。一個(gè)直觀的方法是替換掉對(duì)文本的 encoder 模型。我們嘗試使用 T5 模型進(jìn)行簡單的 projection,并在 unet 上訓(xùn)練。但由于 unet 本身基于 CLIP 訓(xùn)練得非常充分,整個(gè)分布依賴于 CLIP 的 text encoder,直接加入 T5 可能反而會(huì)對(duì)整個(gè)系統(tǒng)產(chǎn)生一定的影響。

最近,騰訊進(jìn)行了一個(gè)嘗試,使用類似多模態(tài)模型中的 q-former 形式,通過cross attention 的方式將 T5 的 text embedding 注入到網(wǎng)絡(luò)中。我們最終注入網(wǎng)絡(luò)的長度是固定的。這樣可以有效地將 T5 或其他大型語言模型如 LLAMA 的 embedding 提取出來,與 unet 中的 Query 進(jìn)行匹配并注入。通過這種形式,可以對(duì)具體細(xì)節(jié)的文本描述響應(yīng)更加充分,從而提高模型對(duì)文本的理解和生成的質(zhì)量。

6.方案 3:畫質(zhì)提升

在畫質(zhì)提升方面,看起來類似于傳統(tǒng)的畫質(zhì)提升任務(wù),但在生成模型中的應(yīng)用實(shí)際上有所不同。在生成模型中的畫質(zhì)提升,包括超分辨率(super resolution)或超幀率(frame interpolation)提升,不僅僅是對(duì)原視頻的簡單修正,更多地是具有修復(fù)功能,需要模型具備重新生成的能力。在生成模型的第一階段,視頻的生成可能主要集中在畫面的布局,決定視頻主體的位置和大致的動(dòng)作形式。而在第二階段,則需要對(duì)一些具體的區(qū)域進(jìn)行修復(fù)和生成。

我們借鑒了基于圖片 condition 的模型,設(shè)計(jì)了基于視頻的 condition 模型。通過類似于 control net 的方式將條件注入到原先的 unet 中。這樣,基于第一階段生成的視頻,進(jìn)行有條件的、可控的生成,最終實(shí)現(xiàn)二階段的超分辨率后的視頻模型。通過這種方法,我們不僅簡單地提高了分辨率,而且通過有目的的修復(fù)和精細(xì)化生成,提升了整個(gè)視頻的視覺質(zhì)量,使得最終輸出的視頻更加清晰且細(xì)節(jié)更加豐富。

在基于人臉的生成中,用戶對(duì)人臉的瑕疵更加敏感,特別是當(dāng)人臉在畫面中占比較小時(shí),很容易出現(xiàn)生成效果的崩壞。我們分析原因,可能是由于 VAE 的 encoder 在較小區(qū)域進(jìn)行了 8 倍的下采樣,導(dǎo)致響應(yīng)極小。這種情況下,decoder 在處理特別是人臉這種復(fù)雜 pattern 的小區(qū)域時(shí),其內(nèi)容表達(dá)和恢復(fù)能力不足。

為了優(yōu)化這一問題,我們發(fā)現(xiàn)在生成后對(duì)人臉區(qū)域單獨(dú)進(jìn)行放大和重繪可以顯著優(yōu)化人臉的生成效果,然后通過高斯模糊的方式將其無縫融合回原圖,即可實(shí)現(xiàn)人臉的有效修復(fù)。

此外,關(guān)于提升分辨率和處理長視頻,我們也借鑒了學(xué)術(shù)界的一些方法,通過對(duì)噪聲的控制實(shí)現(xiàn)快速的多階段生成,同時(shí)確保生成內(nèi)容之間的連續(xù)性。上圖中展示了超分前后的畫質(zhì)對(duì)比以及人臉的修復(fù)效果。在騰訊內(nèi)部進(jìn)行的人工主觀評(píng)測中,這種人臉修復(fù)方法可以解決 90% 以上的人臉問題,顯著提高了人臉生成的質(zhì)量和實(shí)用性。

這里展示的是截至 2023 年年底的一些效果。上半部分是基于文生視頻的示例,由文字描述控制視頻內(nèi)容的生成。下半部分是基于單張圖片控制的“圖生視頻”,不再需要文本控制,可以直接從一張靜態(tài)圖片生成動(dòng)態(tài)的視頻。

三、視頻生成的應(yīng)用實(shí)踐

接下來將分享我們?cè)诠I(yè)界應(yīng)用方面的一些實(shí)踐。

1.視頻風(fēng)格化轉(zhuǎn)換

視頻風(fēng)格化是將真實(shí)視頻或動(dòng)畫視頻轉(zhuǎn)化成其他風(fēng)格視頻的過程。這里展示的示例包括將真實(shí)視頻轉(zhuǎn)化成日本動(dòng)漫風(fēng)格,以及將真實(shí)視頻轉(zhuǎn)化成 3D 動(dòng)畫風(fēng)格。這種轉(zhuǎn)化不僅可以應(yīng)用于模特拍攝的視頻生成對(duì)應(yīng)的動(dòng)畫畫面,還可以用于風(fēng)景視頻的風(fēng)格遷移。例如,我們?cè)c人民日?qǐng)?bào)合作制作了一系列名為“江山如此多嬌”的短片,其中包括對(duì)風(fēng)景進(jìn)行風(fēng)格化處理,效果非常引人注目,大家可以在微信視頻號(hào)中搜索觀看。

具體的實(shí)現(xiàn)方法包括將視頻作為 condition 輸入,這里的 condition 不僅包括常規(guī)的 RGB 信號(hào),還包括 Canny 邊緣檢測信號(hào)、深度信息和人物骨架控制等信號(hào)序列。這些信號(hào)通過 ControlNet 的形式注入到 unet 中,從而生成相應(yīng)的風(fēng)格化視頻。之所以能夠生成特定風(fēng)格的視頻,是因?yàn)槲覀儗?duì) unet 進(jìn)行了針對(duì)該獨(dú)立風(fēng)格的微調(diào),使其成為一個(gè)只能生成動(dòng)漫風(fēng)格視頻的網(wǎng)絡(luò)。因此,基于原始視頻的控制信號(hào),加上專門生成動(dòng)漫風(fēng)格的模型,我們可以生成與原視頻內(nèi)容對(duì)齊的動(dòng)漫風(fēng)格視頻。這種技術(shù)不僅提升了視頻的視覺效果,也增加了內(nèi)容的多樣性和趣味性。

2.人體姿態(tài)控制

這里的輸入是單獨(dú)的人物圖片,可以是真人也可以是動(dòng)漫形象。接著,我們將使用人體動(dòng)作骨架的控制序列,包括人的手、腿、頭部等關(guān)鍵點(diǎn)的骨架圖。有了這些骨架圖之后,我們?cè)O(shè)計(jì)了一個(gè) condition 融合模塊,將之前提到的 noise 與 condition 融合后,注入到 unet 網(wǎng)絡(luò)中。這樣就可以生成動(dòng)態(tài)的人物圖像,讓參考圖像中的人物動(dòng)起來。

這項(xiàng)技術(shù)的應(yīng)用非常廣泛,一方面可以用于創(chuàng)造有趣的互動(dòng)體驗(yàn),例如讓圖中的人物跳舞;另一方面,它也可以用于從單一動(dòng)漫圖像直接生成動(dòng)作視頻,極大提高了動(dòng)漫制作和短視頻制作的效率。盡管這個(gè)模型未在動(dòng)物數(shù)據(jù)上進(jìn)行訓(xùn)練,但它展示了一定的泛化能力,甚至能使圖中的小貓?zhí)?,增添了一份趣味性?/p>

3.視頻運(yùn)動(dòng)筆刷

視頻運(yùn)動(dòng)筆刷可以讓視頻中的局部區(qū)域動(dòng)起來,這對(duì)于工業(yè)應(yīng)用中提高效率非常有用。具體操作是,通過用戶的控制讓畫面中某個(gè)局部區(qū)域進(jìn)行動(dòng)態(tài)表現(xiàn),控制方式包括選擇特定區(qū)域以及輸入相關(guān)文本。例如,用戶可以點(diǎn)擊圖中某個(gè)區(qū)域,如讓畫中的女神開始哭泣,或讓皮卡丘顯得更加開心而笑起來。

在技術(shù)實(shí)現(xiàn)上,我們?cè)谳斎氲?condition 中加入了一些特定功能來實(shí)現(xiàn)這樣的效果。首先,用戶的點(diǎn)擊會(huì)觸發(fā)對(duì)該區(qū)塊的實(shí)例分割,產(chǎn)生一個(gè) mask。這個(gè) mask 隨后會(huì)被用于 cross attention 過程中,與輸出即 denoise 的輸入一起工作。在 attention 過程中,加入的 mask 將增強(qiáng)被選區(qū)域的動(dòng)態(tài)效果,同時(shí)抑制 mask 之外的區(qū)域動(dòng)作,從而使得指定區(qū)域的運(yùn)動(dòng)更加豐富和明顯。這種技術(shù)不僅增加了視頻內(nèi)容的互動(dòng)性和動(dòng)態(tài)表現(xiàn),還提高了制作過程的靈活性和效率。

四、一些不太長遠(yuǎn)的展望

Sora 的出現(xiàn)無疑極大地推動(dòng)了文生視頻技術(shù)的推廣,引起了廣泛關(guān)注。當(dāng)行業(yè)內(nèi)還在討論如何處理 4 秒或 8 秒的視頻時(shí),Sora 已經(jīng)能夠生成長達(dá) 1 分鐘的視頻,這無疑震驚到了整個(gè)行業(yè)的從業(yè)人員。Sora 的出現(xiàn)將視頻生成技術(shù)分成了兩個(gè)陣營:“Sora”與“其他”。這種劃分突顯了 Sora 與現(xiàn)有技術(shù)之間的根本區(qū)別。

首先要講的一個(gè)區(qū)別是關(guān)于 scaling up 的概念,OpenAI 非常推崇這一策略,他們堅(jiān)信通過增大數(shù)據(jù)量和模型規(guī)模可以解決各種問題。同時(shí),他們?cè)O(shè)計(jì)的 Sara 模型也是為了模擬物理世界,所有動(dòng)機(jī)和設(shè)計(jì)都基于 scaling up 的理念。為了實(shí)現(xiàn)模型規(guī)模的擴(kuò)大,他們將unet 中的 CNN 替換為了 Transformer,因?yàn)橄啾扔?CNN,Transformer 更易于進(jìn)行模型的并行優(yōu)化。此外,他們還利用了之前大型語言模型(LLM)的工程技術(shù)。

關(guān)于如何做出更長的視頻,他們首先在 encoder 的 VAE 階段對(duì)視頻進(jìn)行了壓縮。這種壓縮不僅僅發(fā)生在單幀的分辨率空間,還包括在時(shí)間軸上的大幅壓縮。這樣做使得在一個(gè)較小的 latent 空間中進(jìn)行 denoise 成為可能,同時(shí)也能通過這個(gè) denoise 過程或 latent 生成相對(duì)較長的視頻。

這里有三個(gè)例子展示了 Sora 模型的效果,這些例子來自 Sora 的官方網(wǎng)站。第一個(gè)例子是基于 0-scale 的模型效果,第二個(gè)是 8 倍 scale 的效果,最后一個(gè)是 32 倍 scale 的效果??梢悦黠@看到,隨著模型規(guī)模的增加,生成的視頻效果有了顯著提升。

同時(shí),我也推薦大家關(guān)注中國的兩個(gè)開源 Sora 項(xiàng)目。一個(gè)是潞晨科技的項(xiàng)目,另一個(gè)是北京大學(xué)袁粒老師領(lǐng)導(dǎo)的團(tuán)隊(duì)開發(fā)的 Open Sora Plan。這些團(tuán)隊(duì)對(duì)開源社區(qū)的貢獻(xiàn)值得敬佩,他們投入了大量精力。

騰訊也在積極進(jìn)行類似的工作,我們正在探索基于 Transformer 架構(gòu)的技術(shù)。希望在不久的將來,我們能夠展示更好的效果,并預(yù)計(jì)會(huì)有一個(gè)重要的版本更新。歡迎大家積極體驗(yàn)這一新技術(shù)。

五、問答環(huán)節(jié)

Q1:文生圖或視頻過程中的語義保真如何理解?如何衡量生成的質(zhì)量?

A1:這是一個(gè)很好的問題。首先,我們可以從兩個(gè)方面來衡量:主觀的和客觀的。從客觀角度來說,我們會(huì)使用一些模型來評(píng)估,比如對(duì)于語義保真度,我們常用 CLIP 的相關(guān)性作為一個(gè)重要的衡量標(biāo)準(zhǔn)。另外,我們騰訊的某些系列產(chǎn)品也通過語義相關(guān)性、運(yùn)動(dòng)感、畫質(zhì)、清晰度以及內(nèi)容的豐富度等方面,使用專家模型來評(píng)估生成內(nèi)容的綜合效果。

從主觀角度來看,我們通過人來評(píng)估。我們內(nèi)部有一個(gè)專門的評(píng)測團(tuán)隊(duì),超過 1000 人,他們通過對(duì)比兩個(gè)模型的輸出來評(píng)估效果優(yōu)劣。評(píng)估形式通常是進(jìn)行模型對(duì)比,例如將混元和 Pika 的結(jié)果相比較,評(píng)估團(tuán)隊(duì)會(huì)判斷哪一個(gè)更好,或者兩者是否相當(dāng)。評(píng)估人員都經(jīng)過專業(yè)訓(xùn)練,在多個(gè)維度上進(jìn)行評(píng)估,并進(jìn)行加權(quán)判斷。

Q2:Sora 背后到底有沒有它的護(hù)城河,到底在哪里?是數(shù)據(jù)量,技術(shù)框架,還是都有?

A2:我覺得顯然是兩者都有。在技術(shù)框架方面,網(wǎng)絡(luò)模型的護(hù)城河可能相對(duì)較低。但是在大規(guī)模訓(xùn)練的基建方面,我認(rèn)為有相當(dāng)大的護(hù)城河。OpenAI 在千卡甚至萬卡級(jí)的 GPU 聯(lián)合訓(xùn)練上有非常深厚的積累,這在其他公司,尤其是國內(nèi)的一些公司中可能相對(duì)欠缺。另外,正如我之前提到的,團(tuán)隊(duì)協(xié)作方面,OpenAI 的 LLM 和其 GP4-V 等多模態(tài)模型也表現(xiàn)出顯著的優(yōu)勢,這些模型對(duì)于理解產(chǎn)生的數(shù)據(jù)極為關(guān)鍵,對(duì)生成模型的訓(xùn)練也會(huì)有很大影響。

我們?cè)跀?shù)據(jù)構(gòu)建方面落后于他們,在訓(xùn)練的最終結(jié)果上也有較大的差距。,所以這構(gòu)成了一個(gè)非常深的護(hù)城河,我們需要在各個(gè)方面實(shí)現(xiàn)追趕和超越。

Q3:您剛剛提到數(shù)據(jù)層面,只是原始收集的數(shù)據(jù)量比我們大,還是他借助的這些工具做得更好、質(zhì)量更好呢?

A3:我之前聽說過 OpenAI 在下載全互聯(lián)網(wǎng)的視頻數(shù)據(jù),具體數(shù)據(jù)量他們沒有公開,我也不好猜測。另外,也有分析指出他們使用了 UE 引擎來造數(shù)據(jù)。考慮到他們對(duì) Scaling Up 的崇拜,我覺得他們的數(shù)據(jù)量應(yīng)該是非常巨大的,可能超出我們的想象。

在數(shù)據(jù)質(zhì)量上,如我之前所述,對(duì)視頻的描述能力會(huì)產(chǎn)生很大的影響。即使我們擁有相同的數(shù)據(jù),如果我們對(duì)其描述存在缺陷或差距,那么訓(xùn)練出來的生成模型也會(huì)有顯著的性能差異。所以,不僅是數(shù)據(jù)的數(shù)量,其質(zhì)量和處理方式同樣關(guān)鍵。

Q4:您認(rèn)為 Sora 這種機(jī)制,或者這種數(shù)據(jù)驅(qū)動(dòng)的方式,是否真的能夠理解這個(gè)物理世界?因?yàn)殛P(guān)于這個(gè)的爭論很多,到底能不能真正地實(shí)現(xiàn)所謂的世界模型呢?

A4:我個(gè)人覺得這還是比較困難的。我認(rèn)為我們現(xiàn)有的數(shù)據(jù)可能還不夠。在這種擴(kuò)大模型和訓(xùn)練的方式下,對(duì)于算力來說,數(shù)據(jù)的利用率是非常低的。例如,一個(gè)人不需要看幾十億、上百億的數(shù)據(jù)視頻就能理解影子是由物體遮擋光線產(chǎn)生的,但是 AI 模型可能就需要極大量的數(shù)據(jù)才能學(xué)會(huì)這一點(diǎn)。當(dāng)然,如果有足夠多的數(shù)據(jù),也許 AI 真的能夠?qū)W會(huì),但是暫時(shí)來看,我們可能在有生之年都達(dá)不到這樣的數(shù)據(jù)規(guī)模,所以我認(rèn)為實(shí)現(xiàn)真正的物理世界理解是非常難的。

同時(shí),也有人討論說生成模型是否一定需要對(duì)物理有強(qiáng)制性約束,因?yàn)槲覀儗?shí)際上看到的世界有時(shí)也會(huì)因?yàn)槲覀冏约旱囊曈X系統(tǒng)產(chǎn)生誤判。比如,兩個(gè)相同大小和顏色的正方形放在不同的背景下,我們也可能會(huì)判斷它們的亮度不同。所以,最終如果 AI 模型能夠符合我們?nèi)祟惖囊曈X偏好,也是可以接受的。