資訊詳情

擴(kuò)散模型與文生視頻

沃卡惠2024-05-11 09:39:164636

一、快速發(fā)展的文生視頻

在當(dāng)前的人工智能領(lǐng)域，文生視頻技術(shù)有著引人注目的進(jìn)展。該技術(shù)的核心任務(wù)非常明確，就是利用文本指令來控制視頻內(nèi)容的生成。具體而言，用戶可以輸入特定文本，系統(tǒng)則根據(jù)這段文本生成相應(yīng)的視覺畫面。這一過程并不局限于單一的輸出，相同的文本可能會(huì)引導(dǎo)生成多種不同的視覺場景，顯示出該技術(shù)的靈活性和多樣性。

基于擴(kuò)散模型模式的視頻生成技術(shù)，是從 2022 年上半年才開始出現(xiàn)的。在兩年的時(shí)間里，這一技術(shù)取得了顯著的進(jìn)步。由上圖中可以看到，從 Google 在2022 年 4 月發(fā)布的文章所展示的效果，到騰訊在 2023 年 12 月發(fā)布的 hunyuan 的效果，無論在畫質(zhì)、光影的重建，還是整個(gè)畫面的連續(xù)性上，都實(shí)現(xiàn)了顯著的提升。

在過去兩年間，這一領(lǐng)域吸引了眾多參與者，包括各大公司和研究機(jī)構(gòu)，比如上海人工智能研究院，以及一些高校。在這個(gè)賽道中，誕生了許多引人注目的成果。從最初的 VDM 模型，到我們常聽到的老玩家 Runway Gen1 和 Gen2 的工作，以及去年備受關(guān)注的 PikaLab。PikaLab 由兩位華人女性科學(xué)家創(chuàng)立，它的上市甚至引發(fā)了中國 A 股市場上某些股票的劇烈波動(dòng)。此外，還有騰訊之前的 VideoCrafter 系列，以及阿里的 ModelScope 系列等。

當(dāng)然，最讓人印象深刻的是在今年 2 月 15 日，OpenAI 發(fā)布了頗具影響力的 Sora 模型。這款 Sora 模型的出現(xiàn)，使得其它模型相比之下顯得普通了許多。我們當(dāng)時(shí)還在糾結(jié)于生成 4 秒到 8 秒的視頻，而 Sora 模型直接將視頻生成的時(shí)長擴(kuò)展到了 1 分鐘。這一突破顯著提升了視頻生成技術(shù)的能力。

在視頻生成領(lǐng)域，我們主要依賴于 diffusion model。為什么這種模型能夠相對(duì)于之前的 GAN 生成或者 VAE 生成技術(shù)實(shí)現(xiàn)顯著的效果提升呢？關(guān)鍵的區(qū)別在于，以往的模型通常采用單步生成或稱為 decoder 的方法，直接從隱空間一步生成最終的數(shù)據(jù) x。這種單步從隱空間映射到數(shù)據(jù)空間的生成過程，建模非常復(fù)雜，過去的模型往往難以實(shí)現(xiàn)有效的建模。

然而，diffusion model 的獨(dú)特之處在于它采用多步驟過程。為什么稱之為“diffusion”呢？“擴(kuò)散”的概念類似于一滴墨水滴入水杯中，墨水緩緩擴(kuò)散開來，最終均勻分布，使我們難以區(qū)分它與其他水的不同。這種自然界中廣泛存在的擴(kuò)散過程被用來模擬數(shù)據(jù)生成：假設(shè)一個(gè)人臉圖像或任何信號(hào)，通過 n 步加噪聲的迭代，最終變?yōu)榧冊(cè)肼暋＿@就是 diffusion 的過程，它極大地增強(qiáng)了模型處理復(fù)雜數(shù)據(jù)的能力。

與 diffusion 相對(duì)應(yīng)的，在 diffusion model 中核心學(xué)習(xí)的任務(wù)是 denoising，通過逐步去除噪聲最終生成我們所需的圖像信號(hào)。從無序的噪聲中重建有序的信號(hào)，這個(gè)過程被稱為 denoising。

具體來說，diffusion model 主要包括兩個(gè)過程：一個(gè)是加噪過程，稱為 diffusion；另一個(gè)是降噪過程，稱為 denoising。在加噪的過程中，通過每一步的計(jì)算添加高斯噪聲，從而實(shí)現(xiàn)加噪。相比之下，denoising 過程更為復(fù)雜，也就是模型訓(xùn)練去擬合的過程，旨在使模型學(xué)會(huì)在每一個(gè)單步上，即從 t 步到 t-1 中的噪聲預(yù)測。

因此，在每一步的噪聲預(yù)測中，生成的模型會(huì)生成高斯噪聲，并將整個(gè)預(yù)測的域限定在高斯分布上，這樣可以使整個(gè) diffusion model 更有效地學(xué)習(xí)這個(gè)過程。相對(duì)于以前的 VAE 的 encoder-decoder 架構(gòu)，或者是基于 GAN 的通過discriminator 去修正 generator 生成的模式，diffusion model 能夠?qū)崿F(xiàn)更優(yōu)的生成效果。

Diffusion 模型最初主要應(yīng)用于圖像生成，原因在于圖像數(shù)據(jù)更容易收集，而且相對(duì)于視頻，圖像生成所需注入的信息量較少。在眾多突出的研究中，stable diffusion 是最著名的一項(xiàng)工作。這個(gè)框架的設(shè)計(jì)主要基于三個(gè)模塊：encoder和 decoder 模塊、unet 模塊以及 condition 模塊。使用 encoder 和 decoder 模塊的原因在于，這種設(shè)計(jì)復(fù)用了之前 VAE 模型的架構(gòu)。這樣做的好處是能夠?qū)⒄鎸?shí)圖像映射到隱空間，實(shí)現(xiàn)圖像的下采樣和數(shù)據(jù)壓縮，從而在后續(xù)過程中減少所需的計(jì)算量。此外，在隱空間中，像 VAE 模型那樣對(duì) z 的約束形成高斯分布，使得 latent space 的分布較為標(biāo)準(zhǔn)。這種設(shè)置使得在隱空間中進(jìn)行 denoising 學(xué)習(xí)變得相對(duì)容易。這就是第一個(gè)主要模塊，即 VAE 模塊。

第二個(gè)介紹的是 condition 模塊，它在生成過程中起著至關(guān)重要的作用。例如，在文生視頻的應(yīng)用中，我們通常提到的是從文本到視頻的轉(zhuǎn)換，這里的 condition 即為文本，也就是對(duì)畫面的描述性文本提示（prompt）。除此之外，condition 模塊還可以包含其他多種形式的條件輸入，如圖像本身、代表特定特征的向量，以及如語義分割圖這類的圖像等。這些條件的引入，允許模型根據(jù)不同的輸入信息產(chǎn)生定制化的輸出，從而增強(qiáng)生成內(nèi)容的相關(guān)性和準(zhǔn)確性。

中間核心部分是 unet 模塊，這是實(shí)際進(jìn)行 denoising 預(yù)測的模塊。上圖中展示的流程是從第 t 步到第 t-1 步的過程。整個(gè)生成流程是通過迭代 T 步迭代到第 0 步，但每個(gè)模塊的構(gòu)成是一致的。在 unet 模塊中，通過 down sampling 和 up sampling 恢復(fù)到與輸入相同的尺寸，核心包含一個(gè) convolutional layer，其后加入了 transformer layer，通過 attention 機(jī)制將 condition 的 embedding 注入進(jìn)來。例如，文本通過一個(gè) text encoder 轉(zhuǎn)換成text embedding，然后以 KV 形式與 latent space 進(jìn)行 cross attention 計(jì)算，以實(shí)現(xiàn)條件的注入。

經(jīng)過這樣的模型設(shè)計(jì)，就可以預(yù)測出一步的 epsilon（噪聲），下一個(gè) Z_T-1就是 Z_T減去預(yù)測出的噪聲?；谶@樣的邏輯，通過 t 步的迭代 denoising 最終會(huì)生成一個(gè)與目標(biāo) x 相關(guān)的 z，通過 decoder 就可以還原出最終的圖像。

這就是 text to image 的框架。與圖像相比，視頻數(shù)據(jù)更難收集，視頻中的時(shí)間信息和動(dòng)態(tài)信息建模難度更大，數(shù)據(jù)標(biāo)注的成本也非常高。因此，現(xiàn)在基于text video 的模型多是在 text image 模型基礎(chǔ)上，進(jìn)行時(shí)空建模的設(shè)計(jì)來實(shí)現(xiàn)視頻生成。即在原有的 spatial layer 上加入 motion layer，通過這種結(jié)合實(shí)現(xiàn)生成視頻的模型。其中兩個(gè)較為著名的方法包括 AnimateDiff，由上海人工智能實(shí)驗(yàn)室提出，在時(shí)間軸上使用 self-attention，以及 ModelScope 系列，使用基于 3D convolution layer 的 temporal 建模。

這種框架實(shí)際上保留了模型由文本生成靜態(tài)圖像的能力，并且通過引入 motion layer，實(shí)現(xiàn)了在時(shí)間軸上的平滑過渡。這相當(dāng)于在每一幀圖片生成的基礎(chǔ)上，通過將這些幀相互連接生成一個(gè)連續(xù)動(dòng)態(tài)的視頻。這種方法可以有效地將單幀的靜態(tài)圖像轉(zhuǎn)變?yōu)檎宫F(xiàn)動(dòng)態(tài)序列的視頻，使得生成的內(nèi)容不僅限于靜態(tài)畫面，而是展現(xiàn)出時(shí)間維度上的連貫動(dòng)態(tài)。

二、視頻生成的主要難點(diǎn)

下面介紹開發(fā)過程中的主要難點(diǎn)，以及我們?yōu)閮?yōu)化模型生成圖像的效率和最終性能所設(shè)計(jì)的解決方案。

1.難點(diǎn)1：動(dòng)作建模合理

我們發(fā)現(xiàn)在一些模型中會(huì)出現(xiàn)問題，例如在模擬鼓掌動(dòng)作的圖像中，手部可能會(huì)融合在一起，或者大臂與小臂的比例和運(yùn)動(dòng)不符合機(jī)械原理，導(dǎo)致動(dòng)作看起來不自然。此外，由于每一幀的時(shí)空建模是獨(dú)立進(jìn)行的，若沒有通過 motion layer 有效地串聯(lián)這些幀，就可能出現(xiàn)動(dòng)作不連貫的現(xiàn)象。例如，一幀中狗可能朝左，而下一幀突然朝右，造成觀感上的劇烈變化。這些問題都需要在模型的動(dòng)作建模方面進(jìn)行優(yōu)化，以確保生成的視頻動(dòng)作連貫且自然。

2.難點(diǎn)2：語義對(duì)齊準(zhǔn)確

當(dāng)我們的 condition 僅有文字時(shí)，在實(shí)際工業(yè)應(yīng)用中，需要模型對(duì)這些文字描述有更好的響應(yīng)能力。例如，控制生成的數(shù)量，比如是四只還是五只，以及對(duì)特定局部區(qū)域的空間控制。用戶可能希望生成的背景是黃色或白色，或者想要白色的潛艇、白色的狗等特定對(duì)象。因此，對(duì)語義的準(zhǔn)確理解和響應(yīng)在整個(gè)生成框架中是影響生成效果的一個(gè)關(guān)鍵點(diǎn)，對(duì)提高模型的實(shí)用性和用戶滿意度至關(guān)重要。

3.難點(diǎn)3：畫質(zhì)細(xì)節(jié)精美

第三個(gè)難點(diǎn)是對(duì)畫質(zhì)的進(jìn)一步雕琢。考慮到當(dāng)前互聯(lián)網(wǎng)統(tǒng)計(jì)數(shù)據(jù)顯示，大約七八十甚至九十以上的網(wǎng)絡(luò)流量來自視頻，因此用戶對(duì)視頻的畫質(zhì)、分辨率以及幀率有著更高的期望。在生成模型中，我們面臨的挑戰(zhàn)是如何在生成速度和畫質(zhì)之間找到平衡。因此，我們必須對(duì)模型進(jìn)行優(yōu)化，以確保在滿足實(shí)時(shí)生成的同時(shí)，也能夠提供高質(zhì)量的視頻輸出。

針對(duì)這些難點(diǎn)，我們?cè)O(shè)計(jì)了一些解決方案。

4.方案 1：運(yùn)動(dòng)質(zhì)量提升

為了提升運(yùn)動(dòng)質(zhì)量，我們?cè)O(shè)計(jì)了一個(gè)整體的模型框架，在 text condition 的基礎(chǔ)上，注入 image condition。這種 image condition 為模型提供了一個(gè)生成時(shí)的基準(zhǔn)，可以理解為一個(gè)錨點(diǎn)（anchor）。通常這個(gè)錨點(diǎn)是視頻的第一幀，基于這一幀，模型會(huì)在后續(xù)幀的生成中保持人物和背景的基本分布，以及大致的運(yùn)動(dòng)空間。這樣的設(shè)計(jì)使得訓(xùn)練過程中視頻的生成結(jié)構(gòu)更穩(wěn)定，運(yùn)動(dòng)更加合理。這樣相當(dāng)于降低了模型在訓(xùn)練時(shí)對(duì)整個(gè)視頻畫面的理解難度，從而優(yōu)化了生成過程的效率和質(zhì)量。這種方法不僅提升了視頻的視覺連貫性，還確保了生成內(nèi)容的動(dòng)態(tài)自然性和逼真度。

為了訓(xùn)練這種模型，我們?cè)跀?shù)據(jù)集的增廣方面進(jìn)行了一些探索。圖片數(shù)據(jù)遠(yuǎn)多于視頻數(shù)據(jù)，一般來說，訓(xùn)練一個(gè)圖像模型可能會(huì)使用到 10 億條數(shù)據(jù)，而視頻數(shù)據(jù)可能只有千萬到億級(jí)別。

為了彌補(bǔ)這種差距，第一，我們通過對(duì)圖片進(jìn)行增廣處理，比如縮放、左移、右移、上移、下移等操作，使圖片模擬簡單的運(yùn)動(dòng)視頻，從而擴(kuò)大訓(xùn)練集。第二，我們?cè)诙喾直媛实沫h(huán)境下設(shè)計(jì)了一種訓(xùn)練框架，可以同時(shí)處理不同幀率、幀數(shù)和視頻分辨率的數(shù)據(jù)，這樣可以實(shí)現(xiàn)更豐富的數(shù)據(jù)樣態(tài)，提高模型的效果。第三，我們?cè)趫D像和文本的控制（condition）上進(jìn)行了有條件的融合，通過數(shù)據(jù)學(xué)習(xí)擬合條件的權(quán)重和參數(shù)。另外，還借鑒了南洋理工大學(xué) ziwei liu 教授的研究，采用多輪生成的方法構(gòu)建模型，利用上一輪生成的低頻信號(hào)信息指導(dǎo)下一輪的生成。我們可以將低頻信號(hào)理解為在運(yùn)動(dòng)中相對(duì)保持固定的一些特征，例如一個(gè)人跑步時(shí)背景相對(duì)固定，而跑步動(dòng)作則是有節(jié)奏的規(guī)律運(yùn)動(dòng)?；谶@樣的低頻信號(hào)指導(dǎo)，最終生成的視頻信號(hào)將更加穩(wěn)定。

5.方案 2：語義對(duì)齊準(zhǔn)確

關(guān)于語義對(duì)齊，我們發(fā)現(xiàn)開源的數(shù)據(jù)集通常比較簡單，對(duì)畫面的描述僅是一個(gè)籠統(tǒng)的概念，例如“女孩在家中學(xué)習(xí)”。然而，在生成模型的預(yù)訓(xùn)練中，我們需要精確地對(duì)齊畫面中的各種元素。例如，不僅要描述“女孩在家中學(xué)習(xí)”，還要包括更具體的場景和元素，如“她在廚房里用 iPad 學(xué)習(xí)，穿著牛仔襯衫，她是一位黑人女孩”。

為了提高對(duì)這種復(fù)雜場景的理解，我們嘗試使用過去的視頻理解專家模型和現(xiàn)在較多使用的視頻基礎(chǔ)模型（video foundation model），來實(shí)現(xiàn)對(duì)視頻的多維度描述生成。最后，再通過大型語言模型進(jìn)行融合。在這個(gè)大模型的時(shí)代，研究方向的一個(gè)新范式是需要團(tuán)隊(duì)合作。因此，我們使用騰訊內(nèi)部的多模態(tài)包括語言文本模型的資源進(jìn)行組合，最終生成了一個(gè)對(duì)畫面更優(yōu)質(zhì)的理解。通過這種深入的理解，就能夠訓(xùn)練出更好的生成模型。這也是對(duì)“更好的理解帶來更好的生成”這一理念的實(shí)踐。未來，我們可能還會(huì)探索基于知識(shí)圖譜的畫面描述，以通過知識(shí)圖譜的結(jié)構(gòu)更好地生成最終的視頻效果。

在模型中對(duì)文本的理解至關(guān)重要。我們之前通常使用的開源模型是 CLIP 的 text encoder。CLIP 主要學(xué)習(xí)文本與圖像數(shù)據(jù)之間的關(guān)聯(lián)，它本質(zhì)上是一個(gè)二分類模型。這樣的關(guān)聯(lián)可能導(dǎo)致對(duì)細(xì)節(jié)和不同區(qū)域下的表征不充分。因此會(huì)出現(xiàn)一些問題，例如，當(dāng)我們輸入描述為“四只貓”的時(shí)候，結(jié)果可能只顯示三只貓的情況，或者在需要生成鏡頭運(yùn)動(dòng)的場景時(shí)，模型表現(xiàn)不佳。

因此，我們發(fā)現(xiàn)對(duì)于文本的響應(yīng)，CLIP 的 text encoder 是不夠的。一個(gè)直觀的方法是替換掉對(duì)文本的 encoder 模型。我們嘗試使用 T5 模型進(jìn)行簡單的 projection，并在 unet 上訓(xùn)練。但由于 unet 本身基于 CLIP 訓(xùn)練得非常充分，整個(gè)分布依賴于 CLIP 的 text encoder，直接加入 T5 可能反而會(huì)對(duì)整個(gè)系統(tǒng)產(chǎn)生一定的影響。

最近，騰訊進(jìn)行了一個(gè)嘗試，使用類似多模態(tài)模型中的 q-former 形式，通過cross attention 的方式將 T5 的 text embedding 注入到網(wǎng)絡(luò)中。我們最終注入網(wǎng)絡(luò)的長度是固定的。這樣可以有效地將 T5 或其他大型語言模型如 LLAMA 的 embedding 提取出來，與 unet 中的 Query 進(jìn)行匹配并注入。通過這種形式，可以對(duì)具體細(xì)節(jié)的文本描述響應(yīng)更加充分，從而提高模型對(duì)文本的理解和生成的質(zhì)量。

6.方案 3：畫質(zhì)提升

在畫質(zhì)提升方面，看起來類似于傳統(tǒng)的畫質(zhì)提升任務(wù)，但在生成模型中的應(yīng)用實(shí)際上有所不同。在生成模型中的畫質(zhì)提升，包括超分辨率（super resolution）或超幀率（frame interpolation）提升，不僅僅是對(duì)原視頻的簡單修正，更多地是具有修復(fù)功能，需要模型具備重新生成的能力。在生成模型的第一階段，視頻的生成可能主要集中在畫面的布局，決定視頻主體的位置和大致的動(dòng)作形式。而在第二階段，則需要對(duì)一些具體的區(qū)域進(jìn)行修復(fù)和生成。

我們借鑒了基于圖片 condition 的模型，設(shè)計(jì)了基于視頻的 condition 模型。通過類似于 control net 的方式將條件注入到原先的 unet 中。這樣，基于第一階段生成的視頻，進(jìn)行有條件的、可控的生成，最終實(shí)現(xiàn)二階段的超分辨率后的視頻模型。通過這種方法，我們不僅簡單地提高了分辨率，而且通過有目的的修復(fù)和精細(xì)化生成，提升了整個(gè)視頻的視覺質(zhì)量，使得最終輸出的視頻更加清晰且細(xì)節(jié)更加豐富。

在基于人臉的生成中，用戶對(duì)人臉的瑕疵更加敏感，特別是當(dāng)人臉在畫面中占比較小時(shí)，很容易出現(xiàn)生成效果的崩壞。我們分析原因，可能是由于 VAE 的 encoder 在較小區(qū)域進(jìn)行了 8 倍的下采樣，導(dǎo)致響應(yīng)極小。這種情況下，decoder 在處理特別是人臉這種復(fù)雜 pattern 的小區(qū)域時(shí)，其內(nèi)容表達(dá)和恢復(fù)能力不足。

為了優(yōu)化這一問題，我們發(fā)現(xiàn)在生成后對(duì)人臉區(qū)域單獨(dú)進(jìn)行放大和重繪可以顯著優(yōu)化人臉的生成效果，然后通過高斯模糊的方式將其無縫融合回原圖，即可實(shí)現(xiàn)人臉的有效修復(fù)。

此外，關(guān)于提升分辨率和處理長視頻，我們也借鑒了學(xué)術(shù)界的一些方法，通過對(duì)噪聲的控制實(shí)現(xiàn)快速的多階段生成，同時(shí)確保生成內(nèi)容之間的連續(xù)性。上圖中展示了超分前后的畫質(zhì)對(duì)比以及人臉的修復(fù)效果。在騰訊內(nèi)部進(jìn)行的人工主觀評(píng)測中，這種人臉修復(fù)方法可以解決 90% 以上的人臉問題，顯著提高了人臉生成的質(zhì)量和實(shí)用性。

這里展示的是截至 2023 年年底的一些效果。上半部分是基于文生視頻的示例，由文字描述控制視頻內(nèi)容的生成。下半部分是基于單張圖片控制的“圖生視頻”，不再需要文本控制，可以直接從一張靜態(tài)圖片生成動(dòng)態(tài)的視頻。

三、視頻生成的應(yīng)用實(shí)踐

接下來將分享我們?cè)诠I(yè)界應(yīng)用方面的一些實(shí)踐。

1.視頻風(fēng)格化轉(zhuǎn)換

視頻風(fēng)格化是將真實(shí)視頻或動(dòng)畫視頻轉(zhuǎn)化成其他風(fēng)格視頻的過程。這里展示的示例包括將真實(shí)視頻轉(zhuǎn)化成日本動(dòng)漫風(fēng)格，以及將真實(shí)視頻轉(zhuǎn)化成 3D 動(dòng)畫風(fēng)格。這種轉(zhuǎn)化不僅可以應(yīng)用于模特拍攝的視頻生成對(duì)應(yīng)的動(dòng)畫畫面，還可以用于風(fēng)景視頻的風(fēng)格遷移。例如，我們?cè)c人民日?qǐng)?bào)合作制作了一系列名為“江山如此多嬌”的短片，其中包括對(duì)風(fēng)景進(jìn)行風(fēng)格化處理，效果非常引人注目，大家可以在微信視頻號(hào)中搜索觀看。

具體的實(shí)現(xiàn)方法包括將視頻作為 condition 輸入，這里的 condition 不僅包括常規(guī)的 RGB 信號(hào)，還包括 Canny 邊緣檢測信號(hào)、深度信息和人物骨架控制等信號(hào)序列。這些信號(hào)通過 ControlNet 的形式注入到 unet 中，從而生成相應(yīng)的風(fēng)格化視頻。之所以能夠生成特定風(fēng)格的視頻，是因?yàn)槲覀儗?duì) unet 進(jìn)行了針對(duì)該獨(dú)立風(fēng)格的微調(diào)，使其成為一個(gè)只能生成動(dòng)漫風(fēng)格視頻的網(wǎng)絡(luò)。因此，基于原始視頻的控制信號(hào)，加上專門生成動(dòng)漫風(fēng)格的模型，我們可以生成與原視頻內(nèi)容對(duì)齊的動(dòng)漫風(fēng)格視頻。這種技術(shù)不僅提升了視頻的視覺效果，也增加了內(nèi)容的多樣性和趣味性。

2.人體姿態(tài)控制

這里的輸入是單獨(dú)的人物圖片，可以是真人也可以是動(dòng)漫形象。接著，我們將使用人體動(dòng)作骨架的控制序列，包括人的手、腿、頭部等關(guān)鍵點(diǎn)的骨架圖。有了這些骨架圖之后，我們?cè)O(shè)計(jì)了一個(gè) condition 融合模塊，將之前提到的 noise 與 condition 融合后，注入到 unet 網(wǎng)絡(luò)中。這樣就可以生成動(dòng)態(tài)的人物圖像，讓參考圖像中的人物動(dòng)起來。

這項(xiàng)技術(shù)的應(yīng)用非常廣泛，一方面可以用于創(chuàng)造有趣的互動(dòng)體驗(yàn)，例如讓圖中的人物跳舞；另一方面，它也可以用于從單一動(dòng)漫圖像直接生成動(dòng)作視頻，極大提高了動(dòng)漫制作和短視頻制作的效率。盡管這個(gè)模型未在動(dòng)物數(shù)據(jù)上進(jìn)行訓(xùn)練，但它展示了一定的泛化能力，甚至能使圖中的小貓?zhí)?，增添了一份趣味性?/p>

3.視頻運(yùn)動(dòng)筆刷

視頻運(yùn)動(dòng)筆刷可以讓視頻中的局部區(qū)域動(dòng)起來，這對(duì)于工業(yè)應(yīng)用中提高效率非常有用。具體操作是，通過用戶的控制讓畫面中某個(gè)局部區(qū)域進(jìn)行動(dòng)態(tài)表現(xiàn)，控制方式包括選擇特定區(qū)域以及輸入相關(guān)文本。例如，用戶可以點(diǎn)擊圖中某個(gè)區(qū)域，如讓畫中的女神開始哭泣，或讓皮卡丘顯得更加開心而笑起來。

在技術(shù)實(shí)現(xiàn)上，我們?cè)谳斎氲?condition 中加入了一些特定功能來實(shí)現(xiàn)這樣的效果。首先，用戶的點(diǎn)擊會(huì)觸發(fā)對(duì)該區(qū)塊的實(shí)例分割，產(chǎn)生一個(gè) mask。這個(gè) mask 隨后會(huì)被用于 cross attention 過程中，與輸出即 denoise 的輸入一起工作。在 attention 過程中，加入的 mask 將增強(qiáng)被選區(qū)域的動(dòng)態(tài)效果，同時(shí)抑制 mask 之外的區(qū)域動(dòng)作，從而使得指定區(qū)域的運(yùn)動(dòng)更加豐富和明顯。這種技術(shù)不僅增加了視頻內(nèi)容的互動(dòng)性和動(dòng)態(tài)表現(xiàn)，還提高了制作過程的靈活性和效率。

四、一些不太長遠(yuǎn)的展望

Sora 的出現(xiàn)無疑極大地推動(dòng)了文生視頻技術(shù)的推廣，引起了廣泛關(guān)注。當(dāng)行業(yè)內(nèi)還在討論如何處理 4 秒或 8 秒的視頻時(shí)，Sora 已經(jīng)能夠生成長達(dá) 1 分鐘的視頻，這無疑震驚到了整個(gè)行業(yè)的從業(yè)人員。Sora 的出現(xiàn)將視頻生成技術(shù)分成了兩個(gè)陣營：“Sora”與“其他”。這種劃分突顯了 Sora 與現(xiàn)有技術(shù)之間的根本區(qū)別。

首先要講的一個(gè)區(qū)別是關(guān)于 scaling up 的概念，OpenAI 非常推崇這一策略，他們堅(jiān)信通過增大數(shù)據(jù)量和模型規(guī)模可以解決各種問題。同時(shí)，他們?cè)O(shè)計(jì)的 Sara 模型也是為了模擬物理世界，所有動(dòng)機(jī)和設(shè)計(jì)都基于 scaling up 的理念。為了實(shí)現(xiàn)模型規(guī)模的擴(kuò)大，他們將unet 中的 CNN 替換為了 Transformer，因?yàn)橄啾扔?CNN，Transformer 更易于進(jìn)行模型的并行優(yōu)化。此外，他們還利用了之前大型語言模型（LLM）的工程技術(shù)。

關(guān)于如何做出更長的視頻，他們首先在 encoder 的 VAE 階段對(duì)視頻進(jìn)行了壓縮。這種壓縮不僅僅發(fā)生在單幀的分辨率空間，還包括在時(shí)間軸上的大幅壓縮。這樣做使得在一個(gè)較小的 latent 空間中進(jìn)行 denoise 成為可能，同時(shí)也能通過這個(gè) denoise 過程或 latent 生成相對(duì)較長的視頻。

這里有三個(gè)例子展示了 Sora 模型的效果，這些例子來自 Sora 的官方網(wǎng)站。第一個(gè)例子是基于 0-scale 的模型效果，第二個(gè)是 8 倍 scale 的效果，最后一個(gè)是 32 倍 scale 的效果?？梢悦黠@看到，隨著模型規(guī)模的增加，生成的視頻效果有了顯著提升。

同時(shí)，我也推薦大家關(guān)注中國的兩個(gè)開源 Sora 項(xiàng)目。一個(gè)是潞晨科技的項(xiàng)目，另一個(gè)是北京大學(xué)袁粒老師領(lǐng)導(dǎo)的團(tuán)隊(duì)開發(fā)的 Open Sora Plan。這些團(tuán)隊(duì)對(duì)開源社區(qū)的貢獻(xiàn)值得敬佩，他們投入了大量精力。

騰訊也在積極進(jìn)行類似的工作，我們正在探索基于 Transformer 架構(gòu)的技術(shù)。希望在不久的將來，我們能夠展示更好的效果，并預(yù)計(jì)會(huì)有一個(gè)重要的版本更新。歡迎大家積極體驗(yàn)這一新技術(shù)。

五、問答環(huán)節(jié)

Q1：文生圖或視頻過程中的語義保真如何理解？如何衡量生成的質(zhì)量？

A1：這是一個(gè)很好的問題。首先，我們可以從兩個(gè)方面來衡量：主觀的和客觀的。從客觀角度來說，我們會(huì)使用一些模型來評(píng)估，比如對(duì)于語義保真度，我們常用 CLIP 的相關(guān)性作為一個(gè)重要的衡量標(biāo)準(zhǔn)。另外，我們騰訊的某些系列產(chǎn)品也通過語義相關(guān)性、運(yùn)動(dòng)感、畫質(zhì)、清晰度以及內(nèi)容的豐富度等方面，使用專家模型來評(píng)估生成內(nèi)容的綜合效果。

從主觀角度來看，我們通過人來評(píng)估。我們內(nèi)部有一個(gè)專門的評(píng)測團(tuán)隊(duì)，超過 1000 人，他們通過對(duì)比兩個(gè)模型的輸出來評(píng)估效果優(yōu)劣。評(píng)估形式通常是進(jìn)行模型對(duì)比，例如將混元和 Pika 的結(jié)果相比較，評(píng)估團(tuán)隊(duì)會(huì)判斷哪一個(gè)更好，或者兩者是否相當(dāng)。評(píng)估人員都經(jīng)過專業(yè)訓(xùn)練，在多個(gè)維度上進(jìn)行評(píng)估，并進(jìn)行加權(quán)判斷。

Q2：Sora 背后到底有沒有它的護(hù)城河，到底在哪里？是數(shù)據(jù)量，技術(shù)框架，還是都有？

A2：我覺得顯然是兩者都有。在技術(shù)框架方面，網(wǎng)絡(luò)模型的護(hù)城河可能相對(duì)較低。但是在大規(guī)模訓(xùn)練的基建方面，我認(rèn)為有相當(dāng)大的護(hù)城河。OpenAI 在千卡甚至萬卡級(jí)的 GPU 聯(lián)合訓(xùn)練上有非常深厚的積累，這在其他公司，尤其是國內(nèi)的一些公司中可能相對(duì)欠缺。另外，正如我之前提到的，團(tuán)隊(duì)協(xié)作方面，OpenAI 的 LLM 和其 GP4-V 等多模態(tài)模型也表現(xiàn)出顯著的優(yōu)勢，這些模型對(duì)于理解產(chǎn)生的數(shù)據(jù)極為關(guān)鍵，對(duì)生成模型的訓(xùn)練也會(huì)有很大影響。

我們?cè)跀?shù)據(jù)構(gòu)建方面落后于他們，在訓(xùn)練的最終結(jié)果上也有較大的差距。，所以這構(gòu)成了一個(gè)非常深的護(hù)城河，我們需要在各個(gè)方面實(shí)現(xiàn)追趕和超越。

Q3：您剛剛提到數(shù)據(jù)層面，只是原始收集的數(shù)據(jù)量比我們大，還是他借助的這些工具做得更好、質(zhì)量更好呢？

A3：我之前聽說過 OpenAI 在下載全互聯(lián)網(wǎng)的視頻數(shù)據(jù)，具體數(shù)據(jù)量他們沒有公開，我也不好猜測。另外，也有分析指出他們使用了 UE 引擎來造數(shù)據(jù)。考慮到他們對(duì) Scaling Up 的崇拜，我覺得他們的數(shù)據(jù)量應(yīng)該是非常巨大的，可能超出我們的想象。

在數(shù)據(jù)質(zhì)量上，如我之前所述，對(duì)視頻的描述能力會(huì)產(chǎn)生很大的影響。即使我們擁有相同的數(shù)據(jù)，如果我們對(duì)其描述存在缺陷或差距，那么訓(xùn)練出來的生成模型也會(huì)有顯著的性能差異。所以，不僅是數(shù)據(jù)的數(shù)量，其質(zhì)量和處理方式同樣關(guān)鍵。

Q4：您認(rèn)為 Sora 這種機(jī)制，或者這種數(shù)據(jù)驅(qū)動(dòng)的方式，是否真的能夠理解這個(gè)物理世界？因?yàn)殛P(guān)于這個(gè)的爭論很多，到底能不能真正地實(shí)現(xiàn)所謂的世界模型呢？

A4：我個(gè)人覺得這還是比較困難的。我認(rèn)為我們現(xiàn)有的數(shù)據(jù)可能還不夠。在這種擴(kuò)大模型和訓(xùn)練的方式下，對(duì)于算力來說，數(shù)據(jù)的利用率是非常低的。例如，一個(gè)人不需要看幾十億、上百億的數(shù)據(jù)視頻就能理解影子是由物體遮擋光線產(chǎn)生的，但是 AI 模型可能就需要極大量的數(shù)據(jù)才能學(xué)會(huì)這一點(diǎn)。當(dāng)然，如果有足夠多的數(shù)據(jù)，也許 AI 真的能夠?qū)W會(huì)，但是暫時(shí)來看，我們可能在有生之年都達(dá)不到這樣的數(shù)據(jù)規(guī)模，所以我認(rèn)為實(shí)現(xiàn)真正的物理世界理解是非常難的。

同時(shí)，也有人討論說生成模型是否一定需要對(duì)物理有強(qiáng)制性約束，因?yàn)槲覀儗?shí)際上看到的世界有時(shí)也會(huì)因?yàn)槲覀冏约旱囊曈X系統(tǒng)產(chǎn)生誤判。比如，兩個(gè)相同大小和顏色的正方形放在不同的背景下，我們也可能會(huì)判斷它們的亮度不同。所以，最終如果 AI 模型能夠符合我們?nèi)祟惖囊曈X偏好，也是可以接受的。

亚洲先锋影音人AV成_免费A级毛片一分钟_人人爽人人爽人人插_日韩少妇极品熟妇人妻潮喷

資訊詳情

擴(kuò)散模型與文生視頻

應(yīng)用程序開發(fā)中的生成式人工智能

打造數(shù)字基座：一場重塑未來教育的浩瀚遠(yuǎn)征

相關(guān)資訊