亚洲先锋影音人AV成_免费A级毛片一分钟_人人爽人人爽人人插_日韩少妇极品熟妇人妻潮喷

沃卡惠移動端logo

打架識別,基于循環(huán)神經(jīng)網(wǎng)絡(luò)RNN的視頻分類任務(wù)

沃卡惠2023-03-03 09:51:524636

哈嘍,大家好。

rn

今天給大家分享AI項目——打架識別。

rn

圖片

rn

使用的技術(shù)跟我們上次分享的摔倒識別不同,摔倒識別使用的是基于骨骼點的時空卷積神經(jīng)網(wǎng)絡(luò),適用于人體骨骼行為,而這次分享的打架識別使用的是循環(huán)神經(jīng)網(wǎng)絡(luò)RNN,可以實現(xiàn)更通用的視頻分類任務(wù)。

rn

當(dāng)然也可以用Vision Transformer,文中也有介紹。

rn

代碼已經(jīng)打包好了,獲取方式見評論區(qū)。

rn

1.整體思路

rn

視頻其實就是某種行為的連續(xù)序列,因此要使用序列模型處理,循環(huán)神經(jīng)網(wǎng)絡(luò)RNN就是序列模型。

rn

RNN最初應(yīng)用在自然語言處理中,如:根據(jù)輸入詞,判斷下一次詞的概率

rn

圖片

rn

模型為了讀懂每個詞代表的含義,模型會把每個詞用n維向量表示,這個過程其實就是word embedding。

rn

按照這個思路,一段視頻其實就是一句話,視頻里每張畫面就是一個詞,同樣地,我們也可以用卷機神經(jīng)網(wǎng)絡(luò)將每張圖映射成n維向量。

rn

所以,我們就可以訓(xùn)練一個RNN模型,將表示視頻的n維向量送入RNN模型,讓他輸出視頻類別的概率。

rn

現(xiàn)在比較流行的RNN模型有LSTM、GRU,本文使用的是GRU。

rn

2.數(shù)據(jù)集

rn

打架的開源數(shù)據(jù)集有很多,如:fight-detection-surv-dataset、A-Dataset-for-Automatic-Violence-Detection-in-Videos和UBI_FIGHTS等等。

rn

我使用的是fight-detection-surv-dataset數(shù)據(jù)集,包括150個打架視頻和150個正常視頻。

rn

數(shù)據(jù)集很小,訓(xùn)練的時候很容易過擬合,精度只有70%。但思路和代碼都是可以復(fù)用的。

rn

大家做的時候可以換成大的數(shù)據(jù)集,比如:ucf數(shù)據(jù),包含很多動作視頻

rn

圖片

rn

ucf50數(shù)據(jù)集

rn

我用這個數(shù)據(jù)集訓(xùn)練過GRU和Transformer模型,效果還可以。

rn

3.提取視頻特征

rn

接下來,我們要做的就是提取視頻特征,將視頻中每張畫面映射成n維向量。

rn

使用InceptionResNetV2網(wǎng)絡(luò),輸入一張圖片,輸出的是1536維向量。

rn
rndef video_feat_extractor():
rn

inception_resnetv2=InceptionResNetV2(

rn

include_top=False,

rn

weights='imagenet',

rn

pooling='avg',

rn

input_shape=(IMAGE_SIZE,IMAGE_SIZE,3))

rn

inputs=tf.keras.Input(shape=(IMAGE_SIZE,IMAGE_SIZE,3))

rn

inputs_preprocessed=preprocess_input(inputs)

rn

outputs=inception_resnetv2(inputs_preprocessed)

rn

return tf.keras.Model(inputs,outputs,name='video_feat_extractor')

rn

這樣,詞向量就已經(jīng)有了。然后再抽取每個視頻的前20幀,組成一個句子。

rn
rnMAX_FRAMES=20
rn

video_feat_extractor_model=video_feat_extractor()

rn

#取前MAX_FRAMES幀

rn

frames=frames[:MAX_FRAMES]

rn

#計算視頻特征

rn

video_feat=video_feat_extractor_model(frames)

rn

dataset_feats.append(video_feat)

rn

dataset_feats是20*1536的向量。

rn

這樣,我們就將一個視頻用向量形式表示出來了。

rn

4.循環(huán)神經(jīng)網(wǎng)絡(luò)

rn

GRU是LSTM的一個變種

rn

圖片

rn

模型搭建也比較簡單。

rn
rnmodel=keras.Sequential([
rn

layers.InputLayer(input_shape=(MAX_FRAMES,FRAME_FEAT_LEN)),

rn

layers.GRU(4,return_sequences=False),

rn

layers.Dropout(0.1),

rn

layers.Dense(class_num,activatinotallow='softmax')

rn

])

rn

GRU超參數(shù)4代表4個unit,即:模型輸出向量長度是4,大家如果做其他分類任務(wù),可以嘗試調(diào)整該值。

rn

圖片

rn

編譯模型

rn
rnmodel.compile(optimizer=optimizers.Adam(0.0001),
rn

loss='sparse_categorical_crossentropy',

rn

metrics=['accuracy'])

rn

這是個多分類任務(wù),因此損失函數(shù)使用sparse_categorical_crossentropy。

rn

接著就可以訓(xùn)練模型了,模型在訓(xùn)練集和測試集精度如下:

rn

圖片

rn

5.vision transformer

rn

同樣的,我們也可以用流行的Transformer來訓(xùn)練視頻分類模型

rn

圖片

rn

對于視頻分類任務(wù),不需要Decoder網(wǎng)絡(luò),用多頭自注意力模型搭建一個Encoder網(wǎng)絡(luò)即可。

rn

關(guān)于vision transformer后續(xù)有機會的話我會專門分享一個項目,這次代碼以GRU為主。

rn