English Version
计算机科学与技术 | 更新时间:2024-04-03
    • 三维注意力增强的暴力场景检测算法

    • Three-dimensional attention-enhanced algorithm for violence scene detection

    • 丁昕苗

      ,  

      王家兴

      ,  

      郭文

      ,  
    • 西安电子科技大学学报   2024年51卷第1期 页码:114-124
    • DOI:10.19665/j.issn1001-2400.20230206    

      中图分类号: TP311
    • 收稿日期:2022-10-31

      网络出版日期:2023-08-29

      纸质出版日期:2024-01-20

    移动端阅览

  • 引用本文

    阅读全文PDF

  • 丁昕苗, 王家兴, 郭文. 三维注意力增强的暴力场景检测算法[J]. 西安电子科技大学学报, 2024,51(1):114-124. DOI: 10.19665/j.issn1001-2400.20230206.

    Xinmiao DING, Jiaxing WANG, Wen GUO. Three-dimensional attention-enhanced algorithm for violence scene detection[J]. Journal of xidian university, 2024, 51(1): 114-124. DOI: 10.19665/j.issn1001-2400.20230206.

  •  
  •  
    论文导航

    摘要

    为了提升互联网多媒体内容安全检测能力,有效过滤不良信息,提出了一种基于三维注意力增强的视频暴力内容检测算法。该算法以3D-DenseNet为骨干网络,首先利用P3D提取低层次的时空特征信息;其次引入SimAM注意力模块计算通道-空间注意力,增强帧画面重点区域信息;然后设计了时域注意力加强的过渡层突出重点时序信息,如此形成通道-空间-时间三维注意力,提升暴力场景检测性能。实验结果显示,算法在内容单一的小规模暴力行为检测数据集Hockey和Movies上准确率分别达到了98.75%和100%,在内容多样的大规模数据集RWF-2 000上达到了89.25%,综合性能优于同类算法,验证了算法的有效性;在长视频的暴力内容定位实验中,算法在VSD2014数据集上相较同类算法也取得了更好的检测效果,证明了算法在暴力内容检测方面的泛化能力。

    Abstract

    In order to improve the ability of multimedia to analyze the security on Web and effectively filter the objectionable content,a violent video scene detection algorithm based on three-dimensional attention is proposed.Taking the 3D DenseNet as the backbone network,the algorithm first uses the P3D to extract low-level spatial-temporal feature information.Second,the SimAM attention module is introduced to calculate channel-spatial attention so as to enhance the feature of the key area in the video frame.Then,a transition layer with temporal attention is designed to highlight the feature of key frames in the video.In this way,the channel-spatial-temporal attention is formed to better detect violent scenes.In the experiments on violence detection,the accuracy reaches 98.75% and 100% on Hockey and Movies,which are small data sets with a single content,and 89.25% on RWF-2000,which is a large data set with a diverse content.Results show that the proposed algorithm can effectively improve the performance of violence detection with 3D attention.In the violent content localization detection experiment on data set VSD2014,the better performance further proves the effectiveness and generalization ability of the algorithm.

    关键词

    暴力检测; 深度学习; 注意力机制; 模式识别; P3D; 3D-DenseNet

    Keywords

    violence detection; deep learning; attention mechanism; pattern recognition; P3D; 3D-DenseNet

    1 引言

    随着多媒体技术的发展,每秒中有大量的视频被制作上传并通过多媒体平台在互联网中传播,其中不乏暴力、恐怖、血腥等不适合青少年观看的敏感内容。为了给未成年人提供一个绿色的上网环境,必要的视频内容监管是不可或缺的。而庞大的视频数量,使得人工审核耗时耗力且无法保证长期的检测稳定性,因此亟需合适的智能化检测方法。

    目前对视频敏感内容的检测存在两种粒度:一种是视频层级的检测,即判断视频是否属于敏感视频,如果是,将直接禁止该视频在网络中传播;另一种则是视频片段层级,即准确定位敏感内容出现的位置,只对该部分进行过滤。前者检测效率高,安全性也好,但也会因为以偏概全的严苛标准带来不便,如某些包含战争场景的历史纪录片将无法正常在网络中传播,这会给学习相关知识的学生带来一定的困扰。因此,文中工作旨在研究视频片段层级的敏感内容检测方法,且敏感内容主要针对暴力场景。

    1.1 相关工作

    在早期的研究中,暴力内容的检测方法通常依赖于对血液、火焰与音频等特定线索的识别;CLARIN等[

    1]通过捕捉含有皮肤和血液的区域,并对这些区域进行快速运动分析来进行暴力内容的检测;NAM等[2]结合了多种视听特征来识别暴力内容,通过对视频中的火焰和血液、运动的程度以及暴力事件的声音特征进行检测。虽然利用音频和视频来检测和定位暴力内容方面,在早期取得了不错的效果,但是因监控视频一般不涉及音频信息,即使存在音频信息,也会受到周围嘈杂声音的干扰。因此,相关研究开始重点关注基于视频信息的方法。文献[3]提出了一种检测视频中暴力内容的模型,其从视频中提取图像帧,并将它们作为卷积神经网络(Convolutional Neural Networks,CNN)模型的输入,对其进行分类。这些基于特定线索进行暴力场景检测的方法,存在泛化性较弱的特点,且需要逐帧检测,效率较低且缺少帧间的关联信息。

    还有部分工作针对暴力行为检测展开研究。早期的工作主要是利用手工制作的特征来检测小规模数据集上的暴力行为。常见的特征包括运动尺度不变特征变换(Motion Scale-Invariant Feature Transform,MoSIFT)[

    4]、时空兴趣点(Space-Time Interest Points,STIP)[5]、定向梯度直方图(Histogram of Oriented Gradient,HOG)[6]、定向光流直方图(Histograms of Oriented optical Flow,HOF)[7]等。随着深度神经网络的兴起,二维卷积神经网络(2D Convolutional Neural Networks,2DCNN)开始被应用于暴力场景检测[8]。视频信息是一个帧的时间序列,所以时序信息变得更加重要,而2DCNN不能编码动态运动信息,于是有工作将2DCNN与循环神经网络(Long Short-Term Memory,LSTM)相结合来设计有效的深度卷积神经网络进行暴力行为检测。例如,SUDHAKARAN和 LANZ [9] 使用卷积长短期记忆(Long Short-Term Memory,LSTM) 网络来识别暴力视频,即将卷积操作嵌入到LSTM中,实现时空的结合,避免了空间信息的损失。ZAHIDUL等[10]使用RGB帧差信息与背景抑制信息结合,组成双流架构作为输入,并且使用轻量级CNN-MobileNet来提取时空特征信息,之后使用可分离卷积LSTM(Separable Convolutional LSTM,SepConvLSTM)从CNN的输出特征图中提取局部时空特征;该方法在当前的暴力行为识别方面具有良好的性能。

    为了更好地捕获时空特征且无需复杂的预处理操作,三维卷积网络逐渐被应用于暴力检测[

    11⇓-13]。LI等[11]首先提出使用3D CNN模型进行暴力行为检测,而不再使用手工制作的特征或RNN结构来专门编码时间信息。ULLAH等[12]进一步改进了三维卷积神经网络模型,将训练模型转化为中间表征来自主检测暴力事件。ACCATTOLI等[13]首先通过预训练的三维CNN架构从原始输入视频中提取更多的特征信息,然后输入支持向量机(Support Vector Machine,SVM),将视频序列归类为暴力或非暴力事件。

    鉴于注意力机制在各个领域的应用取得了良好的效果,各种注意力机制也被引入到了暴力检测中。其中文献[

    14]选择轻量级的端到端神经网络架构GhostNet和ConvLSTM来构建长期递归卷积网络,并使用了空间注意力模块(Spatial Attention Module,SAM)去除背景冗余信息,在RWF-2 000数据集上取得了约87.5%的准确率。LIANG等[15]使用时间位移模块(Temporal Shift Module,TSM)在暴力行为识别过程中获取长期依赖信息,并在网络前端引入了一个高效的通道注意模块,增强了模型的空间特征提取能力。REND N-SEGADOR等[16]提出了暴力检测网络ViolenceNet。首先,使用3D DenseNet作为特征提取模块;之后,通过多头自注意力层和双向ConvLSTM层提取相关的时空特征;最后,将特征输入到4层分类器中进行分类,在4个小型暴力场景数据集取得了较高的准确率。

    利用暴力行为检测方法来进行暴力场景的定位,可以将逐帧检测改为短序列检测,一方面可以提高检测效率,另一方面补充了检测细节和显著性信息,进而可以增强模型的泛化性。但还存在如下问题导致检测效果不理想:

    (1) 目前基于三维卷积的检测算法,由于模型参数量过大,无论使用光流信息还是直接将视频序列作为输入,均需要昂贵的计算成本,难以应对视频内容检测庞大的数据量。

    (2) 由于在一段视频序列中,暴力行为往往集中在部分时序中,而这些关键时序的帧画面中,暴力动作又多集中于某些区域,如果对所有时序帧和画面做等权重处理,将会模糊关键信息。通过引入注意力可以突出关键信息,但目前注意力模型大多只关注空域信息,并未同时关注时序信息,导致关键信息加强不足。

    为了解决上述问题,文中设计了具有三维注意力感知的密集卷积网络,从通道-空间-时间3个维度来加强暴力行为特征的提取,并应用到长视频的暴力内容定位中。

    1.2 笔者的工作

    文中所设计的网络结构如图1所示。该网络由两部分组成,包括伪3D卷积(Pseudo-3D,P3D)和具有三维注意力感知的密集卷积网络(3D Attention-aware DenseNet Conv3D,3DA-DenseNet)。P3D主要用来完成对低层次时空信息的提取。3DA-DenseNet基于3D-DenseNet框架[

    17],一方面将初始卷积的卷积核由原来的3×7×7缩小到3×5×5,降低模型参数量,另一方面,设计了三维注意力机制,通过引入无参数的通道-空间注意力模块感知视频帧画面的重要信息;同时设计具有时序注意力感知的时间过渡层,在捕获长短范围的时序信息后,经过时序注意力的加权,使模型更加关注时序中的重要信息。通过在RWF-2 000数据集上进行训练后,采用片段检测的方式将其应用于长视频的暴力内容定位检测中。

    fig

    图1  算法框架

    icon 下载:  | 高精图 |

    笔者的主要工作和贡献如下:

    (1) 采用了P3D卷积层提取低层次的时空信息,其不需要进行复杂的预处理或计算,且有效降低了参数量,提高了暴力视频内容检测的效率,同时缓解了DenseNet需要大量显存的问题。

    (2) 改进3D-DenseNet的初始卷积核大小,由原始的3×7×7降低到3×5×5,可以避免过大的感受野遇到尺寸较小目标时带来的模型收敛困难。

    (3) 在Dense Block和TTL中引入注意力模块,实现了通道-空域-时域三个维度的特征加权,突出了特征的多维度判别性信息。

    2 三维注意力增强的暴力内容检测算法

    2.1 低层次时空特征提取

    现有的诸多研究已证实,光流特征对暴力行为检测是有效的[

    18⇓-20],但是其巨大的计算量和较大的特征尺寸限制了其检测效率。尤其是针对密集卷积网络,当输入的特征尺寸比较大时,经过三维密集卷积网络的层层连接会产生大量参数,如果特征中又存在较多的冗余信息时,将会影响高级特征的复用。于是,在特征信息输入DenseNet前,使用P3D来提取低层次的时空特征,减少特征中存在的冗余信息,有效降低了网络参数。

    图2所示,在特征提取模块中采用了4个P3D与最大池化层组成的卷积网络模块,使用1×3×3卷积和3×1×1卷积串联的方式来进行低层次的时空特征提取。1×3×3卷积获取低层次的空间维度特征,3×1×1卷积获取低层次的时间维度特征。每个P3D结构后面引入三维最大池化层,在减少参数量的同时,避免较多的冗余信息的影响。且最大池化层被设置了不同大小的pool_size,在对特征进行降维的同时可以学习图像特征的边缘和纹理信息,并且在训练小数据集时,可以在一定程度上防止过拟合的发生,此处分别设置为(1,2,2)、(4,1,1)、(2,2,2)和(1,2,2)。

    fig

    图2  P3D特征提取结构图

    icon 下载:  | 高精图 |

    2.2 三维注意力增强的密集卷积网络

    2.2.1 密集卷积骨干网络优化

    研究表明,随着网络层数的加深梯度消失的问题会越来越明显,DenseNet在确保网络结构层与层之间最大程度信息关联的前提下,通过拼接所有层来降低网络深度带来的梯度弥散问题[

    21]。其骨干结构为核心模块Dense Block的级联,每一层Dense Block会接收前面所有层的特征映射,即网络早期特征不仅被相邻的网络使用,还被之后所有的网络多次使用。随着网络深度的增加,特征通道数将会在初始通道数基础上逐级增大,过多的通道数不仅降低了网络的计算效率和参数效率,而且使网络更容易发生过拟合。本工作通过实验,在兼顾检测效果和效率的情况下,将初始卷积的通道数设为16。

    另外,P3D网络学习后的特征,其包含相对重要的信息且特征尺寸变小,当遇到过大的感受野会造成模型收敛困难,严重影响检测性能,因此本工作将DenseNet的初始卷积核大小由原来的3×7×7降低到3×5×5。

    2.2.2 通道-空间域-时域三维注意力设计

    虽然三维卷积在检测、识别领域已有了一定的研究,但仍然是一个具有挑战的问题。对于视频信息,其检测、识别的主要内容在视频序列关键帧的关键区域中,但三维卷积往往缺乏提取这类信息的能力[

    22-23]。相关文献表明,注意力机制可以抑制冗余的背景信息从而提取关键信息,无论在图像或是视频领域,通过引入注意力机制均取得了良好的性能[24⇓-28]。因此文中针对视频的特性,分别设计了捕捉帧画面关键信息的通道-空间注意力和捕捉时域关键信息的时间过渡层,形成具有三维注意力感知的检测网络。

    (1) 通道-空间注意力。为了能突出视频画面的关键信息,且不引入额外的参数,此处采用无参数的注意力模块(3D Simple Attention Module,3D SimAM)[

    29]来计算通道-空间注意力。SimAM的注意力机制基于空间抑制现象[30],通过使用视觉神经科学的能量函数来为不同通道的不同空间位置分配权重,能量函数将特征图的每个像素视为一个神经元。假设某通道特征图包含N个像素,其中目标神经元所对应像素特征为z,除z以外的神经元对应像素特征为xi,i=1,…,N-1,则该通道神经元的最小能量可以用下式来计算:

    et= 4(σ^2+λ)(z-μ^)2+2σ^2+2λ, (1)

    其中, μ^= 1N-1i=1N-1xi σ^2= 1N-1i=1N-1(xi- μ^)2是对该通道中除z以外的所有神经元计算的平均值和方差;λ是一个超参数,通常取10-4。在视觉神经科学中,人们认为较低的能量表明神经元与周围的神经元有较大的区别[

    30]。因此,选择将1/et作为单个通道中每个神经元空间域权重。而每个通道均可以根据式(1)得到不同的能量函数,即对应不同的通道权重。

    通过优化特征图的每个神经元的能量函数,SimAM注意力模块可以在不需要引入额外参数的前提下计算注意力权重。相较于CBAM、SENet注意力机制,SimAM可以更好地捕捉任务相关特征,并抑制背景冗余信息[

    30]

    (2) 时域注意力加强的过渡层。感受野在视觉任务中对最终的结果好坏有很大的影响,比如同样一个暴力动作,男性和女性、年轻人和老年人完成动作的时间不一样,那么需要用不同时间维度的感受野来进行行为分类。但是现有的方法通常在时间维度上的步长或窗口都是固定的,因此无法满足各种各样复杂暴力动作的准确识别。为了解决该问题,DIBA等[

    31]提出了时间过渡层(Temporal Transition Layer,TTL)来融合短、中、长时域信息。但是该方法在不同长度时域信息拼接后被直接输入到过渡层进行三维平均池化,导致所有帧特征被平等对待。而如前所述,实际中暴力动作只发生在部分时序中,平均化处理将导致判别性较高的帧特征被削弱,进而影响模型的性能。于是,本工作设计了基于时域注意力的时间过渡层(Temporal Attention weighted TTL,TAT)来更好地捕获时间信息。

    TAT的目的是在更短和更长的时间范围内建模可变时间的三维卷积核深度,使网络结构提取不同时间感受野的时间特征映射,并通过基于注意力的加权融合增强时域判别性信息。其结构由3个不同时序深度的3D卷积核和一个池化层组成,3D卷积核的时序深度范围为d∈{t1,t2,t3}。参考TTL[

    31]的处理方法,在第一次经过时间过渡层时,将t1t2t3设为1、3和6,而之后的t1t2t3分别为1、3和4,之后使用Concatenation将3个时间信息提取分支进行拼接,这些时间信息是整个网络中均匀使用固定时间深度所无法捕获的重要信息。为了突出关键帧的特征信息,本工作基于SANGHYUN等[24]提出的卷积块注意力(Convolutional Block Attention Module,CBAM)设计了时域注意力模块,并据此对帧特征权重进行重新分配。整体结构如图3所示。

    fig

    图3  时间过渡层结构图

    icon 下载:  | 高精图 |

    假设时间分支拼接后的特征信息为Q∈Rt×h×w×c,为了计算时域注意力,首先需完成通道、空间信息的压缩,此处对两种信息均采用了平均池化和最大池化,来聚合特征映射的通道、空间信息,分别生成两个不同的特征映射QaQm∈Rt×1×1×1。之后将QaQm通过Concatenation进行拼接,送入卷积核为7×7的卷积,经Relu 激活函数降维后,再经过Sigmoid生成权重w:

    w=δ(F(Concat(Qa,Qm))), (2)

    其中,δ为Sigmoid函数,F代表卷积层。最终将w与输入的特征Q进行逐元素相乘实现权值更新。其操作可以用下式表示:

    Q*=δ(F(Concat(Qa,Qm)))$\otimes $Q (3)

    输入特征在经过时域注意力的权重更新后,使得模型更加关注具有判别性信息的帧序列。

    2.2.3 视频暴力内容定位

    由于目前长视频中的暴力内容定位大多采用逐帧检测的方式,效率低且丢失了帧序列的时序关系。文中采用视频序列检测的方式,将所设计的暴力行为检测模型应用到暴力内容定位中,其过程如图4所示。为了保证模型的监测性能,首先采用大型暴力行为数据集RWF-2 000对模型进行训练,然后对长视频进行序列截取,并输入到训练好的检测模型进行检测,最后根据检测结果输出暴力内容位置。其中,在视频序列截取时采用了两种方式,一种是镜头分割的方法,该方法针对的是时常较长的电影或纪录片视频;另一种是采用固定采样间隔的分割方式,其针对的是少镜头或单镜头的短视频。镜头分割采用了基于HSV(色调Hue,饱和度Saturation和亮度值Value)颜色空间的镜头检测算法[

    32]。该算法利用视频同一镜头背景变化不大的特点,以H、S、V 3个颜色分量的均值和方差作为特征参数,计算两帧之间的颜色差值,能有效地检测出视频中镜头切换的位置。固定的采样间隔是根据输入视频总帧数除以采样帧数来确定的,输入视频通过固定的采样间隔进行均匀采样。当固定采样结束后其帧数小于最少采样帧时,将使用固定采样后的连续帧作为补充,防止因为输入过短视频造成检测性能下降。根据多次实验测试,本工作将最少采样帧定为64。另外,为了提高模型的泛化能力,在检测时,对输入视频进行数据增强,包括对视频帧进行色彩抖动、随机翻转,对亮度、对比度、饱和度和色相进行随机变换。

    fig

    图4  视频暴力内容检测流程图

    icon 下载:  | 高精图 |

    3 实验分析

    3.1 数据集及评价标准

    3.1.1 数据集介绍

    (1) HockeyFight[

    5]。该数据集包含1 000个从冰球比赛中收集的暴力和非暴力视频。训练集包括800个视频片段,验证集包含200个视频片段。视频的主要内容是冰球比赛中的暴力事件。每个视频平均时长为1.6 s,帧率为25帧/s。

    (2) Movies[

    5]。该数据集从动作打斗电影中截取了500个暴力视频片段和500个非暴力视频片段,每个视频平均时长为1.5 s,帧率为25帧/s。

    (3) RWF-2 000[

    33]。该数据集是目前最大的暴力检测数据集,包含2 000个真实的监控录像。每个视频的时长均为5 s,分辨率不同,帧率为30 帧/s。主要包含两人、多人的暴力行为,场景丰富,识别难度较大。

    (4) Violent Scene Dataset 2014(VSD2014)[

    34]。该数据集的视频只有部分片段为暴力或者整个视频均不含暴力内容,主要用来完成暴力视频内容的定位测试,所有暴力片段的开始帧和结束帧均有标注。其将血腥、爆炸、打架、尖叫、纵火、开枪等行为归为暴力事件,场景复杂,不仅包括监控录像还包括游戏画面,对模型的泛化性能力有一定的考验。数据集分为3个部分,包括Hollywood:Development(H_D)、Hollywood:Test(H_T)和YouTube:Generalization(Y_G)。其中H_D包括24部好莱坞电影,用于模型训练;H_T包括7部好莱坞电影,每部电影平均时长119 min,用来测试模型性能;Y_G包含86个YouTube上的网络短视频,时常从6 s到6 min不等,每个短视频的帧率均为25帧/s,主要用来测试模型的泛化性能。文中使用H_T和Y_G两部分对暴力内容定位进行测试,同时检测模型的泛化能力。

    3.1.2 评价标准

    文中采用检测精度(ACCuracy,ACC)、精准率(Precision)、召回率(Recall)、平均精确率均值(Mean Average Precision,MAP)作为模型性能的评价指标。实验中把暴力片段定义为正类,非暴力视频片段定义为负类。假设TP表示暴力视频片段预测为正类的数量,TN表示非暴力视频预测为负类的数量,FP表示非暴力视频片段预测为正类的数量,FN表示暴力视频片段预测为负类的数量,则各评价指标计算如下:

    (1) 检测精度。检测精度是正确预测的样本数量占所有测试样本数的比率,其计算如下:

    Aaccuracy= TP+TNTP+TN+FP+FN (4)

    (2) 精准率。精准率是正确预测的样本数量占全部预测为正样本的比率,其计算如下:

    Pprecision= TPTP+FP (5)

    (3) 召回率。召回率是正确预测为正样本占全部暴力视频样本的比例,其计算如下:

    RRecall= TPTP+FN (6)

    (4) 平均精确率均值(MAP@100和MAP2014)。该标准主要用于评价暴力内容定位的性能。根据VSD2014数据集的评价要求,其具体包括以下两种评价标准:

    ① MAP@100。对所有检测视频中标记为暴力的片段按精准率排序,前100个暴力片段的平均精准率均值。

    ② MAP2014。所有被算法标记为暴力的片段按照精确率降序排序,根据预测片段的标签与相应真实片段标签重叠超过50%,则对暴力的预测视为命中,在同一片段上的多次命中仅算作一个真阳性,其他的忽略不计,也就是所有真阳性的平均精准率均值。

    3.2 实验设计及结果分析

    文中实验的运行环境为Ubuntu 16.04系统,内存为12 GB,GPU为GTX 2080 Ti。软件配置为CUDA 10.2、CUDNN 7.6.5。深度学习算法框架使用tensorflow 2.2。DenseNet共设置了29层,Growth_Rate为4。RWF-2 000数据集的输入尺寸为64×256×256×3,Hockey和Movies数据集的输入尺寸为32× 256×256×3,迭代次数Epoch为60。使用Adam梯度优化器,学习率初始化为0.001,最终选取在测试集表现最好的模型设置用于验证。

    3.2.1 消融实验

    为详细研究文中算法各个模块产生的性能增益,此处以3D-DenseNet模型为基础网络,逐步添加P3D、SimAM注意力模块、时域注意力加强的过渡层(TAT)模块和对3D-DenseNet初始卷积的优化(卷积核由 3×7×7 缩小到3×5×5),评估算法在RWF-2 000数据集上的性能指标。结果如表1所示,其中Base表示基础模型。

    表1  RWF-2 000数据集上每种改进策略产生的性能增益对比
    算法名称P3DSimAMInitial_kernelTAT准确率/%参数量/M
    Base - - 3×7×7 - 80.25 0.370
    Base+P3D - 3×7×7 - 84.25 0.131
    Base+ P3D+ SimAM 3×7×7 - 85.50 0.131
    Base+ P3D+ TAT 3×7×7 87.65 0.575
    Base+P3D+SimAM+TAT 3×7×7 88.75 0.575
    文中模型 3×5×5 89.25 0.538

    注:“√”和“-”分别表示该模块“加入”和“未加入”到基础网络中。

    icon 下载:  CSV

    首先,从特征预处理方面来看,相较于基础模型,“基础模型+P3D”的结果要好很多,说明了P3D对特征优化的有效性。为了进一步对比不同特征提取的性能,实验中也尝试使用光流特征,但是由于光流数据量巨大,超出本实验环境所能提供的最大显存,导致无法正常训练,因此并未得到最终的结果,但是这也同时说明了光流特征的局限性。从表中的参数量可见,加入P3D后,可以大大减少特征信息量。

    其次,由表1可知,除去特征提取模块,剩余3个模块对性能的提升均有不同程度的贡献,其中捕获时域信息的TAT模块贡献最大,能为模型提升约3.4%的性能增益,这主要得益于其能使模型捕获不同范围的时域信息,并为每一帧分配不同的权重。结合SimAM注意力模块形成三维注意力,模型性能可以得到进一步提高,最终结合所有的模块,文中方法在RWF-2 000数据集上性能增益达到了89.25%。

    最后,从参数量上来看,加入SimAM不会增加模型参数量,且提升了1.25%的性能增益,而贡献较大的TAT则引入了较大的参数量。为了适当减轻模型的参数压力,文中对基础模型进行了一定的优化,通过将初始卷积核由3×7×7改为3×5×5来适当降低参数量,如表1最后两行所示。同时也可以看出,该优化对检测性能也带来了一定的提升,说明适当缩小感受野,避免空间分辨率过低,有利于提高检测率。

    3.2.2 暴力行为检测对比实验

    为了证明文中方法的有效性,此处选取了6种前沿暴力检测方法与文中模型在3个数据集(RWF-2 000、Movies、Hockey)下进行性能指标对比。对比方法如下:

    (1) 3D CNN[

    11]。该方法使用改进的DenseNet,结合RGB信息在Movies和Hockey数据集上进行暴力行为检测。

    (2) ViolenceNet[

    16]。使用3D DenseNet、多头注意力机制和双向卷积结合光流信息在Movies和Hockey数据集上进行暴力检测。

    (3) SAM-ConvLSTM[

    14]。使用GhostNet和ConvLSTM作为特征提取器,并引入了SAM注意力机制;

    (4) ECA-TSM[

    15]。使用了两个串联的TSM模型,并引入了ECA注意力机制。

    (5) Flow Gated Net[

    33]。使用MobileNet和P3D深度可分离卷积概念修改3D卷积层,并且采用RGB信息和光流信息相结合的方法进行暴力检测。

    (6) SepConvLSTM[

    10]。通过预先训练的轻量化网络MobileNet和SepConvLSTM双流网络,结合背景抑制帧和相邻帧的差异信息作为输入进行暴力检测。

    实验对比如表2所示。由表2中数据可得:

    表2  暴力行为检测对比实验
    模型RWF-2000/%Movies/%Hockey/%
    3D CNN 86.55 100 98.30
    ViolenceNet 87.00 100 98.60
    SAM-ConvLSTM 87.50 97.50
    ECA-TSM 89.27 98.90
    Flow Gated Net 87.25 100 98.00
    SepConvLSTM 88.25 100 98.25
    文中模型 89.25 100 98.75
    icon 下载:  CSV

    (1) 相较于采用RGB信息与光流信息结合的双流网络,如Flow Gated Net,文中模型仅使用RGB信息在3个数据集上取得了更高的准确率,表明文中模型中的三维网络无需复杂的光流信息便可提取有效的运动信息。

    (2) 相较于使用ConvLSTM来提取时间信息的网络,如SAM-ConvLSTM和SepConvLSTM,文中模型采用3D DenseNet可以更好地提取视频中的时间信息,结合不同的采样间隔,能够针对不同时长的视频进行暴力检测,因此取得了优于SAM-ConvLSTM和SepConvLSTM的检测结果。

    (3) 相较于同样使用3D DenseNet的网络模型,如3D CNN、ViolenceNet等,虽然其在短视频小数据集中取得了不错的效果,但是在包含2 000个视频且平均时长为5 s的大数据集RWF-2 000中性能并不理想。而文中算法可以在3个数据集中均取得较高的性能指标。这一方面得益于文中模型中时域注意力加强的过渡层对短、中、长时域信息的融合,改善了CNN模型处理时间信息的局限性;另一方面得益于通道-空间-时间三维注意力模块对视频关键信息的提取。

    (4) 相较于目前准确率最高的ECA-TSM,文中模型性能在两个数据集上比其略低0.02%和0.15%。但是该模型需串联两个TSM模型,仅仅1个TSM模型所需要的参数量就有24.3 M,而文中模型采用P3D降维减少参数量,最终参数量控制在0.538 M,是远小于该模型的。

    3.2.3 暴力内容定位对比实验

    本实验通过在RWF-2 000数据集上训练模型,在VSD2014数据集中的Hollywood:Test和YouTube:Generalization两部分进行测试,来验证本模型的暴力内容定位检测能力和泛化性能。结果如表3所示。其中,FUDAN[

    35]和FAR[36]是VSD 2014公开测试方法中成绩最好的两个团队的结果,3D CNN则是3.2.2节中同样基于DenseNet的暴力行为检测方法,跟文中方法一样,是通过RWF-2 000数据集的预训练,在H_T和Y_G上进行测试的。FUDAN[35]和FAR[36]两种方法的概述如下。

    表3  暴力内容定位对比实验 %
    数据集方法精确率召回率MAP@100MAP@2014
    Hollywood:Test FUDAN 41.1 72.1 72.7 63.0
    FAR 28.0 71.3 57.0 45.1
    3D CNN 35.2 68.8 69.5 52.0
    文中方法 48.7 77.3 77.4 65.6
    YouTube:Gen FUDAN 59.0 43.4 71.9 60.4
    FAR 49.7 85.8 86.0 66.4
    3D CNN 45.5 67.2 76.8 55.6
    文中方法 60.2 89.7 88.5 68.8
    icon 下载:  CSV

    FUDAN[

    35]通过深度神经网络融合多种视觉特征和音频特征,包括4个基线特征:定向梯度直方图(HOG)、光流直方图(HOF)、运动边界直方图(MBH)和轨迹形状(TrajShape)描述符,其他两种特征包括时空兴趣点(STIP)和梅尔频率倒谱数(MFCC),其结果在H_T数据集上表现最好。

    FAR[

    36]首先分别从低级视觉特征和音频特征获得一组预测结果,然后融合结果和特征来检测暴力内容,其结果在Y_G数据集上表现最好。

    表3可知,文中模型的检测结果要优于其他检测方法,说明文中模型应用于暴力内容定位检测是可行的,也体现了其较好的泛化能力。

    图5展示了VSD2014数据集的部分检测效果图。其中第1行爆炸产生的火焰3D CNN无法判定为暴力内容,以及第4行正常的足球赛,3D CNN误将其判断为暴力内容,而文中模型则可以正确预测。这主要得益于SimAM注意力模块,当背景变得复杂时并不会影响检测性能。另外,文中模型可以更好地检测到持续时间短、过程快的暴力动作,如第2行与第3行挥动匕首、锤子的动作,这是由于TAT融合了短、中、长时域信息,通过学习不同维度的时间信息,更好地检测视频中快速的暴力动作。

    fig

    图5  测试结果与真实标签

    icon 下载:  | 高精图 |

    4 结束语

    文中提出了一种基于三维注意力增强的暴力内容检测模型。该模型可以有效地学习通道-空间-时域的判别性特征,并兼顾不同时间感受野的大小,更好完成暴力场景的检测。在3个暴力行为检测数据集上的实验结果表明,文中模型在暴力行为检测和暴力内容定位中均具有较好的性能。但在实验中笔者也发现该模型对某些特定暴力场景(如血腥、恐怖画面)检测效果欠佳,下一步将对音频特征进行研究,更好地提升模型的检测准确率。

    参考文献

    [1]

    CLARIN C, DIONISIO J, ECHAVEZ M, et al.DOVE:Detection of Movie Violence Using Motion Intensity Analysis on Skin and Blood(2005) [OL].[2022-01-01].https://www.researchgate.net/publication/249918692. https://www.researchgate.net/publication/249918692 [百度学术] 

    [2]

    NAM J, ALGHONIEMY M, TEWFIK A H. Audio-Visual Content-Based Violent Scene Characterization[C]//Proceedings 1998 International Conference on Image Processing(ICIP98). Piscataway:IEEE, 1998:353-357. [百度学术] 

    [3]

    TOFA K N, AHMED F, SHAKIL A. Inappropriate Scene Detection in A Video Stream[D]. Dhaka: BRAC University, 2017. [百度学术] 

    [4]

    CHEN M, HAUPTMANN A. MoSIFT:Recognizing Human Actions in Surveillance Videos(2009)[J/OL].[2022-01-01].http://reports-archive.adm.cs.cmu.edu/anon/anon/anon/anon/anon/home/anon/anon/2009/CMU-CS-09-161.pdf. http://reports-archive.adm.cs.cmu.edu/anon/anon/anon/anon/anon/home/anon/anon/2009/CMU-CS-09-161.pdf [百度学术] 

    [5]

    PADAMWAR B, PARTANI K. Violence Detection in Surveillance Video Using Computer Vision Techniques[J]. International Journal for Research in Applied Science & Engineering Technology, 2020, 8(VIII):533-536. [百度学术] 

    [6]

    DAS S, SARKER A, MAHMUD T. Violence Detection from Videos Using HOG Features[C]//In Proceedings of the 2019 4th International Conference on Electrical Information and Communication Technology(EICT). Piscataway:IEEE, 2019:1-5. [百度学术] 

    [7]

    RIBEIRO P C, AUDIGIER R, PHAM Q C. RIMOC, A Feature to Discriminate Unstructured Motions:Application to Violence Detection for Video-Surveillance[J]. Computer Vision and Image Understanding, 2016, 144:121-143. [百度学术] 

    [8]

    WON D, STEINERT-THRELKELD Z C, JOO J. Protest Activity Detection and Perceived Violence Estimation from Social Media Images[C]// Proceedings of the 25th ACM International Conference on Multimedia. New York: ACM, 2017:786-794. [百度学术] 

    [9]

    SUDHAKARAN S, LANZ O. Learning to Detect Violent Videos Using Convolutional Long Short-Term Memory[C]//In 2017 14th IEEE International Conference on Advanced Video and Signal Based Surveillance(AVSS). Piscataway:IEEE, 2017:1-6. [百度学术] 

    [10]

    ZAHIDUL I, MOHAMMAD R, RAIYAN A, et al. Efficient Two-Stream Network for Violence Detection Using Separable ConvolutionalLstm[C]//2021 International Joint Conference on Neural Networks(IJCNN). Piscataway:IEEE, 2021:1-8. [百度学术] 

    [11]

    LI J, JIANG X, SUN T, et al. Efficient Violence Detection Using 3d Convolutional Neural Networks[C]//2019 16th IEEE International Conference on Advanced Video and Signal Based Surveillance(AVSS). Piscataway:IEEE, 2019:1-8. [百度学术] 

    [12]

    ULLAH F U M, ULLAH A, MUHAMMAD K, et al. Violence Detection Using Spatiotemporal Features with 3D Convolutional Neural Network[J]. Sensors, 2019, 19(11):2472. [百度学术] 

    [13]

    ACCATTOLI S, SERNANI P, FALCIONELLI N, et al. Violence Detection in Videos by Combining 3d Convolutional Neural Networks and Support Vector Machines[J]. Applied Artificial Intelligence, 2020, 34(4):329-344. [百度学术] 

    [14]

    LIANG Q, LI Y, YANG K, et al. Long-Term Recurrent Convolutional Network ViolentBehaviour Recognition with Attention Mechanism[J]. MATEC Web of Conferences, 2021, 336:05013. [百度学术] 

    [15]

    LIANG Q, LI Y, CHEN B, et al. Violence Behavior Recognition of Two-Cascade Temporal ShiftModule with Attention Mechanism[J]. Journal of Electronic Imaging, 2021, 30(4):043009. [百度学术] 

    [16]

    REND N-SEGADOR F J, LVAREZ-GARCÍA J A, ENRÍQUEZ F, et al. ViolenceNet:Dense Multi-Head Self-Attention with Bidirectional Convolutional LSTM for Detecting Violence[J]. Electronics, 2021, 10(13):1601. [百度学术] 

    [17]

    HUANG G, LIU Z, LAURENS V D M, et al. Densely Connected Convolutional Networks[C]//2017 IEEE Conference on Computer Vision and Pattern Recognition(CVPR). Piscataway:IEEE, 2017:2261-2269. [百度学术] 

    [18]

    LEJMI W, KHALIFA A B, MAHJOUB M A. A NovelSpatio-Temporal Violence Classification Framework Based on Material Derivative and Lstm Neural Network[J]. Traitement du Signal, 2020, 37(5):687-701. [百度学术] 

    [19]

    WANG P, WANG P, FAN E. Violence Detection and Face Recognition Based on Deep Learning[J]. Pattern Recognition Letters, 2021, 142(Feb.):20-24. [百度学术] 

    [20]

    FEBIN I P, JAYASREE K, JOY P T. Violence Detection in Videos for an Intelligent Surveillance System UsingMobsift and Movement Filtering Algorithm[J]. Pattern Analysis and Applications, 2020, 23(2):611-623. [百度学术] 

    [21]

    HE K, ZHANG X, REN S, et al. Deep Residual Learning for Image Recognition[C]//2016 Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition(CVPR). Piscataway:IEEE, 2016:770-778. [百度学术] 

    [22]

    ZHANG J, XIE Y, XIA Y, et al. Attention Residual Learning for Skin Lesion Classification[J]. IEEE Transactions on Medical Imaging, 2019, 38(9):2092-2103. [百度学术] 

    [23]

    JADERBERG M, SIMONYAN K, ZISSERMAN A. Spatial Transformer Networks[C]//NIPS'15:Proceedings of the 28th International Conference on Neural Information Processing Systems-Volume 2. New York:ACM, 2015:2017-2025. [百度学术] 

    [24]

    SANGHYUN W, JONGCHAN P, JOON-YOUNG L, et al. CBAM:Convolutional Block AttentionModule[C]//Proceedings of the European Conference on Computer Vision(ECCV). Berlin:Springer, 2018,3-19. [百度学术] 

    [25]

    HU J, SHEN L, SUN G, et al. Squeeze-And-Excitation Networks[C]//2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Piscataway:IEEE, 2018:7132-7141. [百度学术] 

    [26]

    WANG F, JIANG M, QIAN C, et al. Residual Attention Network for Image Classification[C]//2017 IEEE Conference on Computer Vision and Pattern Recognition(CVPR). Piscataway:IEEE, 2017:6450-6458. [百度学术] 

    [27]

    刘迪, 郭继昌, 汪昱东, . 融合注意力机制的多尺度显著性目标检测网络[J]. 西安电子科技大学学报, 2022, 49(4):118-126. [百度学术] 

    LIU Di, GUO Jichang, WANG Yudong, et al. Multi-Scale Salient Object Detection Network Combining an Attention Mechanism[J]. Journal of Xidian University, 2022, 49(4):118-126. [百度学术] 

    [28]

    高德勇, 康自兵, 王松, . 利用卷积块注意力机制识别人体动作的方法[J]. 西安电子科技大学学报, 2022, 49(4):144-155. [百度学术] 

    GAO Deyong, KANGZibing, WANG Song, et al. Method to Recognize Human Action by Using the Convolutional Block Attention Mechanism[J]. Journal of Xidian University, 2022, 49(4):144-155. [百度学术] 

    [29]

    YANG L, ZHANG R, LI L, et al. SimAM:A Simple,Parameter-Free AttentionModule for Convolutional Neural Networks[C]// Proceedings of the 38th International Conference on Machine Learning. San Diego: ICML, 2021:11863-11874. [百度学术] 

    [30]

    WEBB B S, DHRUV N T, SOLOMON S G, et al. Early and Late Mechanisms of Surround Suppression in Striate Cortex of Macaque[J]. The Journal of Neuroscience, 2005, 25(50):11666-11675. [百度学术] 

    [31]

    DIBA A, FAYYAZ M, SHARMA V, et al. Temporal 3DConvNets:New Architecture and Transfer Learning for Video Classification(2017)[J/OL].[2022-01-01].https://arxiv.org/pdf/1711.08200.pdf. https://arxiv.org/pdf/1711.08200.pdf [百度学术] 

    [32]

    QU Z, LIN L, GAO T, et al. An Improved Keyframe Extraction Method Based on HSVColour Space[J]. Journal of Software, 2013, 8(7):1751-1758. [百度学术] 

    [33]

    CHENG M, CAI K, LI M.RWF-M.RWF- 2000: An Open Large Scale Video Database for Violence Detection[C]// 2020 25th International Conference on Pattern Recognition(ICPR). Piscataway: IEEE, 2021:4183-4190. [百度学术] 

    [34]

    SCHEDI M, SJOBERG M, MIRONICA I, et al. VSD 2014:A Dataset for Violent Scenes Detection in Hollywood Movies and Web Videos[C]// 2015 13th International Workshop on Content-Based Multimedia Indexing(CBMI). Piscataway:IEEE, 2015:1-6. [百度学术] 

    [35]

    DAI Q, WU Z, Jiang Y, et al. Fudan-NJUST atMediaEval 2014:Violent Scenes Detection Using Deep Neural Networks(2014)[J/OL].[2022-01-01].https://ceur-ws.org/Vol-1263/mediaeval2014_submission_65.pdf. https://ceur-ws.org/Vol-1263/mediaeval2014_submission_65.pdf [百度学术] 

    [36]

    SJOBERG M, MIRONICA I, SCHEDL M, et al. FAR atMediaEval 2014 Violent Scenes Detection:A Concept-based Fusion Approach(2014)[J/OL].[2022-01-01].https://ceur-ws.org/Vol-1263/mediaeval2014_submission_66.pdf. https://ceur-ws.org/Vol-1263/mediaeval2014_submission_66.pdf [百度学术] 

    66

    浏览量

    68

    下载量

    0

    CSCD

    文章被引用时,请邮件提醒。
    提交
    工具集
    下载
    参考文献导出
    分享
    收藏
    添加至我的专辑

    相关文章

    双向长短期记忆网络的时间序列预测方法
    融合超分辨率重建技术的多尺度目标检测算法
    融合上下文感知注意力的低光图像去雾网络
    注意力机制的SAR图像车辆目标检测网络
    一种用于自动驾驶场景的轻量级语义分割网络

    相关作者

    管业鹏
    苏光耀
    盛怡
    王娟
    刘子杉
    武明虎
    陈关海
    郭力权

    相关机构

    上海大学 通信与信息工程学院
    上海体育学院 竞技运动学院
    湖北工业大学 太阳能高效利用与储能运行控制湖北省实验室
    西安电子科技大学 综合业务网理论及关键技术国家重点实验室
    西安电子科技大学 电子工程学院
    0