图1 算法框架
收稿日期:2022-10-31,
网络出版日期:2023-08-29,
纸质出版日期:2024-01-20
移动端阅览
引用本文
阅读全文PDF
为了提升互联网多媒体内容安全检测能力,有效过滤不良信息,提出了一种基于三维注意力增强的视频暴力内容检测算法。该算法以3D-DenseNet为骨干网络,首先利用P3D提取低层次的时空特征信息;其次引入SimAM注意力模块计算通道-空间注意力,增强帧画面重点区域信息;然后设计了时域注意力加强的过渡层突出重点时序信息,如此形成通道-空间-时间三维注意力,提升暴力场景检测性能。实验结果显示,算法在内容单一的小规模暴力行为检测数据集Hockey和Movies上准确率分别达到了98.75%和100%,在内容多样的大规模数据集RWF-2 000上达到了89.25%,综合性能优于同类算法,验证了算法的有效性;在长视频的暴力内容定位实验中,算法在VSD2014数据集上相较同类算法也取得了更好的检测效果,证明了算法在暴力内容检测方面的泛化能力。
In order to improve the ability of multimedia to analyze the security on Web and effectively filter the objectionable content,a violent video scene detection algorithm based on three-dimensional attention is proposed.Taking the 3D DenseNet as the backbone network,the algorithm first uses the P3D to extract low-level spatial-temporal feature information.Second,the SimAM attention module is introduced to calculate channel-spatial attention so as to enhance the feature of the key area in the video frame.Then,a transition layer with temporal attention is designed to highlight the feature of key frames in the video.In this way,the channel-spatial-temporal attention is formed to better detect violent scenes.In the experiments on violence detection,the accuracy reaches 98.75% and 100% on Hockey and Movies,which are small data sets with a single content,and 89.25% on RWF-2000,which is a large data set with a diverse content.Results show that the proposed algorithm can effectively improve the performance of violence detection with 3D attention.In the violent content localization detection experiment on data set VSD2014,the better performance further proves the effectiveness and generalization ability of the algorithm.
随着多媒体技术的发展,每秒中有大量的视频被制作上传并通过多媒体平台在互联网中传播,其中不乏暴力、恐怖、血腥等不适合青少年观看的敏感内容。为了给未成年人提供一个绿色的上网环境,必要的视频内容监管是不可或缺的。而庞大的视频数量,使得人工审核耗时耗力且无法保证长期的检测稳定性,因此亟需合适的智能化检测方法。
目前对视频敏感内容的检测存在两种粒度:一种是视频层级的检测,即判断视频是否属于敏感视频,如果是,将直接禁止该视频在网络中传播;另一种则是视频片段层级,即准确定位敏感内容出现的位置,只对该部分进行过滤。前者检测效率高,安全性也好,但也会因为以偏概全的严苛标准带来不便,如某些包含战争场景的历史纪录片将无法正常在网络中传播,这会给学习相关知识的学生带来一定的困扰。因此,文中工作旨在研究视频片段层级的敏感内容检测方法,且敏感内容主要针对暴力场景。
在早期的研究中,暴力内容的检测方法通常依赖于对血液、火焰与音频等特定线索的识别;CLARIN等[
还有部分工作针对暴力行为检测展开研究。早期的工作主要是利用手工制作的特征来检测小规模数据集上的暴力行为。常见的特征包括运动尺度不变特征变换(Motion Scale-Invariant Feature Transform,MoSIFT)[
为了更好地捕获时空特征且无需复杂的预处理操作,三维卷积网络逐渐被应用于暴力检测[
鉴于注意力机制在各个领域的应用取得了良好的效果,各种注意力机制也被引入到了暴力检测中。其中文献[
利用暴力行为检测方法来进行暴力场景的定位,可以将逐帧检测改为短序列检测,一方面可以提高检测效率,另一方面补充了检测细节和显著性信息,进而可以增强模型的泛化性。但还存在如下问题导致检测效果不理想:
(1) 目前基于三维卷积的检测算法,由于模型参数量过大,无论使用光流信息还是直接将视频序列作为输入,均需要昂贵的计算成本,难以应对视频内容检测庞大的数据量。
(2) 由于在一段视频序列中,暴力行为往往集中在部分时序中,而这些关键时序的帧画面中,暴力动作又多集中于某些区域,如果对所有时序帧和画面做等权重处理,将会模糊关键信息。通过引入注意力可以突出关键信息,但目前注意力模型大多只关注空域信息,并未同时关注时序信息,导致关键信息加强不足。
为了解决上述问题,文中设计了具有三维注意力感知的密集卷积网络,从通道-空间-时间3个维度来加强暴力行为特征的提取,并应用到长视频的暴力内容定位中。
文中所设计的网络结构如
图1 算法框架
笔者的主要工作和贡献如下:
(1) 采用了P3D卷积层提取低层次的时空信息,其不需要进行复杂的预处理或计算,且有效降低了参数量,提高了暴力视频内容检测的效率,同时缓解了DenseNet需要大量显存的问题。
(2) 改进3D-DenseNet的初始卷积核大小,由原始的3×7×7降低到3×5×5,可以避免过大的感受野遇到尺寸较小目标时带来的模型收敛困难。
(3) 在Dense Block和TTL中引入注意力模块,实现了通道-空域-时域三个维度的特征加权,突出了特征的多维度判别性信息。
现有的诸多研究已证实,光流特征对暴力行为检测是有效的[
如
图2 P3D特征提取结构图
2.2.1 密集卷积骨干网络优化
研究表明,随着网络层数的加深梯度消失的问题会越来越明显,DenseNet在确保网络结构层与层之间最大程度信息关联的前提下,通过拼接所有层来降低网络深度带来的梯度弥散问题[
另外,P3D网络学习后的特征,其包含相对重要的信息且特征尺寸变小,当遇到过大的感受野会造成模型收敛困难,严重影响检测性能,因此本工作将DenseNet的初始卷积核大小由原来的3×7×7降低到3×5×5。
2.2.2 通道-空间域-时域三维注意力设计
虽然三维卷积在检测、识别领域已有了一定的研究,但仍然是一个具有挑战的问题。对于视频信息,其检测、识别的主要内容在视频序列关键帧的关键区域中,但三维卷积往往缺乏提取这类信息的能力[
(1) 通道-空间注意力。为了能突出视频画面的关键信息,且不引入额外的参数,此处采用无参数的注意力模块(3D Simple Attention Module,3D SimAM)[
et= | (1) |
其中,
通过优化特征图的每个神经元的能量函数,SimAM注意力模块可以在不需要引入额外参数的前提下计算注意力权重。相较于CBAM、SENet注意力机制,SimAM可以更好地捕捉任务相关特征,并抑制背景冗余信息[
(2) 时域注意力加强的过渡层。感受野在视觉任务中对最终的结果好坏有很大的影响,比如同样一个暴力动作,男性和女性、年轻人和老年人完成动作的时间不一样,那么需要用不同时间维度的感受野来进行行为分类。但是现有的方法通常在时间维度上的步长或窗口都是固定的,因此无法满足各种各样复杂暴力动作的准确识别。为了解决该问题,DIBA等[
TAT的目的是在更短和更长的时间范围内建模可变时间的三维卷积核深度,使网络结构提取不同时间感受野的时间特征映射,并通过基于注意力的加权融合增强时域判别性信息。其结构由3个不同时序深度的3D卷积核和一个池化层组成,3D卷积核的时序深度范围为d∈{t1,t2,t3}。参考TTL[
图3 时间过渡层结构图
假设时间分支拼接后的特征信息为Q∈Rt×h×w×c,为了计算时域注意力,首先需完成通道、空间信息的压缩,此处对两种信息均采用了平均池化和最大池化,来聚合特征映射的通道、空间信息,分别生成两个不同的特征映射Qa、Qm∈Rt×1×1×1。之后将Qa、Qm通过Concatenation进行拼接,送入卷积核为7×7的卷积,经Relu 激活函数降维后,再经过Sigmoid生成权重w:
w=δ(F(Concat(Qa,Qm))), | (2) |
其中,δ为Sigmoid函数,F代表卷积层。最终将w与输入的特征Q进行逐元素相乘实现权值更新。其操作可以用下式表示:
Q*=δ(F(Concat(Qa,Qm)))$\otimes $Q 。 | (3) |
输入特征在经过时域注意力的权重更新后,使得模型更加关注具有判别性信息的帧序列。
2.2.3 视频暴力内容定位
由于目前长视频中的暴力内容定位大多采用逐帧检测的方式,效率低且丢失了帧序列的时序关系。文中采用视频序列检测的方式,将所设计的暴力行为检测模型应用到暴力内容定位中,其过程如
图4 视频暴力内容检测流程图
3.1.1 数据集介绍
(1) HockeyFight[
(2) Movies[
(3) RWF-2 000[
(4) Violent Scene Dataset 2014(VSD2014)[
3.1.2 评价标准
文中采用检测精度(ACCuracy,ACC)、精准率(Precision)、召回率(Recall)、平均精确率均值(Mean Average Precision,MAP)作为模型性能的评价指标。实验中把暴力片段定义为正类,非暴力视频片段定义为负类。假设TP表示暴力视频片段预测为正类的数量,TN表示非暴力视频预测为负类的数量,FP表示非暴力视频片段预测为正类的数量,FN表示暴力视频片段预测为负类的数量,则各评价指标计算如下:
(1) 检测精度。检测精度是正确预测的样本数量占所有测试样本数的比率,其计算如下:
Aaccuracy= | (4) |
(2) 精准率。精准率是正确预测的样本数量占全部预测为正样本的比率,其计算如下:
Pprecision= | (5) |
(3) 召回率。召回率是正确预测为正样本占全部暴力视频样本的比例,其计算如下:
RRecall= | (6) |
(4) 平均精确率均值(MAP@100和MAP2014)。该标准主要用于评价暴力内容定位的性能。根据VSD2014数据集的评价要求,其具体包括以下两种评价标准:
① MAP@100。对所有检测视频中标记为暴力的片段按精准率排序,前100个暴力片段的平均精准率均值。
② MAP2014。所有被算法标记为暴力的片段按照精确率降序排序,根据预测片段的标签与相应真实片段标签重叠超过50%,则对暴力的预测视为命中,在同一片段上的多次命中仅算作一个真阳性,其他的忽略不计,也就是所有真阳性的平均精准率均值。
文中实验的运行环境为Ubuntu 16.04系统,内存为12 GB,GPU为GTX 2080 Ti。软件配置为CUDA 10.2、CUDNN 7.6.5。深度学习算法框架使用tensorflow 2.2。DenseNet共设置了29层,Growth_Rate为4。RWF-2 000数据集的输入尺寸为64×256×256×3,Hockey和Movies数据集的输入尺寸为32× 256×256×3,迭代次数Epoch为60。使用Adam梯度优化器,学习率初始化为0.001,最终选取在测试集表现最好的模型设置用于验证。
3.2.1 消融实验
为详细研究文中算法各个模块产生的性能增益,此处以3D-DenseNet模型为基础网络,逐步添加P3D、SimAM注意力模块、时域注意力加强的过渡层(TAT)模块和对3D-DenseNet初始卷积的优化(卷积核由 3×7×7 缩小到3×5×5),评估算法在RWF-2 000数据集上的性能指标。结果如
算法名称 | P3D | SimAM | Initial_kernel | TAT | 准确率/% | 参数量/M |
---|---|---|---|---|---|---|
Base | - | - | 3×7×7 | - | 80.25 | 0.370 |
Base+P3D | √ | - | 3×7×7 | - | 84.25 | 0.131 |
Base+ P3D+ SimAM | √ | √ | 3×7×7 | - | 85.50 | 0.131 |
Base+ P3D+ TAT | √ | 3×7×7 | √ | 87.65 | 0.575 | |
Base+P3D+SimAM+TAT | √ | √ | 3×7×7 | √ | 88.75 | 0.575 |
文中模型 | √ | √ | 3×5×5 | √ | 89.25 | 0.538 |
注:“√”和“-”分别表示该模块“加入”和“未加入”到基础网络中。
首先,从特征预处理方面来看,相较于基础模型,“基础模型+P3D”的结果要好很多,说明了P3D对特征优化的有效性。为了进一步对比不同特征提取的性能,实验中也尝试使用光流特征,但是由于光流数据量巨大,超出本实验环境所能提供的最大显存,导致无法正常训练,因此并未得到最终的结果,但是这也同时说明了光流特征的局限性。从表中的参数量可见,加入P3D后,可以大大减少特征信息量。
其次,由
最后,从参数量上来看,加入SimAM不会增加模型参数量,且提升了1.25%的性能增益,而贡献较大的TAT则引入了较大的参数量。为了适当减轻模型的参数压力,文中对基础模型进行了一定的优化,通过将初始卷积核由3×7×7改为3×5×5来适当降低参数量,如
3.2.2 暴力行为检测对比实验
为了证明文中方法的有效性,此处选取了6种前沿暴力检测方法与文中模型在3个数据集(RWF-2 000、Movies、Hockey)下进行性能指标对比。对比方法如下:
(1) 3D CNN[
(2) ViolenceNet[
(3) SAM-ConvLSTM[
(4) ECA-TSM[
(5) Flow Gated Net[
(6) SepConvLSTM[
实验对比如
模型 | RWF-2000/% | Movies/% | Hockey/% |
---|---|---|---|
3D CNN | 86.55 | 100 | 98.30 |
ViolenceNet | 87.00 | 100 | 98.60 |
SAM-ConvLSTM | 87.50 | 97.50 | |
ECA-TSM | 89.27 | 98.90 | |
Flow Gated Net | 87.25 | 100 | 98.00 |
SepConvLSTM | 88.25 | 100 | 98.25 |
文中模型 | 89.25 | 100 | 98.75 |
(1) 相较于采用RGB信息与光流信息结合的双流网络,如Flow Gated Net,文中模型仅使用RGB信息在3个数据集上取得了更高的准确率,表明文中模型中的三维网络无需复杂的光流信息便可提取有效的运动信息。
(2) 相较于使用ConvLSTM来提取时间信息的网络,如SAM-ConvLSTM和SepConvLSTM,文中模型采用3D DenseNet可以更好地提取视频中的时间信息,结合不同的采样间隔,能够针对不同时长的视频进行暴力检测,因此取得了优于SAM-ConvLSTM和SepConvLSTM的检测结果。
(3) 相较于同样使用3D DenseNet的网络模型,如3D CNN、ViolenceNet等,虽然其在短视频小数据集中取得了不错的效果,但是在包含2 000个视频且平均时长为5 s的大数据集RWF-2 000中性能并不理想。而文中算法可以在3个数据集中均取得较高的性能指标。这一方面得益于文中模型中时域注意力加强的过渡层对短、中、长时域信息的融合,改善了CNN模型处理时间信息的局限性;另一方面得益于通道-空间-时间三维注意力模块对视频关键信息的提取。
(4) 相较于目前准确率最高的ECA-TSM,文中模型性能在两个数据集上比其略低0.02%和0.15%。但是该模型需串联两个TSM模型,仅仅1个TSM模型所需要的参数量就有24.3 M,而文中模型采用P3D降维减少参数量,最终参数量控制在0.538 M,是远小于该模型的。
3.2.3 暴力内容定位对比实验
本实验通过在RWF-2 000数据集上训练模型,在VSD2014数据集中的Hollywood:Test和YouTube:Generalization两部分进行测试,来验证本模型的暴力内容定位检测能力和泛化性能。结果如
数据集 | 方法 | 精确率 | 召回率 | MAP@100 | MAP@2014 |
---|---|---|---|---|---|
Hollywood:Test | FUDAN | 41.1 | 72.1 | 72.7 | 63.0 |
FAR | 28.0 | 71.3 | 57.0 | 45.1 | |
3D CNN | 35.2 | 68.8 | 69.5 | 52.0 | |
文中方法 | 48.7 | 77.3 | 77.4 | 65.6 | |
YouTube:Gen | FUDAN | 59.0 | 43.4 | 71.9 | 60.4 |
FAR | 49.7 | 85.8 | 86.0 | 66.4 | |
3D CNN | 45.5 | 67.2 | 76.8 | 55.6 | |
文中方法 | 60.2 | 89.7 | 88.5 | 68.8 |
FUDAN[
FAR[
由
图5 测试结果与真实标签
文中提出了一种基于三维注意力增强的暴力内容检测模型。该模型可以有效地学习通道-空间-时域的判别性特征,并兼顾不同时间感受野的大小,更好完成暴力场景的检测。在3个暴力行为检测数据集上的实验结果表明,文中模型在暴力行为检测和暴力内容定位中均具有较好的性能。但在实验中笔者也发现该模型对某些特定暴力场景(如血腥、恐怖画面)检测效果欠佳,下一步将对音频特征进行研究,更好地提升模型的检测准确率。
CLARIN C, DIONISIO J, ECHAVEZ M, et al.DOVE:Detection of Movie Violence Using Motion Intensity Analysis on Skin and Blood(2005) [OL].[2022-01-01].https://www.researchgate.net/publication/249918692. https://www.researchgate.net/publication/249918692 [百度学术]
NAM J, ALGHONIEMY M, TEWFIK A H. Audio-Visual Content-Based Violent Scene Characterization[C]//Proceedings 1998 International Conference on Image Processing(ICIP98). Piscataway:IEEE, 1998:353-357. [百度学术]
TOFA K N, AHMED F, SHAKIL A. Inappropriate Scene Detection in A Video Stream[D]. Dhaka: BRAC University, 2017. [百度学术]
CHEN M, HAUPTMANN A. MoSIFT:Recognizing Human Actions in Surveillance Videos(2009)[J/OL].[2022-01-01].http://reports-archive.adm.cs.cmu.edu/anon/anon/anon/anon/anon/home/anon/anon/2009/CMU-CS-09-161.pdf. http://reports-archive.adm.cs.cmu.edu/anon/anon/anon/anon/anon/home/anon/anon/2009/CMU-CS-09-161.pdf [百度学术]
PADAMWAR B, PARTANI K. Violence Detection in Surveillance Video Using Computer Vision Techniques[J]. International Journal for Research in Applied Science & Engineering Technology, 2020, 8(VIII):533-536. [百度学术]
DAS S, SARKER A, MAHMUD T. Violence Detection from Videos Using HOG Features[C]//In Proceedings of the 2019 4th International Conference on Electrical Information and Communication Technology(EICT). Piscataway:IEEE, 2019:1-5. [百度学术]
RIBEIRO P C, AUDIGIER R, PHAM Q C. RIMOC, A Feature to Discriminate Unstructured Motions:Application to Violence Detection for Video-Surveillance[J]. Computer Vision and Image Understanding, 2016, 144:121-143. [百度学术]
WON D, STEINERT-THRELKELD Z C, JOO J. Protest Activity Detection and Perceived Violence Estimation from Social Media Images[C]// Proceedings of the 25th ACM International Conference on Multimedia. New York: ACM, 2017:786-794. [百度学术]
SUDHAKARAN S, LANZ O. Learning to Detect Violent Videos Using Convolutional Long Short-Term Memory[C]//In 2017 14th IEEE International Conference on Advanced Video and Signal Based Surveillance(AVSS). Piscataway:IEEE, 2017:1-6. [百度学术]
ZAHIDUL I, MOHAMMAD R, RAIYAN A, et al. Efficient Two-Stream Network for Violence Detection Using Separable ConvolutionalLstm[C]//2021 International Joint Conference on Neural Networks(IJCNN). Piscataway:IEEE, 2021:1-8. [百度学术]
LI J, JIANG X, SUN T, et al. Efficient Violence Detection Using 3d Convolutional Neural Networks[C]//2019 16th IEEE International Conference on Advanced Video and Signal Based Surveillance(AVSS). Piscataway:IEEE, 2019:1-8. [百度学术]
ULLAH F U M, ULLAH A, MUHAMMAD K, et al. Violence Detection Using Spatiotemporal Features with 3D Convolutional Neural Network[J]. Sensors, 2019, 19(11):2472. [百度学术]
ACCATTOLI S, SERNANI P, FALCIONELLI N, et al. Violence Detection in Videos by Combining 3d Convolutional Neural Networks and Support Vector Machines[J]. Applied Artificial Intelligence, 2020, 34(4):329-344. [百度学术]
LIANG Q, LI Y, YANG K, et al. Long-Term Recurrent Convolutional Network ViolentBehaviour Recognition with Attention Mechanism[J]. MATEC Web of Conferences, 2021, 336:05013. [百度学术]
LIANG Q, LI Y, CHEN B, et al. Violence Behavior Recognition of Two-Cascade Temporal ShiftModule with Attention Mechanism[J]. Journal of Electronic Imaging, 2021, 30(4):043009. [百度学术]
REND N-SEGADOR F J, LVAREZ-GARCÍA J A, ENRÍQUEZ F, et al. ViolenceNet:Dense Multi-Head Self-Attention with Bidirectional Convolutional LSTM for Detecting Violence[J]. Electronics, 2021, 10(13):1601. [百度学术]
HUANG G, LIU Z, LAURENS V D M, et al. Densely Connected Convolutional Networks[C]//2017 IEEE Conference on Computer Vision and Pattern Recognition(CVPR). Piscataway:IEEE, 2017:2261-2269. [百度学术]
LEJMI W, KHALIFA A B, MAHJOUB M A. A NovelSpatio-Temporal Violence Classification Framework Based on Material Derivative and Lstm Neural Network[J]. Traitement du Signal, 2020, 37(5):687-701. [百度学术]
WANG P, WANG P, FAN E. Violence Detection and Face Recognition Based on Deep Learning[J]. Pattern Recognition Letters, 2021, 142(Feb.):20-24. [百度学术]
FEBIN I P, JAYASREE K, JOY P T. Violence Detection in Videos for an Intelligent Surveillance System UsingMobsift and Movement Filtering Algorithm[J]. Pattern Analysis and Applications, 2020, 23(2):611-623. [百度学术]
HE K, ZHANG X, REN S, et al. Deep Residual Learning for Image Recognition[C]//2016 Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition(CVPR). Piscataway:IEEE, 2016:770-778. [百度学术]
ZHANG J, XIE Y, XIA Y, et al. Attention Residual Learning for Skin Lesion Classification[J]. IEEE Transactions on Medical Imaging, 2019, 38(9):2092-2103. [百度学术]
JADERBERG M, SIMONYAN K, ZISSERMAN A. Spatial Transformer Networks[C]//NIPS'15:Proceedings of the 28th International Conference on Neural Information Processing Systems-Volume 2. New York:ACM, 2015:2017-2025. [百度学术]
SANGHYUN W, JONGCHAN P, JOON-YOUNG L, et al. CBAM:Convolutional Block AttentionModule[C]//Proceedings of the European Conference on Computer Vision(ECCV). Berlin:Springer, 2018,3-19. [百度学术]
HU J, SHEN L, SUN G, et al. Squeeze-And-Excitation Networks[C]//2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Piscataway:IEEE, 2018:7132-7141. [百度学术]
WANG F, JIANG M, QIAN C, et al. Residual Attention Network for Image Classification[C]//2017 IEEE Conference on Computer Vision and Pattern Recognition(CVPR). Piscataway:IEEE, 2017:6450-6458. [百度学术]
刘迪, 郭继昌, 汪昱东, 等. 融合注意力机制的多尺度显著性目标检测网络[J]. 西安电子科技大学学报, 2022, 49(4):118-126. [百度学术]
LIU Di, GUO Jichang, WANG Yudong, et al. Multi-Scale Salient Object Detection Network Combining an Attention Mechanism[J]. Journal of Xidian University, 2022, 49(4):118-126. [百度学术]
高德勇, 康自兵, 王松, 等. 利用卷积块注意力机制识别人体动作的方法[J]. 西安电子科技大学学报, 2022, 49(4):144-155. [百度学术]
GAO Deyong, KANGZibing, WANG Song, et al. Method to Recognize Human Action by Using the Convolutional Block Attention Mechanism[J]. Journal of Xidian University, 2022, 49(4):144-155. [百度学术]
YANG L, ZHANG R, LI L, et al. SimAM:A Simple,Parameter-Free AttentionModule for Convolutional Neural Networks[C]// Proceedings of the 38th International Conference on Machine Learning. San Diego: ICML, 2021:11863-11874. [百度学术]
WEBB B S, DHRUV N T, SOLOMON S G, et al. Early and Late Mechanisms of Surround Suppression in Striate Cortex of Macaque[J]. The Journal of Neuroscience, 2005, 25(50):11666-11675. [百度学术]
DIBA A, FAYYAZ M, SHARMA V, et al. Temporal 3DConvNets:New Architecture and Transfer Learning for Video Classification(2017)[J/OL].[2022-01-01].https://arxiv.org/pdf/1711.08200.pdf. https://arxiv.org/pdf/1711.08200.pdf [百度学术]
QU Z, LIN L, GAO T, et al. An Improved Keyframe Extraction Method Based on HSVColour Space[J]. Journal of Software, 2013, 8(7):1751-1758. [百度学术]
CHENG M, CAI K, LI M.RWF-M.RWF- 2000: An Open Large Scale Video Database for Violence Detection[C]// 2020 25th International Conference on Pattern Recognition(ICPR). Piscataway: IEEE, 2021:4183-4190. [百度学术]
SCHEDI M, SJOBERG M, MIRONICA I, et al. VSD 2014:A Dataset for Violent Scenes Detection in Hollywood Movies and Web Videos[C]// 2015 13th International Workshop on Content-Based Multimedia Indexing(CBMI). Piscataway:IEEE, 2015:1-6. [百度学术]
DAI Q, WU Z, Jiang Y, et al. Fudan-NJUST atMediaEval 2014:Violent Scenes Detection Using Deep Neural Networks(2014)[J/OL].[2022-01-01].https://ceur-ws.org/Vol-1263/mediaeval2014_submission_65.pdf. https://ceur-ws.org/Vol-1263/mediaeval2014_submission_65.pdf [百度学术]
SJOBERG M, MIRONICA I, SCHEDL M, et al. FAR atMediaEval 2014 Violent Scenes Detection:A Concept-based Fusion Approach(2014)[J/OL].[2022-01-01].https://ceur-ws.org/Vol-1263/mediaeval2014_submission_66.pdf. https://ceur-ws.org/Vol-1263/mediaeval2014_submission_66.pdf [百度学术]
66
浏览量
68
下载量
0
CSCD
相关文章
相关作者
相关机构