news 2026/1/15 4:07:11

基于深度学习的安防监控校园暴力行为检测算法研究

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
基于深度学习的安防监控校园暴力行为检测算法研究

目录

  • 前言
  • 选题背景
  • 数据集
    • 数据预处理方法
    • 数据分割
  • 功能模块介绍
    • 多层次门控双流网络模块
    • 多模态注意力多流网络模块
    • 实验评估模块
  • 算法理论
    • 深度学习基础理论
    • 多流网络理论
    • 注意力机制理论
    • 多模态融合理论
  • 核心代码介绍
    • 多层次时序模块代码
    • 门控连接模块代码
    • 三重注意力融合模块代码
  • 重难点和创新点
    • 研究重点
    • 创新点
  • 总结
  • 参考文献

前言

📅大四是整个大学期间最忙碌的时光,一边要忙着备考或实习为毕业后面临的就业升学做准备,一边要为毕业设计耗费大量精力。近几年各个学校要求的毕设项目越来越难,有不少课题是研究生级别难度的,对本科同学来说是充满挑战。为帮助大家顺利通过和节省时间与精力投入到更重要的就业和考试中去,学长分享优质的选题经验和毕设项目与技术思路。

🚀对毕设有任何疑问都可以问学长哦!

选题指导:
最新最全计算机专业毕设选题精选推荐汇总

大家好,这里是海浪学长毕设专题,本次分享的课题是

🎯基于深度学习的安防监控校园暴力行为检测算法研究

选题背景

在随着城市化进程的加速和公共安全需求的不断增长,智能安防技术在维护社会稳定和保障人民生命财产安全方面发挥着越来越重要的作用。其中,暴力行为检测作为智能安防系统的核心功能之一,能够实时识别监控视频中的暴力行径,为安防人员提供及时预警,有效降低暴力事件的发生率和危害程度。传统的暴力行为检测方法主要依赖人工监控和简单的图像处理技术,存在检测效率低、漏检率高、实时性差等问题。随着深度学习技术的快速发展,特别是卷积神经网络和循环神经网络在计算机视觉领域的广泛应用,基于深度学习的暴力行为检测方法逐渐成为研究热点。这些方法通过自动学习视频中的时空特征,能够实现更准确、更高效的暴力行为识别。

现有的基于深度学习的暴力行为检测方法仍面临诸多挑战。首先,在复杂场景下,暴力行为与非暴力行为之间的界限往往不清晰,容易出现误判。例如,体育比赛中的激烈对抗、朋友间的打闹等行为与真正的暴力行为在视觉表现上存在相似性。其次,在实际监控场景中,经常存在遮挡物、光照变化、背景复杂等不利因素,这些因素会严重影响检测模型的性能。此外,现有的方法大多依赖单一模态的信息,如图像或视频帧,忽略了音频等其他模态信息的价值。针对现有暴力行为检测方法中存在的问题,提出基于多层次门控双流网络和多模态注意力多流网络的解决方案,以提高暴力行为检测的准确性和鲁棒性。具体而言,多层次门控双流网络通过捕获多层次的时空特征,能够更好地区分易混淆的暴力和非暴力行为;多模态注意力多流网络则通过融合音频、视觉等多模态信息,能够在遮挡等复杂场景下依然保持良好的检测性能。

数据集

本研究在多个公开数据集上进行了实验,以全面评估所提出方法的性能。以下是对这些数据集的详细介绍:

  • RWF-数据集:RWF-是目前规模最大的暴力检测数据集之一,包含2000个由现实世界中的监控摄像头捕获得到的视频片段。每个视频片段长为5秒,帧率为30fps。这些视频片段中有1000个包含复杂场景下的暴力行为,属于暴力片段;另外1000个则被划分为非暴力片段。RWF-2000数据集的独特之处在于其样本来源于真实监控场景,包含各种复杂的背景和光照条件,更贴近实际应用环境。数据集中的暴力行为种类多样,包括打架、推搡、踢踹等,具有较高的代表性。此外,该数据集还提供了预定义的训练集和验证集,其中训练集包含1600个片段,验证集包含400个片段,便于进行模型训练和性能评估。

  • Hockey-Fight数据集包含个视频片段,这些片段是从冰球比赛视频中收集而来的。与RWF-类似,该数据集中的样本类别也是平衡的,包含500个暴力片段和500个非暴力片段。Hockey-Fight数据集的特点是场景相对单一,主要集中在冰球比赛环境中。数据集中的暴力行为主要表现为冰球运动员之间的打架行为,动作特征比较明显。由于场景相对简单,该数据集通常被用作暴力检测算法的基准测试数据集。

  • Movies-Fight数据集包含个电影片段,其中个为暴力片段,100个为非暴力片段。这些片段来源于各种电影作品,包含丰富的场景和动作类型。;与前两个数据集相比,Movies-Fight的数据规模较小,但由于来源于电影,其视觉效果通常更加丰富和多样化。该数据集主要用于验证算法在不同场景下的泛化能力。

数据预处理方法

为了提高模型的训练效果和泛化能力,研究中采用了多种数据预处理方法:对于图像数据,在训练阶段,以短边为基准,将每一帧的尺度随机缩放为到之间的任一大小,并从中随机裁剪出尺度为224×224的图像。这种随机缩放和裁剪的方法可以增加数据的多样性,减少过拟合现象。在测试阶段,为了保证结果的可重复性,将每一帧的短边缩放至256,并从缩放后的帧的中心裁剪得到尺度为224×224的图像。对于语音数据,从每个视频片段中采样980ms的语音信号,采样频率为8kHz。按照25ms的帧长和10ms的帧移对语音信号进行分帧处理。为了增强数据的鲁棒性,还采用了速度扰动和SpecAugment等数据增强技术。还使用了RGB差异图像作为运动模态的输入。这种表示方法通过计算连续帧之间的像素差值,可以有效地捕获视频中的运动信息,而无需计算复杂的光流场。

数据分割

对于提供了预定义训练集和验证集的RWF-数据集,直接使用其官方分割进行实验。对于没有预定义分割的Hockey-Fight、Movies-Fight、CCTV-Fights和Violent-Flows数据集,采用k折交叉验证的方法进行训练和评估。具体来说,对于Hockey-Fight、Movies-Fight和CCTV-Fights,k=;对于Violent-Flows,由于数据集规模较小,同样采用k=5的交叉验证策略。通过在多个数据集上进行实验,研究能够全面评估所提出方法在不同场景、不同数据规模下的性能表现,从而验证算法的有效性和泛化能力。

功能模块介绍

多层次门控双流网络模块

多层次门控双流网络是本研究提出的第一种解决方案,主要针对现有双流网络难以区分易混淆行为的问题。该网络由三个核心模块组成:卷积模块、多层次时序模块和门控连接模块。

卷积模块采用在ImageNet上预训练的VGG-网络作为主干网络,用于从输入图像中提取深度特征。VGG-网络具有16个卷积层和3个全连接层,能够有效地提取图像的层次化特征。在本研究中,卷积模块被分为两个部分,分别用于处理RGB图像和RGB差异图像,从而提取外观特征和运动特征。多层次时序模块是该网络的关键创新点之一,其主要作用是捕获多层次的时空特征。模块由LSTM和轻量多头注意力块组成。LSTM负责从整个视频片段中提取深层的时序特征,能够捕获长期依赖关系;轻量多头注意力块则专注于从关键帧中提取浅层的空间特征,能够突出重要的局部信息。通过融合这两种特征,MLT能够更好地区分易混淆的暴力和非暴力行为。

为了验证多层次时序模块的有效性,研究中设计了三种不同的特征融合策略:加法融合、乘法融合和拼接融合。控连接模块是该网络的另一个关键创新点,其主要作用是早期融合空间流和时间流的特征。模块包含更新门控单元和转换模块。更新门控单元用于筛选重要的特征信息,丢弃不相关的特征,从而降低计算开销并预防过拟合现象;转换模块则用于调整特征的维度和表示形式,以便进行有效的特征融合。

研究中提出了三种不同的特征转换方法:取首位运算、算术平均和加权平均。

多模态注意力多流网络模块

多模态注意力多流网络是本研究提出的第二种解决方案,主要针对现有双流网络无法检测被物体遮挡的暴力行为的问题。该网络由三个核心模块组成:语音流网络、多流融合模块和多流分类器。

语音流网络是模块的特色部分,其主要作用是从语音信号中提取有效的语音特征。该网络由梅尔滤波器模块和语音卷积模块组成。梅尔滤波器模块利用一组带通滤波器对输入的语音信号进行滤波,计算每一帧的梅尔滤波器组特征。这些特征符合人耳的听觉特性,具有较好的鲁棒性,即使在信噪比较低的情况下也能保持良好的性能。语音卷积模块由十个卷积层、四个最大池化层和一个展平层构成。模块的主要作用是压缩梅尔滤波器组特征的时间维度,减少计算开销。通过合理设计卷积核大小和步幅,模块能够有效地提取语音特征的时间相关性。多流融合模块是该网络的核心部分,负责融合语音流、外观流和运动流的特征。模块由视觉流网络和三重注意力融合模块组成。视觉流网络与多层次门控双流网络中的卷积模块类似,用于提取外观特征和运动特征;三重注意力融合模块则是该网络的关键创新点,用于在保持特征长度不变的情况下,对三个流的特征进行早期融合。

三重注意力融合模块包含三个注意力块和三个时序模块。三个注意力块分别将语音、外观和运动特征作为问题,将其余两种特征作为键值对,筛选出每个流所需要的关键特征。这种设计能够确保每个流都能获得来自其他流的互补信息,从而提高特征的表达能力。三个时序模块则分别将融合后的特征作为输入,提取片段级的特征向量。

实验评估模块

实验评估模块用于全面评估所提出方法的性能。模块包括数据集准备、模型训练、消融实验和对比实验等功能。

在数据集准备阶段,模块负责数据的加载、预处理和分割。针对不同的数据集,采用不同的数据预处理策略和分割方法,以确保实验的公平性和可靠性。

在模型训练阶段,模块实现了多种优化算法和损失函数,如Adam优化器和交叉熵损失函数。同时,还实现了学习率调度、早停等技术,以提高训练效率和模型性能。

消融实验用于验证各个模块的有效性。通过逐一添加或移除特定模块,观察模型性能的变化,可以确定每个模块对最终性能的贡献。例如,在多层次门控双流网络的消融实验中,通过对比使用不同模块的模型性能,验证了多层次时序模块和门控连接模块的有效性。

对比实验用于将所提出的方法与现有的暴力检测方法进行比较。在实验中,确保所有方法使用相同的数据集、预处理方法和评估指标,以保证比较的公平性。通过对比实验,可以全面评估所提出方法的优势和不足之处。

算法理论

深度学习基础理论

深度学习是机器学习的一个重要分支,其核心是通过多层神经网络自动学习数据的特征表示。在暴力行为检测中,深度学习技术能够自动学习视频中的时空特征,无需手动设计特征提取器。神经元是神经网络的基本组成单元,其结构模拟了生物神经元的工作原理。一个神经元接收多个输入信号,通过加权求和和非线性激活函数处理后,产生输出信号。常用的激活函数包括ReLU、sigmoid和tanh等。ReLU激活函数由于其简单高效的特点,被广泛应用于深度神经网络中。多层感知机是最基本的神经网络结构,由输入层、隐藏层和输出层组成。通过增加隐藏层的数量和神经元的数量,可以增强网络的表达能力。然而,随着网络深度的增加,训练难度也会增加,容易出现梯度消失或梯度爆炸问题。

卷积神经网络是专门为处理网格状数据设计的神经网络结构。CNN的核心组件包括卷积层、池化层和全连接层。卷积层通过卷积操作提取局部特征,具有参数共享和平移不变性的优点;池化层通过下采样操作减少特征维度,提高计算效率;全连接层则用于将卷积特征映射为最终输出。在卷积运算中,填充方式对输出特征图的大小有重要影响。常用的填充方式包括有效卷积、相同卷积和全卷积等。多通道卷积允许网络同时处理多个特征图,提取更丰富的特征信息。循环神经网络是专门为处理序列数据设计的神经网络结构。RNN通过在时间维度上共享参数,能够捕获序列数据的时序依赖关系。然而,传统RNN存在梯度消失和长期依赖问题,难以处理长序列数据。为了解决传统RNN的问题,研究人员提出了门控循环神经网络,如长短期记忆网络和门控循环单元。这些网络通过引入门控机制,能够有效地捕获长期依赖关系,被广泛应用于语音识别、自然语言处理等领域。

多流网络理论

双流网络是视频理解领域的经典方法,由空间流和时间流两个分支组成。空间流以单帧RGB图像为输入,提取外观特征;时间流以光流图或RGB差异图像为输入,提取运动特征。通过融合这两种特征,可以全面描述视频中的行为信息。Two-Stream Network是最早的双流网络方法,使用两个独立的CNN分别处理RGB图像和光流图,然后通过融合两个网络的输出进行分类。该方法在行为识别任务上取得了显著的性能提升,但由于两个流是独立训练的,无法充分利用两种模态之间的互补信息。为了更好地融合两个流的特征,研究人员提出了Convolutional Two-Stream Network Fusion方法。该方法在两个流的特征图层面进行融合,能够更好地学习外观特征和运动特征之间的关联性。SepConvLSTM-M是一种基于可分离卷积LSTM的双流网络方法。该方法使用可分离卷积LSTM替代传统的LSTM,能够在保持性能的同时降低计算复杂度。通过在时间流中使用可分离卷积LSTM,该方法能够更有效地捕获视频中的运动信息。

多流网络是双流网络的扩展,通过增加更多的信息流,能够提取更丰富的特征信息。Multi-stream Deep Network是一种典型的多流网络方法,包含空间流、时间流和加速流三个分支。空间流提取外观特征,时间流提取运动特征,加速流提取加速度特征。通过融合这三种特征,该方法能够更全面地描述视频中的行为信息。SlowFast Networks是一种新型的多流网络方法,由Slow路径和Fast路径组成。Slow路径以低帧率处理空间语义信息,Fast路径以高帧率处理运动信息。通过横向连接,两个路径可以相互补充,提高行为识别的准确率。

注意力机制理论

注意力机制是深度学习中的一种重要技术,能够帮助模型关注输入数据中的重要部分,提高特征提取的效率和准确性。在暴力行为检测中,注意力机制可以帮助模型关注视频中与暴力行为相关的区域和时刻。缩放点积注意力是最常用的注意力机制之一,通过计算查询向量与键向量的点积,确定值向量的重要性。加性注意力则通过全连接层计算查询向量与键向量的相关性,能够处理长度不同的向量。混合注意力结合了缩放点积注意力和加性注意力的优点,能够提供更灵活的注意力计算方式。多头注意力是注意力机制的扩展,通过多个注意力头并行计算,可以从不同的角度提取特征信息。X-Linear多头注意力是一种改进的多头注意力机制,通过特殊的线性变换,能够更有效地捕获特征之间的依赖关系。

多模态融合理论

多模态融合是指将来自不同模态的信息进行综合,以提高任务性能的技术。在暴力行为检测中,通过融合视觉信息和音频信息,可以在视觉信息不可靠的情况下,利用音频信息进行补充。早期融合是指在特征提取阶段就对不同模态的信息进行融合,能够充分利用模态间的互补性,但计算复杂度较高。晚期融合是指在决策阶段对不同模态的结果进行融合,计算复杂度较低,但可能无法充分利用模态间的关联信息。特征级融合是指在特征层面进行融合,能够保留更多的原始信息,但需要处理不同模态特征维度不一致的问题。决策级融合是指在决策层面进行融合,实现简单,但可能丢失一些细节信息。多层次门控双流网络采用了早期融合和晚期融合相结合的策略,多模态注意力多流网络则采用了特征级融合的策略。通过合理的融合策略,能够充分发挥不同模态信息的优势,提高暴力行为检测的准确率和鲁棒性。

核心代码介绍

多层次时序模块代码

多层次时序模块是多层次门控双流网络的核心组件,负责捕获多层次的时空特征。实现了多层次时序模块的核心功能。模块由三部分组成:LSTM层用于提取深层时序特征,轻量多头注意力块用于提取浅层空间特征,以及特征融合层用于融合这两种特征。在forward方法中,输入特征首先通过LSTM提取深层特征,然后通过注意力机制提取浅层特征,接着将两种特征在特征维度上拼接并通过全连接层进行融合,最后通过全局平均池化得到片段级特征表示。
以下是模块的核心代码实现:

classMultiLevelTimingModule:def__init__:super__init__# 深层特征提取 - LSTMselflstm=nn.LSTM# 浅层特征提取 - 轻量多头注意力块self.attention=LightweightMultiHeadAttention# 特征融合层self.fusion=nn.Linear self.activation=nn.ReLUdefforward:# x: [batch_size, seq_len, input_dim]# 提取深层特征deep_features,_=self.lstm# 提取浅层特征shallow_features=self.attention# 特征融合combined=torch.cat fused_features=self.activation)# 全局池化获取片段级特征output=torch.meanreturnoutput

    模块的设计充分考虑了暴力行为检测任务的特点。LSTM能够有效地捕获视频序列中的长期依赖关系,适合提取整个视频片段的上下文信息;注意力机制则能够突出视频中的关键帧和关键区域,有助于区分易混淆的暴力和非暴力行为;特征融合层则能够将这两种特征有机地结合起来,形成更强大的特征表示。

    门控连接模块代码

    门控连接模块是多层次门控双流网络的另一个核心组件,负责早期融合空间流和时间流的特征。实现了门控连接模块的核心功能。模块由两部分组成:更新门控单元用于筛选重要的特征信息,转换模块用于调整特征的维度和表示形式。在forward方法中,首先将空间流和时间流的特征在特征维度上拼接,然后通过全连接层和Sigmoid激活函数计算更新门控,接着使用门控对两个流的特征进行加权融合,最后通过转换模块将融合特征映射到目标维度。以下是模块的核心代码实现:

    classGatedConnectionModule:def__init__:super__init__# 更新门控单元selfupdate_gate=nn.Sequential,nn.Sigmoid)# 转换模块 - 算术平均self.transformation=nn.Sequential,nn.ReLU)defforward:# spatial_features: [batch_size, seq_len, input_dim]# temporal_features: [batch_size, seq_len, input_dim]# 特征拼接combined=torch.cat# 计算更新门控gate=self.update_gate# 特征筛选filtered_features=gate*spatial_features+*temporal_features# 特征转换output=self.transformationreturnoutput

      模块的设计考虑了暴力行为检测中特征融合的需求。更新门控单元能够自适应地决定每个流的特征在融合过程中的权重,从而保留重要信息,丢弃无关信息;转换模块则能够将融合后的特征转换为更适合后续处理的形式。通过这种设计,门控连接模块能够在降低计算开销的同时,提高特征融合的效果。

      三重注意力融合模块代码

      三重注意力融合模块是多模态注意力多流网络的核心组件,负责融合语音流、外观流和运动流的特征。三重注意力融合模块的核心功能模块由三个注意力块和三个时序模块组成。在forward方法中,首先分别进行三个流的注意力融合:语音流将外观流和运动流的特征作为键值对,外观流将语音流和运动流的特征作为键值对,运动流将语音流和外观流的特征作为键值对。然后,使用LSTM作为时序模块,从融合后的特征中提取片段级特征。最后,通过逐元素乘法进行晚期融合,得到最终的融合特征。以下是模块的核心代码实现:

      classTripleAttentionFusionModule:def__init__:super__init__# 三个注意力块selfaudio_attention=ScaledDotProductAttention self.appearance_attention=ScaledDotProductAttention self.motion_attention=ScaledDotProductAttention# 三个时序模块self.audio_temporal=nn.LSTM self.appearance_temporal=nn.LSTM self.motion_temporal=nn.LSTMdefforward:# audio_features: [batch_size, audio_seq_len, feature_dim]# appearance_features: [batch_size, appearance_seq_len, feature_dim]# motion_features: [batch_size, motion_seq_len, feature_dim]# 语音流注意力融合av_features=torch.cat audio_fused=self.audio_attention audio_fused=audio_features+audio_fused# 外观流注意力融合am_features=torch.cat appearance_fused=self.appearance_attention appearance_fused=appearance_features+appearance_fused# 运动流注意力融合aa_features=torch.cat motion_fused=self.motion_attention motion_fused=motion_features+motion_fused# 提取片段级特征_,=self.audio_temporal _,=self.appearance_temporal _,=self.motion_temporal# 晚期融合audio_global=audio_global.squeeze appearance_global=appearance_global.squeeze motion_global=motion_global.squeeze alpha=0.5fused=torch.tanh*F.leaky_relu)*F.leaky_relureturnfused

      模块的设计充分考虑了多模态融合的需求。通过注意力机制,每个流都能够有选择地关注其他流中与当前任务相关的信息;通过残差连接,能够保留原始特征的信息;通过时序模块,能够提取片段级的特征表示;通过晚期融合,能够充分利用三种模态信息的互补性。这种设计使得模型在处理遮挡等复杂场景时,能够通过多模态信息的互补,保持良好的检测性能。

      重难点和创新点

      研究重点

      本研究的重点主要集中在以下几个方面:

      • 针对现有暴力检测方法难以区分易混淆行为的问题,提出了多层次门控双流网络。该网络的核心是设计了能够捕获多层次特征的时序模块,通过融合深层和浅层特征,提高对易混淆行为的识别能力。同时,通过门控连接模块实现早期特征融合,促进外观特征和运动特征之间的信息交互。

      • 针对现有方法在遮挡场景下检测性能下降的问题,提出了多模态注意力多流网络。该网络创新性地引入了语音流,通过提取语音特征,弥补视觉特征在遮挡场景下的不足。同时,设计了三重注意力融合模块,实现了语音、外观和运动特征的有效融合。

      • 系统研究了不同特征融合策略和注意力机制对暴力检测性能的影响。通过大量的对比实验,确定了最优的特征融合方法和注意力评分函数,为后续研究提供了参考。

      最后,在多个公开数据集上进行了全面的实验评估,验证了所提出方法的有效性和泛化能力。通过与现有方法的对比,充分展示了所提出方法的优势。

      创新点

      本研究的主要创新点包括:

      1. 提出了多层次时序模块,模块通过结合LSTM和轻量多头注意力机制,能够同时捕获视频中的深层时序特征和浅层空间特征。这种设计能够更好地区分易混淆的暴力和非暴力行为,提高检测准确率。

      提出了门控连接模块,模块通过引入更新门控单元,能够自适应地决定空间流和时间流特征在融合过程中的权重。这种设计能够保留重要信息,丢弃无关信息,降低计算开销并预防过拟合现象。

      1. 提出了语音流网络,该网络通过梅尔滤波器模块和语音卷积模块,能够从语音信号中提取有效的语音特征。这种设计使得模型在视觉信息不可靠的情况下,能够利用语音信息进行补充,提高在遮挡场景下的检测性能。

      2. 提出了三重注意力融合模块,模块通过三个注意力块分别处理不同流之间的信息交互,能够在保持特征长度不变的情况下,实现语音、外观和运动特征的早期融合。这种设计避免了多流网络中常见的特征维度爆炸问题,降低了模型的计算复杂度。

      3. 系统研究了不同特征融合策略和注意力评分函数对暴力检测性能的影响,并确定了最优的组合。这些研究结果为后续相关工作提供了有价值的参考。

      总结

      本研究针对现有暴力行为检测方法中存在的问题,提出了两种基于深度学习的解决方案:多层次门控双流网络和多模态注意力多流网络。通过在多个公开数据集上的实验,验证了这两种方法的有效性和优越性。多层次门控双流网络通过设计多层次时序模块和门控连接模块,有效解决了现有双流网络难以区分易混淆行为的问题。特别是在RWF-数据集上,该方法的准确率达到88.50%,比性能排名第二的方法高0.75个百分点。多模态注意力多流网络通过引入语音流和设计三重注意力融合模块,有效解决了现有方法在遮挡场景下检测性能下降的问题。本研究的成果不仅为暴力行为检测技术的发展提供了新的思路和方法,也为智能安防系统的实际应用提供了技术支持。未来,随着深度学习技术的不断发展和计算能力的不断提升,暴力行为检测技术将在公共安全、网络内容审核等领域发挥更加重要的作用。

      参考文献

      [] Mumtaz N, Ejaz N, Habib S, et al. An overview of violence detection techniques: current challenges and future directions[J]. Artificial Intelligence Review, 2023, 56: 4641-4666.

      [2] Wu P, Liu X, Liu J. Weakly supervised audio-visual violence detection[J]. IEEE Transactions on Multimedia, 2022.

      [3] Yildiz A M, Barua P D, Dogan S, et al. A novel tree pattern-based violence detection model using audio signals[J]. Expert Systems with Applications, 2023, 224: 120031.

      [4] Mohammadi H, Nazerfard E. Video violence recognition and localization using a semi-supervised hard attention model[J]. Expert Systems with Applications, 2023, 212: 118791.

      [5] Wei D, Tian Y, Wei L, et al. Efficient dual attention SlowFast networks for video action recognition[J]. Computer Vision and Image Understanding, 2022, 222: 103484.

      [6] Wang L, Koniusz P. 3mformer: Multi-order multi-mode transformer for skeletal action recognition[C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. 2023: 5620-5631.

      [7] Rendón-Segador F J, Álvarez-García J A, Enríquez F, et al. Violencenet: Dense multi-head self-attention with bidirectional convolutional lstm for detecting violence[J]. Electronics, 2021, 10: 1601.

      [8] Zhenhua T, Zhenche X, Pengfei W, et al. FTCF: Full temporal cross fusion network for violence detection in videos[J]. Applied Intelligence, 2023, 53: 4218-4230.

      版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
      网站建设 2026/1/4 7:55:53

      基于STM32单片机的智能家居系统设计

      基于STM32单片机的智能家居系统设计与实现 第一章 引言 随着物联网技术的发展,智能家居已从单一设备控制向多设备联动、场景化服务演进。传统智能家居方案多依赖专用网关或昂贵的嵌入式平台,存在成本高、兼容性差、二次开发难度大等问题。基于STM32单片机…

      作者头像 李华
      网站建设 2026/1/8 0:31:04

      14、Red Hat Linux实用应用指南

      Red Hat Linux实用应用指南 1. 运行命令行程序 在Red Hat Linux系统中,你可以通过GNOME运行程序菜单来运行命令行程序。具体操作步骤如下: 1. 点击GNOME主菜单按钮,选择“运行程序”。 2. 此时会弹出“运行程序”窗口,在该窗口中你可以输入任意想要执行的命令。例如,在…

      作者头像 李华
      网站建设 2026/1/13 16:16:24

      零基础学网络安全?入门前必看的3大认知误区与5个关键准备

      一、什么是网络安全? 百度上对“网络安全”是这么介绍的: “网络安全是指网络系统的硬件、软件及其系统中的数据受到保护,不因偶然的或者恶意的原因而遭受到破坏、更改、泄露、系统连续可靠正常地运行,网络服务不中断。” 嗯…是…

      作者头像 李华
      网站建设 2026/1/7 7:40:06

      21、红帽Linux安全与故障排除全攻略

      红帽Linux安全与故障排除全攻略 1. 免密登录远程机器 在红帽Linux系统中,要实现免密登录远程机器,可按以下步骤操作: 1. 打开GNOME终端。 2. 输入命令: ssh-add 。 3. 系统会提示你输入密码短语: Enter passphrase for /home/vm/.ssh/id_dsa: 。 4. 连接到远程机…

      作者头像 李华
      网站建设 2026/1/12 17:41:19

      基于微信小程序的校园电子图书馆系统毕业设计

      博主介绍:✌ 专注于Java,python,✌关注✌私信我✌具体的问题,我会尽力帮助你。一、研究目的本研究旨在设计并实现一个基于微信小程序的校园电子图书馆系统,以满足现代校园信息化背景下图书馆服务的新需求。具体研究目的如下: 首先…

      作者头像 李华
      网站建设 2026/1/14 21:51:00

      创新首发!基于VMD+WDCNN-SENet的故障诊断模型

      往期精彩内容: Python轴承故障诊断 (14)高创新故障识别模型-CSDN博客 独家原创 | SCI 1区 高创新轴承故障诊断模型!-CSDN博客 基于 GADFSwin-CNN-GAM 的高创新轴承故障诊断模型-CSDN博客 Python轴承故障诊断 (19)基于Transformer-BiLSTM的创新诊断模…

      作者头像 李华