基于RGB视频数据的深度行为分类模型发展综述之二
为了进一步晋升模子的机能,研究者们在各个方面不绝全力,包罗行使多种输入数据情势(RGB图像,RGB差,光流图像,扭曲光流,行为矢量等等),探讨时序上的融合要领,将2D卷积核扩展为3D卷积核,提取要害视频帧,增进留意力机制等等。归纳综合来讲,对付这三种深度举动分类模子的研究,重点在于怎样更有用地发掘更具有鉴别力的空域外面信息和更恒久的时序行为信息。三种深度举动分类模子在UCF 101和Kinetics数据集上的机能如表2所示。 表 2 深度举动分类模子在UCF 101和Kinetics数据集上的机能比拟 在表2数据中,基于RNN的举动分类模子的推理速率没有详细浮现,可是从模子伟大度来看,其推理速率与双流法和3D收集对比没有任何上风,同时分类精度也有必然差距。这是由于基于RNN收集的分类模子固然能举办更恒久的时序建模,但其聚合空间信息以及暗示时序上行为的手段都很有限。在2017年之前,双流架构精采的机能示意使得研究者们对双流架构的存眷度很是高,对比之下3D收集的成长则异常迟钝。可是2017年之后,3D收集的存眷度明明进步,缘故起因可以归结于三点:(1)可以操作现有的数据实习深度3D收集。P3D,I3D等2D CNN扩展的3D收集可以行使大局限的图片数据集Imagenet举办预实习,而且大型视频数据集kinetics的提出使直接实习更深的3D收集成为也许。(2)光流无法很好地建模时序上的动态变革,而且计较劲很大。2017年Facebook尝试室探讨了光流在举动分类中的浸染,发明光流现实上无法提供与外面互补的行为信息,它能有用进步举动分类的精度是由于光流对图像外面的稳固性。(3)视频自己是空时体,用3D收集举办空时建模更为直观。 应用于视频中举动分类的深度模子跟跟着图像使命上深度进修模子的成长步骤,从最初的11层的浅层3D收集C3D到在ResNet深度残差框架下扩展的3D收集Res-C3D,以及在ResNet-152层上实现的199层的P3D和152层的CSN,研究模子的深度越来越深,这极大地归功于可实习果真视频数据量的增进。在对3D空时建模不绝地试探中,研究者们都试图在进一步进步举动分类精度的同时镌汰模子的参数和加速运算速率。这些研究都证明白3D空时卷积应用于视频上比2D卷积更具上风。由于视频自己是空时三维体,时刻维度的信息对领略视频来说是必不行少的。 到今朝为止,基于RGB视频数据的深度举动分类模子的研究取得了不错的分类结果,在今朝最大局限的视频数据集Kinetics上分类精度到达了93.8%。然而,上述深度举动分类模子的研究都是基于对支解好的视频片断举办单人举动的分类。我们必需苏醒的熟悉到,在真实的场景中,领略视频中的人体举动仍具有很大的挑衅。 1、真实的视频场景中伟大的配景,光照变革、人体概况变革、摄像机视角以及行为速率等不确定身分,城市影响深度举动分类模子的机能。 2、真实视频流中包括了大量长时刻的非举措冗余视频段。在对人体举动分类的基本上,进一步提取明晰人体举动的时刻界线,则是视频时序举动检测使命。该使命也有研究者不绝在当前深度举动分类模子的基本上实行办理,但结果和速率都低于当前的应用要求。 3、基于RGB视频的深度举动分类模子可以或许从视频图像帧中得到过细的外面纹理特性,可是很难在空间和时刻上对差异的人体行为建模。因此很难合用于多人的场景中。 【凡本网注明来历非中国IDC圈的作品,均转载自其余媒体,目标在于转达更多信息,并不代表本网拥护其概念和对其真实性认真。】 (编辑:湖南网) 【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容! |