• 文献检索
  • 文档翻译
  • 深度研究
  • 学术资讯
  • Suppr Zotero 插件Zotero 插件
  • 邀请有礼
  • 套餐&价格
  • 历史记录
应用&插件
Suppr Zotero 插件Zotero 插件浏览器插件Mac 客户端Windows 客户端微信小程序
定价
高级版会员购买积分包购买API积分包
服务
文献检索文档翻译深度研究API 文档MCP 服务
关于我们
关于 Suppr公司介绍联系我们用户协议隐私条款
关注我们

Suppr 超能文献

核心技术专利:CN118964589B侵权必究
粤ICP备2023148730 号-1Suppr @ 2026

文献检索

告别复杂PubMed语法,用中文像聊天一样搜索,搜遍4000万医学文献。AI智能推荐,让科研检索更轻松。

立即免费搜索

文件翻译

保留排版,准确专业,支持PDF/Word/PPT等文件格式,支持 12+语言互译。

免费翻译文档

深度研究

AI帮你快速写综述,25分钟生成高质量综述,智能提取关键信息,辅助科研写作。

立即免费体验

用于视频摘要的时空图关系推理

Relational Reasoning Over Spatial-Temporal Graphs for Video Summarization.

作者信息

Zhu Wencheng, Han Yucheng, Lu Jiwen, Zhou Jie

出版信息

IEEE Trans Image Process. 2022;31:3017-3031. doi: 10.1109/TIP.2022.3163855. Epub 2022 Apr 11.

DOI:10.1109/TIP.2022.3163855
PMID:35385384
Abstract

In this paper, we propose a dynamic graph modeling approach to learn spatial-temporal representations for video summarization. Most existing video summarization methods extract image-level features with ImageNet pre-trained deep models. Differently, our method exploits object-level and relation-level information to capture spatial-temporal dependencies. Specifically, our method builds spatial graphs on the detected object proposals. Then, we construct a temporal graph by using the aggregated representations of spatial graphs. Afterward, we perform relational reasoning over spatial and temporal graphs with graph convolutional networks and extract spatial-temporal representations for importance score prediction and key shot selection. To eliminate relation clutters caused by densely connected nodes, we further design a self-attention edge pooling module, which disregards meaningless relations of graphs. We conduct extensive experiments on two popular benchmarks, including the SumMe and TVSum datasets. Experimental results demonstrate that the proposed method achieves superior performance against state-of-the-art video summarization methods.

摘要

在本文中,我们提出了一种动态图建模方法,用于学习视频摘要的时空表示。大多数现有的视频摘要方法使用在ImageNet上预训练的深度模型来提取图像级特征。不同的是,我们的方法利用对象级和关系级信息来捕捉时空依赖性。具体来说,我们的方法在检测到的对象提议上构建空间图。然后,我们通过使用空间图的聚合表示来构建时间图。之后,我们使用图卷积网络对空间图和时间图进行关系推理,并提取时空表示用于重要性得分预测和关键镜头选择。为了消除由密集连接节点引起的关系混乱,我们进一步设计了一个自注意力边缘池化模块,该模块忽略图的无意义关系。我们在两个流行的基准上进行了广泛的实验,包括SumMe和TVSum数据集。实验结果表明,所提出的方法相对于现有最先进的视频摘要方法具有卓越的性能。

相似文献

1
Relational Reasoning Over Spatial-Temporal Graphs for Video Summarization.用于视频摘要的时空图关系推理
IEEE Trans Image Process. 2022;31:3017-3031. doi: 10.1109/TIP.2022.3163855. Epub 2022 Apr 11.
2
Reconstructive Sequence-Graph Network for Video Summarization.用于视频摘要的重构序列图网络。
IEEE Trans Pattern Anal Mach Intell. 2022 May;44(5):2793-2801. doi: 10.1109/TPAMI.2021.3072117. Epub 2022 Apr 1.
3
Unsupervised Video Summarization Based on Deep Reinforcement Learning with Interpolation.基于深度强化学习与插值的无监督视频摘要。
Sensors (Basel). 2023 Mar 23;23(7):3384. doi: 10.3390/s23073384.
4
Video Captioning with Object-Aware Spatio-Temporal Correlation and Aggregation.具有目标感知时空相关性与聚合的视频字幕
IEEE Trans Image Process. 2020 Apr 27. doi: 10.1109/TIP.2020.2988435.
5
Flow to Candidate: Temporal Knowledge Graph Reasoning With Candidate-Oriented Relational Graph.流向候选对象:基于面向候选对象的关系图的时态知识图谱推理
IEEE Trans Neural Netw Learn Syst. 2025 Apr;36(4):7487-7499. doi: 10.1109/TNNLS.2024.3406869. Epub 2025 Apr 4.
6
DSNet: A Flexible Detect-to-Summarize Network for Video Summarization.DSNet:一种用于视频摘要的灵活检测到摘要网络。
IEEE Trans Image Process. 2021;30:948-962. doi: 10.1109/TIP.2020.3039886. Epub 2020 Dec 8.
7
TCGL: Temporal Contrastive Graph for Self-Supervised Video Representation Learning.TCGL:用于自监督视频表征学习的时间对比图
IEEE Trans Image Process. 2022;31:1978-1993. doi: 10.1109/TIP.2022.3147032. Epub 2022 Feb 18.
8
Spatial-Temporal Pyramid Graph Reasoning for Action Recognition.用于动作识别的时空金字塔图推理
IEEE Trans Image Process. 2022;31:5484-5497. doi: 10.1109/TIP.2022.3196175. Epub 2022 Aug 22.
9
Learning joints relation graphs for video action recognition.学习用于视频动作识别的关节关系图。
Front Neurorobot. 2022 Oct 11;16:918434. doi: 10.3389/fnbot.2022.918434. eCollection 2022.
10
Long Short-Term Relation Transformer With Global Gating for Video Captioning.用于视频字幕的带全局门控的长短时关系变换器
IEEE Trans Image Process. 2022;31:2726-2738. doi: 10.1109/TIP.2022.3158546. Epub 2022 Mar 29.

引用本文的文献

1
Prediction of severe thunderstorm events with ensemble deep learning and radar data.利用集成深度学习和雷达数据预测严重雷暴事件。
Sci Rep. 2022 Nov 21;12(1):20049. doi: 10.1038/s41598-022-23306-6.
2
A Hierarchical Spatial-Temporal Cross-Attention Scheme for Video Summarization Using Contrastive Learning.一种基于对比学习的视频摘要分层时空交叉注意力方案。
Sensors (Basel). 2022 Oct 28;22(21):8275. doi: 10.3390/s22218275.