用于指称图像定位与分割的双向关系推理网络

Bidirectional Relationship Inferring Network for Referring Image Localization and Segmentation.

作者信息

Feng Guang, Hu Zhiwei, Zhang Lihe, Sun Jiayu, Lu Huchuan

出版信息

IEEE Trans Neural Netw Learn Syst. 2023 May;34(5):2246-2258. doi: 10.1109/TNNLS.2021.3106153. Epub 2023 May 2.

DOI:10.1109/TNNLS.2021.3106153

Abstract

Recently, referring image localization and segmentation has aroused widespread interest. However, the existing methods lack a clear description of the interdependence between language and vision. To this end, we present a bidirectional relationship inferring network (BRINet) to effectively address the challenging tasks. Specifically, we first employ a vision-guided linguistic attention module to perceive the keywords corresponding to each image region. Then, language-guided visual attention adopts the learned adaptive language to guide the update of the visual features. Together, they form a bidirectional cross-modal attention module (BCAM) to achieve the mutual guidance between language and vision. They can help the network align the cross-modal features better. Based on the vanilla language-guided visual attention, we further design an asymmetric language-guided visual attention, which significantly reduces the computational cost by modeling the relationship between each pixel and each pooled subregion. In addition, a segmentation-guided bottom-up augmentation module (SBAM) is utilized to selectively combine multilevel information flow for object localization. Experiments show that our method outperforms other state-of-the-art methods on three referring image localization datasets and four referring image segmentation datasets.

摘要

最近，指称图像定位与分割引起了广泛关注。然而，现有方法缺乏对语言与视觉之间相互依存关系的清晰描述。为此，我们提出了一种双向关系推理网络（BRINet）来有效解决这些具有挑战性的任务。具体而言，我们首先采用视觉引导的语言注意力模块来感知每个图像区域对应的关键词。然后，语言引导的视觉注意力采用学习到的自适应语言来指导视觉特征的更新。它们共同形成一个双向跨模态注意力模块（BCAM），以实现语言与视觉之间的相互引导。这有助于网络更好地对齐跨模态特征。基于普通的语言引导视觉注意力，我们进一步设计了一种非对称语言引导视觉注意力，通过对每个像素与每个池化子区域之间的关系进行建模，显著降低了计算成本。此外，利用一个分割引导的自底向上增强模块（SBAM）来选择性地组合多级信息流以进行目标定位。实验表明，我们的方法在三个指称图像定位数据集和四个指称图像分割数据集上优于其他现有最先进方法。

相似文献

Bidirectional Relationship Inferring Network for Referring Image Localization and Segmentation.用于指称图像定位与分割的双向关系推理网络

IEEE Trans Neural Netw Learn Syst. 2023 May;34(5):2246-2258. doi: 10.1109/TNNLS.2021.3106153. Epub 2023 May 2.

Referring Segmentation via Encoder-Fused Cross-Modal Attention Network.基于编码器融合跨模态注意力网络的引用分割。

IEEE Trans Pattern Anal Mach Intell. 2023 Jun;45(6):7654-7667. doi: 10.1109/TPAMI.2022.3221387. Epub 2023 May 5.

Referring Segmentation in Images and Videos With Cross-Modal Self-Attention Network.基于跨模态自注意力网络的图像和视频指代分割

IEEE Trans Pattern Anal Mach Intell. 2022 Jul;44(7):3719-3732. doi: 10.1109/TPAMI.2021.3054384. Epub 2022 Jun 3.

Language-Aware Vision Transformer for Referring Segmentation.用于指称分割的语言感知视觉Transformer

IEEE Trans Pattern Anal Mach Intell. 2025 Jul;47(7):5238-5255. doi: 10.1109/TPAMI.2024.3468640.

Decoupled Cross-Modal Transformer for Referring Video Object Segmentation.用于指称视频对象分割的解耦跨模态变换器

Sensors (Basel). 2024 Aug 20;24(16):5375. doi: 10.3390/s24165375.

Multi-Modal Mutual Attention and Iterative Interaction for Referring Image Segmentation.多模态互注意力和迭代交互的引用图像分割。

IEEE Trans Image Process. 2023;32:3054-3065. doi: 10.1109/TIP.2023.3277791. Epub 2023 May 30.

Cross-Modal Progressive Comprehension for Referring Segmentation.跨模态递进式理解的指代分割。

IEEE Trans Pattern Anal Mach Intell. 2022 Sep;44(9):4761-4775. doi: 10.1109/TPAMI.2021.3079993. Epub 2022 Aug 4.

Relationship-Embedded Representation Learning for Grounding Referring Expressions.用于基础指代表达的关系嵌入表示学习

IEEE Trans Pattern Anal Mach Intell. 2021 Aug;43(8):2765-2779. doi: 10.1109/TPAMI.2020.2973983. Epub 2021 Jul 1.

Object-Agnostic Transformers for Video Referring Segmentation.用于视频指称分割的目标无关变压器

IEEE Trans Image Process. 2022;31:2839-2849. doi: 10.1109/TIP.2022.3161832. Epub 2022 Apr 5.

VLT: Vision-Language Transformer and Query Generation for Referring Segmentation.VLT：用于指代分割的视觉-语言转换器和查询生成。

IEEE Trans Pattern Anal Mach Intell. 2023 Jun;45(6):7900-7916. doi: 10.1109/TPAMI.2022.3217852. Epub 2023 May 5.

文献检索

告别复杂PubMed语法，用中文像聊天一样搜索，搜遍4000万医学文献。AI智能推荐，让科研检索更轻松。

立即免费搜索

文件翻译

保留排版，准确专业，支持PDF/Word/PPT等文件格式，支持 12+语言互译。

免费翻译文档

深度研究

AI帮你快速写综述，25分钟生成高质量综述，智能提取关键信息，辅助科研写作。

立即免费体验

用于指称图像定位与分割的双向关系推理网络

Bidirectional Relationship Inferring Network for Referring Image Localization and Segmentation.

作者信息

出版信息

相似文献

文献检索

文件翻译

深度研究

Suppr 超能文献

相似文献