视听语言的场面调度有哪些（视听场景理解经典任务）

时间2025-07-10 21:05:13分类IT科技浏览5961

导读：1. 视听场景理解简介人类感知世界涉及对多种感官数据的复杂分析，包括视觉、听觉、触觉、味觉、嗅觉以及其他感官数据。许多心理学和大脑认知研究表明，结合不同的感官数据对于人类感知至关重要。视觉和听觉作为人类感知世界最重要的两种感官，在现实世界中往往是互补的。例如，在一场音乐会场景中，同时...

1. 视听场景理解简介

人类感知世界涉及对多种感官数据的复杂分析，包括视觉、听觉、触觉、味觉、嗅觉以及其他感官数据。许多心理学和大脑认知研究表明，结合不同的感官数据对于人类感知至关重要。视觉和听觉作为人类感知世界最重要的两种感官，在现实世界中往往是互补的。例如，在一场音乐会场景中，同时观看乐器演出和听乐器的声音比只看或只听更能够让人们享受音乐会。乐器的视觉属性和声音属性是一种天然的对应关系，人类会无意识地将它们进行关联。因此，相对于以往的基于视觉模态的场景理解任务，联合视听两种感官信息往往比单一模态表现更准确有效。

受此启发，越来越多的研究者开始聚焦于视听场景理解任务的探索，如视听事件定位、视听视频解析、视听问答、视听分割等，本文将简单介绍一下这些任务的目标及由来，更具体的任务定义和解决方法可以参阅原论文。

2. 主要任务

2.1 Audio-visual Event Localization (AVE)

视听事件（AVE）被定义为视频片段中既可见又可听的事件，具体分为3个任务：

监督式视听事件定位：预测输入视频的那个时间段具有视听事件以及该事件属于哪个类别； 弱监督视听事件定位：与监督式事件定位不同的是输入的视频标签只有video-level的； 事件不可知的跨模态定位：给定一个模态的事件片段，定位出另一个模态的事件片段。

如下图所示，（a）展示了一个AV事件，黄色框表示时序标注；（b）表示的是通过一个模态事件去找到对应的另一个模态事件。

图 AVE任务示意图

AVE被提出的主要动机有以下几点：

对听觉和视觉模态的联合推理是否优于对它们的独立推理？在有噪音的训练条件下，结果如何变化? 如何知道一种模态帮助另一种模态? 如何更好地融合两种模态的信息? 如果通过一种模态的信息去定位出其对应的内容在另一个模态中的位置？

以这几个动机为出发点，设计了上述的三种定位任务。

2.2 Audio-visual Video Parsing （AVVP）

视听视频解析（AVVP）任务，旨在定位出视频中事件的时序边界，并将它们标记为可听、可见或两者兼之的事件。

如下图所示，一个10秒的视频中，狗在声音模态上的事件是4-8秒，在视觉模态上的事件是2-5秒，视听事件是4-5秒（该时间段内既能看见狗，又能听见狗叫）。

图 AVVP任务示意图

为什么要提出AVVP任务？

以往的关于视听研究往往是假设时序上的事件是关联的，但是在实际场景中，很多视频中的事件只能听见其声音却没有其对应的视觉画面，同时也有很多事件只有画面没有对应的声音，或者视听事件发生的时间并不是一致的。如视频镜头外行使的汽车和人的说话声音，这样的例子无处不在。所以这就引出了一个基本问题，即一个视频中哪些事件是可听的、哪些事件是可见的、还有哪些事件是既可听又可见的，以及我们如何有效的检测这些事件在视频中的发生的时间和位置。

要探究这个问题，就要找到相关视听事件的开始和结束的时间边界，然而由于监督式学习的任务需要大量密集的标注，成本极高。故当前的AVVP任务以弱监督学习的方式开展，即对相关的数据集（LLP）的训练集只提供video-level的标注，在训练和测试集上进行second-level的标注。

2.3 Audio-visual Question Answering （AVQA）

视听问答（AVQA）任务，旨在回答有关不同视觉对象、声音及其在视频中的关联的问题。

如下图所示的单簧管双重奏场景，当回答 “哪个单簧管先发声？” 的问题时，需要在视听场景中先定位出发声的单簧管，并在时序维度上重点聚焦于哪个单簧管先发出声音。要正确回答这个问题，本质上需要有效地对视听场景理解和时空推理。对于这个例子，若我们仅考虑基于视觉模态的 VQA 模型则很难对问题中涉及的声音信息进行处理，相反，若我们只考虑基于声音模态的 AQA 模型，同样难以对问题中涉及的空间位置信息进行处理。但是，我们可以看到同时使用听觉和视觉信息可以很容易的对场景进行理解并正确的回答上述问题。

AVQA任务示意图

AVQA提出的动机：近年来，研究人员在声音对象感知、音频场景分析、视听场景解析和内容描述等方面取得了显著进展。尽管这些方法能将视觉对象与声音关联，但它们中的大多数在复杂视听场景下的跨模态推理能力仍然有限。相比之下，人类可以充分利用多模态场景中的上下文内容和时间信息来解决复杂的场景推理任务，如视听问答任务等。现有的视觉问答（VQA）和声音问答（AQA）方法等往往只关注单一模态，从而不能很好的在真实的视音场景中进行复杂的推理任务。

2.4 Audio-visual Segmentation （AVS）

视听分割（AVS），旨在分割出发声物，而后生成发声物的精细化分割图

单声源*（Single-source）*下的视听分割多声源*（Multi-sources）*下的视听分割

考虑到任务难易，单声源在半监督条件下进行，多声源则以全监督条件进行。

图 AVS任务示意图

AVS提出的动机：以后的视听工作取得了较大的进展，如视听匹配、视听事件定位、声源定位等。前两者作为一个分类任务，都可以归结于给定一张图像和一段音频，判断二者是否描述同一个事件/物体；声源定位想要定位到发声物体的大致区域，趋近于目标检测，但是是以热力图可视化的形式表示定位的结果。尽管这些任务都很有趣，但都不能够很好的勾勒出物体的形状，离精细化的视听场景理解似乎还差临门一脚。为此，视听分割任务提出要准确分割出视频帧中正在发声的物体全貌，即以音频为指导信号，确定分割哪个物体并得到其完整的像素级掩码图。

2.5 Audio-visual Scene-Aware Dialog （AVSD）

视听场景感知对话（AVSD）任务，即是通过使用自然语言回答用户关于动态场景的问题来进行对话。

如下图所示，智能体基于动态视觉场景、音频和历史对话（之前的对话轮次）来生成回应，其目标是开发一种能够感知时间动态的会话智能体，从而更好地理解场景并提供更准确的回应。回答此类问题需要全面了解场景中的视觉和音频信息，以及它们的时序关系，此外由于人类交流很少只有单轮对话，因此还需要了解对话的顺序，如"她"和“它”指的是什么。

图 AVSD任务示意图

AVSD提出的动机：以视觉感知为基础的对话模型需要用自然语言进行对话回答关于图像的问题，即对于给定的问题，系统需要将其响应与输入的图像以及历史对话信息进行关联，然而静态图像缺乏上下文信息，无法进行有效的场景感知和理解。此外已有的对话系统是由用户语音输入触发的，系统响应的内容受到训练数据（一组对话）限制，而且法使用基于多模态的输入（如视觉和非语音音频）来理解动态场景，因此使用此类对话系统的机器无法就周围发生的事情进行对话。故AVSD任务的提出可以充分探索真实对话场景的感知。

2.6 Audio-visual Navigation （AVN）

视听导航（AVN），即在具有视觉和声音信息的仿真3D环境中，智能体通过接受到的视觉和声音信息，导航到声源附近。

具体来说，在一个episode（一把游戏）中，智能体会出生在一个陌生环境的随机位置，同时在同一环境中的某个位置也会随机生成一个声源。智能体在每次决策时会收到一个1秒的音频（波形形式），它的目标就是导航到目标位置。由于没有全局的地图，智能体只能通过解析音频和RGB-D的图像来完成导航任务

如下左图，展示了一个室内环境的top-down map，并且在上面绘制了声压的热力图。由于反射、吸收等声学现象的存在，智能体收到的声音中编码了整个房间的几何、结构和材料信息，并且我们可以发现，音频的变化实际上很好的反映了导航的路径。从这个角度上讲，音频实际上可以帮助设置一个中间的目标（例如该图中的门就是一个很理想的中间目标）。所以在AVN导航中的基本思路是：音频用于设置目标，RGB-D用于导航过程中的避障。

图 AVN任务示意图

AVN的动机：目前的导航任务（Object Goal Navigation，Image Goal Navigation）只利用视觉模态来做导航，虽然有Visual Language Navigation这样的导航任务，但是它们其实忽略了一个事实：在导航过程中，音频实际上扮演了一个非常重要的角色，特别是对于视障人士以及一些利用声波导航的动物，它们可以利用声音的反馈来判断空间的几何形状、遮挡物体以及它们的材料。另外，如果目标位置在可视范围之外的话，如果目标物体可以发声，那么声音会是一个很好的信息载体，因为它在一定程度上揭示了目标的相对位置（例如，可以通过手机铃声找到手机的位置）。还有一点，如果视觉模态不可靠时（例如，存在灯光闪烁，这会对视觉模态的分布产生影响，从而影响视觉encoder提取的特征），听觉信息就变得非常重要。

2.7 其他视听场景理解任务

2.7.1 Audio-visual Retrieval

音视频检索任务，指从大量的音频或视频样本库中，根据用户提供的音频或视频查询，返回与之相关的其他音视频样本的任务。

该任务的目的是通过学习一个模型或算法，使其能够理解音视频数据之间的语义相似性，并能够根据查询找到最相关的样本。在实际应用中，音视频检索任务可以用于许多场景，例如音乐检索、视频检索、图像检索等，旨在提高用户的检索效率和准确性。

图音视频检索任务示意图

2.7.2 Audio-visual Captioning

视听视频描述任务是指通过对音视频内容的分析，从中提取关键信息，然后生成相应的文字描述。

该任务的目的是让机器能够像人一样理解音视频内容，并能够准确地描述出来。通常，音视频描述任务可以分为两种类型：一种是对视频进行描述，另一种是对音频进行描述。对于视频描述，可以提取视频中的对象、场景、动作等关键信息，并将其转化为自然语言描述；对于音频描述，则可以提取音频中的情感、语音内容等关键信息，并生成相应的文字描述。在实际应用中，音视频描述任务可以用于视频摘要、视频搜索、自动字幕生成、智能语音助手等领域，可以极大地提高用户的使用体验。

图视听描述任务示意图

2.7.3 Audio-visual Action Recognition

视听行为识别任务是指从视频或音频中检测和识别人类的行为。

日常生活中的很多视频同时伴随着视觉画面和声音，以往的视频行为识别研究通常只基于视觉模态信息来探索，但是由于光照、遮挡、拍摄角度等因素会严重干扰视频行为识别模型的性能，而声音作为视频动作伴随的一种天然模态信息，可以不受上述原因干扰，与视觉模态联合使用能有效的提升模型的性能。

3.小结

人类对于理解周围场景的能力是基于多种感官提供的信息的。视觉、听觉、味觉、嗅觉和触觉等感官提供不同的信息，但同时也相互补充。这种多感官的信息整合能力是人类理解周围环境的基础。例如，观看电影需要同时运用视觉和听觉来获取更全面的信息，否则无法理解电影的情节。听到救护车声音时，我们往往会自然地关注声音来源的位置，因此更容易注意到救护车的存在。设计能够理解场景的模型算法是人工智能领域中的一个基本问题。目前，视觉场景理解技术已经有了很大进展，如时序定位、视觉问答等。这些技术利用视觉算法对图像/视频进行处理，从而实现对物体、场景和事件的识别、分类和定位等。然而，这些技术通常只关注场景中的视觉信息，而忽略了其他感官提供的信息。

视觉和声音作为现实世界中天然的且重要的模态信息，如何有效的整合这两种模态信息对实现更好的场景理解有着至关重要的作用，如在视障辅助设备中，利用声音来帮助盲人理解周围环境是非常有意义的；在监控领域，利用视听信息整合技术也可以更准确地识别和跟踪目标。然而，当前视听场景理解领域还存在很多挑战。如何更好地关联视听信息、如何实现跨模态信息的推理任务等，都是需要探索的问题。因此，需要更多的研究人员和爱好者一起加入视听理解社区，共同推动这一领域的发展。

4.参考文献

[1] Y. Tian, J. Shi, B. Li, Z. Duan, and C. Xu, “Audio-visual event localization in unconstrained videos,” in Proceedings of the European Conference on Computer Vision (ECCV), 2018, pp. 247–263.

[2] Y. Tian, D. Li, and C. Xu, “Unified multisensory perception: Weakly-supervised audio-visual video parsing,” in Computer Vision–ECCV 2020: 16th European Conference, Glasgow, UK, August 23–28, 2020, Proceedings, Part III 16. Springer, 2020, pp. 436–454.

[3] G. Li, Y. Wei, Y. Tian, C. Xu, J.-R. Wen, and D. Hu, “Learning to answer questions in dynamic audio-visual scenarios,” in Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, 2022, pp. 19 10819 118.

[4] J. Zhou, J. Wang, J. Zhang, W. Sun, J. Zhang, S. Birchfield, D. Guo, L. Kong, M. Wang, and Y. Zhong, “Audio–visual segmentation,” in Computer Vision–ECCV 2022: 17th European Conference, Tel Aviv, Israel, October 23–27, 2022, Proceedings, Part XXXVII. Springer, 2022, pp. 386–403.

[5] I. Schwartz, A. G. Schwing, and T. Hazan, “A simple baseline for audio-visual scene-aware dialog,” in Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, 2019, pp. 12 548–12 558.

[6] C. Chen, U. Jain, C. Schissler, S. V. A. Gari, Z. Al-Halah, V. K. Ithapu, P. Robinson, and K. Grauman, “Soundspaces: Audio-visual navigation in 3d environments,” in Computer Vision–ECCV 2020: 16th European Conference, Glasgow, UK, August 23–28, 2020, Proceedings, Part VI 16. Springer, 2020, pp. 17–36.

[7] K. Parida, N. Matiyali, T. Guha, and G. Sharma, “Coordinated joint multimodal embeddings for generalized audio-visual zero-shot classification and retrieval of videos,” in Proceedings of the IEEE/CVF Winter Conference on Applications of Computer Vision, 2020, pp. 3251–3260.

[8] Y. Tian, C. Guan, J. Goodman, M. Moore, and C. Xu, “Audio-visual interpretable and controllable video captioning,” in IEEE Computer Society Conference on Computer Vision and Pattern Recognition workshops, 2019.

[9] R. Gao, T.-H. Oh, K. Grauman, and L. Torresani, “Listen to look: Action recognition by previewing audio,” in Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, 2020, pp. 10 457–10 467.

声明：本站所有文章，如无特殊说明或标注，均为本站原创发布。任何个人或组织，在未征得本站同意时，禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。如若本站内容侵犯了原著者的合法权益，可联系我们进行处理。