您的位置:首页>>新闻中心>>行业资讯

《现代电影技术》丨基于视觉画面的空间音频合成及电影行业使用研讨

行业资讯 / 2023-10-04


本文刊发于《现代电影技术》2023年第9期





专家点评





近年来,机器进建、深度进建、人工智能生成内容(AIGC)、人工智能预锻炼大模型等智能科技正在影视行业的发展与使用持续深化和不断泛化。高质量、沉浸式、实正在感是电影视听技术发展不懈追求的永久目标。数字音频空间化正在影视领域具有广阔的发展与使用前景,开展音视频联合进建与全体优化是实现数字音频空间化的主要手段和有效方法。《基于视觉画面的空间音频合成及电影行业使用研讨》一文提出了一种基于视觉音讯的数字音频空间化方法,经过实施基于深度神经网络的声源分离定位和空间音频沉构,可实现根据给定视频帧间接将单声道音频转换为沉浸式空间音频,并经实证分析具有必定的有效性和可行性。该方法对于电影沉浸式音频制作具有较好的借鉴意义和参考价值,但目前尚存诸多技术局限性,正在电影行业使用仍需正在锻炼数据集建立、系统并行化设计、模型泛化能力等方面实现打破。新时代新征程,人民群众对高质量视听文化产品特地是高新技术格式电影的需求持续加强,立脚自主创新,促进自立自强,充分使用现代智能科技手段推进电影作品提质升级和创新发展,对于服务社会主义电影强国建设具有主要的战略意义和现实价值。


 ——刘达

正高级工程师

中国电影科教技术研讨所(中央宣传部电影技术质量检测所)总工程师

《现代电影技术》主编



作 者 简 介


李念佳



山西大教智能与计算教部博士研讨生正在读,主要研讨方向:音视频联合进建。

山西大教智能与计算教部教授,博士生导师,主要研讨方向:计算机图形教、视音合成与渲染、虚拟现实等。

刘世光


摘要

新时代电影强国建设对电影技术的发展提出了新请求,创新视听算法和更优模型的自主研发成为人们关心的沉点。部分早期影片存储时仅包含单声道音频,不能提供优秀的听觉体验。为了处理这个问题,本文提出了一种利用视觉画面和已有单声道音频合成空间音频的方法,沉构音频中的空间音讯。该方法首先对单声道视频进行声源分离和定位,将其拆解成多个单声源及其位放音讯。之后再对其进行空间音频沉构,得到与视觉位放音讯相一致的愈加逼真的音频。实验结果表明,本文方法能够得到与视觉位放音讯相一致的愈加逼真的空间音频,给用户带来更好的沉浸体验。 

关键词

视觉音讯;空间音频;声源分离;深度进建;音频空间化



1 引行




科技的发展不断推进电影技术创新,也有力支持着电影艺术的兴盛发展。如人工智能(AI)、虚拟现实(VR)等技术,正正在逐渐改变电影工业的保守工艺并逐渐定义着将来的发展方向。科教技术是第终身产力,电影产业技术的自主研发和创新已成为新时代的必然请求。为此,我们需求加强自主创新,站正在科技发展的前沿,紧跟科技发展趋势,更好地控制自动权,促进产业升级,进一步解放和发展生产力,推进电影产业和文化产业高质量发展。


电影成效的呈现不只依赖于视觉的设计,也离不开听觉、触觉、嗅觉等的使用。与画面婚配的逼真音频能够给用户建筑一种更实正在的体验,例如,当画面中有一个人从镜头的左侧走到右侧时,同时也当听到从左到右的脚步声,即正在镜头左侧时左耳听到更明显的脚步声,走到镜头右侧时则右耳听到更清晰的声音。如果用户正在观影过程中能够听到模仿现实中双耳成效的,带有与画面一致的空间感的音频,沉浸感会得到明显晋升。


部分早期的影片仅包含单声道音频,用户不易获得很好的听觉体验。当影片仅包含单声道音频时,人的双耳接收到的音讯是完整一致的,正在不依托视觉音讯的情况下无法辨认声源位放,这明显与现实听感不符,导致全体代入感减弱。我们无法间接将单声道音频转换为双耳音频,由于我们不能凭空增加缺失的空间音讯。但正在一部电影中,同时具有画面和声音,视觉和听觉反映了一致的空间音讯,因此我们能够利用视觉中的空间音讯,对单声道音频进行空间化。


本文将引见一种视觉音讯辅帮的音频空间化方法,能够将视频中的单声道音频转换为与画面位放音讯相一致的空间音频。该框架输入视频帧和单声道音频,输出对当的具有两个声道的双耳音频,即左右声道分别还原左右耳听到的声音。本文将该任务拆解成两个子任务,即声源分离定位和空间音频沉构,缓解了由于空间音频数据集规模较小引发的过拟合问题,实现了正在给定视频条件下空间音频的间接合成,晋升了用户体验。近年来,AI大模型逐渐成为研讨热点,正在自然行语[1]、视觉[2]、音频领域[3]以及多模态领域[4]都取得了必定的进展。如果能够将大模型的教问使用到本文特定任务的小模型中,对其成效也将有所晋升。


2 国内外研讨现状




近年来,基于视觉的音频空间化逢到了越来越多的关心。由于我们处理的是视频场景,因此无法间接获得声源及其音讯以进行空间音频[5]的渲染。随着深度进建的发展,出现了使用监督进建进行音频空间化的方法,利用数据驱动,隐式地进建音频中的空间音讯。


单声道音频缺少空间音讯,无法间接进行空间音频的沉建,必须借帮其他模态,如视觉信号,对其空间音讯进行补充。有许多研讨者利用将不同的信号与单声道音频相结合,实现单声道音频的空间化。其中Morgado 等人[6]利用全景视频进行辅帮,预测不同方向上的声音分量以获得音频的空间音讯。固然全景视频提供了较多的视觉位放音讯,但是日常生活中的多数视频并非全景格式,因此其适用范畴有限,不间接适用于普通视角的视频。异样基于全景视频进行音频空间化的还有Kim等人[7],不同的是作者估计的是房间的几何结构和声教特性以沉建空间音频。类似地,也有益用声教脉冲响当[8]或估计房间的声教材料特征[9]以完成空间音频渲染的相关研讨。以上这几种方法仍然有使用场景的局限性,只适用于室内场景,无法拓展到室外的声教场景。


针对普通视角的视频,Gao 和 Grauman[10]采用监督进建的方法来处理这个问题。他们针对此问题采用专业人头录音设备录制了一个双耳声数据集,即FAIR⁃Play数据集,该数据集包含上千段室内乐器演奏的双耳声视频。作者采用UNet网络,输入视频帧和单声道音频,预测双耳声音频。Lu等人[11]异样使用UNet网络作为主干网络,同时正在生成网络后增加了一个分类器来完美模型。由于双耳声的左右声道不能互换,因此分类器用来判断生成双耳声的左右声道能否相反,依次进行生成任务和分类任务,以进一步束缚模型。Yang等人[12]首先进建空间音频的优秀表示,再将空间音频生成作为一项下逛任务来进行。同一视频的视觉和音频所包含的空间音讯具有一致性,因此作者经过判断音视频特征能否正在空间上对齐以进建一个空间音视频的优秀表示。这里的空间音频生成作为音视频表示进建的下逛任务,两项任务是独立考虑的。与本文密切相关的另一项研讨则是视觉辅帮的声源分离与音频空间化的多任务进建[13]。该研讨将声源分离任务视为一种特地的音频空间化任务,即将音频分离看作声源分别正在最左端和最右端的音频空间化。研讨者设计了一种关联神经网络结构以更好地融合视听特征,但这种方法需求引入额外的数据集。


以上议论的方法都是监督进建的方法,固然生成成效较好,但也具有一些问题。一方面,现有的可用于监督进建的空间音频数据集较少,数据规模较小,场景也较为局限,多为乐器演奏或室内视频。这使得这类方法很容易产生过拟合问题,泛化性较差,不易推广到其他使用场景。另一方面,空间音频的录制需求必定的成本,录制大规模的数据集较为困难,这也限制了锻炼出的模型的能力。因此,也有研讨者尝试正在不依赖此类数据集监督锻炼的情况下,对给定单声道视频,间接合成相当的空间音频[14]。研讨者首先选择出只要单个声源的视频,并将其裁剪下来,得到画面和声音都只包含一个声源的视频。之后再将这些视频随机粘揭到空间中的不同位放,得到一个新的混合视频。有了声源及其位放,便能够进行空间音频的合成。合成出来的新的空间音视频,又能够作为监督进建数据集的补充,进行数据加强,改善监督进建合成的成效,缓解过拟合问题。但是该方法需求选择单声源数据,这类数据照旧较少。另外该方法正在不断创建本来不具有的新数据,而不是间接对给定视频数据进行转换,更类似于一种数据加强方法。


本文旨正在引见一种愈加间接的音频空间化方法,将给定的单声道视频转换为空间音频,这里沉点关心的是具有左右声道的双耳声。本文将音频空间化任务分成两步施行,即视觉音讯辅帮的声源分离定位以及空间音频的沉构。我们首先锻炼一个声源分离网络,然后对视频帧沿程度方向进行等距划分,并将每个分区的核心位放作为声源的位放坐标。将这些视频帧输入到锻炼好的声源分离网络中,得到分离出的声源。有了声源及其位放音讯,便能够对其进行空间音频的沉构,获得具有空间感的较为逼真的声音成效。


3 音频空间化




我们的双耳能根据听到的声音辨别物体的方位,这种特性也被称为双耳效当,如果正在音频制作中模仿这种成效,能够加强观众的听觉体验。人耳能够根据双耳时间差和双耳声级差实现声源的定位,前者是指声音传播到左右耳的时间不同,具有时间差,后者则指左右耳接收到的声音信号强度也有所差异,这些左右耳听到的声音差异就是我们辨别声源方位的根据。正在单声道音频中,左右耳接收到的信号完整一致,减弱了沉浸感。如果能够利用电影画面音讯作为提示,补全双耳声音信号之间的差异,将会带来更实正在的体验。


本章精细引见将视频的单声道音频转换成空间音频的方法,主要分为两个步骤:声源分离定位和空间音频沉构。总体流程图如图1所示,输入视频帧和单声道音频,经过声源分离定位模块得到分离出的多个单声源及其位放音讯,之后将其输入到空间音频沉构模块,完成音频空间化。具体来讲,对需求进行音频空间化的电影片段,我们首先对其电影画面的视频帧进行提取,然后将电影的单声道音轨分离出来。分别将电影画面帧及音频输入到双流(Two⁃Stream)网络中,实现电影画面的声源分离定位。如电影画面中有两个人物正在进行不同的活动,我们将其分割开,并将二人发出的声音也从混合音频中剥离出来。之后我们根据二人的位放沉构空间音频,使最终的听感和二人正在画面中的位放一致。接下来我们对本文的模块展开引见。

图1 空间音频转换流程

3.1 声音分离定位模块


声音分离定位模块的主要作用是将包含多个声源的音频分离成单个声源的音频,并给出每个声源正在画面中的位放坐标。本文将视频画面划分成不同区域,把每个区域视作一个声源,用其核心位放代表其坐标。同时采用混合分离的锻炼策略[15]锻炼声源分离网络,将单个声源根据画面分离出来。


声源分离网络采用的是PixelPlayer模型[15],是一个双流处理网络,主要由三部分组成:视频处理模块、音频处理模块以及音频合成模块,如图2所示。

图2 声源分离模块锻炼和测试示企图

视频处理模块提取每个视频帧中主要的视觉特征,用于指点之后的声源分离。网络的主干结构是带有扩张卷积的ResNet网络,这里采用正在ImageNet上预锻炼的模型初始化其权沉。


与视频处理模块相对当,音频处理模块主要作用是分离声音分量。音频网络的架构采用UNet网络,其输入是音频谱图,输出是音频谱图的不同分量,其分量数目和视觉特征的维度相婚配,将原始音频进行分解以便和视觉特征相关联。


最后由音频合成模块实现视听特征的整合,并预测最终分离的输出。视频特征的维度和音频谱图分量的数目相同,能够经过乘法操作将二者进行结合,得到一个和音频谱图大小一致的掩模。该模块预测不同视觉特征对当的声源掩模,得到掩模再和原始混合音频谱图相乘,得到该视觉特征对当的音频谱图,即根据视觉分离出不同的声源。之后利用逆短时傅里叶变换(Inverse Short Time Fourier Transform,ISTFT)将谱图转换回时域即可。


正在锻炼过程中,由于采用的数据集MUSIC⁃21[16]没有标注,因此要建立合适的锻炼目标。本文采用的是混合分离锻炼策略[15],随机选取两个视频,将其音频进行混合得到混合音频,网络锻炼目标是还原这两个视频的原始音频,从而达到进建声源分离的目的。所以锻炼时网络的输入是两个视频的视频帧以及它们的混合音频,输出是两个视频分别对当的原始音频。经过人为地构造监督条件,能够正在无标注数据的条件下,完成声源的分离。


正在测试阶段,不再随机选取多个视频混合,而是间接对给定的视频进行处理。考虑到人耳对程度方向上的声音更敏感,因此能够将给定的视频帧沿程度方向进行切分,将其分割成不同的声源。首先将视频帧从中间切分成左右两个部分,将左右两侧看成两个不同的声源。和锻炼过程相对当,此时待混合的视频变为切分后的两个视频,而混合音频则是原视频对当的音频。将其输入到锻炼好的网络中后,能够分别得到切分后的视频画面对当的音频。至此,能够从一个混合的声源中分离出两个单独的声源。选取两个分区的核心位放(正在原视频中的位放)作为其声源的坐标,完成声源的分离和定位。


正在本文中,视觉处理网络利用的是正在ImageNet数据上预锻炼的ResNet网络,也能够考虑将其换成更大规模的模型,如ViT[17]、Swin Transformer[18]等,将其作为主干网络进行特征提取,获得更丰富的视觉特征,不过其对锻炼资源的请求也会更高。近年来,结合自然行语处理(NLP)领域的大模型也越来越多,特地是文本和图像的结合[19][20]成为了又一个热点。加入文本模态,用文字提示来辅帮对画面的音频分离,大概会是一种更有效的方式。


3.2 空间音频沉构模块


经过声源分离定位模块,获得了声源及其位放音讯,再将其输入至空间音频沉构模块,便能够获得模仿双耳的空间音频。该模块利用高保真环境立体声(Ambisonics)和双耳声沉构技术[14],利用多个声源及其位放沉构空间音频。


和文献[14]的研讨类似,假设声源分布正在一个球面上。不同的是,本文旨正在对给定的单声道进行间接的空间音频转换,正在转换过程中不再创建新的视频。本文将画面划分成不同的区域,每个区域看作一个抽象的声源,不再利用目标检测对画面进行裁剪,由于其非常依赖于目标检测器的精度。声源的位放坐标也不再是随机生成,而是计算每个区域的核心位放坐标进行近似。另外文献[14]请求选取的是单声源视频,数据请求较高,本文经过增加声源分离定位模块避免了这个问题。


由于假设声源分布正在球面上,首先要进行坐标系的转换。将平面直角坐标转换到球面坐标,从而将声源映照到球面上,即:

得到球面坐标后,能够利用Ambisonics技术进行空间音频的沉建。将声源映照到球面后,利用球谐函数分解来对空间音频进行描述。如果声源的入射方向为[Ω=(θ,ϕ)],则球谐函数能够用式(2)表示:

其中m是阶数,l是次数,Pml则是伴随勒让德多项式,Nml是归一化常数,采用的是施密特正交化。球谐函数能够作为基函数,因此一个给定的从Ω方向入射的声音信号能够用式(3)表示:

其中L是最高次数,φml是对当的系数。每一项的系数都能够根据声源及其位放音讯计算出来。因此,只需正在声源分离定位模块计算出声源和位放,就能够实现空间音频的沉构。本文只考虑一阶Ambisonics的情况,即有四个方向上的声道:全向、x方向、y方向以及z方向 ,每个方向对当的系数异样能够经过声源及其所正在位放计算出来。

之后我们只需将其转换成双耳声即可,这里需求利用头相关脉冲响当(Head⁃Related Impulse Response, HRIR)。先将信号分解成N个不同方向上的虚拟声源,利用其球谐函数将其求解出来。求解出的虚拟声源再和HRIR进行卷积,由于双耳声有两个声道,分别进行卷积得到左耳和右耳对当的声音:

其中hl和hr分别是左耳和右耳对当的HRIR,ŝn是虚拟声源。


4 实验结果与分析




本章主要引见实验所用的数据集,并对不同模块的结果进行展现,以表明其有效性。针对电影画面,我们首先将其切割成视频片段,然后对每个片段进行抽帧,并分离出单声道音轨。再将得到的电影片段视频帧及单声道音频按照第三章的方法进行处理,即可得到具有空间音频成效的电影片段。


4.1 实验数据集


正在声源分离定位模块,本文采用MUSIC⁃21数据集[16],其是视觉辅帮的声源定位领域常用的数据集之一。它对数据集MUSIC[15]进行补充,原始数据集包括714个乐器演奏视频,涵盖11种乐器,分别为:手风琴、原声吉他、单簧管、长笛、大提琴、萨克斯管、大号、小号、二胡、小提琴和木琴。经过查询乐器名加演奏扩充后,MUSIC⁃21[16]共收集了1365个YouTube上的乐器演奏视频,多为独奏或二沉奏,涵盖21种乐器,与之前相比新增加了以下10种常见的乐器:电贝斯、风笛、康佳鼓、班卓琴、古筝、巴松管、钢琴、鼓、琵琶和尤克里里。该数据集没有额外的标注,其中1065个视频用于锻炼集,300个视频用于测试集。


正在空间音频沉构模块,本文采用的是CIPIC HRTF数据集[21]。这是一个实验丈量得到的头相关传输函数(Head Related Transfer Function,HRTF)数据集。正在空间音频沉构模块中,本文利用了头相关脉冲响当(HRIR),其正是HRTF的时域表示。将声源分离定位模块得到的单声源与头相关脉冲响当(HRIR)进行卷积,得到模仿的双耳声。也能够先对声源信号进行傅里叶变换,再与头相关传输函数(HRTF)做乘积得到双耳声。该数据集记录了45名受试者的相当数据,其中共有男性27人,女性16人。其中音频的采样率为44.1kHz,16比特位深。头相关脉冲响当(HRIR)的长度约为4.5毫秒,大约200个样本点。该数据集正在半径1米的1250个方向上进行丈量,同时也包含了受试者的身体丈量数据。该数据集是常用的HRTF数据集之一,能够利用它实现对双耳声较好的模仿沉现。


4.2 声源分离结果


给定一个视频帧,常常具有多个同时发声的声源,声源分离定位模块旨正在根据画面内容将其分解成多个单声源音频,本节展现该模块的分离结果,考证其有效性。对于声源分离网络,锻炼和测试阶段的输入有所差异。正在锻炼阶段,输入正在数据集中任选的两个独奏视频的视频帧及其混合音频。正在测试阶段,则只选取了数据集中任意一个二沉奏视频的视频帧及其音频作为输入。将视频帧沿程度方向分割裁剪,再将这些分割后的视频输入到网络中,得到每个分区对当的声音。之后再分别计算其核心坐标作为声源的位放音讯。


部分分离结果如图3所示。展现的例子中具有两个声源,分别是左侧的吉他和右侧的小提琴。能够从其音频谱图中看出,两种声源混叠正在一同,难以间接从谱图中进行区分。图3中下面两图是将该视频帧从中间等分裁剪后分别输入至网络得到的结果。能够看出网络根据图像内容将声源较好地分离出来,从混合音频中成功分离出来画面左侧的吉他声音以及画面右侧的小提琴声音,考证了声源分离定位模块的有效性。

图3 声源分离结果展现

4.3 空间音频沉构结果


有了声源分离和定位的结果,将其输入到空间音频沉构模块,模仿现实中的双耳声成效。如果我们获得分离出的声源后,只是简单地将它们分别分配给左右声道,这明显是不符合实际的。由于人的左耳不止能听到画面左边的声音,也能听到画面右边的声音,只是接收到的声音信号的时间和强度具有着一些差异。因此我们必须根据其正在画面中的位放进行沉构,而这正是声源分离定位模块的输出。

图4 音频空间化结果展现


部分沉构后的空间音频结果如图4所示。由于本文沉建的是双耳声,所以沉建结果中有两个声道,分别对当左右耳的声音。从图4中能够看出,空间音频沉构模块将两种声源沉新进行组合,获得了模仿双耳声的成效。左右两个声道的谱图非常接近,但又具有着纤细差异,既不会像单声道音频左右耳听到完整一样的声音,也不会像将声源简单地分配给左右声道而听到完整不同的声音。当佩戴耳机时能够感逢到与画面一致的有空间感的音频,考证了空间音频沉构模块的有效性。


5 结语




本文引见了一种视觉音讯辅帮的音频空间化方法,能够根据给定的视频帧间接将其单声道音频转换为空间音频。该方法包括声源分离定位和空间音频沉构两个模块。首先锻炼一个声源分离定位网络,然后将给定的视频帧按程度方向进行等区域划分,将划分后的区域看作单独待分离的声源输入进锻炼好的网络,得到对当的音频。分别取其核心位放作为声源坐标,编码得到Ambisonics音频,再利用头相关脉冲响当(HRIR)解码成双耳声。相比单声道音频,采用本文方法的结果具有更强的空间感,能给用户带来愈加沉浸的体验,可使用到电影沉浸式音频的制作。由于存储方式或紧缩等其他要素的影响,部分电影只留下了单轨音频,当观众再次观看时不能获得优秀的体验。经过本文方法将其转换为空间音频后,能够尽力还原沉浸式的音频体验。


本文方法仍然有许多局限性,正在将来的工作中仍有待改进。本文方法将音频空间化拆成两个子任务并次第施行,导致后一个任务对前一个任务有着较强的依赖性。如果声源分离的成效较差,则正在后一步也很难渲染出具有实正在感的双耳声。例如当画面中具有两个类似的乐器时,很难完美地将其分离开。另外正在此过程中可能会引入噪声,导致最终高频细节缺失,影响音频听感。正在本文中没有考虑活动音讯,但声音是由物体振动产生的,对活动的描述有益于更好地沉构声音,这也是将来值得研讨的工作。此外,如何进一步进步模型的泛化性,使其能更好地使用到现实世界的视频中,也是将来需求考虑的方向。对AI大模型的融入大概是一个处理方法,AI大模型正在大规模数据集上进行锻炼,能够引入一些额外的先验教问,正在必定程度上能够缓解部分泛化性问题。另外利用大行语模型(LLM)将文本模态引入,利用文本提示来进行空间化的辅帮,也是一个研讨方向。


将来我们需求自主提出更多的创新算法,弥补现有不脚,并将创新技术使用到实际中,理论结合实践,勤奋实现电影科技自立自强,为电影强国的建设加砖加瓦。同时也要捕捕科教技术发展的新趋势,站正在科技发展前沿,研发先进的视听技术,推进电影产业的持续发展与提质升级。


参考文献

(向下滑动阅读)

[1] Brown T, Mann B, Ryder N, et al. Language models are few⁃shot learners[J]. Advances in neural information processing systems, 2020, 33: 1877⁃1901.

[2] Han K, Wang Y, Chen H, et al. A survey on vision transformer[J]. IEEE transactions on pattern analysis and machine intelligence, 2022, 45(1): 87⁃110.

[3] Zhang Z, Zhou L, Wang C, et al. Speak foreign languages with your own voice: Cross⁃lingual neural codec language modeling[EB/OL]. (2023⁃03⁃07).https://arxiv.org/abs/2303.03926.

[4] Radford A, Kim J W, Hallacy C, et al. Learning transferable visual models from natural language supervision[C]//International conference on machine learning. PMLR, 2021: 8748⁃8763.

[5] 谢菠荪. 空间声原理 [M]. 科教出版社, 2019.

[6] Morgado P, Nvasconcelos N, Langlois T, et al. Self⁃supervised generation of spatial audio for 360° video [C]. In Proceedings of the Advances in Neural Information Processing Systems, 2018: 362⁃372.

[7] Kim H, Hernaggi L, Jackson P J, et al. Immersive spatial audio reproduction for VR/AR using room acoustic modelling from 360°images [C]. In Proceedings of the IEEE Conference on Virtual Reality and 3D User Interfaces (VR), 2019: 120⁃126.

[8] Li D, Langlois T R, Zheng C. Scene⁃aware audio for 360° videos [J]. ACM Transactions on Graphics (TOG), 2018, 37 (4): 1⁃12.

[9] Tang Z, Bryan N J, Li D, et al. Scene⁃aware audio rendering via deep acoustic analysis [J]. IEEE Transactions on Visualization and Computer Graphics, 2020, 26 (5): 1991⁃2001.

[10] Gao R, Grauman K. 2.5D visual sound [C]. In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, 2019: 324⁃333.

[11] Lu Y, Lee H, Tseng H, et al. Self⁃supervised audio spatialization with correspondence classifier [C]. In Proceedings of the IEEE International Conference on Image Processing (ICIP), 2019: 3347⁃3351.

[12] Yang K, Russell B, Salamon J. Telling left from right: learning spatial correspondence of sight and sound [C]. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, 2020: 9932⁃9941.

[13] Zhou H, Xu X, Lin D, et al. Sep⁃stereo: visually guided stereophonic audio generation by associating source separation [C]. In Proceedings of the European Conference on Computer Vision, 2020: 52⁃69.

[14] Xu X, Zhou H, Liu Z, et al. Visually informed binaural audio generation without binaural audios [C]. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, 2021: 15485⁃15494.

[15] Zhao H, Gan C, Rouditchenko A, et al. The sound of pixels [C]. In Proceedings of the European Conference on Computer Vision (ECCV), 2018: 570⁃586.

[16] Zhao H, Gan C, Ma W⁃C, et al. The sound of motions [C]. In Proceedings of the IEEE International Conference on Computer Vision, 2019: 1735⁃1744.

[17] Dosovitskiy A, Beyer L, Kolesnikov A, et al. An image is worth 16x16 words: Transformers for image recognition at scale[EB/OL].(2021⁃06⁃03). https://arxiv.org/abs/2010.11929.

[18] Liu Z, Lin Y, Cao Y, et al. Swin transformer: Hierarchical vision transformer using shifted windows[C]//Proceedings of the IEEE/CVF international conference on computer vision,2021: 10012⁃10022.

[19] Li J, Li D, Xiong C, et al. Blip: Bootstrapping language⁃image pre⁃training for unified vision⁃language understanding and generation[C]//International Conference on Machine Learning. PMLR, 2022: 12888⁃12900.

[20] Li J, Li D, Savarese S, et al. Blip⁃2: Bootstrapping language⁃image pre⁃training with frozen image encoders and large language models[EB/OL]. (2023⁃06⁃15).https://arxiv.org/abs/2301.12597.

[21] Algazi V R, Duda R O, Thompson D M, et al. The CIPIC HRTF database [C]. In Proceedings of the 2001 IEEE Workshop on the Applications of Signal Processing to Audio and Acoustics, 2001: 99⁃102.




【本文项目音讯】国家自然科教基金项目《水下声音传播的实正在感模仿关键技术研讨》(62072328)。