文摘
电子旅行艾滋病(贱民)一直以来专注技术允许设计相对较小,光,和移动设备帮助视力受损。因为视力受损的人依靠空间音频信号作为他们的主要方向,提供一个精确的虚拟的听觉表示环境是至关重要的。本文概述空间音频技术的当前状态,可以纳入贱民,关注用户需求。目前大部分贱民无法解决用户需求或低估的潜力空间声音本身,这或许可以解释,以及其他原因,为什么没有一个埃塔盲人社区中已得到了广泛的接受。我们相信有足够的空间应用本文给出的技术,目的是逐步缩小之间的差距可访问性和准确性的空间音频贱民。
1。介绍
空间音频渲染技术有不同的应用领域从个人娱乐,通过电话会议系统、实时航空环境(1]。他们也用于医疗保健,例如,在运动康复系统(2)、电子旅游艾滋病(贱民,也就是说。,devices which aid in independent mobility through obstacle detection or help in orientation and navigation) [3),为视障人士和其他辅助技术(4]。
的贱民,硬件是便携式,轻量级的,用户友好,允许实时操作,并能够支持长期的操作。所有这些问题给设计人员和开发人员手头挑战先进的技术真的是高科技的形式移动设备、智能手机,等等。此外,如果贱民是专为视障(术语电子旅行援助出生,几乎只用于描述系统开发与导航帮助视障人士周围环境安全、高效。然而,视力受损的人不是严格唯一集团可能受益于贱民的人:例如,非可视化交互关注于导航是消防员感兴趣的操作在烟雾弥漫的建筑5]),必须考虑更多的方面。除了上述之外,设备应该有一个特殊的用户界面以及可选的输入和输出的解决方案,反馈以声音的形式可以提高设备的功能。大部分贱民的视障发展目标在安全导航,如避免障碍,认识对象,扩展空间听觉信息的提示(6,7]。因为视力受损的人依靠空间音频信号作为他们的主要的方向(8),为他们提供一个精确的虚拟听觉表象的环境是至关重要的。
贱民进化了很多在过去的几年中,和各种虚拟听觉显示(9)提出了使用不同空间声音技术和可视化方法,以及基本的听觉图标,earcons,演讲(10]。可用贱民视觉障碍人士提供各种信息,范围从简单的障碍检测与一个测距传感器,采用更先进的反馈数据生成场景的视觉表示,通过摄像头获得的技术。听觉输出类系统的范围从简单的二元警报指示一个障碍的存在范围的传感器、复杂空间声音模式针对几乎感觉替换和携带尽可能多的信息图形图像(7,11]。
也可以由一个部门之间当地流动艾滋病(环境探测器成像系统或障碍,视觉测距传感器),现在只有盲人旅客和最近的环境导航艾滋病(通常是GPS或beacon-based)提供信息路径锚点(12)或地理的兴趣点(13]。而后者则侧重方向朝下一个路标,这意味着有限空间声音渲染可以使用(例如,只是呈现声音在水平面)(14),前者主要是提供信息障碍附近(或缺乏)和现场布局(例如,墙壁和海岸线),支持一个精确的空间表示的场景6]。
然而,大多数这些系统还处于幼年期,处于原型阶段。此外,没有一个电子辅助装置得到广泛认可的盲目的社区,因为不同的原因:有限的功能,人体工程学,科学/技术价值小,有限的终端用户参与,高成本和潜在缺乏商业/企业兴趣推动高质量电子旅行艾滋病(3]。
虽然许多优秀的最近评论埃塔的解决方案是可用的(见,例如,(3,4,6,7]),据我们所知,这些作品批判性讨论或深度分析空间音频交付的重要方面。本文概述了现有解决方案提供空间的声音,关注可穿戴技术适用于电子旅游为视障艾滋病。本文分析报告显示巨大的潜力来实现准确的空间声音呈现通过先进的音频播放设备适合视障人士和进步的定制虚拟听觉显示。本文进行了在欧洲地平线2020项目命名的声音视觉(http://www.soundofvision.net)。声音视觉关注创建一个埃塔盲人翻译3 d环境模型,实时获取到相应的实时听觉和触觉表示(15]。
本文的其余部分组织如下。部分2评论3 d声音定位的基本知识,最后关注盲人本地化。部分3介绍了可用的最先进的软件解决方案定制的立体声渲染,而部分4介绍了先进的硬件解决方案适合视障可用。最后,在节5我们讨论当前使用和未来的视角空间音频的贱民。
2。3 d声音定位的基础
本地化声源的位置意味着确定声音的起始点在三维声音空间(16]。位置根据head-related坐标系定义,例如,两耳极地系统。在两耳极坐标系原点恰逢两耳中点和仰角从来负价值低于水平面和积极的价值观之上,而方位角范围从在左耳在正确的耳朵。第三个维度,距离 ,之间的欧几里得距离声源和原点。在下面我们将参考三个平面,把头部分成部分水平飞机(上/下部分)中位数飞机(左/右部分),额飞机(前/后部分)。
声音定位空间线索可以根据极坐标进行分类。事实上,每个坐标被认为有一个或多个主要线索在一定频率范围内与一个特定的组件,特别是以下几点:(我)方位和距离信号频率与头部相关联。(2)海拔在高频信号相关的耳廓。(3)海拔在低频信号与躯干和肩部。
根据著名的概念和结果,现在讨论的声音定位最相关的线索(17]。
2.1。方位的线索
在20世纪初,瑞利勋爵研究一个侦听器能够通过歧视在水平方向的第一级传入的声波。后双定位理论(18),方位信号可以减少两个基本数量的积极作用在传入的声波的分化,也就是说,如下:(我)双耳时间差之间的时间延迟(ITD),定义为声波在两只耳朵(2)两耳的水平差异(ILD),定义为瞬时振幅之间的比例相同的两个声音。
已知ITD frequency-independent如下赫兹以上kHz,近似比低频高频ITD ITD的3/2,和在中间稍微变量范围的频率(19]。相反,频率相关跟踪和衍射效应引入的人头导致ILD极大地依赖于频率。
考虑一个低频正弦信号(大约千赫)。波长大于头部尺寸,以来ITD只不过是一个相位滞后 信号到达两耳之间,因此水平的可靠线索感知在低频范围内(16]。相反,人类头上的相当大的屏蔽效应对高频电波(上图千赫)ILD最相关的线索在这样的光谱范围。
不过,ITD所提供的资料和ILD可以模糊。如果一个假定人类头上的球面几何学,在听众面前声源方位和第二个位于后方,在方位 在理论上,提供相同的ITD和ILD的价值观。在实践中,ITD和ILD不会在这两个方位角度是相同的,因为人类的头显然不是球,和所有科目中值表现出轻微的不对称平面。然而他们的价值观将是非常相似的正反面混乱实际上是经常观察实验(20.]:听众在后方,而不是错误地定位源(或更少,亦然)。
2.2。海拔线索
定向听证会上中间垂直平面已知低分辨率的价格相比水平面(21]。备案,最小的改变位置的声源产生一个最小可觉听觉事件的改变位置(称为“定位模糊”)沿正中面被发现不少于 ,达到一个更大的阈值(≈17°)不熟悉的语音,而不是定位模糊约额部的水平面,一个巨大的声音(16]。这样一个可怜的决议是由于(我)高频内容的需要(上图4 - 5 kHz)准确的垂直定位(22,23];(2)轻微的信号到达两耳差异来源的左、右耳正中面。
如果一个源坐落在水平面,ITD - ILD-based本地化成为问题。事实上,声音来源位于圆锥表面的所有可能的点指向的耳朵球形头部产生相同的ITD和ILD值。这些表面,概括上述正反面的概念混乱的高度角,被称为锥的混乱和代表一个潜在的困难对准确感知声音的方向。
尽管如此,这是无可争议的,垂直定位能力带来的耳廓的存在(24]。尽管在任何平面定位包括耳廓蛀牙的双耳25),感知垂直角度的确定声源的正中面基本上是一个单声道的过程(26]。外耳扮演重要的角色,通过引入高频频谱的山峰和级距传入的声音,其中心频率、振幅和带宽大大取决于声源的仰角(27,28),非常小的程度上方位(29日),几乎是独立源和听众之间的距离超出几厘米从耳朵30.,31日]。这样的身体由于反射光谱影响耳廓边以及共振和衍射在耳廓蛀牙(26,29日,32]。
一般来说,羽片山峰和等级都认为发挥重要作用在垂直声源的定位(33,34]。相反级距,山峰单独不充分的垂直定位信号(35];然而,谱峰的支持定位性能的提高仅在上方向对等级(36]。也通常被认为是一个声源含有大量能量在高频范围内海拔的准确判断,因为波长明显长于耳廓的大小不受影响。由于波长和频率是相关的 (这里是声音的速度,通常在干燥的空气= 343.2 m / s 20°c),我们可以大致状态下面,耳廓的影响相对较小= 3 kHz,对应于一个声波的波长≈11厘米。
羽片的作用在垂直定位被广泛研究,躯干和肩部的角色不太理解。相比的影响相对较弱,如果由于头部和耳廓,和实验建立的相对重要性知觉线索了好坏参半的结果一般来说(23,37,38]。肩膀干扰入射声波频率低于耳廓的影响主要通过提供一个额外的反射,其延迟的距离成正比的耳朵上方的肩膀当声源直接听众。侧,躯干介绍声波来自下面的阴影效果。躯干和肩部也常见扰乱低频ITD,即使它是怀疑他们是否可以帮助解决定位模糊混乱的锥(39]。
然而,正如Algazi等人所说38),当一个信号是低分通过3千赫以下,在正中面高程的判断力很差如果相比,但比例提高宽带源逐步从正中面搬走了,性能比前面更准确的在后面。这个结果表明低频信号的存在对高程,虽然被整体疲软远离正中面具有重要意义。
2.3。距离和动态信号
声源的距离估计(见[40]对主题全面审查)比高度知觉更麻烦。在第一个层面上,没有其他线索,声强是第一个变量考虑:强度越弱,越远源应该感知到。在无回声的情况下,减少声音强度随着距离可以预测通过平方反比定律:一个全向声源强度衰减了大约6 dB的距离每增加一倍(41]。还是一个遥远的爆炸和耳语几厘米的耳朵可能产生相同的声压级的耳膜。有一定的熟悉相关声音因此第二个基本需求(42]。
然而,明显声源的距离是系统地低估了在一个无回声的环境(43]。另一方面,如果环境混响,额外的信息可以直接反映能源比例,或DRR,哪些功能作为距离比强度更强的提示:距离发生变化的感觉如果整体强度不变,但DRR改变(41]。此外,军事光谱效应也有一个角色在日常环境中:更高的频率越来越多随着距离的衰减由于空气吸收效果。
文献来源方向知觉通常是基于一个基本假设;即声源足够的听众。特别是,以前讨论的方位角和仰角线索distance-independent当源是所谓的远场(大约超过1.5头的中心),声波到达听者可以假定为平面。另一方面,当源的近场前面讨论的一些线索展示一个清晰的距离的依赖。逐渐接近的声源近场监听器的头,这是强调观察到低频增益;ITD略有增加;和ILD大大增加在整个频谱横向来源(20.,30.,44]。得出了以下的结论:(我)Elevation-dependent功能不相关的军事功能。(2)ITD大概是独立于即使源很近的距离。(3)低频ILDs是占主导地位的听觉线索的近场距离。
它应该清楚ILD-related信息需要考虑近场,那里距离的依赖不能由一个简单的近似平方反比定律。
最后,必须指出,从静态转向动态环境中源和/或侦听器移动彼此,源方向和距离知觉得到改善。的趋势指向声源,以最小化耳间的差异,即使没有视觉教具,常见和艾滋病在解释清楚前/后混乱(45]。活跃的运动帮助特别是方位估计和一定程度上在仰角估计46]。此外,由于运动视差侦听器的效果,轻微的翻译在水平面可以帮助区分源距离(47,48]:如果源附近,其角方向后将彻底改变翻译(反映本身在耳间差异),而对于一个遥远的来源这不会发生。
2.4。声源外化
通常是真正的声音来源外部化以外,认为是自己的头。然而,当虚拟3 d声音来源提出了通过耳机(见下一节),通常可能出现的头部定位和定位能力产生重大影响。或者,听众可能将声源的方向并且能够准确定位判断还伴随着认知的来源方式接近头部比否则目的(例如,表面的头骨(49])。然而,当考虑到相关的约束,如使用单独测量head-related转移函数作为解释部分3,虚拟声源可以外部化一样有效真实的声音来源(50,51]。外化,连同其他属性,如颜色,浸泡,和现实主义的一个关键感知属性超越本土化的基本问题最近提议的评价几乎呈现声音来源(52]。
的头部定位主要是引入的精确度损失在耳间水平差异和光谱资料几乎呈现声音来源(49]。另一个非常重要的因素是由双耳和光谱变化由自然头部动作在现实生活中:正确跟踪头部运动确实可以大大提高外化在虚拟声环境,尤其是对资源接近正中面(最难外部化静态无回声的条件下,由于最小两耳差异(53),甚至几度的相对较小的运动可以有效地减少头部定位(54]。此外,它最近表明,外化可以持续一次连贯的头部运动与虚拟听觉空间停止(55]。
最后,声音混响相关因素导致强烈的外化,而不是干无回声的声音。人工混响的介绍(56通过图像来源基于模型的早期反射、墙和空气吸收,和后期混响可以显著促进声音形象外化在headphone-based 3 d音频系统57),以及真正的听力室之间的一致性和几乎重新回荡环境(58]。
2.5。视力受损的听觉定位
许多先前的研究表明,声源定位的视障人士可以不同于有视力的人。之前必须首先强调,调查视障受试者表示没有更好的听觉灵敏度(59- - - - - -61年)和听觉的听力阈值低62年)通常比有视力的受试者。另一方面,视障科目获得使用听觉信息的能力更有效地由于中枢神经系统的可塑性,,例如,在语言歧视(63年),时间分辨率(64年),或空间调优65年]。
实验与实际声音来源表明,视力受损(特别是早期失明)主题地图的听觉环境等于或精度比有视力的受试者在水平面62年,66年- - - - - -68年在检测高程(),但不太准确67年)和显示过度压缩听觉距离感知之外的近场(69年]。然而,不同于有视力的受试者,视障科目可以正确定位单声道的声音(66年,70年),这意味着一种权衡之间的定位能力水平和平均飞机发生(71年]。通过比较行为和电生理指标的空间优化在中央和周边的听觉空间通常在先天失明和视力正常的但被蒙上眼睛的成年人,发现盲人的参与者显示本地化能力都优于的控制,但只有当参加外围对声音的听觉空间(72年]。不过,它必须被考虑,早期盲人受试者没有学习的可能性和视觉刺激听觉事件之间的映射73年]。
本地化的同时,适应相关的信号是一个组件的颜色对视力和盲目的科目。障碍的改善盲人也主要是由于增强对回波信号的敏感性(74年),它允许所谓的回声定位(75年,76年]。由于这种障碍感应能力,可以通过训练来提高,距离知觉在盲人受试者可能增强[68年,76年- - - - - -78年]。此外,一些受试者能够确定大小,形状,甚至纹理基于听觉线索的障碍(70年,77年,79年,80年]。
切换到虚拟听觉显示,即本文的重点,详细比较评价盲人和视力正常的受试者(81年)证实了前面讨论的结果在文献中定位与实际声音来源。获得了更好的性能在本地化静态锋源盲组由于减少数量的正反面逆转。在移动来源的情况下,盲目的受试者更准确的确定在水平面运动头部。的参与者,然而,期间表现的更好听提升运动在正中面和识别声音的来源。头部定位率和探测能力下降运动几乎相同的两组。在进一步的实验中(82年的错误率来度水平和来垂直度测量池的盲目的主题。在本地化改进盲人观察主要在水平面和宽带刺激计划。
最后,尽管视觉信息相应的听觉信息明显艾滋病定位和创建正确的空间心理映射,必须说,视障科目可以受益于外部表示为了获得真实环境的空间知识。例如,最近的研究结果表明,交互式探索虚拟声空间(83年- - - - - -85年)和audio-tactile地图(86年)可以提供相关信息建设的连贯的空间心理地图的实际环境中盲目的主题和这样的心理表征保持拓扑和度量属性,与表演可比,甚至比一个实际的导航体验。
3所示。双耳技术
最基本的方法,模拟声源方向在喇叭是使用平移。这通常是指使用两个渠道(立体平移)振幅平移。在这种情况下,只有水平作为平衡通道的信息,和虚拟源转向声音通道。然而,ILD和光谱信号是由实际的扬声器的位置决定的。在传统音响设置,喇叭和侦听器形成一个三角形,源可以正确地模拟的理想情况下连接两个扬声器。然而,尽管传统的耳机也用两个渠道,正确定向信息不是由于扬声器的不同布置对侦听器和通道之间的串扰。
虚拟声源的空间特性可以通过耳机通过处理更实际地呈现一个输入声音用过滤器,每个模拟所有的线性变换经历了从声源的声信号在其路径对应的监听器的耳膜。这些过滤器是在文献中被称为head-related转移函数(头)87年),正式定义为声压级之间的频率相关比率(SPL) 鼓膜和自由场SPL的中心如果听众缺席: 在哪里 表明源的角位置和相对于侦听器是角频率。电火花冲激包含所有的信息相对于声音的转换造成的人体,特别是头部,外部的耳朵,躯干和肩部。
电火花冲激测量通常在大型消声室进行。通常,一组喇叭在主题安排,指向他/她和生成一个虚构的球面。侦听器定位这两耳轴的中心正值球体的中心定义的喇叭和旋转(或者等价,主题的旋转)。探针麦克风插入每只耳朵,在入口处或耳道内。测量技术在于记录和存储信号到达麦克风。因此,这些信号处理以去除房间的影响和录音设备(特别是扬声器和麦克风),只留下电火花冲激(87年,88年]。
通过处理所需的单声道声音信号的一对个人头,每一个通道,通过充分占headphone-induced光谱颜色(见下一节),真实的D声音体验。创建虚拟声源与单个头可以本地化一样准确真实的来源和有效外部化(50),头部动作可以提供,声音是足够长的89年]。事实上,本地化的短宽带听起来没有头部动作不如真实的准确的虚拟资源的来源,特别是在垂直定位精度(90年),前/后逆转率更高的虚拟资源(89年]。
不幸的是,个人电火花冲激测量技术需要使用专门的研究机构。此外,这个过程可能需要几个小时,这取决于使用的测量系统所需的空间网格密度,不舒服和乏味的科目。因此,最实用的应用程序使用力(或通用的)头相关,例如,测量假头,也就是说,人体模型由平均人体测量。网上有几种通用的电火花冲激集。最受欢迎的是基于测量使用KEMAR人体模型(91年]或诺伊曼ku - 100仿真头(见俱乐部弗里茨研究[92年])。另外,可以采取一套电火花冲激的许多公共数据库单独的测量(见,例如,93年]);这些数据库最近在一个通用的电火花冲激格式统一称为面向空间的格式声学(沙发)(https://www.sofaconventions.org/)。
另一方面,力头代表最便宜的方法,提供三维感知耳机繁殖,特别是在水平面(94年,95年],倾听力空间听起来更有可能导致明显的声音源高程定位错误等不正确的知觉,正反面逆转,和缺乏外化96年)不能完全抵消额外的光谱信号,特别是在静态条件下(46]。特别是个人高度提示不能通过通用的特征光谱特性。
由于上述原因,不同的替代方法对HRTF-based合成提出了在过去几十年(37,97年]。这些现在回顾,提出分类通过增加水平的定制。
3.1。电火花冲激选择技术
电火花冲激选择技术通常使用特定的标准来选择最好的电火花冲激从数据库设置为特定的用户。Seeber和Fastl98年)提出一套程序根据电火花冲激哪一个选择是基于多个标准如空间知觉、定向的印象和外化。Zotkin et al。99年)选择最匹配的电火花冲激设置一个人体测量数据向量的耳廓。Geronazzo et al。One hundred.)和Iida et al。101年)选择的电火花冲激集提取耳廓切口频率接近用户的虚拟频率根据人体测量反射模型和回归模型,分别。
同样,选择可以针对检测头在数据库的一个子集,适合大多数的听众。这种方法是,例如,通过所以et al。102年通过聚类分析和卡茨和Parseihian [103年通过主观评级)。个人最好的选择这组降低电火花冲激是留给用户。甚至不同的选择方法是由黄等。104年和胫骨和公园105年]。他们模仿HRIRs在正中面基函数的线性组合的权重被交互self-tuned自己的听众。
本地化测试的结果包括在大多数这些作品显示总体下降的平均定位误差以及前/后逆转和在头脑本地化率使用选定的头而不是通用的头。
3.2。分析解决方案
这些方法对电火花冲激试图找到一种数学方法,考虑到大小和形状的头部和躯干。最反复出现的头部模型在文献中是一个刚性球体,响应与一个固定的观察点在球体表面可以通过描述分析传递函数(106年]。布朗和杜达(37]提出的一阶近似作为最小相位传递函数的源远场模拟滤波器。近距离的依赖可以通过额外的过滤器结构(占107年]。
虽然球头模型提供了一个令人满意的近似的低频级测量电火花冲激(108年),它是更准确的预测ITD,实际上是变量在一个锥形的混乱高达18%的最大两耳延迟109年]。ITD估计精度可以提高通过考虑一个椭圆形封头模型,可以解释ITD变异和适应个人的听众110年]。但必须强调,ITD估计从头是一个重要的操作,考虑到大变化的客观和感性ITD结果由不同的常见的计算方法相同的电火花冲激数据集(111年,112年]。
球面模型也可以近似的贡献躯干电火花冲激。同轴叠加两个不同半径的球体,隔开一段距离占脖子,结果在雪人模型(113年]。雪人的远场行为模型研究了额平面通过直接测量两个刚性球体,通过计算多极reexpansion [114年]。一个过滤器模型也来源于雪人模型(113年];其结构区分这两种情况下,躯干作为反射器或影子,两者之间切换滤子结构一旦源进入或离开躯干阴影区,分别。此外,躯干椭圆模型研究了结合通常的球头(38]。该模型能够解释不同的躯体反射模式;听力测试证实,这个近似和相应的测量电火花冲激给了相似的结果,显示离正中面更大的相关性。
这些技术方法的一个缺点是,既然他们不考虑耳廓的贡献,生成的头相关匹配测量头在低频率,缺乏光谱特性在更高的频率115年]。
3.3。电火花冲激结构模型
根据结构建模方法,对电火花冲激的贡献用户的头,耳廓,躯干,和肩膀,每个占一些定义良好的物理现象,分别处理建模和相应的过滤元件(37]。然后由全球电火花冲激模型结合所有考虑的影响(116年]。结构建模打开一个有趣的形式的内容适应用户的人体测量学,因为渲染参数块可以从物理数据估计,安装,最后与人体测量。
几何结构模型通常假设一个球形或椭球形的头部和躯干,前面的小节中讨论。有效的定制的球头半径给定头部尺寸提出了(117年,118年),导致与实验ITDs和ILDs关闭协议,分别。另外,ITD可以使用个人单独合成形态数据119年]。椭圆躯干也可以轻松地定制特定的主题通过直接定义控制点的三个轴在这个问题上的躯干114年]。此外,各种各样的羽片模型可在文献中,从简单的反射模型(120年)和几何模型(121年)更复杂的物理模型,治疗耳廓蛀牙的配置(122年)或反射表面(29日]。羽片的结构模型,模拟其共振和反射行为在两个单独的过滤模块,提出了(123年- - - - - -125年]。
Algazi et al。93年)建议使用大量的一维人体测量电火花冲激通过回归方法拟合或其他机器学习技术。这种方法最近被追求的研究(126年- - - - - -129年]调查之间的对应关系人体测量参数和电火花冲激形状。当执行合适的处理头、清晰与人体测量学出现的关系。例如,麦德布鲁克(130年]报道之间的关联耳廓大小和中心频率的电火花冲激高峰和级距和认为同样形状的耳朵不同大小的比例因子产生同样形状的头中按比例缩小的频率。之间的对应关系的进一步证据耳廓的形状和电火花冲激山峰(123年,131年,132年和等级125年,133年,134年)中提供了大量的工作。使用这些知识会导致结构性耳廓的有效参数化模型基于人体测量参数,这意味着改善正中面定位对通用头(135年,136年]。
3.4。数控电火花冲激模拟
数值方法通常需要输入一个3 d网格的主题,尤其是头部和躯干,包括方法,如时域有限差分(FDTD)方法(108年),有限元法(FEM) (137年),边界元法(BEM) [138年]。
最近的文献都集中在本。众所周知,高分辨率网格是必要的为了有效地模拟与本头,尤其是对耳廓区域。网格分辨率低的结果的确在模拟头,大大不同于听觉上测量头在高频段,因此破坏高度提示(139年]。然而,随着网格元素的数量,内存需求和计算负载增长更快140年]。近期作品介绍了快速多极子方法(FMM)和互惠的原则(即。,交换源和接收器)为了面临BEM效率问题140年,141年]。最终,定位性能模拟头通过本被发现与听觉上所观察到的类似测量头(142年),和数据库模拟头(143年计算)以及开源工具头通过给出的本头网作为输入144年在网上的)。
另一方面,基于图像的三维建模、基于重建3 d几何从一组用户的照片,是一个快速和具有成本效益的替代获得网格模型(145年]。此外,消费水平深度照相机的出现和巨大的计算能力的可用性在消费电脑打开新的视角对非常便宜,但非常准确的计算的个性化的头。
4所示。耳机技术
的一个至关重要的变量生成HRTF-based双声道的音频是耳机本身。耳机不同类型(如circumaural, supra-aural extra-aural,入耳式)和可以转移函数线性。主要问题与经典的耳机,耳机之间的传递函数和鼓膜因人而异和耳机本身的小位移(146年,147年]。这种变化特别明显在高频范围内重要高程线索通常所在。因此,耳机播放介绍重要的定位错误,如头部定位,正反面混淆,高程变化(148年]。
为了保持相关的定位提供的线索电火花冲激过滤在耳机听,各种耳机均衡技术,通常基于前置过滤与普通耳机的逆传递函数,使用(149年]。但是,先前的研究表明,这些技术时没有有效的力(甚至选择)头(使用149年,150年]。另一方面,一些作者支持个人的使用耳机补偿为了保持定位信号在高频范围内(146年,147年]。
在旅行中艾滋病视障,其他因素需要考虑在设计和选择耳机的类型。最重要的是,耳朵提供至关重要的信息环境,和视障人士拒绝使用耳机在导航如果这些部分或完全盖住耳朵,因此阻止环境噪音。结果视力受损的偏好的调查对象可能个人导航设备(151年)显示,事实上,大多数的参与者把耳机戴在耳朵是最可接受的输出设备,相对于其他技术,如骨传导耳机和小管状,甚至一个耳机戴在一只耳朵。此外,这些完全盲目的对耳机有强烈的负面感受,阻止环境听起来比半盲。
这个重要的考虑我们的注意力转移到空间音频选择先进的解决方案交付等非常规耳机配置,骨传导耳机,或主动透明的耳机。
4.1。非传统的耳机配置
耳朵阻塞的问题可以解决分散的声音传递从耳道的入口位置的耳朵,每个耳朵与一个或多个传感器。在这种情况下,问题的正确方向和距离每个传感器对耳道,以及他们的类型和尺寸。此外,有一个挑战空间渲染技术,没有研究结果支持传统loudspeaker-based空间音频技术的应用(比如一向量(152年]或Ambisonics [153年])multispeaker耳机,传统电火花冲激测量与分散的议长职位不匹配。
第一次尝试通过multispeaker交付空间音频耳机是由康尼锡。分散4-channel安排放在一双circumaural earcups额环绕声繁殖实施[154年)(小supra-aural配置也提出了另一个办法155年])。结果表明,这个演讲者安排诱发个人direction-dependent耳廓线索,因为他们出现在真正的额声音在自由场辐照频率1 kHz以上(156年]。心理声学的影响引入的耳机显示额听觉事件,以及有效距离知觉(154年]。
个人的可用性耳廓鼓膜势在必行的线索准确额本地化(157年]。因此,破et al。158年]后来提出了用2声道耳机正面投影的定制力头通过引入特殊耳廓暗示。知觉实验验证的有效性额在传统耳机耳机播放降低正反面混乱和提高额本地化。也观察到单个光谱信号由额叶投影与高频自给自足的正反面歧视甚至耳廓线索从集团中删除电火花冲激。然而,需要额外的传感器,如果虚拟声音背后的头部必须交付,和音色的差异对额传感器需要解决。
·Greff和卡茨(159年]扩展上述解决多传感器阵列每只耳朵周围放置(8人/ ear)重建pinna-related电火花冲激的组件。模拟和主观评估显示,可以激发正确的本地化提供的线索衍射波前重构的侦听器的耳廓,使用传感器驱动过滤器与一个简单的球形头部模型有关。此外,不同的扬声器配置进行了初步定位测试,有传感器放置在掠入射在耳廓展示最好的结果的垂直定位准确性和前/后混乱率。
最近,Bujacz et al。160年未来的ETA)提出了一个定制耳机的解决方案有四个proximaural扬声器位置上方和下方的耳朵,稍微前面。振幅平移当时作为空间音频技术转移的力量输出双扬声器之间的声音,从水平和垂直方向上。初步本地化测试的结果显示定位准确度HRTF-based通过高质量渲染circumaural耳机,在方位角和仰角。
4.2。骨传导耳机
使用双耳骨传导耳机(也称为bonephones)是一个非常有吸引力的解决方案设备用于盲人随着技术没有明显干扰声音接收通过耳道,允许自然感知环境的声音。典型的解决方案是将振动致动器,也称为骨传导传感器,在每个乳突(颞骨的凸起部分位于耳朵后面)或者在颧骨的耳朵(161年]。压力波发送通过头骨的骨头耳蜗,含有一定数量的自然声音通过空气进入耳道泄漏仍然发生。
有一些困难在使用骨传导提供空间音频。第一个是相声阻碍有效的双耳分离的风险:因为传播速度高和低衰减的声音在人类头骨,ITD和ILD线索明显软化。沃克et al。162年]仍然观察到某种程度的空间分隔的双耳线索通过骨传导和耳朵运河提供免费或阻挡,特别是相对于ILD。感知之间的偏侧性甚至可比空气传导和骨传导,从而耳道(163年]。然而,降解相对于标准耳机显示困难产生足够大的双耳差异在极端的横向位置(模拟声音的来源162年]。
第二个问题是需要引入额外的传输函数的正确平衡HRTF-based空间音频:换能器的频率响应(164年骨头本身)和传递函数,称为骨传导调整功能(BAF) [165年),考虑到高频衰减的皮肤(166年),不同个体之间,类似于头。沃克et al。167年,168年)提出了使用合适的骨转移函数(BRTFs)更换头。史丹利(165年)个人BAF来自等响判断纯色调,显示个人BAF调整HRTF-based空间声音交付有效地恢复光谱信号改变了骨传导途径。这使得有效的本地化的正中面通过减少上下逆转对BAF-uncompensated刺激。然而,没有办法测量BAF经验,目前还不清楚是否使用一个通用的、平均BAF可能导致相同的结论。
麦克唐纳et al。164年)报告了类似的定位结果在水平面之间的骨传导和空气传导,使用个人头作为虚拟听觉显示和耳机的频率响应补偿。林德曼et al。169年,170年)相比,定位精度之间的骨传导,从而与耳道和一组扬声器位于侦听器。结果表明,尽管最好的精度,扬声器阵列实现了静止的声音,没有差别在扬声器阵列之间的精度和骨传导装置移动的声音,和这两个设备超过标准耳机移动的声音。
最后,巴德et al。171年)最近调查了最低可辨别的角度不同水平面与力头骨传导耳机,导致平均10°的价值。有趣的是,几乎所有参与者报告实际声音外化。
4.3。活跃的透明的耳机
一个活跃的耳机能够检测和处理环境声音通过模拟电路或数字信号处理。最重要的一个应用领域主动降噪耳机,耳机的使用有源噪声控制(172年,173年),以减少不必要的声音通过添加一个反相的信号输出声音。的贱民,环境信号不应取消但回侦听器(提供听到信号)与虚拟听觉显示信号混合的主体意识到环境。双耳听到耳机(集成式耳机与麦克风)通常用于增强现实音频(ARA)应用程序(174年),在真实和虚拟的结合听觉对象需要在实际环境中(175年]。
听到信号处理版本的环境声音,应该产生相似的听觉感知,从而自然感知的耳朵。因此,需要均衡的耳机听觉上透明的,因为它影响的声学属性外耳(176年]。这里最重要的问题是可怜的戴在头上的导致泄漏和衰减问题。耳机的健康影响隔离和频率响应。使用内部麦克风耳机除了外部的,内部控制可以实现自适应均衡(177年]。
第二个听到系统的基本要求是,处理记录声音应该最小延迟(175年]。事实上,当真正的信号(泄露给耳膜)是总结听到信号,延迟的版本可能会导致声音comb-filtering效果,尤其是在较低的频率泄漏较高。comb-filtering效应的可闻度取决于时间和振幅听到信号和泄漏信号的区别(178年]。使用数字实现,最好在模拟电路的情况下埃塔在成本和规模方面,适当的延迟小于1.4毫秒,comb-filtering效应被发现的听不清的衰减耳机是20分贝以上,可以实现与DSP板(179年]。
最后,听到信号应保持耳道入口处本地化线索。因为声音传播从麦克风的耳膜独立方向麦克风是否内部或最多6毫米在耳道(180年),双耳麦克风就在耳道入口是充分的获取正确的listener-dependent空间信息。
5。空间音频贱民
从众多的贱民,两个主要的趋势选择声音线索可以观察到,一个提供非常有限的但更容易解释的数据,通常从一系列传感器,另提供过多的听觉数据,让用户学习从中提取有用的信息(例如,声音181年])。第三种方法,比如作者的声音视觉项目(15),是限制数据从full-scene表示最有用的信息,例如,通过分段环境和确定最近的障碍或检测特殊危险的场景元素,如楼梯。调查显示,个人偏好在盲人可以有很大区别,和这三种方法的用户更喜欢他们(182年]。
在最近的文献综述,Bujacz和Strumiłło6)分类听觉显示解决方案中实现最广泛的贱民,商用或在研究和发展的不同阶段。的22个贱民,12使用环境的空间表示。然而,把贱民的列表分解障碍探测器(主要是手持)和环境成像系统(主要是戴),贱民,使用几乎所有空间表示属于第二类。他们中的一些人,比如声音(181年],Navbelt [183年],SVETA [184年],AudioGuider [185年),使用立体声平移来表示方向,而忽视或高程信息编码成声音。贱民(包括工程不包括在上面的引用),使用头作为空间渲染方法总结。所有的系统提出了以下是实验室原型。
5.1。贱民使用头
的由(Espacio Acustico虚拟)系统(186年]使用立体摄像机创建一个低分辨率(16×16×16)3 d stereopixel地图环境在用户面前。每个占领stereopixel成为虚拟声源过滤与用户的个人头,以回荡的环境。这种技术采用空间音频信号(合成头)和distance-to-loudness编码。声音通过一对分别提出了平衡的hd - 580 circumaural森海塞尔耳机。经典的本地化测试与上述虚拟听觉显示和测试有多个来源进行6盲人和6通常有视力的受试者。受试者被准确识别对象的位置和识别形状和尺寸范围内由系统的分辨率。
的跨通道埃塔设备(187年)是一种可穿戴的原型,包括低成本的硬件:耳机(没有进一步提供的信息),太阳镜配备两个CMOS微摄像头,和palm-top电脑。系统能够检测产生的光斑激光指针,计算它的角位置和深度,并生成相应的声音的位置和距离指出表面。这种编码使用定向听觉线索通过布朗和杜达提供的结构性电火花冲激模型(37),和距离线索通过响度控制和混响效果。这种可视化技术评估的主观的有效性由几个志愿者被要求使用系统并报告他们的意见。总的结果是令人满意的,一些问题缺乏高度的感知。目标非常高和非常低的被认为正确,而那些躺在中间与错误的海拔高度有关。
的个人导航系统(12]从GPS接收器接收信息并评估在五种不同类型的配置涉及到听觉显示的不同类型,空间声音交付方法(无论是通过经典的耳机或扬声器穿的肩膀),和跟踪器的位置。没有双耳的详细信息空间化引擎或提供使用的耳机。十五视障人旅行米长与每个的途径配置。结果表明,配置使用双耳予虚拟言论导致了最短旅行时间和主观的最高评级。然而,有许多负面评论关于耳机的阻止环境的声音。
天鹅系统[8,188年)艾滋病导航和制导通过一组导航信标(earcon-like声音),object-related听起来(通过空间听觉提供图标),位置信息,短暂的预先录制的语音样本。听起来都会实时更新通过跟踪相应主题的取向和予力头。声音是通过一对索尼mdr - 7506 closed-ear耳机或一个平衡的骨传导耳机(见[165年])。在实验过程中,108年有视力的受试者被要求在三个不同的地图。结果显示良好的导航能力几乎是所有参与者在时间和路径的效率。
的主要思想虚拟现实模拟器的视力受损的人(189年)包含在计算用户之间的距离和附近的对象(深度地图)并将它转换成声音。深度地图转化为空间听觉地图使用3 d声音线索合成与单独测量头在额领域从1003个职位。声音提供了通过一个标准的立体声耳机(没有进一步提供的信息)。虚拟现实模拟器被证明有利于视力受损的人在不同的研究实验中表现在室内和室外,在虚拟和现实的情况。在模拟器的主要限制是跟踪精度和缺乏实时电火花冲激卷积器。
的实时帮助原型(190年),一个进化CASBliP原型(191年),编码对象的位置在空间根据他们的距离(声音频率成反比),方向(3 d双耳听起来合成力头),和速度(音高变化成正比)。力头KEMAR模型测量的不同空间点在64°方位范围内,一个30°海拔范围,和一个15米的距离范围。声音是通过一对索尼MDR-EX75SL入耳式耳机。两个实验进行了四个完全失明,要求一个话题来识别方向,另一个声音探测的位置移动源和遵循。尽管提供了令人鼓舞的结果在静态条件下检测到物体移动的区域,其主要限制驻留在无法检测对象在地面和减少64°的视野。
NAVITON系统(192年,193年)过程立体影像细分出听觉表象的关键元素。对于每个分段的元素,这种方法使用离散搭声音,音调,响度,和时间延迟(深度扫描)取决于对象的距离,和其持续时间正比于物体的深度。声音是予与单个头、自定义以完整的方位范围和在垂直平面上从−54°- 90°,在5°的步骤。声音通过提供高质量的露天参考耳机没有耳机补偿。十被蒙上眼睛的参与者报告了他们的听觉感知的转化虚拟3 d场景虚拟现实实验,证明能够把握环境的总体空间结构和准确估计场景布局。实际导航场景也测试了盲人和5被蒙上眼睛的志愿者,谁能准确地估计单障碍或双障碍的空间位置和步行通过简单的障碍课程。
的NAVIG(由人工视觉辅助导航和GNSS)系统(194年,195年)旨在提高流动性和定位、导航、对象定位,把握,分别在室内和室外。它使用全球导航卫星系统(GNSS)和一个快速的视觉识别算法。确保实时导航力HRTF-based渲染,语音,和语义隐喻提供轨迹信息,位置,环境中的重要的地标。3 d音频场景通过复杂的骨传导耳机的频率响应是平衡的为了正确渲染所有的电火花冲激的光谱信号。初步实验表明,可以设计一个可穿戴设备,可以提供充分地分析信息给用户。然而,全面评估NAVIG原型尚未发表。
5.2。讨论和结论
使用头代码定向信息在上面的总结贱民表明的重要性的高保真空间听觉表示为盲人用户环境。然而,最上面的作品无法解决的硬件和/或软件相关方面我们在讨论部分3和4,性能和可用性测试的结果,是基于双声道的音频渲染设置,要么是理想不切实际的(例如,186年])或低估的潜力空间声音本身(例如,190年])。
事实上,首选为虚拟听觉显示内贱民是单独列出测量头或集团,通用的头。只有跨通道埃塔(187年)提出了结构的使用电火花冲激建模作为一个定位精度和测量成本之间的权衡。结果,这些系统的评价(通常是通过适当的本地化执行性能测试)要么是基于最好的进球不可行的解决方案(分别测量头)或在一个不花钱的但不准确(通用头),俯瞰虚拟听觉显示忠诚的重要方面如高程精度和前/后避免混乱。此外,上述单声道的定位能力的视障人士(特别是早期失明)建议使用个人耳廓方位知觉线索,这将使一个视力受损的人更容易退化定位从力头比视力正常的人。
更不幸的是,这些测试的耳机选择在大多数情况下经典circumaural或式耳机那块环境声音,因此,正如之前所讨论的,是不能接受的视障社区。使用骨传导耳机只天鹅和NAVIG报告系统(188年,194年),耳机均衡的重要性,虽然强迫力,也强调。除了一个,剩下的工作,(186年),甚至提到耳机均衡。有效外化的虚拟声音提供给用户因此质疑。
很难排各影响因素的重要性令人满意的虚拟声经验(例如,外化、定位精度和正反面混淆)。大多数研究只检查一个或两个因素并能证实他们的影响一个或多个空间声音感知参数。除了电火花冲激的选择集,耳机类型,和均衡,类型的声源(频率内容,熟悉或不熟悉的声音,和时间方面)(16,44,196年),其他重要的因素需要考虑。例如,部分将对此进行说明2.4、渲染环境反射增加外化,以及使用适当的头部的方法,也有助于解决前/后混乱(95年]。这可能是为什么大多数上述引用的研究选择使用高质量的耳机与通用或个人头,没有耳机均衡只要头部或实时应用障碍实现跟踪。也注意到这些系统相关使用头盔摄像机呈现声音目前位置相对于头方向甚至不严格要求头部工作动态(197年]。
我们相信有足够的空间应用技术提出了审查论文的情况下为盲人贱民。基础研究电火花冲激定制技术目前在一个多产的阶段,由于计算能力的进步和技术的广泛可用性等D扫描和打印详细让研究人员调查个人人体测量学和头之间的关系。虽然一个完整和全面的理解机制参与空间声音感觉还需要达到技术,如电火花冲激选择、结构电火花冲激建模、或电火花冲激模拟有望逐步桥之间的差距可访问性和个人双耳语音的准确性。
还必须指出,许多实验证明主观培训力头,尤其是通过跨通道和基于游戏的训练方法,可以显著降低定位误差在自由场和虚拟听条件(198年]。反馈可以提供通过视觉刺激199年,200年),本体感受的线索(201年,202年),或触觉信息(203年]。减少正反面混乱率一样大据报道,以及改善声音定位精度在水平和垂直平面不管头部运动。
另一方面,耳机技术讨论的部分4预计到达盲人社区中广泛流行。骨传导和活跃的耳机的消费市场由于他们负担得起的价格。外部multispeaker耳机仍然处于原型阶段,但从研究的角度来看开放引入个性化的双耳回放的吸引力可能不需要完全个人头。努力这样的耳机设计中产生的声音视觉项目(160年]。
最后一个评论认为化妆品可接受性的播放设备。而骨传导和双耳耳机相对谨慎和便携式,外部multispeaker耳机可能需要笨重的和非传统的设计。盲人社区中有相当大的变化在评估化妆品可接受性的可穿戴的电子设备,即使它很有效。然而,视障人士的调查显示,Golledge et al。151年]显示压倒性支持的想法经常旅行这样的装置,独立于其外观。
的利益冲突
作者宣称没有利益冲突有关的出版。
确认
这个项目已经收到了欧盟的资助下地平线2020研究和创新计划资助协议。643636年。