研究文章|开放获取
主观评价与宏碁的音乐压缩编解码器和AAC格式相比,MP3和未压缩的PCM
文摘
音频数据压缩的音乐产业带来了革命性的变化和音乐家销售和分发他们的产品。我们先前的研究提出了一种新颖的编解码器命名宏碁(音频压缩重复利用),达到数据减少利用不合时宜和冗余在音乐结构时一般维持可接受的水平噪声和失真的客观评价。然而,以前的工作没有评估宏碁使用主观听力测试,留下一个缺口来证明其适用性在人类感知音频测试。在本文中,我们提出一个双盲听测试,进行了一系列的听众(N = 100)。目的是确定宏碁编解码器的疗效,明显的噪声和空间扭曲的文物,对音频数据压缩和未压缩的事实上的标准参考。结果表明,参与者报告没有未压缩感知差异,MP3, AAC、宏碁高质量和宏碁中等品质压缩音频噪声和失真,但宏碁低质量的格式被认为是低质量的。然而,参与者的看法的音响领域,所有格式在测试执行以及彼此,没有显著差异。定性、主题分析听众的反馈显示,噪音文物,宏碁生产技术不同于那些比较器编解码器,反映了它的新方法。结果表明,当代音频压缩系统的质量已达到一个阶段,他们的表现被认为是未压缩的音频。宏碁格式能够竞争作为一种替代方法,结果显示偏好宏碁介质质量版本在WAV, MP3, AAC。 The ACER process itself is viable on its own or in conjunction with techniques such as MP3 and AAC.
1。介绍
在这项工作中,我们评估的性能宏碁(音频压缩利用重复)编解码器(1]。音频压缩急剧发展在过去的25年里,使多媒体广播等领域内许多显著的进步,内容分布、消费娱乐,和视频游戏。在此期间,一系列psychoacoustic-oriented有损编解码器使这种变化,特别是MPEG音频1/2的引入第三层(MP3)及其继任者高级音频编码(AAC)。有损压缩技术的一般趋势,继续遵循这一方法,以增强的基础心理声学模型以及支持多种渠道和流2- - - - - -4]。弗劳恩霍夫,MP3编解码器的创造者,宣布终止许可MP3技术在2017年支持其继任者AAC, MPEG-H,和增强的语音服务(EVS),对MP3的能力产生了怀疑与替代音频编码方案从夫琅和费和其他供应商(5]。
在之前的工作中,给出了宏碁音频编码方案。宏碁音频压缩的任务不同于现有方法能够利用音乐结构中包含音频文件使用一个基于字典的方法。宏碁的做法是不寻常的在音频压缩域,在更传统的方法是利用人类听觉心理声学模型和反映这些比特分配的频谱。这主要是通过聚焦在听众感知音乐的特征,可以确定为了利用冗余和不合时宜的底层音频信号(1]。宏碁计划被设想为一个独立的编码方案或者可能先于其他编解码器的一个额外的处理步骤,如MP3, AAC格式,或Ogg Vorbis。然而,宏碁只集中在现有的评价客观质量评价(1)和一名飞行员主观评价,进行了在一个不受控制的环境中(6]。
在这项研究中,我们进行了一项大规模评估宏碁计划对两种流行的音频编解码器(MP3, AAC),以及一个未压缩波(WAV)版本的音频。因为我们有兴趣,在这项研究中,在人类感知的音频压缩方案,我们聚焦于评估关键知觉品质。因此,我们的目标是调查以下零假设:H1:感知差异的音频质量,噪音和失真,在未压缩的WAV, MP3, AAC格式,和宏碁音乐样本是无关紧要的。H2:在音频质量的感知差异,在音频方面立体成像,在未压缩的WAV, MP3, AAC格式,和宏碁音乐样本是无关紧要的。
维护我们建议,如果这些假设,然后用宏基的编解码器可以被认为是一个适当的替代方法的音频编码以独立的形式或集成现有的心理声学的编码技术来增强的数据量减少,可以实现。宏碁编解码器的使用有可能扩大可用音频压缩技术的范围,提供一个替代的数据还原法在心理声学的压缩的情况下,减少光谱分辨率,可能不合适,比如在某些音频分析任务或高保真音频回放。
本文的其余部分组织如下:第二部分提供背景对我们的工作提供了一个关键的讨论最近的研究领域的音频压缩和知觉测试方法有关。在那之后,宏碁压缩方案的概述。部分4描述了主观听力测试方法和刺激之前使用。部分5探讨了宏碁的结果和分析方案和备用音频编解码器。部分6探讨了定性的描述与每个编解码器的参与者的经验。最后,我们提供的结论,将讨论本研究的局限性和未来的工作领域。
2。相关工作
音频压缩方案从《盗梦空间》的发展评价是利用多个学科领域,包括计算机科学,音频工程和听力测试和评估。在本节中,我们的目标是为读者提供一个广泛的、丰富的音频数据压缩,放到和支撑的相关方面提出了本文的工作。
2.1。音频编码
与其他形式的数字媒体信息,音频已经对方法中引起相当大的关注减少存储和传输所需的比特数。analogue-to-digital转换(采样)的过程本身就是一个必须做出的决定,随后的音频的采样率和比特深度将可靠地允许所需频率和水平动态原始声音的代表。这通常是在创建一定的压缩脉冲编码调制(PCM)表示,它本身可以被描述为一种数据压缩。成功繁殖频率和动力是非常重要的为了给听众提供高保真音频生殖(高保真)。然而,人类听觉系统(已经)不是线性的频率和振幅的解释听起来了,这意味着人类感知的声音并不总是要求的所有潜在的声音频率和动态品质的声音存在,当听觉刺激。频率和时间掩蔽的现象7,8)通常利用在有损音频压缩方法。大多数现代编解码器是混合动力车,增加语义方法,如感知冗余相关,与传统的句法方法如霍夫曼(9和大米10)代码。
无损音频编码方法,同时有效,很大程度上一直停滞不前的减少获得的数据量(11]。一个例外无损音频编码领域的自由无损音频编解码器(FLAC),这是能够实现按压2:1的比率在该地区没有丢失数据通过使用预测模型(12]。FLAC的能力生产无损音频相对小说在音频压缩方法,虽然它不能产生有损同时代相似的压缩比,这通常是4:1的范围与15:1。其他当代无损技术扩展这些原则使用线性预测,与边际增加压缩比达到[13,14]。至关重要的是,任何的音频压缩方法是有效的减少使用的比特数来表示声音。在无损压缩技术,保留原始信号是至关重要的。
然而,它常常需要采用有损压缩技术来实现更高的比率,通常利用心理声学的属性和操作的限制。至关重要的是,解码过程并不抑制流体回放的声音,要求快速,需要少量的CPU处理时间,并产生相对准确的结果。因此,音频编码技术是不对称的,容忍延迟压缩、减压过程提供尽可能真实的时间15]。损耗在数字媒体技术是司空见惯,尤其是音乐,和例证的方法,如Ogg Vorbis [16],MP3, AAC [17]。实现可伸缩的数据简化方法,取决于使用的应用程序,并能实现感知未压缩的音频(高度相似的结果18- - - - - -20.]。
最近的事态发展在音频压缩域看过工作提高音频保真度可以由编解码器操作以非常低的比特率,如24、48、64、92 kbps (21,22),而编码约120至256 kbps可能被认为是典型的,旨在实现极高的“感知透明”数据降了编码。工作也专注于音频压缩系统在高质量的电信和多通道系统为空间设计音频生殖,这通常是6或8频道,但很容易扩展到更多23]。
2.2。感知音频评估
当处理音频,它是包括感知评价的关键在测量一个编解码器的性能。的决心如何合成音频侦听器数据简化过程的结果如果要广泛采用至关重要。知觉评估可以使用客观的和/或主观的机制进行的。
客观评价依靠音频信号的特性分析和比较一个已知的参考基准。这个过程可以使用简单的机制,如信噪比(信噪比)或更复杂的算法,基于人类听觉系统的模型,如音频质量的感知评价(PEAQ)规24]。这两种方法通常是快速和方便的实现,使大量的音频样本处理和评估。然而,简单的音频质量的措施可能不一定反映实际人类感知的信号。更复杂的模型可能不会完全可概括的由于人与人的差异对他们独特的听觉系统(25,26]。
客观测试是一种方便的资源的方式测量特定的音频编解码器的功效。尤其是典型的障碍进行主观测试,设备资源,并获得足够数量的参与者,有有限的证据表明客观措施更高的比特率音频编解码器产生类似的结果主观评价(27]。然而,认识到任何新的编码技术的引入应辅以主观测试,以获得更全面的感知效应(24,28]。
的理想数量的参与者使用的音频质量评估,国际电信联盟无线电通信(ITU-R)身体支持者至少10,如果使用专家听众,或至少20,如果使用非专家的听众(29日]。现有主观音频评估研究倾向于遵守这个利用小样本大小,26日是平均参与人数(30.- - - - - -33]。
2.3。当代的编解码器的性能
在一个主观评价进行(22),它是发现,在低比特率不同24 kbps至64 kbps, MP3,高效率AAC、低AAC格式,其他5个编码方案中常用广播应用程序收到一组不同的主观质量分数23参与者的退化中音频。然而,在更高的比特率,这些计划展示了更大的分数之间的一致性和低水平的退化,“…所有的编解码器附近提供一个透明的音频质量”。这项工作表明,在相对较高的比特率,不同的128 kbps到320 kbps,心理声学的编解码器执行类似的感知。
另一项研究[20.)评估MP3音乐编码比特率,96,128,192,256,和320 kbps,对未压缩的音频CD音质使用共有13个训练有素的听众,与一系列的背景,包括声音工程师和音乐家。五个音乐样本在他们的研究中,来自两个流派:摇滚和古典。每个片段之间的时间长度是5和11秒各自包含一个独特的音乐的歌曲。参与者进行了一系列的AB比较6表示每个音乐样本。他们的发现,在所有参与者和音乐,建议有显著偏好未压缩的CD音频质量与96年相比,128年,192 kbps MP3版本。然而,没有明显差异确定当比较256年和320 kbps MP3 CD音频质量版本。本研究的参与者还被要求提供定性描述的文物和扭曲他们认为音频。作者发现以下类别的文物,在秩序的情况下发生:高频文物,一般扭曲,混响,瞬态文物,立体图像,动态范围和背景噪音。这项工作是感兴趣的,因为它表明参与者无法轻易区分MP3和未压缩的音频超出256 kbps的阈值,以及提供一个潜在的框架,用于测量文物可能被认为在编码音频样本。
3所示。宏碁编码方法的总结
宏碁的主要宗旨的方法是利用存在于当代音乐结构的冗余实现数据减少而不是依赖与在其合成感知缺陷。尤其是流行音乐,利用重复作为一种有意识的工具与听众和一块形式和结构。在很多情况下,这意味着相同的内容是重复的,在音乐播放多个实例,而不是一个人类相同的音乐序列的性能,这将是容易的细微差别时机和动力学。这种重复的存在产生了冗余的机会被发现和利用实现数据压缩。宏碁的方法利用无损的原理基于字典的计划(15)来实现这一目标。这些原则可以很容易地以考虑音乐符号的短序列,在C大调的关键,呈现在图1。
这个例子展示了一个简单的音乐旋律超过8酒吧的音乐和使用共有三十明确编码的笔记。很明显,目前有冗余表示,这可能被利用来达到降低块的大小表示,这些冗余的对象可能是发现与windows(持续时间)的大小不同。例如,序列中的第一个音符出现了总共13次(每个注意图中突出了一个箭头);然而,字典索引的开销和符号使得这个效率低下。在更大的范围内,第一个完整的音乐酒吧出现四次(阴影所反映出的矩形),可能提供储蓄的八30笔记,加上一个小编码开销。观察也可以了,进一步扩大,前三条酒吧五块是相同的,6和7(虚线所反映出的),呈现另一个冗余,节省了十二个三十的笔记,加上一个小编码开销,因为第一行(酒吧1到4)和二线(酒吧5到6)不同只有最后的两个音符。
宏碁技术将上述方法并执行相同的原则,如在象征层面上所讨论的,但在信号电平。这带来了额外的挑战由于许多因素,如噪声、复调音乐,和没有量子化,以及表述行为的和富有表现力的因素。宏碁在执行搜索音乐音频片段检测感知相同,或类似的,部分的音乐和提取多余的部分。
宏碁编码过程通过建立开始搜索块,大小中使用音乐的节奏进行编码。节奏是微不足道的使用元数据或获得,如果没有可用的元数据,通过打败跟踪信号的检测分析。然后分成连续的跟踪目标相同大小的块和一个线性搜索来确定执行那些块认为感知相似。在搜索和目标比较块,窗口傅里叶变换是将每一个差光谱计算的两个。的均值差光谱相比,然后一个阈值来确定两个街区感知相似。之前定义的阈值搜索和操纵的影响质量的设置和压缩量宏碁将实现1]。当所有当前目标块搜索块相比,搜索块递增,这一过程重复进行,直到搜索空间耗尽。匹配搜索和相应的目标块的索引位置确定存储,这样他们以后可以从记录中删除。因此,宏碁编码阶段完成后,最终用户是剩下一组音频块和指标,它可以重建一个表示原来的轨道。这些步骤的详细算法定义我们的早期工作1]。
感知相似的定义是基于回归模型使用人类开发的听众,形成早期的技术描述的一部分,宏碁压缩过程和算法(1]。在这个研究中,宏碁的客观质量评价系统进行了客观的不同年级(ODG) [24)和信噪比(信噪比)进行了研究在5不同级别的宏碁音频质量(fidelity)。43跟踪压缩,平均比特率达到如下:1037 kbps(最低质量),1118 kbps(低质量),1218 kbps(中等品质),1298 kbps(高质量),和1352 kbps(高质量)。宏碁质量的两个最低水平被认为表现不佳,ODG描述符之间的平均下降“烦人的”和“非常烦人”。相比之下,优质宏碁编码描述符之间的得分“听不清”和“可察觉的,但不讨厌”,第二个最高的“可察觉的,但不讨厌”与“有点烦”,第三个最高之间“有点恼人”和“烦人的”。这些发现是紧随其后的是一个小规模的宏碁的主观评价方案,其中每个编码水平的调查来确定每个之间的相对质量差(6]。承担研究因此,这里,只有上三个宏碁计划的质量水平,现在改名为如下:宏碁高,宏碁的媒介,宏碁低。
我们先前的研究缺乏深入和持续的主观、感性评价疗效的宏碁计划相比,压缩和压缩格式(MP3, AAC)。这是由于缺乏时间和访问专家听套件资源。这个缺陷是在这项工作。
4所示。材料和方法
4.1。方法
听力考试研究来确定宏碁的感知质量和性能的方法相比,未压缩的WAV, MP3, AAC编码音乐音频。使用听力测试方法如ITU-R bs - 1116 (34)或多个刺激隐藏参考和锚(MUSHRA) [35将是一个可行的方法。然而,这种方法需要专家研究参与者的听众是谁精通检测小音频质量的差异。同时使用专家听众的目的是确保可靠的结果,它没有准确反映更广泛的人口,也更大程度的变化对音频质量的感知。基于这一点,一个自定义的方法被采用,这是决定使用未经训练的听众。
参与者提供机会听到短(20岁)样本10选择歌曲。每个被反复播放,直到参与者完成他们的反应或希望继续前进。他们能够听到六个版本的每首歌:未压缩的WAV, MP3 192 kbps CBR, AAC 192 kbps CBR,宏碁低质量,宏碁中等品质和宏碁高质量。每个样本同时回放,以随机的顺序输入源选择器HG8/1 Canford硬件开关,允许参与者自由选择样本流他们听使用一个简单的旋转开关。
封闭的拜尔动态DT770M 80 -欧姆耳机选择的研究,因为他们有一个被动的环境噪音减少35 dB,根据制造商的规范。一个美国莱恩HC6S耳机放大器,RMS级别是82 dBC,大致按照推荐的参考电平ITU-R [29日,34),与95年的峰值dBC。音乐是最受欢迎的媒体形式耳机使用高水平的采用和经常使用(36,37]。耳机被报告为第二个平等的最受欢迎的方法计算机扬声器后消费的音乐(38]。
耳机的使用也最小化任何房间声学色的影响,影响听力的研究表明(39]。他们也可能促进更详细的内容由于司机距离和最小的相声。承认,立体图像时使用耳机将不同于喇叭。然而,使用耳机时,听者经历的声音是感知外部世界(40]。人们已经发现,几乎没有区别的工作室喇叭和工作室耳机的音频质量评价情况;两个MUSHRA [41]和ITU-R标准听力测试支持使用耳机或喇叭(29日,34]。
对每首歌,参与者被邀请来提供一个响应,使用纸质得分表,两个问题。第一个关心任何的噪音样本,和第二个立体图像的质量,他们有经验。用于这两个问题的措辞被考虑术语推荐选择ITU-R BS.1284 [29日]。计分表上的每个问题明确的评分标准和双相描述符使用两端的分级规模。
参与者被要求评价每个剪辑的音频质量对噪音和失真使用五点语义分化量表如下:1 =听不清噪音和失真;5 =明显的噪声和失真。这个问题将允许参与者是指任何类型的噪音或人工制品出现在样本,提供捕捉范围线性和非线性失真的因素。参与者被要求评价每个片段的立体图像质量,使用一个五点语义分化量表如下:1 =狭隘和不精确;5 =宽,精确。同样,这个问题为参与者提供了机会来描述立体传播和本土化的能力不同的音乐声音来源。参与者听六编解码器变化每个十首歌的样品,他们被要求指定的六个片段是他们最喜欢的,哪些是他们最不喜欢的。
4.2。参与者
共有100名参与者参与的听力考试,并招募Merchiston爱丁堡纳皮尔大学校园。关于背景,28%是大学学生,而33%是学术或教职员工和39%是行政和支持人员。参与者不提供任何形式的报酬或其他任何形式的诱因为他们的参与。
其他人口细节而言,55岁女性参与者和45是男性。平均年龄为40 (SD = 12)最低20岁,最大的68岁。所有的参与者都认为自己有什么他们认为是听力正常的年龄。17%确定,他们有某种形式的专业音频培训,37%的人表示,他们有某种形式的音乐训练。最后,参与者被要求给一个估计他们通常花多少时间每天听音乐。72%的人回答说,他们听音乐1到3个小时每一天,和8%不听任何音乐。
4.3。测试材料
总共有10个音乐剧选段中使用的评估。这些歌曲是随机从double-CD当代英国流行音乐专辑的编译:这就是我所说的音乐!90年(42]。这被选为代表了广泛的当代的样本,样本人群的流行音乐。选择使用的跟踪评价如表所示1。
|
||||||||||||||||||||||||||||
样本取自商业CD,每首歌代表CD音频质量(红书)43]:二进制补码的二进制44.1千赫采样率,16位字长,2通道(立体声),PCM录音。每首歌的样本提取20秒的时间。每个样本的开始有一个1.5秒的线性淡入应用和一个等价的1.5秒的消失是应用于每个样本。这个修改是为了减少听力每个片段的经历突然对参与者和更容易确定每个样本何时开始和结束。
创建每首歌的压缩版本,剪辑受到各自的压缩过程和同一20-second-long摘录随后提取。淡入和淡出被应用,符合ITU-R期间建议和表示的音乐样本(29日]。自评估将在双盲的方式进行,所有样本然后重新保存CD音质PCM和分配随机生成的四弦的名字。材料被传递给第二作者进行听力评估。
获得的比特率的六个版本的这首歌如表所示2。值得注意的是,除了宏碁的方法,其他方法提供一个固定的比特率的音频内容。十跟踪使用在这个实验中,宏碁高质量的编解码器实现平均减少12.60%的大小;宏碁介质质量收到平均减少19.92%的大小;和宏碁低质量收到平均减少27.53%的大小。
|
||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
宏碁技术运营以来在一块特定的音乐音频,删除冗余的压缩量(即。,降低比特率)是直接受到声波音频文件的内容本身。例如,大量的音乐功能重复和少量的变化在音乐表演中,发音,和编制将实现与宏碁计划降低比特率,而可能被视为更前卫的音乐,与非常规结构或性能的变化,发音,和编排,将实现更少的比特率的减少。宏碁计划的质量设置节流的知觉相似性由编码器容忍:高质量的设置严格的序列被认为是一场比赛,而低质量的设置更严格和更有可能产生知觉异常。
5。结果:定量措施
虽然有100人参加了在听力测试中,他们没有义务提供一个评级为每个音频刺激以适应听众的不确定性或无法选择偏好。这个要求不能迫使参与者提供的反应也是一个要求实现大学伦理批准(爱丁堡纳皮尔)听力学习发生。因此,并不是所有的参与者提供了一个完整的评级的刺激,使一个完整的、重复测量的比较评级不可能使用整个组的100名参与者。那些没有为每个跟踪提供评级已经被排除在分析提出了在随后的部分,而处理噪音和立体场因素的量化评分评估从听力测试。然而,如果参与者对随后的问题,他们最相关和最不喜欢的版本的歌曲,他们的反应已经包含在随后的小节和任何定性反馈收到也被使用。这是决定一个合适的策略,因为它是可能的参与者可能没有额定每个误跟踪的一些版本,考虑到相对大量的比较(6 10)进行。
5.1。对噪音和失真
提供了一套完整的分数在68年100年的实验参与者(n = 68)。总结的结果为每个使用的10首歌曲听实验如图2(歌曲1 - 5)和图3(歌曲6到10)。这些图表给每个编解码器的平均评分误差说明一个标准差的意思。
这些数字所显示的一样,平均值和标准偏差(SD)得分为6编码变化似乎相似的噪声和失真的感知。这些描述性统计具体表所示3和4。实验包含两个独立变量:六个方法用于编码编码的音乐和十首音乐。为了解决零假设H1,在本文的介绍中提到的,一个双向重复测量方差分析进行分数上收到所有相关问题的68个有效回复噪音和失真。期望这样做是,如果每个编码机制是等效质量而言,应该没有显著差异在听力测试参与者的分数。与Greenhouse-Geisser修正一个重复测量方差分析显示,大量的噪声和失真六编解码器之间的差距显著F (3.829, 256.516) = 5.988, p < 0.001。事后使用Bonferroni调整成对测试显示,这个结果是由于宏碁低质量的编码,这产生了明显不同的噪声和失真分数所有其他编解码器,宏碁的除了高质量的编解码器的分数。
|
||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
|
||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
剩下的没有统计上显著的差异五编解码器。这说明在获得每个编解码器的成对比较,p值表所示5,重要值(p < 0.05)以粗体突出显示。这部分的听力测试的结果表明,除了宏碁低质量的编解码器,以及执行的其他编解码器压缩WAV音乐样本的噪声和失真被参与者。
|
||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
5.2。立体图像的感知
提供了一套完整的分数在63年100年的实验参与者(n = 63)。总结的结果为每个使用的10首歌曲听实验如图4(歌曲1 - 5)和图5(歌曲6到10)。这些图表给每个编解码器的平均评分误差说明一个标准差的意思。这的描述性信息显示的初始目视检查的一致性在每个歌曲和没有特定的趋势分析的每个被调查的编解码器的性能。这表明没有明显差异的每个编码方法的立体图像。
这些数字所显示的一样,平均值和标准偏差(SD)得分为6编码变化似乎相似的立体形象的感知。这些描述性统计具体表所示6和7。
|
||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
|
||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
实验包含两个独立变量:六个方法用于编码编码的音乐和十首音乐。为了解决零假设H2,在本文的介绍中提到的,一个双向重复测量方差分析进行分数上收到所有相关问题的63个有效回复立体图像。期望这样做是,如果每个编码机制是等效质量而言,应该没有显著差异在听力测试参与者的分数。与Greenhouse-Geisser修正一个重复测量方差分析显示,得分无显著差异之间的立体形象六编解码器F (4.097, 254.019) = 1.116, p > 0.05。这部分的听力测试的结果表明,所有的编解码器执行以及未压缩的WAV音乐样本的立体图像质量被实验的参与者。
5.3。音频编解码器的偏好
参与测试的这一部分高,与几乎所有参与者至少指定一个最喜欢的编码版本的10首歌曲呈现给他们(97参与者表示936(满分1000分)的偏好)和最不喜欢的版本(96参与者表示907(满分1000分)的偏好)。50个参与者提供每首歌的青睐,而46提供完整的收藏集。考虑到重复这个问题的本质,并充分利用获得的数据,它是决定包括参与者在一个或多个场合表达了最喜欢的而不是排除任何数据不是100%完成。这些分数汇总所有十首歌样品产生的分数分布六编解码器音频样本。表8显示最喜欢和最不喜欢的编解码器的比例。
|
||||||||||||||||||||||||||||||
仔细检查与卡方检验显示分布的最喜爱的编解码器是分布不均匀χ2(5)= 13.744,p < 0.02,就像参与者的最不喜欢的编解码器的分布χ2(5)= 62.956,p < 0.00001。提供一个平衡的分析,最喜欢的和最不喜欢的人物6显示了两组之间的差异的分析结果来帮助说明了总体方向(正面或负面)的编解码器的偏好,这种偏好的力量。
图中给出的数据6表明未压缩的WAV, MP3播放192 kbps, AAC 192 kbps,中质宏碁(ACER)和高质量的宏碁编解码器都收到了积极的偏好与未压缩的WAV略微表现最好的,其次是AAC和中质宏碁。最引人注目的结果从这个分析是低质量的强烈不喜欢宏基编解码器,唯一有一个总体负面的偏好。该结果支持参与者的结果评级的噪音和失真,这表明,只有低质量的宏碁编解码器在统计学上不同于其他,其余5编解码器类似的音频质量。
6。结果:定性的措施
前面所述的定量措施提供强大和可靠指标的听众的认知和偏好为每个编码方案在调查之中。如前所述,这种方法是一种常见的方式评估音频质量控制情况。加强这些研究结果的有效性,以及提供更详细的探讨和了解听众的经验,(主题分析44)提供的免费文字评论进行回应声明中结束的时候听力测试:“请您能描述任何噪音或异常,你听到的音频片段。”
这些定性指标的使用有助于理解背后的一些推理定量值由参与者在听力测试中,特别是宏碁计划以前从未经历这样一个详细的评估。由于宏碁方法不降低分辨率的音频保留在压缩,不应当有任何添加失真或背景噪音。然而,它预计,在某些情况下,特别是在较低的比特率,宏碁可能产生“跳过”或“跳”效应在播放,因为减少匹配块之间的相似度阈值的音乐。
6.1。方法
使用主题分析和定性调查音频评价遇到的场景。它允许研究人员更好地了解音频的确切性质的文物和其他知觉对象,可能是他们的听众。例如,最近的研究(45)进行了专题分析听众的评论同时评估一个身临其境的空间音频媒体设备编制方法的经验。这使得作者归类设计了系统具体的积极的和消极的特征。该领域的其他作品有利用定性过程识别特征在音频干扰46]或验证设计的声音合成技术(47]。
进行了专题分析使用Nvivo 11 [48软件,用于代码和组织过程中出现的主题。最初的研究进行了所有的评论,紧随其后的是最初的形成,高级主题(失真和噪声),一组初始的编码应用。这后,数据被编码的使用这两个最初的主题,重读,导致新兴粒度,增加更多的特定类型的噪声和失真,导致subthemes和产生一个额外的顶级主题(时机)。这是一个迭代的过程,直到没有额外的截然不同的主题可以被识别。
6.2。分析
由此产生的主题,和subthemes描述表9,参与者数量伴随每个语句的示例响应列。这些展示的形成三个主题相关的描述损伤,以及少量的subthemes有关。
|
||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
三个主题,提供一个更广阔的背景的描述引发了听众,数字7,8,9提供词云表示,使用Nvivo 11日创建的一个最大的100个最常用单词。生产这些图形描述,停止词(无关紧要的词用于描述,如“这“,“似乎”和“声音”)被移除。文字阻止也采用,相关的“模糊”和“模糊性”这样的词被认为属于相同的描述符。每个字的大小代表了其发生的相对频率。
6.3。结果
大多数反应收到描述变形的存在,特别是amplitude-related效果,如谐波失真,以及频带的操纵。这并不奇怪,因为心理声学的编解码器的性质评估与宏碁的方法将每一帧的频域变换的音频部分波段和分配比特是司空见惯的事了。这就解释了许多常见的单词在图7,如“扭曲”和“模糊性”。然而,注意,是很有用的几个实验中使用的歌曲使用变形作为一个艺术装置,这也许可以解释一些描述性的反馈引起的。这可以以一个参与者在一份声明中似乎确定这个事实:
“我发现很难知道如果是扭曲或风格的音乐。我发现我可能说这是扭曲的在第一次听到音乐。失真是基调,而不是一个不应该存在的噪声。所以通过倾听更多——没有扭曲。”
虽然是失真的情况可能是有目的的歌曲中,这种技术的存在应该是减轻的事实,它将出现在每个编解码器的音乐在某种程度上的代表。
报告的参与者不需要的噪声的经验很可能源于类似的问题,失真,变量之间的分配比特帧可以导致更高的噪声地板上。这个结果是令人惊讶的,因为192 kbps音频剪辑。特别有趣的是反应在图的集合8“裂纹”和瞬态有关,可能介绍了编解码器的任何审查。
时间主题,宏碁的假设,是因为剪辑版本。在技术的发展,这些文物被遇到了,这是一个已知的低比特率宏碁音频方面,它可以让音乐听起来人望而生畏。除了少量的描述符在这个主题,相位和频率有关,大多数条款引发了与我们的经验是一致的,明显的通过图9,如“跳过”和“口吃”。
当然,这三个方面的顶级主题和各自subthemes,有可能产生的描述是由于subject-expectancy效应(49]。这就是主题下意识地表达障碍现象的音频,因为问题对噪声和异常有特别要求。虽然这可能是真正的失真和噪声的主题,没有具体的措辞时询问的时间方面剪辑。这种分析使我们认识到,在宏碁能够执行相对与其同时代的人,其局限性在质量水平可以感知并产生的构造我们的参与者都是有效的。
7所示。结论和未来的工作
宏碁中期和高质量的方法不仅执行以及当代心理声学的代码,在192 kbps CBR MP3, AAC格式,但也产生类似的分数未压缩的WAV PCM音频。劣质宏碁编解码器显示显著差异从他人的噪音和扭曲,虽然不是用它描绘立体图像的质量。这些发现支持通过提供一个分析参与者的偏好的编解码器,多数负面偏好表达了对低质量的宏碁编解码器。这种辅助方法评价编解码器的保证,提高这些结论的可靠性。结果突出显示,参与者能够感知一致性宏碁劣质版本之间的差异,每个人使用的另一种方法评估,这是一个常见的实践证明interitem准确性。
所有编解码器执行同样的感知立体形象呈现给听众。这表明立体声场成功保持在所有版本的音乐。考虑到使用的歌曲来自一个编译的流行音乐,在立体平移是一种常见的混合技术用于添加宽度录音,这是一个引人注目的发现。任何错误或异常发生在编码过程中应该是明显的,很容易被听众,尤其是因为他们使用耳机和音响形象他们认为不会影响因素在房间或由于自己的头部动作。
尽管宏碁劣质版本导致可怜的评价结果,在噪音和失真,结果是有益的在更广泛的背景下的研究。它有助于整体结果的可靠性,因为它表明,群听众参加能够感知和表达质量差异宏碁低质量和其他编解码器。相比之下,如果结果显示完整的同质性,这可能表示宏碁劣质版本的成功,但也有质疑听众的能力区分音频样本,使结果的可信度提出质疑。37%的参与者表示他们有某种形式的音乐训练和17%有一些专业音频培训,两组之间的重叠的14%,这意味着绝大多数非专家的听众。这些侦听器的数字超过符合ITU-R指南(29日),证明非专家侦听器的有效性。宏碁编解码器的后续发展将是一个合适的时间来执行更多的听力测试。这将是特别适用的结果与未经训练的侦听器,已报告在这工作。专家的使用监听器可以提供一个更关键的评估任何音频质量的差异可能未被发现。这样未来的调查将承受的使用方法如ITU-R BS.1116 [34]或MUSHRA [35]。
本研究认为约束可以选择192 kbps MP3, AAC解码器的比特率。决定利用这个比特率来反映在消费音频市场事实上的标准实践。因此,每首歌的non-ACER压缩研究中未压缩的WAV, MP3, AAC格式进行使用苹果的iTunes软件,将MP3 192年描述为“高质量”,因此选择它作为基准压缩比特率。我们发现宏碁高和中质版本之间不存在差异,在噪音方面,扭曲,和立体声场,导致的结论是,这些宏碁版本产生音乐的音频质量感知可比192 kbps的压缩版本。更有趣的结果仍然是192 kbps的MP3, AAC版本,和宏碁高,中质歌曲,表现出类似的结果与未压缩的WAV版本。这个结果与[的工作20.),前面所讨论的,发现MP3比特率必须大于,或等于,256 kbps引起这样的结果。然而,样本容量(n = 13)中使用(20.)小得多,在我们的研究中,这或许可以解释这一结果。此外,同质性评级的MP3, AAC编码192 kbps的变体或更多的发现是一致的22]。这表明,宏碁更高的比特率的比较MP3, AAC冗余运动。
编解码器的定性评价的局限性,听众没有要求离开评论噪音和文物专门为每一个他们听的编解码器。由于双盲实验的性质,这将需要大约每音频样本要求参与者留下评论他们听到。结果,不可能知道哪个编解码器的明确相关的主题,设计了定性的反馈。完成这样一个分析增加了大量的时间和费用进行现有研究;因此提出,这类询盘将适用于一个单独的未来的作品。在此类调查中,参与者可能会被要求描述他们认为品质的编码音频样本,而不必一定产生量化成绩或听太多的片段。这将进一步验证本文提供的初步结论,这表明MP3, AAC-coded音频失真和通过噪声损伤,而宏碁压缩介绍时序故障。
宏碁编解码器可用于听觉界面线索感知音乐的元素如earcons [50]。同时earcons不是音乐,他们共享许多相同的属性,因此这种形式的压缩将合适的候选人。其他形式的听觉界面提示有重复的元素如spearcons [51也可能是合适的。虽然压缩方法最初是为长音频文件,设计原则仍应适合短片。长形式的音频等有声书也可能受益于这种技术,尽可能多的声音元素,特别是停顿和呼吸通常表现出相似之处。这项技术也可以用于消声软件和游戏音频软件突出差异,强调他们保留声波的兴趣。
这项研究的结果表明,宏碁编解码器,在中期和高质量的设置,是当代技术高度功能作为一种替代方法的MP3, AAC,可能使其合适的作为一个独立的编解码器,用温和的数据减少,或作为一个潜在的伴侣心理声学的方法来实现更低的比特率。结果表明,宏碁的新颖的方法,寻找冗余在音乐结构和模式,是一种可行的技术,听众无法检测之间的显著差异,其他编解码器,未压缩的音频。虽然有文物和损伤期间推出的宏碁的编码,这表现在时间域而不是amplitude-related扭曲或噪音,宏碁音频保留一个完整的频谱和分辨率,使其有别于MP3, AAC。
比特率通过使用宏碁编解码器提供边际收益比通过使用WAV。这可能是适当的在降低数据率的情况下可取的但绝对损失音频保真度、频率操作和量子化的结果,是不允许的。这可能是如此场景,如音频分析任务,电脑游戏声音,法医分析,和多通道格式,局限于单一通道高度重复元素如纤维变性5.1,7.1,或大气压系统或档案音频。此外,宏碁的性能取决于作曲的音乐水平重复编码。这意味着高度重复的音乐将产生更大的降低比特率在同一宏碁设置。记住这一点,可能是宏碁设置自己可以调整具体的音乐被压缩,没有尝试的东西。最终,然而,我们建议最适合的应用程序的宏碁作为预处理步骤之前,音乐是压缩使用心理声学的方法,如MP3或AAC格式,提供了一个增强的当前状态的艺术52]。这将提高压缩比已获得自己使用这些技术,并有可能几乎没有影响的感知质量的聆听体验。
下一阶段的发展,宏碁将聚焦于炼油回归模型用于确定宏碁的质量文件在歌曲中使用音频片段之间的相似性。创建一个精致的模型将包括一系列的集中听力测试,让我们确定这些差异的点被认为当他们成为有问题或分散。预计一个精致的模型可以实现更高的比特率降低,提高感知相似性剪辑的质量,这可能会导致宏碁劣质版本能够与中期和高质量的版本,以及MP3, AAC和未压缩的WAV。
数据可用性
听力测试数据用于支持本研究的发现可以从相应的作者。
的利益冲突
作者宣称没有利益冲突有关的出版。
引用
- s·坎宁安和诉灌浆数据减少音频音乐重复利用,”多媒体工具和应用程序,卷72,不。3、2299 - 2320年,2014页。视图:出版商的网站|谷歌学术搜索
- Fadeyev g . g . Rogozinsky d r和d . a . Podolsky”改编的心理声学的分析在有损音频编码、小波域”学报的2017系统信号同步,生成和处理在电信(SINKHROINFO),页1 - 5,喀山,俄罗斯,2017年7月。视图:出版商的网站|谷歌学术搜索
- 谷纳温·t·s, s . a·拉希德和m . Kartiwi”调查各种算法对多通道音频压缩”学报2017年IEEE 4日国际会议在智能仪器仪表、测量和应用(ICSIMA),页1 - 5,普特拉贾亚,马来西亚,2017年11月。视图:出版商的网站|谷歌学术搜索
- m·桑德勒和d .黑”,可伸缩音频编码压缩和弹性流损失,”IEE Proceedings-Vision、图像和信号处理,卷153,不。3、331 - 339年,2006页。视图:出版商的网站|谷歌学术搜索
- i . i . s .弗劳恩霍夫“活蹦乱跳的——mp3软件,专利和许可证|弗劳恩霍夫音频博客,”2017年,http://www.audioblog.iis.fraunhofer.com/mp3-software-patents-licenses/。视图:谷歌学术搜索
- 坎宁安,j . Weinel s .罗伯茨诉灌浆和d·格里菲思”最初的客观和主观评价的相似性音频压缩技术,”《第八届音频会议,页1 - 6,Pitea,瑞典,2013年9月。视图:出版商的网站|谷歌学术搜索
- w·约斯特听力基础:一个介绍,第五版,2013年。
- d·m·霍华德和j·a·s·安格斯,声学、心理声学,焦点出版社,第五版,2017年版。
- d·A·霍夫曼“minimum-redundancy建设规范的方法。”《愤怒,40卷,不。9日,第1101 - 1098页,1952年。视图:出版商的网站|谷歌学术搜索
- r . f .大米,“一些实用的通用无声的编码技术,”技术。代表,NASA技术报告,帕萨迪纳,加利福尼亚州,美国,1979年。视图:谷歌学术搜索
- m·汉斯·r·谢弗,“无损压缩的数字音频,”IEEE信号处理杂志,18卷,不。4,21-32页。视图:出版商的网站|谷歌学术搜索
- j . CoalsonFLAC -免费无损音频编解码器,Xiph。Org基金会,2014年,https://xiph.org/flac/index.html。
- f . Ghido和禁忌,“无损音频压缩稀疏模型”,IEEE音频、语音和语言处理,21卷,不。1,14-28,2013页。视图:出版商的网站|谷歌学术搜索
- 黄h . h .蜀,r . Yu”无损音频压缩在新的IEEE高级音频编码标准,”学报》2014 - 2014年ICASSP IEEE国际会议音响、演讲和信号处理(ICASSP)6938年,页6934 -佛罗伦萨,意大利,2014年5月。视图:出版商的网站|谷歌学术搜索
- d·所罗门·g·莫塔,手册的数据压缩施普林格科学与商业媒体,第五版,2010年版。
- j·莫菲特,Ogg Vorbis-open自由audio-set媒体自由,“Linux日志,卷81,不。9日,2001年。视图:谷歌学术搜索
- k .勃兰登堡“MP3, AAC解释说,”音频工程学会会议程序:17日国际会议:高质量的音频编码、音频工程学会,1999年。视图:谷歌学术搜索
- k .勃兰登堡和r·亨特”Near-lossless高质量数字音频编码:第一个结果,”ICASSP学报》93年卷2,页193 - 196,明尼阿波利斯,MN,美国,1993年4月。视图:出版商的网站|谷歌学术搜索
- g . a . Soulodre t . Grusec m·拉瓦和l .蒂博,“最先进的双通道音频编解码器的主观评价,”音频工程协会杂志》上,46卷,不。3、164 - 174年,1998页。视图:谷歌学术搜索
- a·普拉斯r·齐默尔曼·d·列维京,c . Guastavino“主观评价的mp3压缩不同的音乐流派,”第127届音频工程学会学报2009年公约美国,页459 - 465,2009年10月。视图:谷歌学术搜索
- Gillen a·海恩斯,大肠,d·凯利,j . Skoglund a . Kokaram和n .哈特“ViSQOLAudio:客观音频质量标准低比特率编解码器,”《美国声学学会杂志》上,卷137,不。6,EL449-EL455, 2015页。视图:出版商的网站|谷歌学术搜索
- p . Pocta和j·g . Beerends”,主观和客观音频质量的评估当前数字音频广播系统和网络直播应用,”IEEE广播,卷61,不。3、407 - 415年,2015页。视图:出版商的网站|谷歌学术搜索
- k .勃兰登堡针板,j . Herre j·d·约翰斯顿和w·b·Kleijn“知觉编码的高质量数字音频,”IEEE学报》,卷101,不。9日,第1919 - 1905页,2013年。视图:出版商的网站|谷歌学术搜索
- ITU-R”,感知音频质量客观测量方法”《国际电信联盟的建议,2001年。视图:谷歌学术搜索
- m·古水盆海湾“仪表音质评价。”声学学报与Acustica曼联,卷83,不。5,775 - 783年,1997页。视图:谷歌学术搜索
- d·坎贝尔·e·琼斯,m . Glavin”音频质量评价的技术审查,和最近的进展,”信号处理,卷89,不。8,1489 - 1500年,2009页。视图:出版商的网站|谷歌学术搜索
- g . Vercellesi m . Zerbini和a·l·维塔利,“客观和主观评价MPEG第三层感知质量,”第14届欧洲信号处理研讨会论文集,EUSIPCO 2006、5、1页,佛罗伦萨,意大利,2006年。视图:谷歌学术搜索
- w . Hoeg、l·克里斯坦森和r·沃克“音频质量的主观评价的手段和方法在欧洲,“如技术审查,欧洲广播联盟,没有。274年,40 - 50,1997页。视图:谷歌学术搜索
- ITU-R”,音质主观评价的一般方法,”《国际电信联盟的建议,2003年。视图:谷歌学术搜索
- b . Defraene t . van Waterschoot m·迪和m·穆南“主观音质评价embedded-optimization-based变形预补偿算法,”《美国声学学会杂志》上,卷140,不。1,EL101-EL106, 2016页。视图:出版商的网站|谷歌学术搜索
- s e . j . c . Garcia-Alvarez Aguirre, p . c . Diaz-Solarte“感知音频编码器评价质量评估,”学报2014年IEEE第四国际会议消费电子产品-柏林(ICCE-Berlin),页408 - 410年,柏林,德国,2014年9月。视图:出版商的网站|谷歌学术搜索
- l·加斯顿和r·桑德斯,”he - aac评价、AC-3和E-AC-3编解码器,”音频工程协会杂志》上卷,56号3、140 - 155年,2008页。视图:谷歌学术搜索
- j . Villegas t Stegenborg-Andersen: Zacharov, j . Ramsgaard”表示方法的效果在标准化听力测试,修改”学报141音频工程社会公约2016年,洛杉矶,加利福尼亚州,美国。视图:谷歌学术搜索
- ITU-R,”小障碍的主观评价方法在音频系统中,”《国际电信联盟的建议,2015年。视图:谷歌学术搜索
- a·j·梅森,“MUSHRA音频主观测试方法,”研发白皮书流泪038年,研发,英国广播公司(BBC), 2002年。视图:谷歌学术搜索
- Statista GmbH是一家”,耳机的使用在美国2017 |使用耳机的频率在美国2017年,“2018年,https://www.statista.com/statistics/283620/us-consumer-purchase-plans-smartphone-accessories-2010/。视图:谷歌学术搜索
- Statista GmbH是一家”,耳机的使用在美国2017 |目的耳机用于2017年在美国,”2018年https://www.statista.com/statistics/696862/uses-of-headphones-in-the-us/。视图:谷歌学术搜索
- d·沃特金斯,”电脑音箱现在最受欢迎的人们听音乐的方式,”Strategy Analytics,2019,https://www.strategyanalytics.com/strategy-analytics/news/strategy-analytics-press-releases/2015/12/17/computer-speakers-now-most-popular-way-people-listen-to-music。视图:谷歌学术搜索
- 本奇,“场音色方面再现声音的小房间。我,”《美国声学学会杂志》上,卷97,不。3、1717 - 1726年,1995页。视图:出版商的网站|谷歌学术搜索
- m . Velmans理解意识劳特利奇,2009年。
- Gillen a·海恩斯j . Skoglund e, a . Kokaram d·凯利和n .哈特“音频质量流立体声音乐,”22日ACM国际会议多媒体学报》上,第1176 - 1173页,2014年。视图:谷歌学术搜索
- 现在各种艺术家”、“这就是我所说的音乐!90”。编译(双音频CD)。现在!音乐,2015。视图:谷歌学术搜索
- IEC RB,“音频Recording-Compact盘数字音频系统,IEC 60908,“1999 - 2002。视图:谷歌学术搜索
- g .客人,k . m . MacQueen和e·e·Namey应用主题分析、鼠尾草出版物,加州千橡市,美国,2012年。视图:出版商的网站
- j . Francombe j .丘鹬r . j .休斯et al。”定性评估媒体设备编配身临其境的空间音频生殖,”音频工程协会杂志》上,卷66,不。6,414 - 429年,2018页。视图:出版商的网站|谷歌学术搜索
- j . Francombe r·梅森m . Dewhirst和美国本奇,“分心在audio-on-audio干扰情况下的模型与音乐程序材料,”音频工程协会杂志》上,卷63,不。1 - 2、63 - 77年,2015页。视图:出版商的网站|谷歌学术搜索
- 柯南,o . Derrien m . Aramaki s Ystad和r . Kronland-Martinet”合成模型和直观的控制能力滚动的声音,“IEEE / ACM交易音频、语音和语言处理,22卷,不。8,1260 - 1273年,2014页。视图:出版商的网站|谷歌学术搜索
- 近年国际“NVivo定性数据分析软件|近年国际”2018年,https://www.qsrinternational.com/nvivo/home。视图:谷歌学术搜索
- d . j .刺”,新奇和复杂性之间的关系。”《心理学:跨学科研究和应用,卷95,不。2、317 - 323年,1977页。视图:出版商的网站|谷歌学术搜索
- m·布拉特纳d Sumikawa, r·格林伯格”Earcons和图标:他们的结构和常见的设计原则,“人机交互,4卷,不。1,11-44,1989页。视图:出版商的网站|谷歌学术搜索
- b . n . Walker j·林赛,a娘娘腔的et al .,“Spearcons(基于语音的earcons)提高导航性能先进的听觉菜单,“人为因素:人为因素和人类工程学协会杂志》上,55卷,不。1,第182 - 157页,2013。视图:出版商的网站|谷歌学术搜索
- 诉饶和k . Pohlmann音频压缩使用重复的结构,“美国专利申请,2006年。视图:谷歌学术搜索
版权
版权©2019斯图亚特·坎宁安和伊恩•麦格雷戈。这是一个开放的分布式下文章知识共享归属许可,它允许无限制的使用、分配和复制在任何媒介,提供最初的工作是正确引用。