文摘
隐写术是一种秘密通信没有暴露的发生和沟通的真正目的。自适应多重速率的宽带(AMR-WB)是一种广泛适应格式在手机和回也推荐的语音编解码器。摘要小说AMR-WB演讲隐写术提出了基于diameter-neighbor电报密码本分区算法。不同的嵌入容量可以通过调整迭代参数在电报密码本部门。AMR-WB给出的实验结果证明,该隐写术可以提供更高的和灵活的嵌入容量不会导致明显的失真与最先进的方法。48迭代聚类合并,嵌入容量的两倍complementary-neighbor-vertices-based嵌入方法可以获得只有大约2%的降低语音质量和一样的用。此外,隐藏演讲的质量和安全对于统计隐写式密码解密比最近的演讲隐写术基于neighbor-index-division电报密码本分区。
1。介绍
互联网的快速发展和即时消息应用程序的日益流行,人们越来越多地使用以听力沟通。如何避免拦截和安全通信变成最重要的研究问题之一。加密是一种传统的方法保护通信;然而,4的传播内容容易引起攻击者的怀疑。近年来,隐写术已经秘密通信的有效手段。音频隐写术可以传递重要信息秘密通过将它们嵌入到音频文件封面使用信息隐藏技术(1]。在音频数据隐藏是特别具有挑战性的,因为人类听觉系统运行在一个更广泛的动态范围与人类视觉系统相比。
许多作品在音频隐写术已经报道。Gruhl et al。2)提出了回声隐藏的音频隐写方法的引入合成共振的形式紧密间隔的回声。格帕兰(3)提出了一个方法,将秘密音频信息嵌入到封面话语通过改变一点的话语样本。格帕兰等。4)提供了两种方法的秘密信息嵌入通过修改阶段或振幅的感知蒙面或主机的重要地区。直接序列扩频水印方法具有较强的鲁棒性和对常见的音频编辑程序提出了(5]。和许多音频隐写应用程序包括Steghide和Hide4PGP可以从互联网上免费下载。但大多数这些方法不适应AMR-WB演讲。
基于节段信噪比分析,修改编码比特在一个框架,刘et al。6)选择感知最不重要位G.729演讲中嵌入秘密消息。在[7),一个简单而有效的隐写方法,这可能适用于5.3 Kbps G.723.1讲话中,提出了基于分析代码的冗余参数,增广矩阵是用来降低覆盖的失真演讲。同样,通过计算每个编码的话音质量敏感性244位使用感知语音质量评价(PESQ)标准,数据隐藏方法嵌入数据比特流的增强型全速率(EFR声码器作为)压缩的演讲中提出了(8]。此外,西村(9)提出了三种方法隐藏数据的延迟数据的AMR语音。
基于互补的邻居顶点电报密码本分区算法(CNV),肖et al。10)提供了一个信息隐藏方法压缩演讲中使用量化索引调制(QIM) [11]。黄等。12)提出了一种隐写算法嵌入的数据在不同的语音编码参数不活跃的框架,的嵌入容量有限的封面演讲中不活跃的帧的数量。在[13),黄等人还提出了一种隐写术的方法在低码率VoIP流基于基音周期的预测。它可以实现高质量的stegospeech和防止统计隐写式密码解密,但嵌入率仍然很低(只有133.3个基点)。和一个自适应非最优脉冲组合约束(ASOPCC)方法,提出了在14)将数据嵌入到压缩语音信号AMR-WB编解码器。然而,大多数的PESQ分数在不同的编码模式并不高。在[15),基于码书的分区策略,动态地决定了采用部门计划,旨在提高安全QIM隐写术在演讲比特流。尽管stegospeech质量保证好,嵌入容量非常有限,而不是可调。刘等人。16)提出了一个neighbor-index-division电报密码本部门算法)(国家免疫日G.723.1演讲。将不同于现有的CNV方法,国家免疫日neighbor-indexed码字到分离subcodebooks根据合适的stegocoding策略。以提高嵌入容量使用多个部门和multi-ary编码策略。
自适应多重速率的宽带(AMR-WB)是一种广泛适应格式在手机和回也推荐的语音编解码器。AMR-WB演讲可能是一个好的候选覆盖音频隐写术的媒介。因此,我们将重点放在AMR-WB演讲隐写术。首先,一个新的diameter-neighbor (DN)码对AMR-WB演讲提出了分区算法。基于DN电报密码本部门,我们开发一种新型AMR-WB演讲隐写术能够提供灵活的嵌入容量不同的迭代参数 。例如,当 ,CNV-based嵌入容量的两倍的方法可以获得只有约2%的减少语音质量和一样的用。此外,隐藏演讲的质量和安全的防御统计隐写式密码解密(17,18隐写术]比最近NID-based演讲。
本文的其余部分组织如下。节2介绍了相关工作。节3,该DN电报密码本分区算法和隐写术被详细地描述在小说AMR-WB演讲。提供了实验结果与分析部分4。最后,给出了结论。
2。相关工作
在本节中,一个技术的概述AMR-WB编解码器是首先提出。然后两个相关的电报密码本分区算法CNV (10[]和国家免疫日16]也简要综述。
2.1。AMR-WB编解码器
AMR-WB语音编解码器由3 gpp标准(第三代合作伙伴项目),采用标准G.722.2 ITU-T于2002年(19]。这是一个多重速率的宽带语音编解码器应用在现代移动通信系统语音质量显著提高。AMR-WB编解码器操作在一个大量的比特率从6.6 kbit / s到23.85 kbit / s。
输入音频信号分为20女士长帧使用16千赫采样率。每一帧包含一个线性预测分析(LPA)和LP系数转化成导抗谱对(ISP)系数。然后ISP系数转换为量化频域(安全部队)。除了模式0 (6.6 kbit / s),伊拉克安全部队系数量化使用两级矢量量化和split-by-2在第一阶段和第二阶段split-by-5。第二个和第三个电报密码本在第二阶段有128码字,和安全部队在这些码码字的指数可以用来嵌入秘密消息。
解码器,传播指数首先从接收到的比特流进行解析,然后解码获取代码参数为每个传输帧,ISP向量等4部分滞后,4 LTP过滤参数,4创新代码向量,4套矢量量化的音高和创新收益。要获得更详细的描述,应该是指(19]。从接收到的安全部队指标,这可能被修改,因为嵌入秘密消息,接收方可以恢复嵌入的秘密信息。
2.2。互补的邻居顶点
CNV是一种新型的电报密码本分区算法(10),每个码字的码书都被视为是一个顶点的多维空间。两个码字之间的关系和被描述为一条边连接的两个码字的顶点。和优势的重量是欧氏距离定义为两个码字之间的和 。小的值表明和熊和相互密切的相似之处。最近的顶点,被称为的邻居顶点,这是用 。顶点集一起边集形成一个图 在一个多维空间。
电报密码本分区实现的建筑图 和顶点标签。首先,每个顶点在 与邻国顶点吗使用一个优势。因此,图 将划分为若干个独立的子图,都可能被证明是无环和2-colorable。第二,子图中的每个顶点及其邻居顶点是标签反向地使用“0”或“1。“第三,所有的顶点与相同的标签被收集到一个subcodebook;因此,两个subcodebooks将获得。
基于生成的子图和标签分配给每个码字,CNV-based隐写术QIM概念适用于嵌入秘密消息。更具体地说,当码字的标签 ,封面与量化指标是什么 ,同意的秘密消息,保持不变,否则应该替换为邻居码字的量化指标属于subcodebook相反。
CNV-based关键特征的隐写术是畸变即使在最糟糕的情况下。然而,嵌入容量有限,分析实验的部分4。此外,翻转的可能的组合系数确定标签的子图将翻转很大。额外的翻转过程必须的信息传输到接收者,从而有效的嵌入容量可能会进一步下降。
2.3。邻居指数划分
NID假定邻居指数(即的密语。,neighbor positions) in a codebook would be close together. Hence the codewords in a codebook can be easily separated into subcodebooks according to their indices instead of the Euclidean distance. Specifically, select an appropriate integer根据嵌入容量和标签的需求th码字与数字 ,分别。然后收集所有相同的码字标签subcodebook并获得subcodebooks不同。
为了充分利用嵌入的容量,应该转换为二进制的秘密消息必要的数字用( )。当相关的码字盖量化指数属于subcodebook的标签不同于必要的数字嵌入,这个索引应该取代与最近的码字对应的 。
基于neighbor-index NID-based隐写术是信息隐藏方法引入分区,其中嵌入容量可能由subcodebooks的数量控制 。然而,如16),只有34%的双neighbor-index密语是双neighbor-vertex密语。之间的平均距离neighbor-index密语显然比neighbor-vertex密语。因此,引起的变形量NID-based隐写术可能有点大,由实验结果证明提供的部分4。
3所示。该方法
图中该方法的图所示1。基于DN电报密码本分区中描述的电报密码本部分2.1,可以嵌入秘密消息一个AMR-WB语音文件。隐藏AMR-WB演讲收到文件后,嵌入的秘密信息可以提取没有错误。同时,解码演讲没有明显的失真也将获得。在以下部分中,diameter-neighbor电报密码本(DN)是首次引入分区算法。然后我们建议的方法的嵌入和提取过程。
3.1。电报密码本分区
密码本可能被视为孤立的编码向量(即的列表。码字)在多维空间中。电报密码本分区算法用于音频隐写术把电报密码本分成几个集群,每个码字的可以互相替换不会引起明显的失真。
让表示原来的密码本码字,表示一个集群与码字 ,重心集群的定义如下: 在哪里和是th的组件和 ,分别。
的重心(平均代码向量)是用来表示相应的集群 ;因此,集群也可以视为多维码空间的一个向量。为了描述两个簇之间的相似度和 ,它们之间的欧氏距离定义如下: 在哪里和相应的几何中心点的两个集群和 。和是一个码字的维度;和是th的组件和 ,分别。
让表示一组集群的直径被定义为最大欧氏距离吗集群中的所有集群对集 ,也就是说, 在哪里在集群是集群的数量吗 。集群对最大欧氏距离 ,称为集群对直径,用 。和邻居的一个集群在是由 ;然后我们有
图2说明了该DN的图码分区算法。及其算法中给出了详细的过程1。原码将被分为集群通过迭代合并直径集群对各自的邻居。迭代参数应用于通过控制合并过程获得灵活的嵌入容量。之间的关系和嵌入容量将节中讨论4.3。
|
||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
图3提供一个例子来说明该电报密码本分区算法。白色的圆“○”代表一个码字。和总统”⬭“影子代表一个码字和邻国正在处理,而椭圆”⬭“没有阴影代表一个集群这已经形成。“0”、“1”、“00”,“01”,“10”或“11”圆“○”是一个集群中的码字的标签。十字架””是指属于集群的重心,和一线”−”表示一组集群的直径。第一个第三合并迭代数据所示3(一个)- - - - - -3 (c),分别。第四个合并迭代由数字组成3 (d)和3 (e),图3 (f)演示了码字的标签。
(一)第一次迭代()
(b)第二次迭代()
(c)第三次迭代()
(d)第四次迭代( 。clear ())
(e)第四次迭代()
(f)标签
3.2。嵌入过程中
在我们的方法中,安全部队指数对应的码字的码书首先通过解析主机AMR-WB演讲。然后安全部队指数是用来嵌入秘密消息基于码书的分区。一般来说,相同的集群作为码字的码字的在于彼此被认为是可替换的。根据嵌入秘密消息,可以代替另一个码字的指数在同一集群。可以嵌入秘密消息的比特数的大小取决于特定的集群。嵌入过程在下面给出。
步骤1。搜索集群设置为集群它包含的代码字称为安全部队指数吗 。
步骤2。如果有码字的 ,的数量可以嵌入秘密信息是计算 。
步骤3。读not-yet-embedded位,用 ,的秘密消息。被替换为索引标签一样的码字 。
步骤4。重复步骤1 - 3,直到所有的秘密嵌入。
图4将两个秘密嵌入的一个例子是安全部队指数。让我们假设集群集包含两个集群和相应的码字索引是 ;例如,索引的码字 。因此,安全部队指数如图4将被替换为索引码字的与相同的标签的秘密位“01”。
3.3。提取过程
当隐藏AMR-WB演说的目的是转移到接收器,隐藏指数可能通过解析AMR-WB语音流和用于提取嵌入的秘密信息。从stegoindex信息提取过程下面给出。
步骤1。搜索集群设置 ,这是一样的,用于嵌入过程,为集群它包含的码字提到的安全部队指数 。
步骤2。如果有完全码字的 ,由秘密的比特数是计算 。
步骤3。读取的标签作为提取的位,这是附加到秘密信息序列。
步骤4。重复步骤1 - 3,直到所有的秘密部分恢复。
图5是相应的例子,从stegoindex提取两个秘密吗之前嵌入生成的实例如图4。它可以很容易地看到,提取的秘密位是相同的嵌入秘密位。
4所示。实验结果和分析
为了证明该方法的性能,感知质量的秘密信息嵌入的隐藏AMR-WB演讲使用我们的方法计算和比较的隐写术隐藏AMR-WB言语生成CNV和国家免疫日。此外,嵌入容量的灵活性和安全有关的统计检测进行了详细分析。
4.1。音频数据库
TIMIT acoustic-phonetic连续语音语料库(https://catalog.ldc.upenn.edu/ldc93s1)是一个宽带的录音音频数据库包含630扬声器的八大方言的美式英语,每个阅读十语音学上丰富的句子,和所有音频句子16岁千赫采样。在我们的实验中,从数据库TIMIT 1000音频句子是随机选择的。平均、最大和最小的长度选择音频句子是3.47秒,3.96秒和3.12秒。所有音频文件转换成AMR-WB格式使用标准的编解码器。
4.2。语音质量评价
语音质量的感知评价(PESQ)中描述ITU-T P.862推荐(20.)可以用来评估语音质量。此外,根据ITU-T P.862.2 [21),原始PESQ分数可以转化成意味着意见score-listening质量目标(MOS-LQO),这是更适合评估宽带演讲。因此,MOS-LQO应用在我们的实验。MOS-LQO分数的正常范围是1.017到4.549。分数越高,质量越好。
图61000年显示了MOS-LQO分数的封面AMR-WB演讲23.85 kbit / s模式和相应的隐藏AMR-WB演讲使用三种不同的电报密码本分区算法。三个渐进嵌入率,100个基点,200个基点和300个基点,用于我们的实验。语音样本的指标排序根据MOS-LQO分数的方法。从图可以看出6生成的总分隐藏AMR-WB演讲与我们的方法是高于NID-based隐藏AMR-WB演讲,尤其是当嵌入利率200个基点和300个基点。的得分MOS-LQO CNV-based隐藏AMR-WB演讲时略高于我们的包埋率为100个基点,这意味着它们之间在语音质量没有明显的差异。此外,当嵌入率高,也就是说,200个基点和300个基点,使用,减少MOS-LQO分数的隐藏AMR-WB演讲显著低于NID-based隐写术。
(一)嵌入率是100个基点
(b)嵌入率是200个基点
(c)嵌入率是300个基点
此外,封面的平均得分MOS-LQO AMR-WB演讲和隐藏AMR-WB演讲的三个不同的电报密码本分区算法,也就是说,CNV, NID, DN,包括四种速度模式(12.65 kbit / s, 15.85 kbit / s, 19.85 kbit / s,和23.85 kbit / s)和三种嵌入率(100个基点、200个基点和300个基点),给出了表1。只有NID-based MOS-LQO分数和DN-based隐写方法嵌入率表200个基点和300个基点1因为CNV-based嵌入容量的隐写术不得超过100个基点。
当嵌入率是100个基点,这是几乎CNV隐写术的极限,我们可以看到从表1,意味着MOS-LQO分数的方法只有0.3%比CNV-based隐写术。轻微的减少可能是由人类听觉系统几乎听不清(已经)。有大约3.8%的显著增加意味着MOS-LQO分数相比,提出的方法是当我们NID-based隐写术。和它可以观察到,当嵌入利率200个基点和300个基点,我们的方法的成绩相应地提高了约7%和15%相比之下的NID-based隐写术。
此外,我们还可以看到,四种速度模式的实验结果相似。话音质量的减少造成NID-based隐写术的两倍以上,造成DN-based隐写术。,该方法可以获得两倍的嵌入容量CNV-based隐写术通过牺牲演讲质量平均不到2%。此外,只有轻微的话音质量下降时观察到的300个基点嵌入率用于提出DN-based方法虽然200个基点是受雇于NID-based方法。
4.3。灵活的嵌入容量
相比CNV-based隐写术,灵活的嵌入容量可能获得来满足不同的实际需求与我们提出的方法。隐写容量可以通过改变迭代参数调整 。为不同的值 ,例如, ,平均嵌入容量和MOS-LQO分数给出图7(一)提供的相应结果NID-based隐写术在图7 (b)进行比较。不失一般性,只有23.85 kbit / s模式使用。
(一)我们提出的隐写术
(b) NID-based隐写术
从图7我们可以观察到,包埋率显著增加虽然MOS-LQO得分略有下降。然而,随着NID-based隐写术而言,MOS-LQO评分随着嵌入率的增加迅速下降。因此,提出DN-based隐写术可以达到较高的嵌入容量和轻微的话音质量下降。例如,当 每个集群的大小等于我们可以嵌入每帧比特;嵌入率是200个基点,但与此同时,CNV算法嵌入每帧比特(100个基点)。
4.4。抵抗力统计隐写式密码解密
演讲隐写术的目的是隐藏秘密信息为封面演讲没有引起怀疑。隐写术方法是非常重要的抵抗统计隐写式密码解密,这是检测技术隐藏信息的存在。两种先进的steganalytic方法(17,18)是用来评估的性能统计用我们的方法。在[17),mel-cepstrum系数和马尔可夫转换特性的二阶导数提取音频信号捕获统计音频隐写术,所造成的扭曲,在18),分裂矢量量化码字的相关特征的线性预测编码滤波器系数是用来steganalyze QIM-based隐写术在低比特率的演讲中(如G.723.1和G.729)。steganalytic方法使用支持向量机来预测在给定的音频隐藏信息的存在。
在我们的实验中,句子选择从“TIMIT”数据库所部分4.1第一次使用标准的编码AMR-WB编解码器。这些AMR-WB唱片封面构成演讲集。然后秘密信息嵌入到每个封面AMR-WB演讲不同的嵌入率,也就是说,100个基点,至200个基点,至300个基点,由CNV-based NID-based, DN-based隐写术。当然,200个基点和300个基点可以省略CNV-based隐写术由于其有限的嵌入容量。和七stegospeech集生成,其中一组有关CNV-based隐写方法,和每个三组与NID-based DN-based隐写术,分别。此外,只有23.85 kbit / s模式使用不失一般性。
在每个实验中,一对覆盖和隐藏的演讲集随机分为训练集和测试集根据三种训练速度,也就是说,0.4,0.5和0.6。例如,如果训练率为0.4,训练集包含40%的演讲从每个封面和stegospeech随机选择的样本集,和其余60%样本进入[中描述的测试集。17,18],LIBSVM [22作为分类器,径向基函数(RBF)内核和网格搜索技术,得到更好的分类性能。李et al。”年代steganalytic方法、主成分分析(PCA)是第一次使用,建议在[18),降低特征向量的维数到300。让样本封面演讲中表示否定,那些隐藏在讲话中代表阳性。因此,精度可以定义如下: TP真阳性,TN是真正的底片,FN假阴性,FP是假阳性。
steganalytic结果表2,可以看出,当嵌入率100个基点,检测的准确性和CNV-based DN-based方法几乎是一样的,说,50%左右,而检测NID-based隐写术增加到60%时MFCC-based steganalytic方法的应用。此外,有一个明显的提高检测的准确性NID-based隐藏方法与嵌入加息200个基点和300个基点,刘等人的方法(即。应用马尔可夫和MFCC-based steganalytic方法)。但steganalyzing我们提出的方法的准确性,DN-based隐写术,保持在50%的水平。因此,该方法可能抵御刘等的统计隐写式密码解密(17即使有更高的嵌入率。
根据给出的相关指数的定义在[18),实验结果的相关指数1000年AMR-WB演讲,这是随机选择从“TIMIT”,如图所示8。基于这些结果,两个强大的量化码字相关网络(QCCN)模型,说,可以构造SS-QCCN RS-QCCN,如图9。这两个模型然后使用steganalyze我们提出的隐写术。steganalytic结果也呈现在表2。从表可以看出2的准确性SS-QCCN和RS-QCCN小于50%的所有AMR-WB stegospeeches。可能的原因可能只有第二个和第三个电报密码本在第二阶段用于AMR-WB演讲隐写术,这意味着仅仅是顶点和在th框架可能会改变在隐写术,而他们都没有利用李et al。steganalytic方法除了边缘的“33”RS-QCCN模型。此外,我们也使用了一种适应QCCN模型(即。,utilize edges “22,” “33,” and “23′”) targeted at AMR-WB speech, but the accuracy is still less than 50%. It may be because the correlation of those edges is not strong enough for steganalysis according to Figure8。因此,它是合理的得出AMR-WB演讲隐写术可以抵御steganalytic方法(18]。
(一)SS-QCCN
(b) RS-QCCN
为了可视化检测性能,我们给出一些接受者操作特征曲线(ROC) steganalyzing CNV-based隐写术100个基点嵌入率和NID-based DN-based隐写术和100个基点,200个基点和300个基点嵌入率提供了图10(ROC曲线SS-QCCN和RS-QCCN省略了这两种方法不能steganalyze AMR-WB隐写术尽管嵌入容量)。它显示了所有的三个隐写方法可以抵抗统计隐写式密码解密时嵌入率是100个基点。而统计steganalytic方法,特别是MFCC-based隐写式密码解密,可以发现存在的隐藏信息嵌入NID-based隐写术时嵌入率高于100个基点,该DN-based隐写术可能仍然有很好的安全Markov-based和MFCC-based隐写式密码解密。
(一)马尔可夫(TIMIT, 100个基点)
(b) MFCC (TIMIT, 100个基点)
(c)马尔可夫(TIMIT 200个基点)
(d) MFCC (TIMIT, 200个基点)
(e)马尔可夫(TIMIT 300个基点)
(f) MFCC (TIMIT, 300个基点)
5。结论
自适应多重速率的宽带(AMR-WB)是一种广泛适应格式在手机和回也推荐的语音编解码器。AMR-WB演讲可能是一个好的候选覆盖演讲隐写术的媒介。摘要小说AMR-WB演讲提出了隐写方法。实验结果证明了该方法的有效性。本文的主要贡献如下:(1)小说AMR-WB演讲隐写术提出了基于diameter-neighbor电报密码本分区算法。它可以提供更高的能力没有明显降低语音质量和更好的性能比NID-based统计隐写式密码解密的方法。(2)灵活的嵌入容量可以很容易实现不同迭代的聚类合并。嵌入容量的两倍CNV-based嵌入方法可以获得 。
的利益冲突
作者宣称没有利益冲突有关的出版。
确认
这部分工作是由中国国家自然科学基金支持下批准号61632013。