神经语言通过多头Self-Attention隐写式密码解密

文摘

语言隐写式密码解密可以表明隐写内容在可疑文本载体的存在。精确的语言隐写式密码解密可疑载体对多媒体安全至关重要。在本文中,我们介绍了一个基于多头self-attention神经语言隐写式密码解密的方法。在该隐写式密码解密方法中,文本中的词首先映射到语义空间隐藏表示更好的建模语义特性。然后,我们利用多头self-attention模型在运营商之间的交互。最后,softmax层是用来输入文本分类为覆盖或隐藏。大量的实验验证了我们的方法的有效性。

1。介绍

隐写术是一种古老的技术,旨在将秘密信息嵌入到载体可分为图像隐写术(1)、文本隐写术(2),和音频隐写术(3根据不同类型的航空公司)。相反,隐写式密码解密主要侧重于如何检测隐藏信息在可疑的运营商。

文本隐写术的过程中嵌入秘密数据通过覆盖文本,这样的存在数据不可见/察觉对手或休闲的观众。它被广泛视为一个有吸引力的技术来提高使用传统的密码学算法领域的多媒体安全隐藏秘密信息/水印到封面文本文件/信息保护机密信息。然而,这种技术还可用于恐怖分子和其他犯罪分子出于恶意目的,对网络安全构成了巨大的威胁。此外,文本隐写术技术已经极大地改变了自然语言处理技术的重要发展。因此,它是至关重要的,提出一种语言隐写式密码解密方法与最新的技术。

传统语言隐写式密码解密总是首先从承运人直接提取统计特征,然后进行以下分类过程。例如,Taskiran et al。4)杰出的覆盖和隐藏文本基于3-gram语言模型的特性和使用支持向量机(SVM)分类。陈等人。5)提出了一种隐写式密码解密方案(NFZ-WDA)模型基于词分布在不同的语言结构固有频率区。作者在6)利用元特性包括词频、词的长度,和空间速度和免疫机制来选择合适的特征。以前方法的主要困难是,他们总是需要相关领域知识和广义性能提出的最新文本隐写术是非常有限的。

左et al。7]首先提出字嵌入功能,可以更好地利用语义和统计失真语言隐写术。许多其他神经隐写式密码解密的方法是基于cnn和RNNs或它们的组合8]。虽然被研究,精确语言隐写式密码解密仍是一个尚未解决的问题。

我们的工作是出于观察的单词在文本之间的相互作用是重要的隐写式密码解密和多头self-attention有很大潜力模型这些交互(9,10]。因此,我们提出一个神经与多头self-attention隐写式密码解密的方法。在拟议的方法中,一个隐藏的表示层是用来将单词在文本映射到语义空间更好的利用语义特性。其次,我们利用多头self-attention利用不同的单词在文本之间的关系,这是至关重要的语言隐写式密码解密。最后,我们连接表示从单词和校准表示多头self-attention进一步分类。将softmax层用于文本分类的“封面”或“隐藏。“实验验证该方法的有效性。

我们工作的贡献如下。(1)据我们所知,我们是第一个提出的方法基于注意机制模型和提取相关特征语言隐写式密码解密。(2)实验表明,提出的隐写式密码解密方法实现出色的性能检测生成语言隐写术。

论文的内容分为四个部分。部分2描述了许多的细节提出语言基于多头self-attention隐写式密码解密的方法。部分3介绍了实验结果,模型是本部分中讨论。最后,给出了结论和未来的工作部分4。

2。建议的方法

提出的架构语言隐写式密码解密方法如图1。它包含三大模块,即。,text representation, carrier encoder, and carrier prediction. Detailed analyses on different components of the proposed architecture are presented in the subsequent subsections.

2.1。文本表示

嵌入文本表示的核心是词,用于文本载体的序列词转换成一系列低维嵌入向量。表示一个可疑的载体文本词语。通过这层转化成一个向量序列。此外,为了提供更多的单词在文本的位置信息的方法,我们添加了一个词嵌入位置嵌入向量序列,从而得到一个新的词表示顺序。

在承运人编码器层,我们采用多头self-attention [9),最近取得了非凡的表演在建模复杂的上下文词语之间的关系。以 - - - - - -th词表示特性作为一个例子,我们将解释如何确定多个有意义的相关特性涉及功能基于这样的一种机制。首先,我们定义特征之间的相关性和特性在一个特定的关注如下: 在哪里是一个关注函数定义特性之间的相关性和特性。注意函数有许多不同的形式和大多数神经网络。在我们的例子中,我们采用了广泛使用的内积形式,可几类如下: 在哪里是变换矩阵映射原嵌入空间到一个新的语义空间。

在得到这些相关系数,我们调整的功能在子空间通过结合所有相关特性系数 : 在哪里和是文本长度。自是一个组合的特性及其相关特性下的头 ,它代表了一个新的组合功能学的方法。多头表示的 - - - - - -th单词是由串联的表示单独self-attention正面,也就是说, 。

一个有趣的直觉是,利用更多不同层次的特性可能会提高性能,并受残余ResNet[连接结构11),我们将从校准功能表示和原点词表示在连接层。最后一个特征向量在这些层可以制定如下: 在哪里被作为该语言的文本表示隐写式密码解密的问题。然后,全球平均池是用来减少维度的特性,因为的维数非常高,可能导致的风险下的模型过度拟合。之后,美联储在池特性分类层模型生成的概率分布,给出指标的标签集。

2.2。航空公司预测

承运人的主要焦点预测模块分类文本是否属于“覆盖”或“隐藏。“预测层由两个致密层与ReLU和乙状结肠激活功能,可以制定和层在哪里 , 和参数和偏差的线性变换。最后,可疑文本属于“隐藏”封面被输出值反映这是一个概率。一个预测标签可以最后确定一个阈值,可由以下方程:

2.3。培训框架

优化建议的方法是基于一个监督学习框架。损失函数的网络交叉熵误差损失。提出了模型中的参数更新的反向传播。渐变的过程是通过最小化交叉熵计算损失,和过程可以制定如下:

此外,为了缓解过度拟合问题,我们应用一批标准化12)和辍学技术(13)规范提出的模型。

3所示。实验和分析

3.1。数据集和实验设置

语言stegosystem首先构建了基于该方法在14)为目的的评估建议的方法的性能。三个大规模文本数据集包含最常见的文本媒体在互联网上作为训练集,这是Twitter [15,电影评论16),和新闻语言stegosystem训练。

然后,我们利用语言stegosystem构建自己的隐写式密码解密的数据集。10000隐藏生成样本和10000自然文本被随机选择在每个数据集作为数据集进行隐写式密码解密。注意句子的不同类型的文本不同的嵌入率是不同的。

交叉验证过程的验证集确定hyperparameters拟议的模型。具体来说,多头self-attention头数量是8。嵌入的大小是256。完全连接层的维度分类层是100。检测阈值设置为0.5。优化方法在训练过程是亚当17),学习利率最初设置为0.001,辍学率是设置为0.9,批量大小设置为256。

3.2。评价指标

几个评价指标分类中常用的任务是利用评估模型的性能,包括准确性(Acc)、精度(P),回忆(R),F1分。指标的定义是几类如下: TP(真阳性)代表阳性样本的数量预计将是积极的方法,FN(假阴性)说明了积极的预测样本的数量是负数,TN(真阴性)代表负样本预测的数量是负数,FP(假阳性)表示负样本的数量将是积极的,然后呢F1分是调和平均数的精度和召回。

3.3。绩效评估

几种不同的隐写式密码解密算法被选为代表我们的基线模型(18- - - - - -21)来验证模型的性能。

比较结果如表所示1。的结果,我们可以得出结论,与其他语言隐写式密码解密的方法相比,该模型取得了最佳的检测性能在各种指标,包括不同的文本格式和不同的嵌入率。我们还可以观察到不同的数据集有不同的语言隐写式密码解密的表演。这可能是因为不同的文本长度在不同的数据集。长文本隐写式密码解密可能更多的线索,导致更高的检测精度。此外,我们还注意到隐文本的检测性能与隐信息的增加会增加生成的文本。现象的解释之一是,一旦更多的信息嵌入到文本,文本生成的失真将会减少,这将损害文本语义的连贯性和隐写式密码解密提供更多线索。


方法		(18]			(19]			(20.]			(21]			我们的
格式	bpw	Acc	P	R	Acc	P	R	Acc	P	R	Acc	P	R	Acc	P	R

新闻	1	0.532	0.517	0.382	0.763	0.739	0.812	0.840	0.869	0.801	0.858	0.858	0.858	0.913	0.930	0.894
	2	0.513	0.535	0.204	0.786	0.762	0.832	0.835	0.867	0.791	0.864	0.915	0.803	0.920	0.923	0.916
	3	0.597	0.679	0.367	0.824	0.767	0.931	0.897	0.909	0.882	0.920	0.922	0.918	0.962	0.966	0.958
	4	0.755	0.831	0.640	0.859	0.797	0.962	0.938	0.962	0.911	0.961	0.979	0.942	0.973	0.981	0.966
	5	0.847	0.918	0.761	0.881	0.829	0.959	0.961	0.976	0.945	0.973	0.988	0.958	0.985	0.983	0.987

IMDB	1	0.577	0.642	0.345	0.767	0.779	0.744	0.787	0.829	0.722	0.845	0.941	0.736	0.901	0.953	0.844
	2	0.713	0.807	0.560	0.849	0.934	0.871	0.869	0.911	0.818	0.918	0.947	0.886	0.957	0.972	0.940
	3	0.840	0.925	0.741	0.90	0.877	0.931	0.916	0.944	0.885	0.941	0.950	0.932	0.966	0.983	0.949
	4	0.909	0.969	0.845	0.937	0.905	0.975	0.962	0.975	0.947	0.976	0.986	0.966	0.987	0.990	0.983
	5	0.909	0.989	0.828	0.929	0.921	0.940	0.977	0.987	0.966	0.990	0.988	0.992	0.995	0.996	0.993

推特	1	0.538	0.520	0.387	0.654	0.652	0.658	0.665	0.664	0.670	0.745	0.811	0.621	0.786	0.873	0.657
	2	0.544	0.523	0.399	0.745	0.762	0.712	0.750	0.827	0.631	0.793	0.914	0.647	0.834	0.883	0.770
	3	0.577	0.669	0.303	0.809	0.798	0.826	0.834	0.889	0.764	0.879	0.939	0.812	0.908	0.950	0.861
	4	0.729	0.836	0.570	0.842	0.824	0.871	0.885	0.950	0.813	0.934	0.988	0.879	0.943	0.986	0.899
	5	0.850	0.916	0.770	0.851	0.839	0.870	0.899	0.961	0.832	0.921	0.960	0.879	0.936	0.958	0.911

我们还进行了智能化实验数据集可以作为嵌入率估计任务(22]我们混合文本在不同的嵌入率,即bpw = 0, 1, 2, 3, 4, 5。实验结果如表所示2。从表2,我们可以看到,我们的模型也可以胜过所有的基础模型。


方法	(18]			(19]			(20.]			(21]			我们的
格式	P	R	F1	P	R	F1	P	R	F1	P	R	F1	P	R	F1

新闻	0.445	0.396	0.420	0.701	0.706	0.703	0.745	0.741	0.743	0.817	0.810	0.811	0.872	0.870	0.871
IMDB	0.490	0.512	0.501	0.742	0.745	0.743	0.767	0.760	0.763	0.848	0.842	0.843	0.879	0.873	0.873
推特	0.417	0.363	0.303	0.620	0.620	0.620	0.638	0.615	0.626	0.750	0.705	0.712	0.800	0.758	0.766

4所示。结论

精确的语言隐写式密码解密可疑载体对多媒体安全至关重要。在本文中,我们介绍了一个基于多头self-attention神经语言隐写式密码解密的方法。在拟议的方法中,文本中的词首先映射到语义空间和一个隐藏的表示更好的利用语义特性。然后,我们利用多头self-attention模型在运营商之间的交互。最后,softmax层是用来输入文本分类为覆盖或隐藏。大量的实验验证了我们的方法的有效性。在未来,我们会建造更多的通用隐写式密码解密的方法来发现更多的语言隐写术。

数据可用性

数据集训练这个语言stegosystem是基于三个大规模文本数据集包含最常见的文本媒体在互联网上作为训练集,这是Twitter [15,电影评论16),和新闻(https://www.kaggle.com/snapcrack/all-the-news/data)。

的利益冲突

作者宣称没有利益冲突。

确认

这项研究得到了国家自然科学基金(没有。61861015)和海南省重点研发项目(ZDYF2020017)。

引用

j . Fridrich隐写术在数字媒体英国,剑桥大学出版社剑桥,剑桥2009。
z杨郭x, y, z . Chen和Y.-J。张,“RNN-stega:语言基于递归神经网络的隐写术,”IEEE取证和安全信息,99卷,2018年。视图:出版商的网站|谷歌学术搜索
h·杨,杨z和y黄,“隐写式密码解密的VOIP CNN-LSTM网络流,”诉讼的ACM研讨会信息隐藏和多媒体安全ACM,页204 - 209年,巴黎,法国,2019年7月。视图:谷歌学术搜索
c . Taskiran Topkara, m . Topkara, e . Delp”袭击自然语言词汇速记式加密系统,”学报——国际光学工程学会学报》上美国贝灵汉,佤邦,2006年10月。视图:谷歌学术搜索
z . Chen l .黄p .孟w·杨和h .苗族“盲基于对翻译语言隐写式密码解密的隐写术,”在计算机科学的课堂讲稿施普林格,柏林,德国,2011年。视图:谷歌学术搜索
h·杨和曹x语言隐写式密码解密基于元特性和免疫机制,“中国电子杂志,19卷,不。4、661 - 666年,2010页。视图:谷歌学术搜索
x左,h . Hu w·张,n . Yu”文本语义基于字嵌入隐写式密码解密,”《云计算国际会议和安全IEEE,海口,中国,2018年6月。视图:谷歌学术搜索
y . j .包h·杨,杨z s . Liu和y黄,“文本与注意力LSTM-CNN隐写式密码解密,”2019年,https://arxiv.org/abs/1912.12871。视图:谷歌学术搜索
答:Vaswani: Shazeer: Parmar et al .,“注意你所需要的,”诉讼进展的神经信息处理系统IEEE,页5998 - 6008年,2017年12月,美国长滩。视图:谷歌学术搜索
h·杨,l .钟y, j .保刘,和y . f .黄,“Fcem:一种新颖的快速相关提取模型实时隐写式密码解密的VOIP流通过多头的注意,”学报2020年IEEE国际会议音响、演讲和信号处理(ICASSP)、IEEE、布赖顿、英国,2020年5月。视图:谷歌学术搜索
k . x张,他任美国,j .太阳,“深残余学习图像识别,”IEEE会议程序计算机视觉和模式识别美国IEEE,内华达州拉斯维加斯,2016年6月。视图:谷歌学术搜索
美国Szegedy C约飞,“批量标准化:加速深层网络训练通过减少内部协变量转变,”《国际会议上国际会议上机器学习,页448 - 456,JMLR.org,里尔,法国,2015年7月。视图:谷歌学术搜索
n .斯利瓦斯塔瓦辛顿,a . Krizhevsky Sutskever,和r . Salakhutdinov”辍学:一个简单的方法来防止神经网络过度拟合,“机器学习研究杂志》上,15卷,不。1,第1958 - 1929页,2014。视图:谷歌学术搜索
t方、j·马丁和k . Argyraki”与LSTMs生成隐文本”,2017年,https://arxiv.org/abs/1705.10742。视图:谷歌学术搜索
答:去,“情绪分类使用遥远的监督,“2009。视图:谷歌学术搜索
a . l .马斯河r·e·戴利·t·范教授黄d和c . Potts“学习词向量情绪分析,”美国第49计算语言学协会的年会:人类语言技术,会议程序美国,IEEE,波特兰,或2011年6月。视图:谷歌学术搜索
Kingma和吉米lei英航p Diederik。”亚当:amethod随机优化”第三届国际会议上学习表示学报》上2014年4月,加拿大班夫。视图:谷歌学术搜索
p .孟l .挂w·杨,z . Chen和z,“语言隐写术检测算法使用统计语言模型,”《2009年国际会议上信息技术和计算机科学IEEE,页540 - 543年,曼彻斯特,英国,2009年5月。视图:谷歌学术搜索
美国Samanta, s·杜塔,Goutam Sanyal,“实时文本隐写式密码解密通过使用统计方法,”学报2016年IEEE工程技术国际会议(ICETECH)IEEE,页264 - 268年,哥印拜陀,印度,2016年3月。视图:谷歌学术搜索
r .喧嚣,s . Affendi穆罕默德尤索夫a Amphawan et al .,“性能分析文本隐写式密码解密方法使用计算智能方法,”电气工程计算机科学和信息学的诉讼,卷2,不。1,第73 - 67页,2015。视图:出版商的网站|谷歌学术搜索
黄z, y, Y.-J。张”,一个快速和有效的文本隐写式密码解密方法,”IEEE信号处理信件,26卷,不。4、627 - 631年,2019页。视图:出版商的网站|谷歌学术搜索
z杨,李j . k . Wang黄y, y张,“TS-RNN:文本隐写式密码解密复发性神经网络基础上,“IEEE信号处理信件,卷99,不。1,2019。视图:谷歌学术搜索

电气和计算机工程杂志》上

文摘