隐藏信息的可逆转换英语盲接收机

文摘

提出了一种新的技术秘密信息隐藏在普通英语文本。提出这项技术利用冗余存在的一些英语语言结构。冗余的结果机动灵活性的某些成分在不改变意义的语句或正确性。例如,一个能说“她睡着了,因为她累了”或“因为她累了,她睡着了。“paper provides a number of such transformations that can be applied concurrently, while keeping the overall meaning and grammar intact. The proposed data hiding technique is blind since the receiver does not keep a copy of the original uncoded text (cover). Moreover, it can hide more than three bits per statement, which is higher than that achieved in the prior work. A secret key that is a function of the various transformations used is proposed to protect the confidentiality of the hidden message. Our security analysis shows that even if the attacker knows how the transforms are employed, the secret key provides enough security to protect the confidentiality of the hidden message. Moreover, we show that the proposed transformations do not affect the inconspicuousness of the transformed statements, and thus unlikely to draw suspicion.

1。介绍

隐藏信息属于数字隐写术和数字水印领域,这是隐藏在数据的艺术在一个不显眼的方式。有两个主要类别的数字水印:鲁棒水印和脆弱水印。鲁棒数字水印在数字版权保护,使用那里的老板隐藏水印,可以用来证明所有权在法庭面前。脆弱水印,另一方面,将被攻击者破坏最小的变化。脆弱水印数据完整性和数据隐藏应用程序中使用。我们建议的方法属于脆弱水印。

数据隐藏的最重要的目标之一是为了防止外人甚至怀疑可能存在隐藏信息的消息。文本数据是使用最广泛的数据类型;因此,它似乎是完美的候选人信息隐藏。在其他数据类型中隐藏的信息,例如,图片和视频剪辑,利用这些数据类型的冗余。隐藏在自然语言是有界的信息挑战限制因其明确的结构和低冗余。一般来说,英语句子的词序是很重要的,和改变可能改变意义和/或句子的语法的正确性。然而,小心操纵的英语句子成分是可能的。在本文中,我们提出一个新的方案,利用冗余的英语文本结构传递秘密信息。

传递英语的句子,一个句子包含所有三个部分,主体(S)、动词(V)和对象(O),通常遵循S-V-O秩序。然而,O-S-V可以用来强调的对象。例如,“哈利想打棒球”是S-V-O声明。它可能转化为“棒球是哈利想玩什么,”O-S-V,强调“棒球。“在下面,交换的顺序语句成分,例如,改变S-V-O O-S-V反之亦然,在一份声明中被称为转换。这种灵活性在构建一个英语句子是一种冗余,可以利用隐藏秘密信息。例如,隐藏一个比特的秘密消息,发送方和接收方可以同意S-V-O句子表示“0”而O-S-V句子表示“1。”以前的工作在句法转换,转换等S-O-V O-S-V,达到0.5位/句子的嵌入容量(1]。在这项工作中,我们表明,我们的转换可以嵌入至少2位/句子。

本文的目的是利用某些语句成分的隐藏信息的可操作性在英文文档。应用程序场景考虑本文假定双方交换秘密信息的一个被动的攻击者。发送方和接收方,除了被动攻击者监视他们,都是典型的以英语为母语的人写正确,有时随意,英语表达。发送方和接收方交换秘密信息在英语文本文档(称为覆盖)。使用覆盖文档的目的是保持消息交换不显眼的。我们考虑一个编码的文档作为“可接受”如果句子的语法仍然是正确的,意思是保存。

秘密信息可以通过交换隐藏在句子单词(称为句转换)或条款(称为clause-level转换)。也能进行转换操作某些单词在特定的短语,如动词词组或短语句子的对象。他们只影响一种句子成分(主语或动词或对象)。例如,在这个句子:“莎莉和彼得散步,“如果我们把句子的主语写道:“彼得和莎莉散步,“我们表现一个词/短语级变换。变换,clause-level,移动整个条款以嵌入比特。例如,句子中的两个条款”如果你想减肥,你需要吃得更健康”可以交换到“你需要吃的更健康,如果你想要减肥。”

摘要收益如下:部分2讨论之前隐藏信息工作在文本。部分3给详细描述所使用的不同的转换方案为了隐藏秘密信息在一个文本。研究不同的频率变换及其能力的他们可以隐藏在一个典型的比特数覆盖文本在节中有详细描述4。编码过程的分步描述提出了部分5。我们提供了详细的安全分析密钥的部分6。最后,在节7我们得出一些结论并提出未来的发展方向来帮助使用同义词嵌入更多一点。

有不同层次的信息可以隐藏在一个覆盖文档。第一种方法利用文本中隐藏的信息在文档级别;文字被隐藏在整个文档的特征。后来,隐藏文本的方法,利用覆盖文档开发的言语。这些方法分为两种类型:词/短语替换和语言转换。词/短语替换处理用文字代替高encodability没有意义。语言转换主要包括同义词替换和语法修改,这是发现本文的贡献所在。

2.1。隐藏在文档级别的信息

传统上,隐写术处理文本通常是由使用特定的格式样式和调整行间距来隐藏秘密信息。工作(2)是基于interword间距和interparagraph间距。然而,以这种方式遭受严重的缺点隐藏信息,简单的输入文档的一个新的文档完全抹平了隐藏的信息。此外,现在的加工工具能够检测这些微小细节产生提取隐藏的消息尤其简单。

另一种形式的隐藏信息的Microsoft Word文档级别使用功能产生系统,隐藏在一个Microsoft Word文档的信息。在[3]Word 2003文档的文本段退化,和信息嵌入在修订由谨慎的评论家。最初的封面,退化文档,和秘密消息都包含在文档;允许接收者解码消息根据其建立字典。最近,(4]技术嵌入信息记录的修订,修订标识符(RIs),应用Word 2007 OOXML文档。RIs随机生成惟一值,取而代之的是算法嵌入的信息。

一个最新的隐写术方案涉及到完全修改两个阶段的原始覆盖文档Innocent-Cipher-Based密码学范式(Innocipher) [5]。提出了执行的工作提供了一种新的隐写方法;然而,隐藏信息方案提出了轻微的优势,只是改变一个覆盖文档而隐藏许多信息。

2.2。词/短语替换方案

NICETEXT [6]和Spammimic [7)是早期的一些系统试图生成编码文档具有极高的编码能力为代价的生产非常可疑的文本。最近,建议尝试保持虚词,为了保持语义,而只有替换内容的话,已经出现。

在[8),他们开发一个LUNABEL——程序基于取代实词的一个句子“syntactonym”——不同的词在句法结构保持不变。LUNABEL面临的一个主要缺点是,文本编码不是语义相关。例如,实词“等一个句子中去狗吃了骨”可以取代“猫吃了树”。(9他们研究了惹人注目的LUNABEL他们使用,发现他们自动化方案是可疑当观察到人类读者而不是由人类其他隐写术的方法。我们的工作产生更明显的stego-texts当我们已经开发出一种新范式,以确保关键。

(描述的工作10]提供了一个更复杂的单词替换方案,依赖于一个词类(POS)薄铁片,测试不同的场景中找到这方面的词替换给更好的编码能力和哪些方面产生更有意义的文本。标记的POS尾随者克是编码和寻找最发生克用相同的标签,以替代最常见克的编码。本文有助于强调不显眼的隐写术之间的权衡和准确的隐写术。

在[1套用]他们描述一个方法克在试图维持一个高水平的细微,根据隐写术。一旦一个克承认,各自从改写词典释义中检查谷歌语料库,以确保新解释在网络上被广泛使用。同样,修改后的句子是通过组合范畴的语法解析器(20)套用之前和之后检查周围的单词释义并没有改变。

同义词替换广泛用于隐写术,因为它有助于保持语义正确的。在[11)一个框架基于使文本尽可能模棱两可的同义词替换。同形异义词选择从加权无向图(词,意义)对,和用于嵌入信息,防范敌人用同样的计算功能和系统的知识。

2.3。嵌入信息的字面意思

在[12我们提出了一些想法与初步结果隐藏文本排序的一些简单的英语句子成分。我们展示了如何隐藏在短语动词的操纵,布尔操作数,副词,有条件的条款。在本文中,我们更多的编码方案,我们给出一个完整的译码器可以盲目地解码一个特定的句子。

我们增加句子encodability利用两个广泛的发现进一步转换:副词和条件。在本文中,我们的方法不同的副词。而不是只把副词已经覆盖文本的句子,我们设计了一个新的范式选择和插入最适合基于谷歌图书语料库的副词。通过这种方式,我们确保每一个条款(约5字)就一定能够编码至少2位,或者就像我们描述的那样:“许多副词子句,使接收机的掌声”。在此之前,我们看着简单的条件语句和编码为1,而在这个研究我们四位编码条件语句。此外,我们设计了一种编码甚至复杂的嵌套条件。在本文中,我们提出一个完整的的细节sender-receiver系统接收机的盲目能够正确解码的信息。

可以进行语言转换的字面意思来隐藏秘密信息。第一个工作描述句法转换为隐藏信息是在13)通过Atallah et al。(13),有三个主要的可逆的语法转换:兼职运动,裂口,被动的形成。它们应用于句法树表示为了隐藏水印文本文档内的一小部分。后,在14)句子选择基于词汇mark-carrying:如果具体词的句子,消息可能插入特定的句子。每个标记的句子都是针对一组语法检查功能。如果一个句子可以处理一个特定的变换,它可以用于编码。在[15]他们语法转换适用于土耳其语言,它不是刚性时,语序。Morphosyntactic特性以及功能依赖性是用于生产的树图资料库表示句子。随机选择基于共享密钥选择哪种类型的工具将嵌入水印。

3所示。操纵句子成分

本文研究的能力在文本中嵌入秘密消息交流英语的两个典型用户。内容交换的类型可能是各种各样的自然语言内容,从休闲电子邮件沟通和报纸文章技术报告。目标是插入一个秘密消息,一位流的形式,为封面文件,没有令人不安的原始文档的意义或语法。

在大多数情况下,这句话已经在一个英语句子都很重要,不能操作而不影响句子结构;然而,由于某些关键词的布局中存在的冗余,句子成分的一些操作可以给类似的意思。例如,句子”,因为她累了,她睡着了,“可以用另一种形式,同时仍然保持整体结构和含义:“她睡着了,因为她累了。”在这个例子中,我们有了第一个条款开始关键字”,因为“第二条款,为了隐藏一个比特的信息。这可以利用冗余来隐藏秘密信息。发送方和接收方同意默认编码。例如,“因为”出现在句子的开头,表示“0”位秘密消息和“1”的价值”,因为“如果出现在中间。

本文重点讨论了如何识别特定的变换,可以操纵隐藏秘密信息。这些转换可以被分类为词级和子句或短语级转换。关于这个词的水平,在“日常”英语用法,一些关键词比其他人更频繁地出现。最大化的容量提出了技术,频繁的选择关键词。例如,一个副词来描述主题,动词和对象可以添加而不影响句子的意思。如果句子中的副词插入,我们嵌入每个副词“1”。如果删除副词我们嵌入“0”为每个句子的元素(主语、动词和对象)。这就确保任何与主题句,动词和对象可以嵌入至少3位和这些碎片的价值取决于是否副词的句子所示。

另一种方式来隐藏秘密比特在单词层面是利用缩写。可以理解一些关键字公约是否缩写。今年月,如医生(博士)或事件国际会议(国际),只是几个例子。

在短语层面,我们编码可分动词短语“分不开的”代表“0”或“分离”代表“1。”也在短语层面,我们交换操作数在一个布尔操作符如“。“交换条件语句成分对条款的水平。此外,有条件的关键词替换能够嵌入更多的比特。有两种类型的条件语句,始于假说(p结论(开始)和一个问)。

3.1。分裂可分动词短语

每一个英语语句必须至少有一个主语和一个动词。动词可以是一个词或一个短语(如动词词组)。当一个动词(如“填满”)是结合一个副词粒子(如“向上”),结果是一个动词词组(“填满”)。在英语语言3134种不同的短语动词,其中很多都是选择性地分离(16]。如果一个短语动词有一个直接宾语,动词通常可以被分离的组分。例如,“他这句话填满油箱”也可以写成“他填满的油箱向上”。由将副词短语动词部分粒子在对象。短语动词只能分开如果对象不是一个代词。例如,它是正确的说:“她试衣服”或“她试穿礼服”,但我们不能说“她试穿了它。”

编码可分动词短语需要查表,包括所有的可选可分动词短语。程序将检查每个句子的第一个词短语动词。如果找到它,它会检查是否第二个词的短语动词是句子。取决于两个部分的短语动词是否相邻,动词词组将被编码为“0”或“1”。

3.2。交换布尔操作符的操作数

并列连词连接的单词解释之间的关系等级的话,短语、从句或句子连接。并列连词,如“和”,“但是,”“也”和“或”类似于布尔操作符中发现布尔逻辑。我们可以利用某些布尔逻辑概念在覆盖文档中嵌入秘密消息。三个主要的布尔操作符,我们将集中精力,或者,也没有。当和操作符应用于词汇在英语语言中,被添加的组件可以移动运营商编码比特的句子。同样的适用于操作数时比较了使用或和运营商。这是由于交换属性这三个运营商分享: 因为单词”和“和”或“两个最常见的词在英语语言17),因此他们隐藏文本提供了巨大的机会。例如这两个主题短语“莎拉和爱丽丝”和“爱丽丝和莎拉”是等价的意义和可以用来编码有点短语层面。有两个可互换的动词短语的另一个例子是“我们可以读书或画画,”也可以写成“我们可以画画或者读书。”

为了保持语义正确的,必须采取某些预防措施当试图简单地交换操作数。如果操作数”和“按时间顺序描述事件发生,我们不应该交换他们为了保护意义。为了说明这一点,是不正确的开关这个句子的两个条款:“首先,我们在家吃午饭,然后我们在餐馆吃晚饭。“讨论午餐应该出现在条款讨论晚餐午餐之前晚餐。并列连词”或“和“也不”还需要特别注意可接受自动编码。当字”或“和”或“加入操作数的顺序列出优先级,操作数不能交换。

因此,为了确保正确的语义,我们将专注于编码特定的句子与布尔操作符。如果两个操作数都是之前指定词“的”和“,”我们可以交换操作数自主要动词已经声明。此外,我们将自动编码操作数的相关连接词如“_和_”“_和_”和“_和_。”的同时,我们将自动编码列表项目而确定没有编码的句子和单词,显示顺序或优先级。

表1显示布尔操作符的不同实例句子仍然可以自动编码和编码产生一个可接受的封面。的编码操作的顺序可以基于任何可逆过程由发送方和接收方之间的决定覆盖文件。例如,字母顺序的操作数或累加操作数的ASCII值(如表中执行1)是两个简单的选择操作数的编码方法。


	样的句子	位

和	我想去公园和动物园	0
和	我想去动物园和公园	1

也不	无论是Arwa还是Jena想玩	0
也不	耶拿和Arwa想玩	1

或	我们可以吃蛋糕、饼干、冰淇淋	00
	我们可以吃蛋糕、冰淇淋或饼干	01
	我们可以吃饼干,蛋糕或冰淇淋	10
	我们可以吃冰淇淋、饼干或蛋糕	11

3.3。重新安排条件句

前两个部分中讨论的转换被归类为句转换。在本节中,我们将着眼于clause-level转换。在自然语言文本,许多语句显示因果类似于“如果-那么”的条件语句。这些英语句子是由一个独立的条款,这是一个完整的思想,可以单独作为一个句子和从属子句,这是一个片段,不能独立声明。从属子句通常是一个片段,因为它始于一个从属连词,“如果”或“等。“定位条件自然语言文本和重新排列这些条件可以用来隐藏信息。基本的想法是寻找从属连词和逗号,符号的条款,检查句子的格式是否适合自动重排,并重新排列条件语句来表示所需的比特的信息。

如果两个命题,p和q,出现在表单p问,语句是一个条件语句解释为“如果p, q。“第一个命题是假设,结论是q。两个命题,p和q,形式也可能是p问如果声明暗示“p当且仅当q " (18]。注意,某些形式开始的假设开始时声明(p),而另一些人则开始与结论(问)。利用表中的信息2,我们可以很容易地改变条件语句。例如,这句话“如果爱丽丝病了,她可以去医院”可以转化为“她可以去医院,如果爱丽丝病了。“这一节的其余部分将展示一个条件语句可以由4位编码。一点编码为从句是否第一条款,一个比特编码,如果代词出现在第一条款,一个比特编码如果是p或q型条件,一个比特编码同义词从属连词的使用。


格式	重排的格式

“如果p, q”	“问,如果p”
“问,p "	“p, q "
“问,当p”	“当p, q "
“p q是必要的”	“p, q是必要的”
“问,除非~ p (p) "	“除非~ p (p)、q "
" p当且仅当q "	“q,当且仅当p”

3.3.1。从句是第一个在声明中条款

有两种方法可以编写一个条件语句。例如,当我们有从句第一次在“爱丽丝因为生病了,她去看了医生,“我们可以编码为“0。”,而如果我们有从句作为第二个条款,我们可以编码为“1”,这句话会读“爱丽丝去看医生,因为她生病了。”表3显示了一些关键词的p类型和问句子类型。


关键字有两个条件语句类型

p→类型	如果	尽管	因为	当	自	除非
→问类型	为	为了让	来	的要求

3.3.2。交换从属连词

这项工作的范围是由句法编码比特操作,同时避免改变每个语句的话说,保存文档封面的本义。然而,从属连词可以视为同义词组。表4列出同义词组认为在这项研究中,例如,“因为”,“由于”可能是可以互换而不影响句子的意思。如果发送方和接收方同意使用“因为”而不是“自”编码,然后我们可以编码一个钻头。我们必须照顾交换从属连词时,像一些代词或文章可能必须交换。


虽然	0
尽管	1

如果	0
自	1

如果不是	0
除非	1

3.3.3。p开关类型声明成一个问类型声明(相反)

一般p类型声明包括许多从属连词如“以来,如果因为。“问类型语句利用从属连词如”,为了…。“我们可以简单地识别语句类型取决于使用的从属连词。然而,为了改变p类型声明成一个问类型声明(或者相反),我们需要一个特殊的工具来生成转换从一个句子短语,始于“如果”与“开始一个句子。“基于训练句子的自然语言文本生成器将会是一个可能的候选人这样的工具。自动化的转换p类型声明成一个问类型声明允许我们对另一个进行编码。下面的表显示了一个示例的一个句子可以由2位编码根据声明的类型和取决于声明始于从属连词。表5显示了编码两个转换条件语句:条件语句类型的交换和交换的独立和从属子句。


有条件的	样的句子	类型	位

如果q, p	如果你可以看到停车标志,不盲目的	→问	10
p,如果问	你是不盲目的,如果你可以看到停车标志	→问	11
除非~ p, q	除非你是盲人,你可以看到停车标志	p→	00
问,除非~ p	你可以看到停车标志,除非你是盲人	p→	01

3.3.4。代词及其标识符

正确的编码对代词,我们必须确保如果有代词的句子,独立分句和从属子句代词相同。如果其中一个条款有一个代词和其他条款有代词的标识符,很可能我们将无法简单地交换了句子的从句和保持语义完全正确。例如,请注意这句话:“如果爱丽丝想看电影,她必须攒钱。“可能是稍微模糊谁”必须攒钱”当我们改变它”她必须攒钱,如果爱丽丝想看电影。”

就我们的目的而言,这种含糊不清可接受的因为我们的主要目的是提供一个媒介隐写术两个用户之间完全不使用适当的英语交流覆盖文件。然而,在一些句子,不仅是主体不明的条款,但对象也不明。

例如,如果我们交换的条款条件句,“因为总统承诺减税,他必须这样做,”那么这句话读:“他必须这么做,因为总统承诺要降低税收。“他必须这样做是相当模糊的,谁必须做什么。因此,最好是确保至少在第一条款确定的主题。

确定主题在第一条款可以解决薄铁片发表演讲。当薄铁片识别一个“NNP”或适当的单数名词,如“爱丽丝”在第二条款和薄铁片标识“PRP”或个人代词,如“她”在第一条款,主程序可以指示交换这两个词。演讲薄铁片的输出可以在[19当输入句子”,因为她生病了,爱丽丝去了医院”,如图1。这个简单的演讲薄铁片的输出表明是可行的自动标识符在第一条款。此外,代词的交换和它的标识符可以用于编码比特。例如,如果代词标记为“PRP”是在第一条款,然后“0”可以编码,如果标识符标记为“NNP”是在第一条款,然后可以编码的“1”。

3.3.5。嵌套条件

在一些语句有超过一个假设,p导致结论。例如,这个句子中有两个假设”当你去超市,如果你找到成熟的香蕉,请买一些。“encoding scheme we have adopted, as shown in Table6编码“0”,如果第一个条款是从属子句(始于从属连词)和“1”,如果第一个是独立的条款。因为我们有两个从句,编码器将把最里面的嵌套的条款,并将其视作一个条款。


嵌套条件	样的句子	类型	位

因为p1, p2, q	因为哈姆萨四百迪拉姆,如果他可以节省一百多,可以买新的电脑游戏	P-p-q	0

如果p2, q,因为p1	如果他可以节省一百多,可以买新的电脑游戏,因为哈姆萨四百迪拉姆	P-q-p	1

请注意,可能会有其他的选择移动的条款;然而,他们可能会改变语句的意义。表6还展示了如何解码器能够解码嵌套条件。当有两个从句(p)其次是独立分句(q),自动解码器解码“0。“当有一个从属子句紧随其后的是一个独立的和结束与另一个相关的条款,译码器输出“1。“如果我们仔细看看示例表的句子6编码为“1”,这似乎有点引人注目。通常情况下,一个句子意思相同的会写成“如果哈姆萨节省了一百多,他可以买电脑游戏,因为他已经有四百迪拉姆”(代词在第一条款)。下一小节将演示如何处理代词问题。最后,最大可能encodability条件语句的使用条件(1),(2)声明类型,(3)代词,(4)同义词替换表所示7。


有条件的	各种形式的句子	年代	B	P	T

因为p, q	因为爱丽丝发生了意外,她迅速送往医院	0	0	0	0
问,因为p	爱丽丝迅速送往医院,因为她出事了	1	0	0	0
因为p, q	因为她出事了,爱丽丝迅速送往医院	0	0	1	0
问,因为p	她迅速冲到医院,因为爱丽丝发生了意外	1	0	1	0
为p, q	爱丽丝迅速冲到医院,她一定是出事了	0	0	0	1
问,对p	爱丽丝一定出事了,她迅速冲到医院	1	0	0	1
为p, q	她迅速冲到医院,爱丽丝一定出事了	0	0	1	1
问,对p	她一定出事了,她迅速冲到医院	1	0	1	1
由于p, q	从爱丽丝发生了意外,她迅速送往医院	0	1	0	0
问,因为p	爱丽丝迅速送往医院,因为她出事了	1	1	0	0
由于p, q	因为她出事了,爱丽丝迅速送往医院	0	1	1	0
问,因为p	她迅速冲到医院,因为爱丽丝发生了意外	1	1	1	0
以p, q	为了让爱丽丝迅速冲到医院,她一定是出事了	0	1	0	1
问,p	爱丽丝一定出事了,为了让她迅速冲到医院	1	1	0	1
以p, q	为了让她迅速冲到医院,爱丽丝一定出事了	0	1	1	1
问,p	她一定出事了,为了让爱丽丝迅速冲到医院	1	1	1	1

S =从属连词是句子的第一个词(例如,如果,);B =同义词替换(例如,因为= " 0 ",因为= " 1 ");P =代词在第一条款;T =类型(p型= 0,q型= 1)。

3.4。多个副词子句使接收机的掌声

最操纵词类型之一是副词,因为它可以放置它属于几乎任何地方的条款。最大化的编码能力,我们可以在所有可能的位置添加副词的句子。当一个副词前发现主题将被视为隐藏”1。“当副词没有找到之前,它将被视为一个“0。“类似的动词和对象,如果找到一个副词的主要动词前将编码”1,“如果没有副词动词之前编码”0。“例如,把简单的最低刑期只有一个主语和一个动词:“他跑。“这个简洁的语句也是主要的独立子句声明,在声明中,因为它是唯一的条款。“他跑”编码比特00之前因为没有副词放在主题和副词放在动词之前。为了让这个简单的编码01 2-word声明,我们添加前的副词主要动词,句子“他很快就跑。“我们基础上的新插入的副词的选择根据谷歌图书语料库蟋蟀的发生。谷歌图书语料库告诉我们克出现在最近的文本和频繁。

我们选择最常出现的副词来避免改变原来的覆盖文本的意义。看看简单的条件语句:“如果下雨,我们将呆在家里。“因为这是一个条件语句,我们可以把它写也形式:“我们将呆在家里,如果下雨。“然而,我们只能够编码。我们想要每个条款加入一些描述性的词语。在这里,我们专注于verb-adverb对。我们检查最常用的副词/动词和插入它。在图2,我们将展示“保持快乐”的发生而不是“遗憾”和“下大雨”的发生而不是“雨轻。“我们发现“呆”和“雨轻轻“从未发生在大约40多年的文本。这些短语可能从来没有发生,因为这些短语不够重要meaning-wise发布的文本。因此,我们使用更常见verb-adverb短语,如“下大雨”和丢弃nonoccurring克如“雨轻。“这技术检查谷歌图书语料库的发生克在过去的40年里可以确保只有最适宜的副词是插入,和其他副词被丢弃。通过这种方式,句子语法和意思是保存,而每个句子可以编码至少两位。

3.5。使用关键词缩写

通过统计分析,我们可以发现一些最常见的单词在英语单词可以缩写,如街(圣)。这可能是为什么这些关键词缩写在第一个地方,因为他们是如此普遍所以没有必要浪费资源,总是把它们写出来。某些不经意的文本可以包含关键词,往往理解是否缩写。例如,在示例文本的一方将另一方的地址的地方,作者可能会出现不一致,有时缩写词“街”或“大道。“然而,真正的事实是,当一个合适的地址包含“圣。“这是隐藏一个“1”,而如果这个词写出“街”隐藏一个“0”。同样,如果文本提到了一个日期,如果月写出完全可能代表“1”,例如,1月31日写作可能代表“0。“我们意识到不一致的简写,nonabbreviating共同英语语句如“不”和“没有,”,因此可以建立一个密钥发送方和接收方之间决定哪些关键字缩写和忽视。例如,每5关键词可以编码,而不是每一个可能的关键字为了不产生怀疑。

3.6。与多个变换编码的句子

这些转换确保任何句子,甚至最简单的2-word句子,如“他跑”至少可以隐藏两位插入副词描述主语和动词。在本节中,我们将展示一个句子可以在多个转换。特别是我们将学习这句话:“新新郎,哈立德,可以试着在条纹格子西装或套装,如果他喜欢。”这句话有一个条件,即四位可以隐藏。第一个条款“新郎”,主题和动词“可以”,和对象“格子套装”和“条纹西装”,这意味着它通过添加以某方式副词也可以隐藏4位。第二个条款,“如果他喜欢,”有一个主语和一个动词,所以两个副词可以添加,隐藏2位。注意,如果这两个副词不插入,该条款被编码为“0 0。”例如,句子可以对编码为“1 1 1 1 0 0”由下列副词插入:“今天新新郎,哈立德肯定试穿一下略格纹西装或黑暗条纹西装,如果他喜欢。“bits “1 1 1 1” were encoded because adverbs could be found before the subject, verb and both objects, and the “0s” were encoded because no adverb could be found before the subject “he” and the verb “likes”. The sentence also has a Boolean operator “or” where one bit is hidden and it has a separable phrasal verb “try on” where one bit is hidden. Finally, the commas around the name Khalid can be kept or taken out for hiding a bit of information. The total number of bits that this sentence, which is only comprised of 17 words, hides is 13 bits.

4所示。改变评价

在前一节中,我们描述了各种变换位置和他们如何可以用来编码文档。本节将讨论这些变换的嵌入容量可以提供在一个随机页面的文本。获得我们的系统提供的信息隐藏的能力,我们评估每个变换的频率出现的次数根据转换出现在谷歌的关键字蟋蟀观众的谷歌图书语料库[20.]。这是最大的语料库,包含超过1万亿个英语单词标记文本公开可亲地网页收集2006年1月。它包含英语克和他们观察到的频率计数,只要令牌已被观察到的至少40次。

我们使用了“英语”类型的书籍和从1970 - 2008年的结果。这给了我们一个移动平均的关键词出现的变换。我们选择一个最近的时间,因为我们的场景处理日常英语,这可以改变大大代代相传。

讨论的转换部分3显示是相互独立的;因此,编码能力随机覆盖文件将被认为是外表的总百分比的每一个关键字谷歌声明书。表8给出一个示例的数据获得每个变换类型的关键字。


转换类型	关键字	频率

有条件的	如果	0.0525%
	为	0.64%

副词	他	0.13%
	他	0.36%

布尔	和	0.18%

短语动词	穿上	0.00145%

副词插入的关键字是主语,动词和对象。主题和对象一般是名词;因此我们计数副词插入的关键字是名词和动词的数量。“20卷第二版牛津英语词典包含171476个单词的完整的条目在当前使用…超过一半的这些词是名词,形容词,四分之一和七分之一动词;…”(17]。我们不能搜索所有86000年24000年名词和动词。因此,我们假设一半的名词是主题,其中一半是对象,43000字或43000字来表示对象,代表对象。为了找到对象的出现,我们发现的频率发生的一个名词来代表一个话题,“他”(0.019%)发生,并乘以43000 8.17%的单词是主题,同样使用对象,“猫”(0.002%)发生,表明0.86%的词汇在句子的物体。代表动词,我们用“走”这个词发生(0.004%)和乘以总数的七分之一英语单词的动词关键词的出现为0.96%。因此副词插入产生大约10%的句子单词。

条件语句的关键词是从属连词。从属连词构成大约3%的英语单词根据谷歌图书语料库。因为我们只是编程布尔操作符的相关连接词,关键字关联连词出现0.3%的谷歌图书中的词语料库。最后,可分动词短语由只有大约0.1%的单词“英语”流派的谷歌图书语料库。这个数字很小是因为两个原因。首先,我们只能搜索的短语动词不分开我们不能尝试所有可能的对象,可以是动词和副词之间的粒子。

此外,我们假设短语动词将出现更多的“小说”流派的谷歌图书语料库,短语动词通常用于对话,“小说”类型更有可能有更多的对话。

的所有关键字转换的总比例为13.4%,这意味着将占所有的13.4%的关键词“英语”的言语体裁的谷歌图书语料库。这总比例13.4%,乘以平均每句的字数,这是根据[23.85的话21]。结果,生成一个新的衡量标准:平均一个关键字,每句话的Google图书: 平均每句的字数是13.4%×23.85 = 319%。这意味着每0.313的句子可以隐藏一个比特。页面的文本,它可能包含大约20个句子,63.8可以隐藏的秘密信息。这几乎是三倍的编码能力(这并不占缩写和逗号插入)实现(12]。因此,平均而言,该技术可以用3.2比特编码每个句子的秘密消息。

5。封面文字的编码和解码过程

编码开始之前,发送方和接收方都要有秘钥,这决定了哪些句子已经被编码,将会实现,编码的转换将代表“1”和编码将代表“0。“我们讨论的细节密钥和评估系统的安全6。一旦建立了秘密密钥,发送方和接收方之间的沟通渠道可以利用。以下列出的步骤执行文档封面上为了一个特定的秘密信息嵌入的比特。

步骤1。获得的一些表示ASCII字母的秘密信息;删除0的领先。

步骤2。确定一组单词的句子(找到一个大写字母和一个句号、问号、感叹号),将完整的句子插入词类解析器。

步骤3。识别关键字根据解析器输出(条件句、名词、动词和副词)。关键词的数量将决定可以编码的信息比特数。

步骤4。根据所需的信息比特应用转换。按照层次结构的转换(clause-level变换,然后也能进行转换)。对于副词插入,使用Google Books Ngram Viewer中相应的名词或动词的发生克。图3显示了一个示例的四个步骤执行编码过程。

现在简单,译码器读句子,确定关键字,并迅速解码秘密消息根据从句的位置和是否有副词。

5.1。根据变换应用多个转换的过程层次结构

编码过程确保任何句子,甚至最简单的2-word句子,如“他跑”至少可以隐藏两位插入副词描述主语和动词。本节显示了一个句子根据该编码转换的层次结构。层次结构的转换表的左栏所示9。我们第一次编码条件时,副词,动词短语,布尔操作符,最后逗号和缩写。表9和10显示的例子的步骤4(应用转换在一个特定的句子用关键字来隐藏秘密信息比特)。


类别	的比特数	变换	位编码的句子:“如果萨拉想要草莓,她可以有一些“	位

(我)条件	1	(1)从属连词(如果)1条款	如果萨拉想要草莓,她可以有一些	0
			她可以有一些,如果萨拉想要草莓	1
	2	(2)代词(她)第二条款	如果萨拉想要草莓,她可以有一些	00
			如果她想要草莓,莎拉都有一些	01
			如果莎拉想一些,她可以有草莓	10
			如果她想要一些,莎拉可以有草莓	01
	1	(3)p型或q型(p, q)	如果萨拉想要草莓,她可以有一些	0
			莎拉有一些草莓,她不得不希望他们	1
	1	(4)同义词组(如果因为是可以互换的)	如果萨拉想要草莓,她可以有一些	0
			自萨拉想要草莓,她可以有一些	1

(2)副词插入	1	(5)副词前主题“她”	如果萨拉想要草莓,她可以有一些	0
			如果明天萨拉想要草莓,她可以有一些	1
	2	(6)副词前主要动词“想”和“可以”	如果萨拉想要草莓,她可以有一些	00
			如果莎拉真正想要草莓,她可以有一些	01
			如果萨拉想要草莓,她可以肯定有一些	10
			如果莎拉真正想要草莓,她一定可以有一些	11
	1	(7)副词在对象“一些”	如果萨拉想要草莓,她可以有以后	0
			如果萨拉想要草莓,她可以有以后	1

	共9位	最后的句子	“既然萨拉想要草莓,她以后肯定会有一些“


类别	的比特数	变换	位编码的句子:“他可以试着在条纹格子西装或套装”	位

(我)副词插入	1	(5)副词前主题“他”	他可以试着在条纹格子西装或套装	0
			今天他可以试着格子西装或条纹西装	1
	1	(6)副词主要动词前“试一试”	他可以试着在条纹格子西装或套装	0
			他可以快速尝试在格子条纹的西装或套装	1
	1	(7)副词在对象“套装”	他可以试着在条纹格子西装或套装	0
			他可以试着格子西装或条纹西装在今天	1

(2)动词词组	1	(8)可分动词词组	他可以试着在条纹格子西装或套装	0
			他可以试着格子西装或条纹西装	1

(3)布尔操作符	1	(9)”或“周围的操作数	他可以试着在条纹格子西装或套装	0
			他可以在格子条纹的西装或套装	1

	共5位	最后的句子	”他可以快速尝试条纹西装或格子套装”

我们将开始通过研究句子(这是一个条件与主题,动词,和对象):“如果萨拉想要草莓,她可以有一些“(表9)。转换层次结构的顶部我们有条件,因为他们是clause-level变换。他们参与交换的全部条款。自从从句开头“如果Sara”是句子的开始,当一个接收器接收到的句子:“如果萨拉想要草莓,她可以有一些,“接收机能够自动提取0 00 0 0位有关条件。此外,接收者将发现这句话有一个主题,两个动词,一个对象。自接收到的句子没有任何副词前主题(Sara),前两个动词后(需要和能)和对象(草莓),接收方能够提取有关副词0 00 0插入。

因此这句话最初编码0 00 0 0 0 00 0(5位读取从条件和4位读取从副词插入),实现9位在一个简单的8字的句子。如果一个发送者想把这句子但不希望盲人接收机接收000000000,发送方需要变换应用于编码的特定位发送。表9显示了循序渐进的编码过程,根据句子的关键词“如果萨拉想要草莓,她可以有一些,“这样盲接收机能够提取10 0 00 0 1 0 1。

6。安全分析

在前面的章节有详细的操作和英语句子隐藏信息的编码。通过统计分析,我们也表明句子的关键字触发操作广泛英语文本中找到。我们的系统是基于13可逆变换,这样一个特定的变换中发现一个句子可以被编码为“0”或“1。“大多数这些转换表9和10。

本节将首先描述了密钥发送方和接收方达成一致。接下来,一个安全的讨论将说明了对可能的攻击提出了系统的鲁棒性。讨论包括攻击者的情况下提前知道如何转换应用,试图获取秘密信息。最后,我们将介绍我们的实验,其结果表明,足够我们的转换是不显眼的,被动攻击者很可能不怀疑一个隐藏的消息在第一时间。

6.1。秘密密钥

在本节中,我们将展示如何发送方和接收方使用一个密钥来保护自己的秘密信息的传播与被动攻击。首先,操纵的发送方和接收方应同意句子的关键词(变换)编码“0”和操纵编码”1。“例如,周围的布尔操作数字”或“较低的ASCII值出现的第一个可能编码“0,“虽然周围的布尔操作数字”和“低ASCII值出现第一个可能编码”1。”表9与样本点编码给例句;然而,真正的编码是密钥的一部分,发送方和接收方之间的决定。让是我们系统提供转换的数量。因此,有可能的编码。因为我们有列出13种不同的变换,可以发现,然后是2¹³不同的编码组合。

其他元素的密钥变换的发送方和接收方同意将考虑和他们将执行转换,只是默默无闻。让封面文字转换的数量可以提供;换句话说,总可以隐藏的比特数。一页的英语文本包含至少20个句子,每个句子是23.5的话。每个句子绝对可以承担一个描述性的副词来描述主题,动词,和对象;因此每个句子编码容易至少3位。根据本文所示的副词转换,孤独,我们显示一页的英语文本可以取60多个转换或编码位60多个秘密消息。同时,有条件的关键词已经被证明出现在至少3%的英语单词;因此,在一个页面的大约20个句子长23.5的话,我们可以约14位编码。单从副词和条件,我们可以编码每页74位或3.7位/句子。为了提供更多的安全,发送方和接收方同意只有一定数量的比特传输每个页面; say, for example, 25. Part of the secret key is that the 74 possible encodings are they going to choose to carry the actual 25 bits of the secret key. They may agree to consider one transform and skip three bit encodings or to consider the first 25 transforms as the actual encodings and keep the 49 remaining transforms for obscurity.

6.2。安全的讨论

让的比特数的一个秘密消息发送者想要发送一个接收器。如前所述,关键词的总数在封面文字;即的比特总数可以隐藏在文本。发送者只会发送h位并将丢弃- - - - - -位。因此,选择编码提供的安全一些,选择抛弃其他部分(选择)。自是默默无闻的发送方和接收方之间的协议提供的每个变换实例代表“0”或“1”,那么我们可以说总提供的安全密钥吗。为了说明这一点,让我们说,爱丽丝想把鲍勃的秘密消息25位在一页的文本可以处理74转换。提供的安全是= 287203585453527824400384可能的编码蛮力攻击试图解码秘密消息。当然,怀疑这个页面的文本后可能含有保密信息。我们的转换被精心挑选和测试为了不让温迪监狱长起疑的。然而,如果温迪决定检查页面文本的秘密信息,我们已经表明,这将是很困难的让她正确地获取机密信息。

6.3。测量覆盖文本的关键

为了衡量我们是否将大大影响普通英语的语法和意义的句子,我们设计了一个实验,涉及编码句子读英语最广泛的博客,《赫芬顿邮报》(22,平均每月游客大约1.1亿游客。

证明我们的编码和解码的句子不会提高被动攻击者的怀疑,我们进行许多实验要求受试者评估质量的英语语句之前和之后的编码的秘密消息。帮助测试实验催眠的科目是英语教师,技术专业,大学的学生以英语为母语或在日常生活中使用英语。我们进行两种类型的实验检查后封面文字的关键应用各种转换:(1)保存的风格;(2)隐写术Turing-like试验。第一个实验的目的是检查是否嵌入过程影响了写作风格,在某种意义上,细心的读者会发现文本是否有点不寻常(回想一下,该转换保证语法正确性和语义保留意义)。在这个实验中,研究对象给出一组语句,其中有一个秘密消息编码。语句是取自《赫芬顿邮报》的博客,最广泛的访问博客在互联网上。受试者被要求填一个标题的样式声明。检查的一个主题的选择如下:(我)错误的语法;(2)奇怪的:听起来像是错了英语结构;(3)正确的,但非常不寻常的;(iv)考虑一下然后把它;(v)很正常的。

注意,这个话题不知道哪个是默认声明(直接取自《赫芬顿邮报》),这是改变了一个。许多语句都取自同一篇文章在《赫芬顿邮报》这样我们可以测试是否写作仍然是连接甚至意思是保存后的一些语句转换。我们重复这个实验很多次有超过十个不同的主题。我们收集统计信息主体响应后隔离默认语句的响应(语句来自博客之前让他们转换)和转换后的语句的响应。结果表明,受试者的意见总是互相±1%。这表明,该转换语言风格没有显著的影响。

第二组的目的是检查是否该操作提高任何怀疑的信息隐藏在文本中。受试者被告知,一些语句可能有隐藏的秘密信息,而其他的则不能。水印并且nonwatermarked文本提交给测试受试者判断文本嵌入信息。主题,在这组实验中,由英语教师、技术专业人员,和以英语为母语的学生或在日常生活中使用英语。分析受试者的答案后,结果表明,没有统计区别两类语句,即默认了。这表明提出的转换,因此使用的编码方法,不引入变化,提高怀疑隐藏的文本消息。

7所示。结论和未来的工作

在本文中,我们提出了一种新的技术秘密信息隐藏在普通的英语文本。该方案利用英语句子中存在的冗余成分不危害到语法和句子的意义的完整性。我们展示了自动化的可行性句子的不同变换使用句子解析器操作。使用谷歌图书语料库,我们已经表明,这些转换广泛英语文本中找到。将执行在不同的句子成分和在不同的粒度级别,它们是独立的,因此可以应用于相同的声明。其中一个转换,副词插入,保证每个句子可以隐藏至少2位。然而,大多数普通英语句子可以由多个变换编码。因此,平均编码能力提出技术是3.2位/句子。安全分析表明,该密钥足以挫败的可能性提取恶意第三方的机密信息。最后,我们显示实验,测量的影响提出转换转换的关键句子。 We asked subjects (English teachers and other native English speakers from different professions) to compare the language style of the original sentence and the transformed sentences. We used excerpts, from the most widely read blog《赫芬顿邮报》,涵盖了各种主题和阻碍在某些秘密消息。转换后的对象找不到明显的区别和原始的句子。

利益冲突

作者宣称没有利益冲突有关的出版。

引用

c . y . Chang和克拉克,“语言使用自动生成的迂回,隐写术”诉讼北美分会年会的ACL,页591 - 599年,洛杉矶,加州,美国,2010年6月。视图:谷歌学术搜索
l . y .运动和b . Delina信息隐藏:文本隐写术的新方法,”第七届圆柱学报》国际会议上应用计算机与计算科学应用杭州,页689 - 695年,中国,2008年4月。视图:谷歌学术搜索
T.-Y。刘和W.-H。蔡”,一种新的隐写方法的数据隐藏在microsoft word文档的更改跟踪技术,”IEEE取证和安全信息,卷2,不。1、能力2007页。视图:出版商的网站|谷歌学术搜索
傅z、x太阳,j·张,李,“小说水印嵌入和检测方案基于零知识证明,“国际期刊的数字内容技术及其应用,5卷,不。3、273 - 286年,2011页。视图:出版商的网站|谷歌学术搜索
a . Desoky“Innocipher:小说innocent-cipher-based密码学paradigm-high欺骗敌人的安全级别,“信息安全》杂志,22卷,不。2、83 - 97年,2013页。视图:出版商的网站|谷歌学术搜索
m·查普曼“NICETEXT”, 2014年,ftp://www.zedz.net/pub/security/steganography/nicetext/。视图:谷歌学术搜索
Spammimic, 2014年2月,http://www.spammimic.com。
诉集和c o . Orgun”,利用语言特征在词汇速记式加密:设计和概念验证实现,”学报》第39届夏威夷国际会议系统科学(HICSS 06年)2006年1月,126年,页。视图:出版商的网站|谷歌学术搜索
m . Grosvald和c . Orgun“人——与计算机生成的基于文本的隐写术:实际测试的两个算法,”信息隐藏和多媒体信号处理杂志》上,3卷,不。1,2012。视图:谷歌学术搜索
g . r . s .堰和m . Morran”隐藏隐藏信息:文本隐写术,方法”国际期刊的电子安全与数字取证,3卷,不。3、223 - 233年,2010页。视图:出版商的网站|谷歌学术搜索
美国Topkara、m . Topkara和m . j . Atallah”隐藏歧义的优点:能够测量到的弹性水印的自然语言文本通过同义词替换,”《06年多媒体和安全研讨会(毫米)瑞士日内瓦,页164 - 174,,2006年9月。视图:谷歌学术搜索
即卡和美国Banawan隐藏信息机动位置的话说,”学报创新信息技术国际会议(IIT 12)260年,页255 -艾恩,阿联酋,2012年3月。视图:出版商的网站|谷歌学术搜索
m . j . Atallah诉Raskin, m . c . Crogan et al .,“自然语言水印:设计、分析和一个概念验证实现,”研讨会信息隐藏卷,2137在计算机科学的课堂讲稿,页185 - 200,激飞柏林海德堡,匹兹堡,宾夕法尼亚州,美国,2001年。视图:出版商的网站|谷歌学术搜索
j . m . Topkara美国Topkara, m . j . Atallah”字是不够的:自然语言句子水平水印,”《第四届ACM国际研讨会内容保护和安全(兆赫06年),页37-46,加州圣芭芭拉分校,美国,2006年10月。视图:出版商的网站|谷歌学术搜索
h . m . Meral b . Sankur a Sumru Ozsoy, t . Gungor大肠Sevinc,“自然语言通过morphosyntactic改变水印,”计算机语言,23卷,不。1,第125 - 107页,2009。视图:出版商的网站|谷歌学术搜索
英语短语动词词典》中,2013年,http://www.usingenglish.com/。
牛津词典,2013年12月,http://www.oxforddictionaries.com。
k . Rosen离散数学及其应用美国麦格劳-希尔,纽约,纽约,第七版,2012年。
认知计算组和伊利诺伊大学厄巴纳香槟,“词性薄铁片演示结果,”http://cogcomp.cs.illinois.edu/demo/pos/results.php。视图:谷歌学术搜索
2015年Google Books Ngram Viewer,http://books.google.com/ngrams/datasets。
j . Nivre归纳依赖解析,34卷文本、语音和语言技术施普林格,柏林,德国,2006年。
2015年《赫芬顿邮报》,http://www.thehuffingtonpost.com。