文摘
为了提高文学作品的版权保护效果和改善健康传播数字化文学作品,本文结合数据挖掘技术进行研究文学作品的版权保护和构造一个文学版权保护系统。文学作品,在数字水印算法可用于水印的特点,文学作品获得数字已经有水印的文学作品。之后,本文结合数据挖掘算法进行文本特征识别和特征分类,提高文学作品的版权保护效果。实验研究结果验证的影响文学作品的版权保护系统基于数据挖掘算法很好。
1。介绍
计算机存储技术和网络技术的快速发展给人们带来了大量的信息。这些信息通常需要图片、视频、音频、动画(1),和文本为主要表现,其中文本有广泛的传播和使用的频率最高。大规模传播的信息给人们的工作和生活带来了方便,但它也有缺点,许多版权纠纷和非法复制等问题,迫切需要作者识别方法,可以解决版权纠纷。通过研究,发现文本不同的作者或作者写的有更大的风格差异,不同文字写的同一作者有相同的写作技巧,常见的句子结构、词汇等。2]。作者识别方法首先提取和计数的功能由不同的作者和大量的文字训练分类器。然后,对于有争议的文本,它使用有效的特征提取方法获得统计向量和输入到训练分类器。最后,它输出特定的分类类别或特定的作者。文本作者识别的方法可以帮助解决版权纠纷争议的作品(尤其是有争议的著名作家的作品),打击盗版,维护完整性。文本作者识别方法的关键部分是培训和建立一个分类器(3]。
分类是一个典型的机器学习方法与教师,也是数据挖掘领域的一个重要的研究课题。分类函数或分类器是通过不断学习训练数据。当需要分类时,获得的测试数据可以使用功能或分类器输出给定的类别。如何选择一个合适的分类模型在应用程序中是一个重要的问题。文本分类技术可以广泛应用于自然语言处理等领域和理解,信息管理,数据评估和信息过滤。更常见的文本分类方法包括支持向量机,再方法、贝叶斯分类、神经网络和决策树分类。支持向量机主要用于模式识别等领域。它是一种基于统计学习理论的模式识别方法。其特点是,它可以最大化几何边缘区域和最小化经验误差在同一时间。根据已知样本的情况,最近邻算法可以确定新的样本和已知的样本是否在同一类别。 The nearest neighbor algorithm has many developments and improvements, but the general idea is to store all or part of the training samples first and then calculate the distance between the test sample and the training sample through the similar function and finally determine the type of the test sample. The nearest neighbor algorithm can quickly achieve classification, especially in the field of statistical-based pattern recognition. The principle of the neural network is to simulate the structure of the human brain and treat the sample as a connected input/output unit. The training sample learns by adjusting the unit value.
在此基础上,本文结合数据挖掘技术在文学作品的版权保护进行研究,构造了一个文学版权保护系统,提高了现代数字作品的版权保护效果。
2。相关工作
文献[4)提出了三角形相似四(TSQ)和四面体体积比(TVR)。TSQ算法构造的宏观嵌入原始(MEP)并选择三角形的边长的比值或基础的高度的比值议员作为水印嵌入原始:TvR算法选择四个方面构建后四面体序列。之间的体积比卷作为水印嵌入原始。文献[5)计算每个顶点的距离模型的顶点和中心的距离的中心模型和嵌入的水印修改两者之间的比率。该算法是一种非盲水印算法,它可以抵御类似的转换,噪音,简化,他们的联合攻击。然而,水印的透明度是不够的。
文献[6)提出了两种数字水印算法:基于局部距离顶点洪水算法(VFA)和三角形洪水算法(组织)。VFA算法把顶点集根据模型的顶点的距离选择三角形的中心和嵌入水印通过修改顶点的距离在每组选择三角形的中心;组织算法不断选择三角形和连接相邻的三角形,三角形整理成一个三角形遍历序列根据距离非共享顶点共享优势,然后修改遍历序列中的每个三角形的高度达到嵌入水印的目的。文献[7)嵌入水印通过修改模型顶点的距离模型的中心。作为一个全球的几何特性,这个距离可以反映三维模型的形状和保持足够的稳定而不改变模型的视觉效果。因此,该算法具有更好的鲁棒性噪音和简化攻击;文献[8)提高了水印的透明度控制当地水印嵌入的强度,并使用加权法来提高水印的简化和减少在水印提取。噪声鲁棒性攻击:文献[9]健壮和脆弱水印嵌入三维模型通过修改这个距离和使用添加权重的方法来提高算法的鲁棒性,提取水印。文献[10)提出了一种多重数字水印算法。该算法利用顶点的距离模型嵌入水印的中心,同时介绍了仿射不变量范围和第二水印嵌入通过修改三角形的顶点顺序的脸。增加两者的优势互补水印算法攻击的类型。文献[11)关注提高水印的透明度。文献[12)提高了控制当地水印的嵌入强度的方法。文献[13)使用k - means聚类方法选择一组特定的顶点根据顶点的曲率,并使用遗传算法嵌入水印。
文献[14)提出了一种基于扩展高斯图像的数字水印算法(EGI)。该算法构建一套基于三角形的法向量三角形脸脸和嵌入水印通过修改的统计特征的平均值每组的法向量。文献[15)将3 d模型的顶点划分为6个区域,每个区域建立一个扩展的高斯图像法向量,实现重复嵌入水印信息在每个地区和优化的方法修改顶点坐标。文献[16)提出了一个基于复杂的高斯图像的数字水印算法(Copmlex EGI),它建立了一个复杂的重量为每个分区并选择重量较大的分区来嵌入水印,这有效地提高了鲁棒性。文献[17)使用每个顶点的顶点附近来计算平均向量和嵌入的水印修改平均向量的长度。算法可以处理具有任意拓扑结构的多边形网格模型和仿射变换具有较好的鲁棒性,但它无法抗拒网格重建和网格简化等攻击。文献[18)使用模型中心和主成分分析方法将模型转换成一个仿射不变量空间和顶点坐标转换成球坐标,然后构造一个直方图反映的价值分布的径向分量顶点按照球面坐标。直方图适度变化的分布的径向分量嵌入水印。简化算法可以抵抗相似变换和攻击,但不能抵抗剪切攻击,弱抗噪声攻击。文献[19]定义了三维模型顶点的距离中心模型的顶点规范,提出了一种高度可靠的盲水印算法基于顶点规范的统计特征。该算法建立了一个柱状图的所有顶点规范,将直方图划分为多个分区的数量根据水印,嵌入水印,稍微改变顶点范数的均值或方差的每个分区。该算法结合了稳定的全球三维模型的几何特性和统计特性,对各种常见的攻击取得了良好的鲁棒性。然而,该算法依赖于模型的中心位置,因此不能抵抗剪切攻击。并在透明度也有缺点。
3所示。基于文本的数据挖掘文学作品水印算法
通过分析常见的BIM模型格式DXF文件的特点,本文结合现有的二维矢量图形数字水印算法,提出一种数据版权保护的数字水印算法基于BIM模型。本文选择multiface网格的顶点坐标BIM模型数据的实体来嵌入水印。为了解决这个问题,BIM模型中的顶点坐标有更多相同的价值观和有效载体用于嵌入水印在实际应用程序中,随机噪声被添加到原始坐标数据误差公差内增加水印的嵌入容量。为了提高抵抗修剪攻击的能力,需要将水印信息嵌入尽可能均匀X和YBIM模型的所有multiface网格顶点的坐标数据。为了保持数据和水印之间的同步关系,实现盲水印检测,采用坐标映射的概念。与此同时,水印的安全性提高了物流的水印图像。在该算法中,首先,它提取中的所有multiface网格的顶点坐标数据构建一个顶点集和获得高级坐标数据的一部分。之后,它与水印建立映射关系通过单向映射函数使用的低阶部分协调值嵌入水印的载体和水印嵌入到顶点坐标位置使用量化调制方法。此外,它选择的初始值混沌变换作为水印提取的关键。提取水印时不需要原始数据,而盲检测是实现。水印的嵌入过程如图1。
逻辑映射,也称为昆虫口模型,在混沌理论是一个典型的混沌序列,其方程形式公式(1)。混沌现象是一个random-like过程,出现在一个确定性系统。这个过程是有限的,非收敛,对初始值敏感。利用混沌序列加密水印不仅简单易用,而且没有周期性,很难破解,这可以提高水印的安全性。一个图像的 大小,一维混沌加密序列得到后 迭代。
当条件 很满意,物流映射在一个混乱的工作状态。特别是,当接近4,迭代生成的值是一个伪随机分布状态。本文运用物流混沌映射的图像加密 大小,然后减少生成的二进制水印图像的维数获得一维序列的长度 。初始值 混乱的选择转换的试验。图2(一)在实验中使用的原始图像,图2(b)是混乱的图像加扰后,和图2(c)是解密后的图像逆加扰后(20.]。
由于大量的协调BIM模型中的重复值,有更少的有效载体嵌入水印。为了解决这个问题,本文添加随机噪声误差公差内的原始坐标数据来提高嵌入水印的容量。重复的顶点的坐标值的一组原始数据的多面网格受到噪声添加操作所示公式(2)获得处理顶点集(21]。
在这里, 代表了多面体的顶点坐标网格添加噪声后, 是原始数据的顶点坐标,是一个随机函数生成一个随机数在(0,1),然后呢误差的容许范围。
该算法嵌入的水印多方面的BIM模型的网格顶点数据实体对象。多方面的网格的顶点BIM模型的数据集 ,表示为 。其中,代表每一个多面体的顶点网, 是 协调的顶点代表了多面网格的顶点数。
水印嵌入的具体过程如下:步骤1。算法读取BIM模型数据,提取所有的multiface网格顶点模型对象实体,并构造multiface网格顶点集 。步骤2。该算法将噪声添加到两个坐标值 每个顶点的在一组同时扩大10倍,这是表示 , 。其中,代表每一个多面体网格顶点后噪声处理, 是两个坐标值后噪声添加到顶点。步骤3。该算法选择嵌入的比特水印根据数据的精度要求,选择方法是在公式(3)。然后,该算法逐步修改multiface网格的顶点坐标根据高的一部分数据之间的映射关系和水印 ; 在这里,地板是四舍五入了,函数是模操作并返回分裂后的剩余 通过 , 之间的区别是放大和最重要的小数点后位数,然后呢代表水印的长度, 被选中。步骤4。该算法使用量化调制技术将水印嵌入到加工坐标的值并计算嵌入的水印数据 ,量化振幅在哪里吗 。有两种情况下根据嵌入水印的值,如下(22]: 以同样的方式,根据不同的嵌入水印和QIM方法,水印的嵌入顶点的坐标多方面的网格。步骤5。该算法降低了价值坐标 在在水印嵌入次,合并修改的数据生成水印BIM模型数据。
水印的提取是水印嵌入的逆过程(图3)。提取水印的具体步骤如下:步骤1。算法读取BIM模型数据检测,提取的所有顶点多方面的网格,可以有水印的,和放大了顶点坐标次,放大倍数的选择指数t的值是一样的吗t当水印嵌入。步骤2。根据映射关系建立的单向映射函数和水印算法找到的位置水印。步骤3。该算法基于量化值执行QIM操作当水印嵌入和提取水印的值由公式(6)。 步骤4。在该算法中,多次相同的水印嵌入和水印的值可以用来确定提取的水印信息的价值 : 这表明,当提取水印位的值小于1,水印信息的价值是1;否则它是0。第5步。算法执行维度增加处理获得一维水印信息和反向打乱得到水印图像 。步骤6。最后,水印相似度评估之间的归一化相关系数通过计算原始水印和提取的水印。计算公式如下:
在这里,是一个相似的措施。值越大,相似度越大。水印图像的大小 , 代表了原始水印信息, 提取的水印信息。
BIM模型数据的数字表达物理工程设施的功能特点。基于三维数字技术,它集成了工程建设项目的各种相关信息的数据模型的数据。BIM专业软件的多样性导致了数据格式的多样化。BIM模型数据的格式为隐藏域的选择非常重要。现有应用系统的研究和开发都是基于几何数据模型和数据交换主要是通过图形进行信息交换标准,如IGES DXF, DWG。
DXF数据模型通常用于AutoCAD和其他软件之间的信息交换。它主要由图形对象和non-graphic对象还包含有限的属性信息,方便操作。BIM模型数据的DXF格式,多方面的网格的顶点是一个重要的特性模型数据的位置。然而,multiface网格的顶点的坐标BIM模型数据中有许多重复的值,而且有更少的有效载体嵌入水印。为了解决这个问题,随机噪声被添加到变换后的频域幅值系数的原始坐标数据在误差公差范围内增加水印嵌入容量。如图4W1是提取的水印图像没有任何处理原始数据,和图像存在严重的噪音,和W2噪声预处理后,提取的水印,水印图像清晰可见。
本文提出的算法包括水印嵌入和水印提取一部分一部分。首先,本文选择multiface BIM模型数据网格元素的单元,构造一个复数序列与所有multiface网格顶点特征点。此外,本文利用DFT变换获得振幅系数嵌入水印的载体,使用QIM方法嵌入水印的振幅系数DFT频率域,然后执行IDFT变换获取有水印的BIM模型数据。攻击时,提取水印,水印提取通过投票原则,用于检测和相关方法。此时,不需要原始数据,实现了盲检测。为了提高删除实体的抗攻击能力,均匀地嵌入水印信息X和Y所有multiface网格顶点的坐标变换系数尽可能BIM模型数据。为了减少过度影响原始数据,振幅值增大。为了保持数据和水印之间的同步关系,实现盲水印检测,采用坐标映射的概念。根据DFT变换的本质,为了避免大错误翻译造成的攻击数据,嵌入水印并不是第一个转换系数的振幅值组multiface网格的顶点。为了保证水印的安全性,物流混沌映射用于争夺原始水印图像。算法的流程图如图5。
首先,BIM模型数据在空间域需要DFT-transformed频域。转换的具体过程如下:步骤1。 代表所有多面体网格顶点的集合在最初的BIM模型数据中,在那里 多面网格顶点的坐标, 是 顶点的坐标值是多面网格顶点的数量。使用multiface网格元素为单位,复数序列生成如下: 步骤2。为点序列 ,它的DFT变换如下所示:
在这里,代表了DFT变换后的数据。在这个公式可以是一个复杂的价值。在实践中,是一个真正的价值,虚部等于0。在这个时候,公式可以扩展
系数序列有两个值,振幅系数和相位系数 ,见公式(11)。的振幅系数是表示 ,和相位系数的设置 。
水印生成和嵌入算法的具体步骤如下:(1)代的水印信息。该算法读取图像的大小 与原始水印图像像素。为了提高水印的安全性,由逻辑映射原始水印是炒,炒二进制矩阵的维数降低获得一维二进制序列 ,序列的表达公式在哪里吗 ,和P代表水印的长度。(2)该算法读取BIM数据,振幅系数通过DFT变换的是扩大了 ,噪音是补充道。(3)该算法使用QIM方法将水印嵌入到振幅放大系数,得到嵌入水印振幅系数通过以下方程: (4)该算法获得的恢复到原始数据大小和换算系数等于放大倍数。(5)获得的算法结合了嵌入式水印振幅值与修改的相位系数生成一个新的系数 ,然后IDFT变换获取复数序列在嵌入水印。(6)该算法修改根据多方面的网格的顶点并获得多方面的顶点的集合 , ,水印嵌入后,获得水印嵌入后的BIM数据。
水印提取的本质是水印嵌入的逆过程。当数据所有者发现可疑的BIM模型数据,该算法提取水印根据以下步骤:(1)多方面的网格的顶点算法读取的BIM数据测试,形成一个集 ,并生成一个复数序列根据公式(8)。(2)DFT算法执行转换获得的振幅系数系数 。(3)算法使用参数符合嵌入过程和使用QIM方法提取可疑的价值 。提取过程如下: (4)对提取的一维水印 ,算法执行维增加加工和物流逆争相提取水印图像。(5)该算法使用方程(14)计算归一化相关系数提取的水印图像与原始水印图像测量的鲁棒性。更大的价值 ,越相似,鲁棒性越好。
在这里, 水印图像的大小,是异或操作, 是原始水印信息,然后呢 提取的水印信息。其中,近了1、更健壮的算法。
4所示。文学作品保护基于数据挖掘算法
在数字化的文学作品中,我们可以使用水印算法水印的特点文学作品获得数字已经有水印的文学作品。在那之后,我们可以结合数据挖掘算法进行文本特征识别和特征分类来提高文学作品的版权保护效果。
作者识别方法主要包括两个模块:训练模块和分类模块。训练模块的功能主要包括预处理过程中最初的语料库,提取文本的主要特点和训练得到分类器。争端文本分类的功能模块是争议的文本进行预处理,提取统计特征向量的争端文本,然后输入到训练分类器,最后输出作者分类的分类器。方法中使用这两个模块的前两个阶段是完全相同的。训练模块的主要功能是建立一个训练分类器。如果它是一个有争议的工作,那么从它中提取关键的统计特性和输入到训练分类器,最后判断作者的一类基于相似度的值。培训模块和分类模块的流程图如图6(一)和6分别(b)。
语料库必须首先接受文本归一化处理,在表达形式,可由计算机处理,规范化文本分割处理。系统结构如图7(a)命名实体是指实体的实际内容中文文本中表达的句子,如单位名称、人,地理名称,组织名,等等的基本任务之一命名实体识别、自然语言处理技术中扮演着很重要的角色在分词,句法分析,自动翻译的帮助下机器和其他技术。目前,词法分析技术研究了由中国科学院和哈尔滨工业大学有中文文本句子的模块命名实体识别。这个模块的原理图所示7(b)。
之后结合上面的水印算法获取模型,本文对模型进行实验验证。首先,文本数据挖掘算法的效果验证了水印算法的特征识别,结果见表1得到了。
上面的验证文本数据挖掘算法有很好的效果的特征识别水印算法。在此基础上,版权保护效果评价。这部分是由专家评价方法,结果如表所示2。
上面的研究已经证实,文学作品的版权保护效果基于数据挖掘算法很好。
5。结论
虽然文学作品的数字化带来了新的生产和生活方式,自己的特点带来了版权危机本身。当数码产品以数字形式存在的时候,他们可以很容易地编辑、修改,通过电脑或其它数字设备和存储。与此同时,它还可以进行低成本和无损复制和传输通过各种形式的存储媒体,计算机网络或其他数据传输方法。这些原始数字文学作品的优点使它很容易被非法占用,复制、编辑和传播未经授权的产品,侵犯所有者的版权。本文结合数据挖掘技术来研究文学作品的版权保护,构造一个文学版权保护系统,提高了现代数字作品的版权保护效果。实验研究结果验证的影响文学作品的版权保护系统基于数据挖掘算法很好。
数据可用性
标签数据集用于支持本研究的发现可以从作者要求。
的利益冲突
作者宣称没有利益冲突。
确认
这项研究是由凯斯西储大学的法学院。