文摘

本文研究了大数据信息的数字出版产业链融合计算和采用先进的算法。数字出版生态链的基本理论分析,施工要求,施工方法,和建设路径的数字出版生态链条进行了分析,并提出了可行的施工措施。它还定义了知识服务的融合的内涵在数字时代出版机构和图书馆之间;然后分析了知识服务的融合的特征和原则在数字时代出版机构和图书馆之间;最后整理协同理论等理论基础,信息集成服务理论和博弈论。与此同时,本文还研究了流动的数字出版资源和生态效率的实证分析数字出版eco-chain通过代谢网络分析、人口分析、生命周期分析,发现现有的电子书eco-chain的生态效率问题的分析。最后,数字出版生态的失衡链及其危害进行了分析,并提出具体的监管和优化措施。本文研究弥补相关研究的不足,可以解决存在的问题在前面和提供理论支持数字出版企业的健康发展。

1。介绍

在数字时代,应用创新和集成大数据和云计算等技术的发展,和用户的知识需求的多样化和个性化发展所提出的新要求为出版商和图书馆。寻求发展,出版商和图书馆必须达成共识知识服务的集成,实现数字化转型升级以及知识的创新服务1]。随着移动互联网的发展和相关数字技术的进步,观众的阅读和消费习惯都发生了巨大变化,并对信息和知识的需求更倾向于个性化(2]。日益增长的市场需求用户的个性化、专业化、和高精度对接推动知识服务。

这些生态问题严重瘟疫的发展数字出版企业和限制整个出版行业的转型升级,这迫切需要解决(3]。然而,现有的数字出版理论有许多缺陷在处理这些问题和缺乏有效的手段来解决这些问题。因此,有必要借鉴新的理论等问题进行研究和提供理论支持数字出版企业的健康发展4]。本文利用生态研究的理论和方法,从数字出版面临的生态问题,并进行数字出版生态研究链形成的数字出版企业在数字出版活动,需要链的建设,资源流和生态效率研究的突破,将它们与案例研究提供一个理论依据分析和解决这些问题,并提供支持数字出版产业的可持续发展。

特别是在当前数字出版发展的早期阶段,这种实用的指导是有前途的。二是发现新的研究方法为数字出版的工业分析,消除隐藏的各种问题,使数字出版更重要(5]。本文的根本目的是促进数字出版的良性发展。本文致力于创造一个良性的生态循环的数字出版模式和提供模型支持数字出版的良性发展。

目前,数字出版企业仍在初级阶段的数字转换,在他们的数字出版平台信息化建设相对落后与其他行业相比,尚未形成一个系统的客户管理计划,和客户行为数据的质量和有效的数据分析技术不能得到保证,所以大多数的客户数据信息管理发布企业处于瓶颈状态。然而,在数字出版行业,一些数字出版企业已经开始想办法突破这个瓶颈,指的是在其他行业实施客户关系管理策略。

为了解决大数据信息融合算法的最优解在数字出版产业链,现有算法不能满足精度高、效率高的要求在现实中,所以我们比较几个主流算法和融合,获得最好的算法通过比较信息融合的准确性和效率,最好的算法在实际的过程。

2。现状的研究

例如,戴维森的概念定义数据仓库(DW)和predata准备问题提出一个解决方案的数据挖掘6]。歌指出了四个主要技术在数据挖掘的过程7]。杨和其他学者阐述了数据挖掘的相关方面,等等。8]。本文的作者还讨论了数据挖掘的内容。软件应用程序开发的数据挖掘系统,以下是相对有影响力的世界:从SPSS柑橘,企业矿工从SA, Intelligent Miner来自IBM。在实际的软件应用程序过程中,有很多经典的案例与数据挖掘相关的(9]。数据挖掘模型构建基于应用软件不仅有效地改善的比例数据错误检测时间也减少了数据挖掘分析数据质量控制自动化的提高,降低了时间成本的企业(10]。对数据挖掘的研究主要围绕精化的介绍和校正数据挖掘算法和数据挖掘的实现在特定的行业。中国研究学者也进行了详细的研究数据仓库,如Yudhistyra的数据仓库设计方法研究基于互联网的信息系统,并提出了信息系统的开发和实现应用程序,比如分析处理和决策支持系统基于此系统[11]。霁和其他学者提出了一个数据仓库客户分析系统(12]。范结合宏观政策背景和中国数字出版行业形势,认为中国在内容资源方面取得了新尝试,产品形式,和营销方法收敛发布基于知识服务,但在未来,发展应该充分考虑移动互联网的特点和提高技术的使用工具,内容组织标准、产品生产过程和用户交互(13]。

此功能需要数字出版生态系统为数字出版提供可持续发展,同时也使整个数字出版生态系统获得一个圆形的发展机制。穆罕默德称,新媒体只是新的分销平台和新的分销渠道14]。渠道的增加会刺激需求更优秀的内容,而平台的竞争将不断加强的价值内容和实现消除最好的和最差的,因此产生一个良性循环的数字出版生态系统(15]。

赵等人认为,发布在网上的商业生态环境有三个特点:动态、组织、进化,强调增长和动力学他专注于增长和动力学的内生原因生态学(16]。有些学者借用了传统生态链的特点,应用数字出版作为数字出版生态供应链的特点。使用业务生态系统在描述文化产业,刘认为有适应性,进化,网络化,商业生态系统的自组织特征17]。在她的研究新媒体生态,曾庆红帮派认为,数字新媒体生态的特点,互动,hypertextual,网络和虚拟现实18]。

通过之前的研究,我们可以知道,现有信息融合算法在实际的应用程序并不非常有效的游戏。所有的算法都有其优点和缺点。我们需要一个算法,集成了所有算法的优点。这些特点,虽然有点相关,不是数字出版生态系统的特征。然而,大多数企业只关注数据挖掘技术的研究,尚未意识到数据准备数据挖掘的重要性。

3所示。数字产业链大数据信息融合算法分析

3.1。大数据信息融合算法设计

概率模型的图形模型是一个通用术语,使用图结构表示概率变量之间的依赖关系。通过这种方式,图中所有变量的联合概率分布可以分解成一组因素的产物,每一个都只取决于连接随机变量的子集。贝叶斯网络拓扑排序,即,the probability distribution of a variable node depends only on the values taken by its immediate parent node, independent of other ancestor nodes: 在哪里 表示父节点的集合 表示的祖先节点的集合

传统的前馈神经网络和卷积神经网络都无法处理时间信息数据,和建模长途语义之间的依赖关系词在文本分析理解文本内容的关键任务。同时,传统神经网络只适用于固定长度的数据,不能处理可变长度的数据。递归神经网络(RNN)解决上述问题通过引入周期性结构,广泛应用于自然语言处理和视频处理。RNN的结构如图1

RNN的典型特征结构是循环连接在相邻时刻,使RNN更新当前状态根据过去的状态和当前的输入数据。此外,RNN的权重矩阵是共享的时刻,这是一个杰出的优势前馈网络。然而,由于梯度消失和梯度爆炸问题,RNNs不能捕获相关信息时,输入数据之间的距离很大。序列数据的长期依赖,提出一种改进的短期记忆(LSTM)长序列数据的长期依赖,和数学表达式 在哪里 表示记忆LSTM状态, 表示隐藏状态的LSTM输出和 表示输入的新信息。当更新内存状态,输入门 决定了新信息可以存储在内存状态,忘记了门口 决定了前一时刻的记忆状态被丢弃,和输出门 可以确定输出基于内存的状态。LSTM解决或减轻了梯度。LSTM解决或减轻了问题的梯度和梯度爆炸消失,使远程依赖记忆,和自适应信息的添加和删除通过闸门机制。LSTM的结构可以很容易地扩展到其他形式的数据处理,如树木,图表,和多维数据,可以结合卷积神经网络(19]。

topic-word协会更好的模型,该模型拼接话题向量电子商务这个词表示 并使用一个新的RNN处理拼接词向量获取主题敏感高层表示 , 强调了相关话题的特征字。与 作为输入,该模型使用注意模块 获取句子的主题表示 :

计算的表达式 在哪里 , ,佤邦模型参数, 表示重复的列向量ce水平 次了。高级话题表示向量 所有位置的加权求和词表示使用注意力的重要性评分作为重量。自 可能放弃这个词本身的语义信息融合过程中的主题,整合信息的模型使用的 获取表示低级的话题 同样,注意模块 是用来获得的情绪表示句子 模型还引入了一个共享的注意模型 生成句子表示vs共同话题识别和情感分析任务,造型语义主题和情绪之间的联系。

元的大多数算法只考虑一个方面而忽略其他因素,这很容易导致损失的有用的信息。第二,模型并不开发不同的融合策略,结合作者和引文信息按照不同的方法对论文题目的分布的影响,不能有效地使用不同的元数据的知识。一般来说,作者参与了一个相对广泛的研究领域,和一个文档只包含有限数量的话题。因此,一篇论文的主题分布部分与单个作家的兴趣偏好。换句话说,两个文档的引用关系可能非常相似的主题或只有一小部分的内容可能是相关的。因此,开车的一般算法的策略文档的主题分布尽可能联系在一起是不合理的。

首先,有一个明确的分布之间的本质差异论文题目和作者的主题分布的利益。根据常识,作者可能参与多个学术领域同时不同话题感兴趣在同一领域,使相应的主题兴趣分布更分散的许多元素取大值。相比之下,往往一篇论文地址只有少数密切相关的主题,更集中的主题分布。因此,一篇论文的主题的分布特征和一个作者不一致,从而影响模型的结果如果他们直接把求和而不考虑它们之间的本质区别,如表所示1

第二,在许多情况下,主题在论文引文的分布关系存在未必是完全相似的。观察到一篇论文将引用大量的引用,但是不同的引用论文的贡献不同的内容:介绍一些背景知识,一些提供必要的理论和技术基础,有些是历史文献在同一主题密切相关,甚至一些引用,以确保论文的完整性和没有重要关系的主题文献[20.]。作为一个例子,在LDA的论文,作者提出一种新的概率图模型和估计的参数模型使用变分推理方法,最后,他们将模型应用于文本分类和协同过滤任务。当其他论文引用LDA纸,他们可能感兴趣的LDA的概率图结构,或者他们可能需要参考变分推理方法,或者他们甚至可能只是使用它作为文本分类的算法比较实验。由于这种复杂性的原因引用形成,尽管论文的主题相同的边缘在引文网络在某种程度上,相关的主题分布两个不一定匹配。如果连接的论文主题分布的相似性是直接最大化没有歧视,它可能误导模型。

3.2。实验设计信息融合的数字出版产业链

研究数字出版生态供应链的目的是建立一个健康和可持续的数字出版生态链条,这不仅需要理解数字出版生态供应链的基本理论也遵循一定的原则和要求,使构建数字出版生态链条科学、合理,符合数字出版企业的发展。

这需要改善数字出版环境所面临的数字出版企业,调整数字出版企业的活动,促进数字出版生态链的形成和发展,并最终实现建设的数字出版生态链条。本节的重点是数字出版生态建设的原则和要求,方法,和路径的建设、施工和关键措施,为建设提供一个参考数字出版生态链条。

根据模板的特点,空间滤波可分为两种类型:线性和非线性。线性空间滤波通常是基于傅里叶分析,而非线性空间过滤通常直接在附近。根据空间滤波器的功能,空间滤波器可以分为两种类型:平滑滤波器和锐化滤波器。可以实现平滑滤波器的低通滤波器,和目的是模糊图像(图像中提取更大的对象,消除小对象或连接小不连续的对象)或消除图像噪声;与高通滤波锐化滤波器实现,目的是强调图像的细节变得模糊了。

建设数字出版生态链条不是一个盲目的行动,但其建设原则。建设数字出版生态链条,不仅建设原则是必须遵守的约束来提高数字出版的生态效率,促进数字出版发展的良性循环,甚至包括一些其他的约束,需要观察改善环境和人际关系等。一般环境的改善主要依赖于政府的宏观调控和活跃的外交政策,以及提供的各种支持角色的政府或行业部门产业发展。例如,提供数字出版发展基地,创建数字出版工业园区,鼓励数字出版技术创新,减少数字出版行政许可,和提高综合数字出版服务可以提高数字出版的一般环境。当然,最值得改进的仍然是特定环境,如电子书的开发环境和开发环境知识的基地,因为特定的数字出版环境的改善有着直接的推动作用这种类型的数字出版的发展,所以它也是最有效的,如图2

私人学生贷款信息通过国家政策对学生贷款的行为。老师宽恕贷款项目贷款行为的教师通过国家信息政策。本文中描述的数据融合的融合多个来源的数据,如数据库和知识库的出版商和图书馆,可以充分利用多个数据源的数据的互补性和电子计算机的高速计算和智能提高结果信息的质量(21,22]。融合对象的关键是数字资源实体,其重点是解决这个问题的跨系统数据访问和更少的关注的内容数据。我们使用多个算法相结合的融合算法。我们用80%的数据作为算法的训练集训练和20%的测试集算法验证。

信息融合是一个过程,获取相关信息从多个信息来源,如传感器、数据库、知识库、和人类本身,和过滤、关联,并整合形成一个代表架构,适用于获取相关决策;它涉及多元决策问题,即。,the process of completing a given fusion decision task according to the decision task and the multiple information resources available to it, which can be accomplished through one. This process can be accomplished in one or more fusion processes. The information fusion described in this paper is the fusion of multiple sources of information, such as databases and knowledge bases from publishers and libraries, which can be used to derive more effective information and improve the effectiveness of the whole system by optimizing the combination of information. Specifically, the integration of information services between publishers and libraries in the digital era refers to an integrated information service environment in which users can access digital resources provided by collaborating publishers and libraries through a single interface and from multiple perspectives without feeling the process of switching between resources and services. It relies on the concept of information organization, using information links, information portals, and other customary methods to describe and link digital resources of different nature, sources, and formats with a single standard, so that independent resource entities can form associations; its core integration object is the relationship between digital resource entities, focusing on revealing, linking, and linking the relationship between information, to implement users rely on a single portal to achieve their information service needs. The core object of integration is the relationship between digital resource entities, which focuses on revealing, linking, and linking information, to implement users’ reliance on a single portal to achieve the satisfaction of their information service needs.

4所示。分析的结果

4.1。融合算法的性能结果的分析

在这篇文章中,我们收集的数据,数据的总数是80000,其中64000天用于训练模型训练集,和16000年用于测试模式。

我们进行实验在两个领域:一个情绪分类任务给定主题和共同话题检测和情绪分类任务,分别表示为任务1和任务2。给定一个句子,情绪分类任务给定主题预测在给定主题句所表达的情绪,而共同的话题检测和情绪分类任务需要模型来确定句子中出现的所有元组讨论没有额外的信息,和元组被认为是正确的分类只有当这两个组件的元组正确预测。分类精度和分数作为指标来评估模型的分类质量。由于情绪分类是一个三重分类问题,实验macro-F1用作衡量整体分类有效性,结果如图所示3

结合特定主题的信息,模型第一针话题表示向量的所有单词在句子中的词向量和输入的双向LSTM生成隐藏表示的单词。模型是基于卷积神经网络和控制机制,使用不同的卷积过滤器计算语法句法特征与不同的粒度、和浇注Tanh-ReLU单元来控制情绪的流动信息汇聚层,从而消除情绪功能与主题无关或不重要的整个句子。自卷积运算和控制单元可以并行计算,模型更有效地训练。

4显示了不同算法的分类精度和macro-F1任务1的大胆和添加下划线操作最好的实验结果和每个评价指标下的次优的结果。从表中可以看出,SSFTM模型提出了实现最好的三个数据集分类结果,精度提高了0.92%,0.62%,和0.66%,F1分数提高了0.65%,0.51%,和0.56%,分别与次优的结果。

同时,GCAE基于卷积神经网络的性能明显低于其他基于递归神经网络模型,可以和AS-Capsules等,表明尽管更高的计算效率,卷积神经网络不能捕获长途词序列之间的依赖关系和话语秩序功能,这都是不利于提取主题和情感信息嵌入在句子。此外,我们注意到,尽管使用相同的注意力机制构建相关话题的句子表示。

充分利用注意力机制提取相关话题属性在句子功能和情感功能,同时,提高模型的适应性,包含多个主题或负的结构复杂的句子,SSFTM模型使用不同的模块来处理句子顺序多层次、全面,有明确的分工和模块之间的密切合作。验证above-proposed改进方法的有效性主题情绪分类任务,一组对比实验是为了删除一个单独的改进方法,探索每个改进方法的贡献程度改善分类结果。

5显示了不同的比较模型的分类结果的情绪对给定主题分类的任务。所有的比较模型的性能比SSFTM发生一定程度的降解。其中,SSFTM-M性能的模型,它消除了分层网络的关注,经历显著退化,证明纯依赖RNNs模型不能充分分离之间的语义关联词语和单层关注网络的能力是有限的提取属性词和情绪词,因此展示层次关注结构的有效性在矿业间接言语之间的依赖关系。同时,SSFTM-C的性能也明显弱于其他模型,表明属性词和情绪词有一定的相关性和互补性,并充分利用这些相关性有助于模型准确地捕捉微不足道的属性和情绪信息的句子。SSFTM-S模型在两个数据集的分类精度发生在大小相等,表明稀疏正则条件在大多数情况下可以有效地提高注意力机制,排除不相关的噪声的干扰信息。

4.2。数字产业链的分析信息融合的结果

人口的样本数据分析基于电子书评论仍与数据分析京东旅行电子书的分析是进行具体工作的时候被释放(年)和情况的审查工作。在实际操作过程中,不包括一些作品没有标记的时候,剩下的975电子书组织如图6。其中,工作的时间是电子书的世代时间;综述了作品的数量表明了作品的数量;通过一年的数量表明所有的数量在某些出版工作,和工作的数量从2011年到2020年表明作品发表在当年的总数,综述了从2011年到2020年。这是因为一代的评论可能发生,每年每年,不得发生,也可能发生连续。因此,回顾了作品的数量的计算均值。当然,数字出版产业的生命周期的分析也是十分必要的。只有正确理解,数字出版行业的发展动态可以及时有效的政策制定。从国家层面,掌握数字出版产业的发展现状可以提供一个理论依据国家数字出版产业的发展规划和配套政策和提供一个良好的外部环境数字出版产业的发展。

从企业的角度来看,了解整个行业的发展现状使数字出版企业及时调整自己的发展战略和制定长期计划。最后,研究数字出版产业的生命周期也可以提供一个基础的数字出版企业的生命周期管理和评估。本文的目的是调查是否数字出版物的生命周期的开发周期相匹配的数字出版产业和目前的生态效率是否匹配数字出版行业的发展趋势,如图7

从图可以看出8,每个主要指数的权重评估发布组织之间集成的知识服务的性能和图书馆在数字时代,如集成成本,整合质量、集成效应,和集成可持续性,以及每个主下的二级指标的权重指数,基本上是符合当前实际情况。指标体系的建立对于评估发布组织之间知识服务集成的性能和图书馆在数字时代,每个指标的权重的确定,本文有积极意义的性能评估发布组织之间知识服务集成和图书馆实际情况,旨在为评估提供一定的参考出版组织之间知识服务集成的性能和图书馆在数字时代,促进,如图8。目的是为评估的性能提供参考出版商与图书馆之间的集成的知识服务在数字时代,促进知识的集成服务之间的出版商和图书馆在数字时代。

全面分析影响,有必要包括风险和绩效的影响的研究知识服务集成数字时代出版商和图书馆之间。本部分首先分析了知识服务的组合集成效应,即。,including knowledge service integration risks and knowledge service integration performance. Then, the importance of analysing the risk of knowledge service integration and evaluating the performance of knowledge service integration is pointed out. Then, the game relationship between publishers and libraries in the digital era is analysed using the mathematical method of game theory, and it is learned that the knowledge service integration between publishers and libraries in the digital era is a non-zero-sum cooperative game, and the main determinants of the game relationship are analysed. These include the external risks of policy constraints, potential competition, and unexpected situations, and the internal risks of trust, adverse selection, spill over effects, and benefit distribution.

5。结论

本文阐明了数字出版的概念生态链条和参与主体的类型,解决前面的争议和混乱的定义,同时,它将数字出版生态链条的结构分为基本和衍生品结构,区分数字出版活动和nondigital出版交互。与此同时,本文还分析了数字出版资源的流动,研究了生态效率的数字出版生态系统中的每个主题在数字出版活动中,和发现隐藏的问题,这不仅为后续研究提供了新的研究思路和研究方法,也揭示了数字出版活动的问题。最后,本文分析了各种失衡参与数字出版,分析产生的具体原因,并提出建设性的意见监管和数字出版生态链的优化措施,为当前的生态问题提供一个很好的解决方案。此外,考虑到当地的主题信息在句子帮助指导注意力机制来获得更好的注意分配,该模型定义了一个当地topic-aware模块提取主题信息每个句子和动态更新全球独有的属性向量和情绪向量自适应。同时,利用属性词的语义关联和情绪词相同的主题,提高协同模型提取相关话题和sentiment-related信息的能力,用张量的神经网络描述模型从多个视角和两者之间的相关性达到了传播和互动的两个互补的信息通过耦合多层关注网络捕获远程语法单词之间的依赖关系。我研究的融合算法具有较高的精度和效率,结合多个算法的优点。该算法可用于实际的文字出版产业链,它有一个强大的作用和意义。缓解问题的模型还包含了语言知识情感的漂移引起的否定结构。

数据可用性

使用的数据来支持本研究的发现可以从相应的作者。

的利益冲突

作者宣称他们没有利益冲突有关的出版。