文摘

加强知识产权的建设SM-TE(中小科技企业)在中国是一个重要的衡量SM-TE加快发展,提高科技创新能力和市场竞争力。摘要专利提出了基于深层语义相似度的推荐算法来解决相似度矩阵的计算精度较低的问题,在稀疏的用户交互矩阵。专利算法训练语料库,获得Doc2vec DL(深度学习)模型,然后构造之间的语义相似度矩阵专利通过DL模型。在此基础上,进一步提高语义表达式和特征提取的建模能力,本文优化CNN(卷积神经网络)模型,使用各种pretrained词向量模型、多层分类器,等等,以提高模型精度和生成特征向量的不同维度。结果表明,准确性,召回率和F1值的算法比传统的推荐算法,分别是22.41%,20.86%和21.51%。实验表明,本文可以指导中国企业建立和完善风险预警系统的自主知识产权,从而减少企业的损失。

1。介绍

SM-TE(中小科技企业)创新是促进社会进步的重要力量,促进国家经济增长和巩固国家自主创新的力量。目前,国际竞争主要体现在自主创新力量的竞争。与发达国家相比,中国在科学和技术的小型和微型企业创新能力不足,以及低水平的知识产权管理也是一个迫切需要解决的问题。知识产权所有权已成为一个重要的指标来衡量企业的核心竞争力和创新能力。中国企业迫切需要使用自主知识产权,打破国际垄断和封锁,出国,争取更大的发展空间。由于简单的SM-TE产业结构,很容易注意到技术发展的主导产业。此外,SM-TE与市场有着密切的联系,市场敏感度高。SM-TE与创新能力必须成为一种新的力量在中国自主知识产权的创新。

风险预警研究是国内外一个热门话题。国内学者们看着初创公司的中期预警机制,商业银行贷款风险预警机制,营销风险预警机制,和中小企业的财务风险预警机制,以及知识管理风险预警和知识资本风险预警机制1- - - - - -3]。根据他et al .,通常是没有财务风险的企业在经济快速增长时期,还有很多因素影响企业的财务风险(4),其中最突出的是经济形势,股票价格和通货膨胀。邓等人使用单变量分析方法比较79公司从危机和正常的企业5]。最后,发现现金流除以总负债是最好的预测企业的财务危机。梁等人使用多变量分析来评估企业财务风险预警。该方法结合了财务比率和多元的判断为金融风险提供一个早期预警系统(6]。在他们的研究中,妞妞等人使用现金流和非现金流指标和提出一个研究基于现金流量的财务预警(7]。然而,很少有研究知识产权风险的早期检测。这是因为知识产权风险的出现在企业自主创新的过程中受到多种因素的影响,而且很难预测在自主创新过程中知识产权风险。

深度学习(DL)是一个机器学习的新概念。“深度学习”一词来源于“神经网络。“DL,特别是大量的隐藏层,确定其内部复杂的映射关系。我们可以学习的有效的特征数据,并有很强的学习能力由于这个复杂的内部关系。DL网络和BP神经网络(BP神经网络)的机器学习模型,但他们明显不同。浅神经网络是一个摘要,和多层神经网络DL。许多学术和实际例子证明了DL在定义复杂的功能关系更重要。因此,本文的目标是应用DL知识SM-independent TE的知识产权风险预警,把科学发展观领域的自主知识产权风险预警到练习,和灵活使用它来保护公司的自主知识产权的安全,具有理论和实际意义。本文的以下几个方面的创新:(1)本文现有研究知识产权风险深入研究试运行,打破现状,现有的大多数研究集中在识别、风险评估和控制的知识产权风险应对措施,并试图建立一个早期预警系统的知识产权风险。整个系统分为风险识别子系统、风险评估子系统,和风险预警子系统,这有利于风险预防和控制知识产权发展的整个过程。 (2) In the aspect of collaboration among users, aiming at the problem of low calculation accuracy of similarity matrix among users in sparse interaction matrix, a patent recommendation algorithm based on deep semantic similarity is proposed. The algorithm extracts the nearest neighbor of the target user, estimates the patent score of the target user according to the patent score of the neighbor, sorts the patents according to the score, and recommends the patent with the highest score to the target user. (3) To further improve the semantic expression and feature extraction ability of the model, the neural network model for feature extraction and analysis of patent texts is optimized and enhanced. Through relevant experiments, the improved model is evaluated and analyzed on multiple pretrained word vector models and multiple data sets.

2.1。风险预警研究

纽尔的研究表明,一个企业的财务危机未必导致破产或重组,但破产或重组企业必须与金融危机8]。刘等人认为,一个企业的严重的现金不足问题无法通过传统的方式解决,如果企业的操作或结构需要大规模重组,企业将在财务困境9]。刘翔的财务风险预警模型的研究有许多限制假设与多元的判断。物流模型有较低的数据需求和更适用,所以它是一个更好的方法10]。

赫兹等人将人工神经网络引入财务风险预警领域,他们选择了一个三层神经网络预警。同时,他们使用多种判断方法进行实证分析和比较结果(11]。结果表明,人工神经网络的精度和容错性更好。张等人介绍了定性指标如工作环境、内部控制、外部环境,商业环境,分析他们在结合传统的量化指标如偿债能力指标和盈利能力指标(12]。然而,它不是由特定的数据进行测试,但这是一个好主意引入定性指标。Yudo等人建立了石油企业财务风险评价指标体系,并在此基础上,他们建立了财务风险预警模型的模糊神经网络(13]。李等人利用GM(1: 1)模型处理的数据转换函数的输入值的摘要进行早期预警财务风险(14]。

2.2。戴斯。莱纳姆:网络的研究现状

DL-based模型和算法在计算机视觉领域取得了显著成就,语音处理。目前,DL在自然语言处理中的应用已经逐渐成熟。在一些自然语言处理任务,比如文本分类、情感分析、DL方法显示了比传统的文本处理方法更大的优势。

Nateghi等人通过实验,验证了DL方法采用无监督各级培训可以很好地描述复杂的功能,避免过学习问题引起的网络训练(15]。科伦坡等人使用DL神经网络取得了巨大的成功。输入值的模型不包含人工功能但是图像像素,已成为一个伟大的突破在图像识别领域(16]。Panwar等人结合灰色预测模型和神经网络模型来研究财务预警(17];Dhuri等人使用统计方法来优化人工神经网络模型和改进财务预警模型基于神经网络高可靠性(18];回族等人使用DL方法建立神经网络模型来预测企业的财务危机,精度高(19]。

陈等人使用DL方法提取对象的特点,在网络初始化,然后使用反向传播算法来调整网络参数(20.]。刘等人用self-coding DL神经网络在语音识别领域(21]。首先,DL方法用于提取语音信号的特征。然后分别测试了摘要和DL网络。结果表明,近20% DL方法的准确性高于传统的摘要方法,它有一个良好的效果。魏等人研究了DL的应用网络的预测股指期货。在这篇文章中,一个自动编码器和其他算法用于建立DL网络模型,并比较。最后,构造交易网络预测系统根据交易的选择(22]。

3所示。方法

3.1。专利的推荐算法

许多科学和技术小型和微型企业尚未建立一个完善的知识产权激励机制,尚未与员工签订知识产权保密协议,并忽略了知识产权保护与外部单位合作谈判。根据协同理论,增强系统元素之间的非线性相互作用(资金、技术、设备研发人员,等等)会导致创新的创造,和相关的能量大于创新能量。个人运动是由协调运动,系统结构良好,导致创新的成就与耗散结构特征。

知识产权是一种重要的财富和资源1),这是对企业和国家的发展至关重要。知识产权不仅代表了企业的核心竞争力,也代表了国家的综合国力。作为一种重要的知识产权,专利象征着各种科技成果的力量,它是必要的,以保护企业的核心技术和国家。高的企业专利内容有生存和发展主动权2),而高的国家专利内容有竞争优势的科技实力和综合国力3,4]。

在这一章,专利基于深层语义相似度的推荐算法,提出了采用DL模型和完成策略之间的相互作用矩阵稀疏填充用户和专利,解决相似度矩阵计算精度低的问题。提高推荐效率,稀疏的用户交互矩阵的问题并不严重。填满用户之间相互作用矩阵稀疏和专利Doc2vec DL模型和完成战略,分析用户之间的协作关系,找到具有相同兴趣的潜在的邻居,用邻居的分数来预测未知的专利分数,并推荐专利。

cross-patent相似矩阵是一个矩阵,其中包含所有专利在水平和垂直两个方向。中间数据的语义相似性cross-patents Doc2vec DL计算的模型,也称为深层语义专利相似性。两个专利文档作为输入参数Doc2vec DL模型的训练后,和两个专利文档的向量分别生成。余弦相似度公式用于计算两个专利文档的语义相似度。

结合cross-patent相似性矩阵,未经检验的专利的分数是预测,完成交互矩阵。预测评分公式所示: 在哪里 代表的预测评分等级 专利的 th注册用户 代表的取得专利的集合Uth注册用户; 代表了特定的专利 ; 代表一个特定的专利外集合 ; 代表了相似的专利 ; 代表的分数 th专利注册用户 ; 代表了阈值,这是一个定制的值在0和1之间;

专利的具体步骤基于深层语义相似度的推荐算法如图所示1:(1)输入原始参数的推荐方法;(2)完成所有注册用户之间的交互矩阵和专利;(3)计算所有注册用户之间的相似度矩阵;(4)根据所有注册用户的相似矩阵,获得了最近邻用户列表;(5)找到一个可以用于推荐的专利列表根据最近的用户列表;(6)预测专利上的推荐用户的评分;(7)向用户输出推荐列表根据分数。

3.2。专利特征提取的神经网络模型

专利的质量特性,描述专利文本的内容是专利文本分析的关键。在自然语言处理领域,文本分类问题是第一个使用expert-defined规则分类,然后创建一个knowledge-engineered专家分类系统。规则和知识体系限制了这两种方法可以解决的问题,他们是耗时和不准确的。深度学习方法基于词向量和CNN(卷积神经网络)逐步测试和练习克服的缺点在文本分类特征提取在传统的机器学习方法。本文提出了基于深度学习专利文本特征提取方法,结合深度学习的应用自然语言处理领域的。

考虑到深度学习的性能优势在自然语言处理中,尤其是文本分类,提出了一种基于文本分类的神经网络模型特征提取专利和专利分析。本文中使用的神经网络模型是基于监督学习模型,因此有必要使用标记或训练数据集。模型选择、结构和参数优化。TextCNN表示模型使用CNN模型执行NLP任务(18]。它结合了CNN - gram和语言模型的思想,从文本中提取不同维度的上下文特征向量通过卷积核的不同大小,然后使用最大池操作提高提取文本的特征向量,从而提高文本的特征提取能力,增强文本的分类效果。

假设一个文本词向量表示 ,TextCNN分为三个阶段:卷积层、汇聚层和完整的连接层,如图2

输入层 ,这个词代表一个专利文本的向量。 代表拼接操作, 代表的拼接 在专利文本词向量。 作为卷积的输入层。

因为注意力机制可以突出长句的关键特性,提出了“Word2vec +关注”模型,即一组特征权重矩阵对应词向量是通过词向量训练,最后通过加权词文本的向量表示基于权重向量。

假设专利文本的向量表示这个词 ,Word2Vec +关注模型的计算公式简单描述如下: 计算出的隐藏的表示吗 , 被隐藏的表示权重向量归一化, 网络参数, 代表文本的向量表示关注重量加权的矩阵。

领域的深度学习已经取得了显著的成绩近年来计算机视觉和语音识别,使其广泛用于深度学习。当使用深度学习解决自然语言处理问题,第一个任务是解决文本表示的问题,然后是深层神经网络提取特性表达式可以使用的能力,而不是依靠复杂的人工特征提取工程。Word2vec词是一组神经网络模型嵌入的一代。一个两层浅可以训练神经网络重建的话在这个模型的位置。在练习,Word2vec提供更快和更稳定的初始值文本处理的第一个词嵌入层神经网络模型,特别是当数据集的数量很小。摘要CNN模型优化,包括网络结构优化和超参数优化。模型结构和关键参数如图3

在图128的输入层3表示一个迭代的数据数量或一批培训;400字嵌入层代表pretrained词向量的维数模型。卷积在第三层,模型使用卷积核的3、4和5的长度同时,和每一个卷积核的数量是200.1××200 代表的尺寸特性映射不同的卷积核的卷积后,大小的地方 有关句子长度和卷积核的长度。

这个词嵌入层是一个双向循环神经网络结构,分别由反向和正向循环,如以下公式所示: 代表当前的单词, 代表了当前单词的文本, 代表当前单词的正确的文本, 代表这个词的词向量 , 代表重量参数, 是一个非线性函数。

根据当前的上下文表示词 ,可以推断,当前单词的文本表示是:

文本处理的一个特征是,功能的文本是密切相关的职位,如重要句子的位置信息组件,而潜在语义向量构造在前面的层不突出某些映射特性的重要信息。使用最大池操作公式所示:

整个层部分也结合了特征提取前一层的单层神经网络文本,和公式所示:

3.3。实现知识产权风险的早期战争模式

SM-TE几乎没有资金和人才,拥有知识产权的数量和质量不高。首先,SM-TE知识产权薄弱的基础。涉及的主体包括政府、评估机构、律师事务所、担保机构、知识产权交易中心,等。只有参与企业知识产权融资担保机构可以形成合作和协调机构之间的利益分配和风险。确保服装知识产权融资业务的发展。目前,并没有很多公益知识产权服务机构面临大量SM-TE,远非会议SM-TE在保护知识产权的需要。

自主知识产权的成长和进化SM-TE是一个复杂的系统。自主知识产权的发展不仅取决于公司内部创新机制和知识产权意识也相应的增长环境。因此,它不能根据我们的主观愿望,设计和控制。为企业开展自主创新,知识产权预警风险是一个重要的任务。通过知识产权风险的早期预警,我们可以找到风险和提前行动,以防止进一步的损失。

有很多链接的风险预警过程中企业的自主知识产权,每个链接需要不同元素的预警机制。知识产权风险预警指标体系的设计要求符合企业的知识产权管理目标和指标没有很强的相关性。索引数据必须能够准确反映企业的知识产权风险,以及该公司的知识产权管理现状、问题和趋势。只有当知识产权风险预警机制运作正常的知识产权风险预警过程可以实现。SM-TE知识产权风险预警过程如图4

风险识别子系统识别潜在风险因素,通过分析风险来源的过程中知识产权的发展。基于企业信息数据库,子系统使用信息检索软件工具来比较和分析数据库中的数据和文献,最后确定的因素,导致房地产企业的风险。日常工作中,一旦确定公司的知识产权信息与数据库中的现有信息高度相关,它将发送风险监测和预警信号,尽快进入预警子系统,和法官的风险水平。

量化风险指标后,风险评估子系统措施和评估风险的程度。企业知识产权风险管理的日常管理工作的评估知识产权风险。公司可以评估自己在关键节点根据其知识产权的发展。风险预警子系统的知识产权风险分为没有风险,轻微的风险、中等风险,严重的风险基础上提供的情报监测信息前两个子系统。预警信息送入风险应对管理链接时,系统发出预警信号。该公司决定是否让事情或者采取预防和控制措施基于预警信号和可用的预防和控制措施。

4所示。实验和结果

4.1。实验装置

这个算法的实验是在一个本地计算机,和实验环境的细节如下:处理器:英特尔(R) (TM)核心i7 - 7700 cpu记忆:8.00 GB操作系统:microsoftwindows10DL开发框架:Deeplearning4j1.0.0-alpha

本章中所使用的实验数据包括两个数据。一块的数据来自于检索系统的知识产权(专利信息)公共服务平台。专利文献数据下载的专利检索系统专利语料库,最后,18124实验取得了专利数据文档。

另一部分的数据来自于用户注册在本研究中收集的数据。只要收集用户的得分上的专利,这意味着用户喜欢的专利。用户注册数据包括用户id, id、专利和分数字段,最后,有8096用户注册133用户的数据。

4.2。实验结果分析

我们使用50%交叉验证10)随机将每个用户的用户注册数据分为6部分,5部分从训练集和1测试集的一部分。平均6的结果,比如最后的准确性,回忆,和F1值。图5显示段落向量维度对推荐结果的影响。

可以看出,与段落向量维数的增加,准确率、召回率,和F1值先增加然后减少。当一个单词的向量维数小于240,一段不完整的语义信息;它也带来一些噪音,导致错误的特性呈现。因此,最终的深度语义模型向量维数款Doc2vec是240。

用户的Knum社区代表的选择目标用户的最近的Knum附近,影响推荐的效果。Knum可以1,3,5,7,9,11,段落向量的维数是240。不同用户的社区 有不同的精度、召回率和F1值。结果如图所示6

从图可以看出6,越来越多的社区,精度,召回率和F1值先增加然后减少的趋势。当 ,你的邻居集具有相似的爱好还没有完全挖掘;当 ,推荐的效果是最好的;当 ,邻居有相似的爱好是充分挖掘,但一些邻居相似性较低也开采,导致错误的建议。所以最后选择社区7的数量。

该算法包含一个调整参数,阈值 ,代表之间的相似度阈值取得了专利和未分级的专利,并影响推荐的效果。段落向量维数是240,和社区k7,有不同的精度,召回和F1值。结果如图所示7

可以看出,增加 ,精度、召回率和F1值先增加然后减少。当 ,专利的分数较低的相似性也估计完成交互矩阵,和太多的完成,导致不准确的相邻的用户集。

,交互矩阵是正确完成,建议的效果是最好的。当 ,估计需要专利相似度高的分数完成交互矩阵,导致了稀疏矩阵可能仍然非常稀疏,和相邻的用户设置是不准确的。因此,最后的 选为0.6。

通过以上实验,适当的段落向量维数240, , 获得,专利基于深层语义相似度的推荐算法是最好的。因此,最好的算法相比,本文与传统推荐算法,和实验结果如表所示1

从表中可以看出,准确性,回忆和F1值的算法优于传统的推荐算法,分别是22.41%,20.86%和21.51%。本文中的算法使用Doc2vec DL模型和完成战略完成稀疏矩阵,因此解决计算精度低的问题,挖掘潜在用户之间的相似度矩阵稀疏的交互矩阵。因此,本文算法优于传统算法在实验评价结果。

介绍两个字嵌入层的初始化方法,随机初始化使用pretrained词向量模型和初始化。本文的一系列初始化CNN模型的使用这三种方法。数据89CNN模型的显示精度损失曲线下三个字嵌入层的初始化方法,包括两个训练和验证过程。

实验表明,CNN模型显示良好的优势在处理专利文本。大多数专利文本的数据集是中国长文本或文本,因此上下文信息,例如单词和句子顺序,尤为重要。然而,CNN模型需要人为地确定滤波器卷积核的尺寸(长度)来选择不同范围的上下文信息,具有较高的不稳定。为了进一步验证该专利特征向量提取CNN模型能够表达专利文本内容的差异,本文采用对比实验的方法集群和验证两个映射策略,CNN模型和计数两种类型的模型在两种类型的专利样本。结果符合公式的数量数据集表示样本数据集的比例,结果如表所示2

实验结果表2表明,特征向量提取text-similarity CNN模型有一个高精度的比较实验,和给定的结果的误差在5% - -10%,远高于其他文本特征表示方法。训练的“词向量模型的选择必须考虑语料库和实际训练集的区别。它仍然是训练一般词向量模型的理想状态,但它可以被认为是用来训练词向量模型为特定应用程序通过转让专利领域的学习。提高特征提取的准确性的这项专利利用神经网络模型是利用其他的优越结构模型来弥补模型本身的缺陷。

5。结论

创新起着重要的作用在中国企业的发展。根据过程的风险预防和控制系统,企业可以发现流程中的风险来源的知识产权发展风险识别子系统,识别潜在的风险因素,然后进入风险识别子系统,问题根据风险监测预警信号。专利相似性矩阵是由使用Doc2vec DL模型,实验和分析结果表明,该专利基于深层语义相似度的推荐算法设计在这一章是优于传统算法。准确性、召回和F1值算法的22.41%,20.86%,和21.51%,分别。在未来的研究中,我们可以建立不同类型的自主知识产权风险预警指标体系通过实地研究为不同类型的企业。

数据可用性

使用的数据来支持本研究的发现可以从作者要求。

的利益冲突

作者没有任何可能的利益冲突。