文摘
考虑到信贷指数计算差异,语义差异,错误数据,互联网和其他平台之间的问题,如金融、电子商务、健康和老年保健,导致信贷偏离的可信范围信贷对象和信贷的缺乏相关信息的主题,在这篇文章中,我们提出一种基于crossplatform服务信用冲突检测模型的距离决定支持迁移和应用crossplatform信用信息传输和整合。首先,我们给一个得分表的影响因素。得分的概率是这个因素的影响。通过这个概率矩阵生成影响因素之间的距离。第二,相似矩阵的计算距离矩阵。第三,通过相似度计算支持向量矩阵。第四,信贷支持向量的向量计算。最后,信贷向量和可信度计算的概率。
1。介绍
近年来,随着互联网的发展,在各行各业的在线服务。利用互联网的优势,用户可以获得所需的服务通过简单的流程在不同的环境中,但同时,由于网络的虚拟化,欺诈是很容易发生。这构成了挑战,每个平台的信用评价体系。加快社会信用体系建设的要求是“十二五”规划提出,这是更清楚地解释了在14五年计划。加强收集、共享、信息披露、信用信息和应用程序;提升信贷产品和服务,使人民受益,促进企业;建立一个公共信用信息共享和集成机制和金融信息;培养具有国际竞争力的企业信用调查机构和信用评级机构;加强信用调查监督;,促进信用服务市场的健康发展。 In the environment where big data technology is widely used, in order to meet the following challenges, each platform organization uses the data collected by the platform to calculate credit indicators and build its own credit evaluation system. However, there are many problems in this process: for example, the collected information cannot fully evaluate and describe the credit indicators, and the information is collected and entered in the process. Errors and deficiencies and the focus on credit and evaluation models are different. There will be differences in the information and evaluation results of the same object on different platforms, and there is no good coordination mechanism. The data are scattered, heterogeneous, and low-quality, which is difficult to be directly applicable to judge the overall credit level of an object. The outline of the plan for the construction of social credit system issued by the State Council (2014-2020) puts forward that “accelerating the construction of credit information system and improving the recording, integration and application of credit information are the basis and premise for the formation of trustworthy incentive and dishonest punishment mechanism.” From this point of view, to solve the data problem in credit evaluation, it is necessary for all platforms to establish a perfect information exchange mechanism, gradually form a credit service network with wide coverage and complete categories, and build an objective, fair, reasonable and balanced international credit rating system model.
构建的核心内容crossplatform信贷指数评价模型是融合多源异构的信贷数据,和信息冲突造成的数据融合研究的重点:有属性相同的信息之间的差异和各平台的数据属性之间的不同的名称,有相同的属性数值差异不同的来源,和由于数据收集方法总结,冲突检测模型的目的是匹配属性,解决冲突问题,清理虚假数据,并获得数据和统一标准,可靠的来源,和强大的真实性,从而达到高效和真实性后续建设的信贷模式。
2。相关的工作
在冲突中相同属性的描述多源数据,模式匹配技术是用来解决问题的不同的源属性1,2]。模式匹配技术分为两个levels-pattern级别和实例级别。模式水平的方法分析了相应的属性描述不同的源数据之间的关系,如属性名称,缩写,或属性存储类型(3]。相似性分析范围的优点是简单和直观的和较低的时间成本,但属性描述信息的数量很小,所以很难直接使用4- - - - - -6]。有必要建立一个统一的标准,最有效的使用。在实例级、特征提取和相似性进行分析数据从不同的来源获得不同属性之间的映射关系。这样做的优点就是它可以减少对领域知识的依赖。然而,良好的数据需要有足够的规模7]。在相关的研究中,从三个层次:基于模式的解决方案被认为是更直观的语言水平,研究主要考虑属性的语义描述(8- - - - - -10]。例如,昏迷系统决定了各种属性通过构造属性语言协会之间的关系图,输入属性配对使用,并返回一个0和1之间的测量确认属性相似度;更多的研究进一步考虑属性约束水平和属性结构水平(11]。例如,洪水相似性算法构造属性描述和数据类型图中根据输入信息和获得通过多个属性之间的映射迭代定点计算(12]。然而,数据描述信息缺乏一个统一的标准,很难获得,识别、和使用数据描述信息很少,不利于广泛应用。现在,基于案例分析的解决方案主要是用于获得属性之间的映射关系通过特征提取和来自不同来源的数据进行比较分析。情绪失调方法使用神经网络技术找到相似的元素集分布定律根据数据实例信息,计算并返回匹配的结果相似(高13]。Mehdi等人分析了不同类型的数据的相似性,可以减少相似矩阵的规模,并介绍谷歌相似距离字符类型数据之间的语义关系在任务(14]。周等人建立了一个基于匈牙利算法的模式匹配系统分析源数据和获取的特征映射关系,提高了模型的泛化能力。的研究、自然语言处理技术也越来越多的用于相似度分析(15,16]。例如,Nozaki等人使用word2vec工具来比较和分析字符串的相似属性的语义关系的数据集,和诺等人使用Bert-based语义相似度计算来调整知识库索引(17,18]。
检测数据的多源数据融合的冲突,冲突被视为离群值的异常点,和异常点检测技术是用来检测和处理冲突19- - - - - -22]。在传统数据挖掘工作,异常检测是通过使用统计数据,进行集群、分类、接近,和其他方法23- - - - - -29日]。这些方法是强大的,简单和直接,但需要依靠一定的先验知识,和处理效果直接影响知识的水平。一些研究这个领域也应用机器学习机器学习的属性冲突产生和使用结果预测取代冲突。基于孤立点检测的数值冲突检测方法是找到数据对象从其他数据分布明显不同。传统的统计方法是通过在已知的数据分布的前提下,不符合的数据分布划分为异常值,但它需要很难获得先验知识,这是不利于工作。在实际工作中,更多的基于聚类的孤立点检测的方法或分类,和常见的聚类算法可以更好地应用于异常检测:如DBSCAN [30.,31日和桦树32,33]。聚类算法需要数据来源的真实性。贾等人clustering-based异常值检测算法用于清理错误和缺失数据在医学数据库,显示出更好的性能比基于距离的算法。另一个想法是离群值测试距离的基础上,通过计算或数据点的密度,确定异常值的距离(34]。Riahi-Madvar等人使用lof(局部离群因子)来衡量;它代表了当地的偏差度的对象,决定了 - - - - - -距离附近计算物体的局部密度可达性,并获得数据点的偏差度(35]。该算法使用lof测量也有许多应用程序(36,37]。基于工作,刘et al .,基于lof挖掘异常值,构造局部偏差度测量方法,降低了算法的复杂性并避免误判在一定程度上取决于当地的特点(38,39]。由于不考虑整体数据分布的特点,非常适合于异常检测的数据具有不同的密度分布40]。
2.1。信贷冲突检测模型
为了有效地应用决定距离测量和概率距离矩阵来处理多源证据冲突,有必要将多源证据冲突转化为距离测量值和概率距离矩阵决定。相似矩阵,在此基础上,支持向量,可靠性和平均得到了信任函数。治疗过程如下。
信贷数据的每个记录由公司表示属性或属性,个人信息如年龄。我们使用一个多源组来表示
对于任何记录 ,我们需要计算它的基本的概率:
|
||||||||||||||||||||||||||||||||||
获取基本概率向量后,我们需要计算距离矩阵:
计算如下:
所示的算法是算法2。
相似矩阵如下:
所示的算法是算法3。
|
||||||||||||||||||
|
||||||||||||||||||
相似矩阵的列细胞总结得到支持向量 。计算公式如下:
所示的算法是算法4。
|
||||||||||||||||||
信誉向量可以通过正则化的支持向量 。计算公式如下:
所示的算法是算法5。
|
||||||||||||||||||||
的平均信任值证据。计算公式如下:
所示的算法是算法6。
|
||||||||||||||||
最后,我们有我们的信用冲突检测模型。给定阈值 ,如果 ,记录没有冲突。否则,记录有冲突。所示的算法是算法7。
|
||||||||||||||
3所示。结论
在今天的生活中,每天都产生大量的新数据。信贷研究的方向,每个信贷的信用评估主体也与新数据动态变化。在未来的研究中,冲突的检测和处理动态数据的及时性和准确性,提高模型操作将成为冲突模型建设的关键问题。因为检测方法的多样性,没有一般模型可以应用到所有的数据,因此,扩大新技术的使用也将一个集中的冲突检测。
在本文中,我们分析集群中,异常值检测,机器学习,和其他技术和设计crossplatform,多层次、多维、multigranularity服务信贷冲突检测模型。模型用于处理语义差异,计算差异,错误的数据,和其他问题的信贷指标在平台等互联网金融、电子商务、健康养老。预计能够有效地检测并处理信用信息冲突,如信用偏差和缺乏信用主体信息。
在未来,在特定的前提下识别样本,人工智能可以发挥更好的作用。这是一个非常有价值的研究内容。
数据可用性
数据不能充分披露目前因为它包含私有数据。数据结构及其实现的代码已经被上传到GitHub;请访问https://github.com/juckylv/Credit-data。
的利益冲突
没有利益冲突有关的出版。
确认
这项研究得到了国家重点研发项目(批准号2019 yfb1404602)和江苏省高校自然科学研究项目(第21号kjb520022)。