文摘
保险财务管理信息系统积累了大量的数据作为保险金融体系改进和投资保险的人数迅速增加。保险公司的性能大大加剧了这个行业的增长,从而导致经济繁荣。不同财务比率是调查,考虑到保险公司的稳定、无力偿债、盈利能力、和杠杆。组织和保险公司的盈利能力是用来评估有效性。为了实现这个目标,本研究调查了破产的影响,资本杠杆、稳定、范围、和公正性在中国人寿保险公司的效率。财务报表分析的研究公司的总体财务状况在时间。这是一个方法,识别一个公司的金融资产和负债通过集成的财务状况和资产负债表的特性。它提供了一个系统化的方法来评估和评估公司的困境。使用实验结果,一些保险公司的成绩相比,他们的表现是基于这些结果描述。的有效利用这些数据来帮助决策者在发展中更合理的金融保险投资政策已成为必须解决的一个重大的挑战。 This study utilized the decision tree C 4.5 mining algorithm to analyze insurance financial system data, identify key factors influencing insurance finance, and assist decision-makers in optimizing policy parameters. Finally, the consequence of an increase is analyzed using a previously unseen method to assess the precision of the prediction result.
1。介绍
保险是一种财务防范一系列的财务困难。合同中涉及个人:保险公司和受保护的收件人,定义了这个安全。保险公司组织销售政策,和被保险人的个人或组织购买它所提供的政策优势。以换取经济上的补偿,称为高价值,保险承诺吸收一个受保护的责任实体防范未来不测(1]。在发生意外事件,需要保险公司向投保人支付的需求,即。,好处是全额支付给受益人指定公司的政策。保险的类型取决于事件覆盖。汽车保险、健康保险、旅游保险、财产保险和人寿保险的只是几个保险组织内的业务线。因此,研究人员正在研究各种保险和金融技术与各种类型的生命安全使用人工智能、大数据挖掘等。2]。数据分析中提取潜在的有用的知识的过程模型或规则从大量数据。分析采用关联规则的数据挖掘、分类、聚类和其他技术。数据分类是数据挖掘的重要目标和任务。作为一种重要的数据挖掘分类方法,决策树数据挖掘算法使努力推导出决策树表示形式的评价规则从一组无序和常规情况。功能,如数据分析效率高,直觉,和简单的使用3]。
数据挖掘在生物医学中的应用主要集中在分子生物学的研究,尤其是基因工程。其在分子生物学的工作可以分为两种类型:一是与某些功能基因定位字符串从各种生物的DNA序列;功能蛋白质类似于高阶结构序列。数据库营销和购物篮分析是两种类型的数据挖掘应用程序用于市场营销。前者的目标是找到新客户,为他们提供产品使用技术包括互动搜索,数据分割和模型预测(4]。后者的作用是为了执行一个分析研究市场交易数据的客户购买行为,这有助于确定商店货架布局和鼓励销售。数据挖掘主要是利用在银行业信用欺诈建模和趋势分析,以及预测、收入分析,风险评估,帮助直接营销努力。
根据评论,数据挖掘算法通常用于检测欺诈保险和金融政策通过检查连接或各种索赔记录之间的联系,研究开发了一种策略,确定保险索赔(5]。卡里姆等人应用数据挖掘分类规则评估相关特性和帮助控制信息虚假索赔之间的差距,从而减少医疗保险欺诈行为。这项研究提供了一个很好的解释为什么识别健康保险欺诈是保险行业最具挑战性的问题之一。然而,它并没有给我们带来整个数据集描述使用在他们的研究6]。林等人提出了一个框架在这个工作可以确定每个特征在一个给定的数据集。分析潜在客户,这些作者采用抽样法与一个巨大的保险公司数据挖掘集体训练算法,提出了一种随机森林算法(RF)。他们获得的保险信息中国人寿保险公司自建立使用指定的技术。此外,研究人员使用测量和G-mean评估算法的性能。后实验结果表明,与标准的人工方法相比,集体RF算法优于支持向量机(SVM)和其他分类模型在效率和可靠性在不平衡数据集7]。本文提出了几种性能的措施可能有助于确定在本研究中使用的技术的可靠性。使用教学方法,作者为高危学生开发了一个早期预警系统。他们用橙色的数据挖掘工具进行他们的研究。本研究的发现是早期预警系统建立的关键元素和学生成绩评估可能建立在线学习。同时,它将协助学者选择算法和预处理策略指导数据分析。这项研究将帮助我们找出许多方法橙色矿工的工具,可以让我们做我们的国民保险数据集实验(8]。
采矿过程中理论上有益的材料从大量的数据和信息是基于数据挖掘。数据挖掘技术的决策树分类方法是用来发现数据中隐藏的关系和规则。它提供了一个理论基础也为决策者制定和调整参数和分析和研究几个因素,限制公平问题。帮助决策者作出决定,我们应该设置最好的参数(9]。研究旨在了解机器学习和数据挖掘算法可以帮助保险公司确定趋势在不同类型的保险索赔评估类别。这正是整个研究报告提供。在这项研究中,用于执行索赔保险数据分析使用各种不同的分类方法。特征选择技术是用来降低数据的复杂性,提高研究结果。
本文的主要贡献如下:(我)首先,我们提出一个概念性的框架为保险和金融数据挖掘方法,包括比较的性能措施之间的那些用于保险和金融数据中使用。(2)其次,数据挖掘的过程中提取潜在的有用的材料和信息从大量的信息。数据挖掘技术的决策树分类方法是用于数据中发现隐藏的关系和规则。(3)第三,数据准备后,参数和类选择、决策树构建和修剪,分析和评估,和规则创建,分类数据挖掘过程完成。(iv)最后,决策树C 4.5挖掘技术是用来评估保险金融系统数据,识别重要元素影响保险融资,帮助决策者提高政策参数。
本文的其余部分组织如下:部分2显示相关工作,部分3显示了保险和金融方案检测和数据挖掘部分4显示2 c4.5算法的原理,和部分5显示了算法的应用和实验分析决定。最后,在节6研究工作总结。
2。相关工作
根据文献综述,在社会保险系统已经经历了许多重大的改变,甚至在全球期间,提出了研究。不断上涨的压力在日常生活中增加保险需求。这项研究的作者旨在确定数据挖掘福利保险公司,其方法如何提高保险结果,以及数据挖掘艾滋病决策利用保险数据。二次研究,观察从许多期刊和研究,在理论研究中使用的其他来源(10]。根据Devale等人信息发现在金融公司已经建立改善决策运用知识作为战略因素。本研究的目的是调查数据发现各种数据挖掘方法的应用在保险行业。当前软件失效时显示数据与这些特征。决策者可以概述保险活动提出了数据挖掘的发展策略,使现有的生活保护部门的特殊功能(11]。杨等人分析了保险价格使用数学优化工具和数据挖掘方法。在竞争激烈的保险市场,吸引客户的最重要因素之一是定价。他们使用k - means聚类算法对客户进行分类,以及神经网络评估每个分类的价值观念12]。边等人评估司机的风险级别使用司机行为相关的信息,协助保险公司bagging-based分类模型识别最可接受的各种保险业务支付机制。客户需求可以被收集信息和数据从产品客户使用数据挖掘技术和分析它。可以好好利用收集到的信息,可以帮助组织发展13]。Kumar等人调查使用数据挖掘和层次分析法(AHP)提供产品推荐。首先,客户的保险业务被分成组建立在他们的年龄和收入。AHP是用来控制一组因素的相对权重为了选择最好的产品为每个集群(14]。
3所示。保险和金融方案检测和数据挖掘
3.1。银行计划
银行计划可以被定义为任何故意实施,或寻求实现一个策略或发明欺骗一个金融公司:收集钱,学分,基金,股票,投资,或额外的资产被进一步的保护或控制金融公司通过使用虚假,欺诈虚伪,承诺,或陈述15]。银行计划可以被定义为未授权卡使用,不常见的操作活动,或通信由一个不活跃的卡片。重大错报、金融欺诈或欺骗的潜在抵押贷款或财产上的恩人或投资者依赖帐户或收购被定义为一个抵押贷款方案。如果你想从事信用卡和信用卡计划,你应该获得贷款。未经授权的信用卡使用,不寻常的交易活动,交易不活跃卡都是现在的案例研究(16]。根据联邦调查局、洗钱的行为是罪犯隐藏或掩盖他们的罪行的好处,或将这些资金转化为服务和产品。它给罪犯过度的经济实力,让他们向系统注入他们的非法现金,腐蚀金融组织和资金来源。根据高你们,洗钱犯罪的过程肮脏恶心的洗钱掩盖其非法起源和让它看起来合法的和干净的17]。
3.2。保险方案
客户、证券公司、保险公司工人、医疗专家,和其他人可以做保险的保险产品在许多阶段的过程,包括资格、计费、评级,和应用。作物,汽车保险和医疗保健是本研究的主题。根据美国联邦调查局(FBI),对医学上不必要的服务收费,服务没有,upcoding服务,upcoding产品,回扣,拆分,称过度服务和重复是其中最普遍的种类的计划。农作物保险欺诈行为发生在投保人虚假或夸大农作物损失由于自然灾害或收入损失由于农产品价格下跌18,19]。汽车保险欺诈包含了事故,不必要的修理和制造个人受伤。图1显示了一个数据挖掘应用程序的框架。
4所示。2 c4.5算法的原则
创建决策树分类器,采用C4.5算法。每一个描述性的数据获得值特性相比,在这个过程中,和最大的属性值是选择分类。创建决策树C4.5算法基于信息增益的概念,每个分类的决定是与目标分类。评估的不确定性的最好方法是使用熵(20.,21]。
在本文中,有效减少后代的信息称为信息增益。使用这种方法,可以确定哪些类型的变量选择分类在何种水平。假设有两类,P和N,记录集组成xP信息和yN记录。以下是需要决定哪些类别的数据量记录在记录集年代属于
考虑到变量D作为决策树的根,分为子类是记录集年代 与每个 包含数据类P和记录类n .然后,所需数量的数据分类的所有子类:
如果变量D选择的分类节点,其数据增量的值必须大于其它变量的值。的变量D增量数据
一个通用的信息增益函数的定义可能来自这
4.1。决策树的修剪
决策树的剪枝策略时采用成年决策树。这样,分支异常引起的噪声数据和孤立的节点是消除。解决overadaptation训练数据的问题,决策树。统计方法通常用于修剪过程去除最不可靠的分支,提高识别和描述的速度,或者准确地分类数据的能力。目标是消除异常值和噪声从训练集prepruning方法和postpruning方法修剪树枝的两个最常见的方法是(22,23]。
以下4.4.1。前修剪方法
这种方法是通过提前停止树的形成,即。,决定。一旦终止一个分支和当前节点成为一个叶节点,重要的是要继续分裂或分裂的训练样本子集节点。统计显著性检测或信息增益可以用来评估分支发展而构建决策树。如果样品在节点划分,样品在较低的节点会低于某个阈值。然后,我们继续解剖样本集;选择一个合适的阈值通常是具有挑战性的。阈值太高会导致决策树的简化,而阈值太低会导致失败的修剪多余的分支。
4.1.2。Postpruning方法
《砍树砍出战略这个方法是一个受欢迎的决定。postpruning算法的输入是一个unpruned树T,输出是一个决策树修剪T1,这是树修剪一个或更多的子树后获得t cost-complexity-based修剪算法是一个暴露的修剪方法,底部unpruned节点成为一片叶子。它被指定为最多的类别所包含的样本的类别。预期的误码率计算树中的每个节点nonleaf修剪后,以及预测错误率节点不是修剪后根据重量的一个单独的分支和独立分支的错误率。如果修剪增加预计分类错误率,削减将无限制,和一致的分支节点将维护;然后,一致的节点分支将修剪和删除(24]。
一个独立的测试数据集是用来评估结果后产生一系列削减了决策树的申请者。剪决策树的分类精度评价,和最低的树分类错误率和决策树。除了增加分类错误率,决策树的嵌入长度可以用于决策树修剪。
4.2。决策树规则提取
决策树可以用来修剪后直接提取相应的决策规则。决策树直观和容易理解,因为分类规则的表达形式,每个规则从根的路径。然后叶节点代表的具体结论。上面的节点和边的叶节点代表了条件价值相应的条件(25]。图2描述了决策树的方向决策规则。
5。决策树算法的应用和实验分析(4.5 C)
5.1。处理的数据
的运营商信息数据表项所需的C4.5算法。它使用一个类型定义文件,它是一个ASCII文件的后缀名,记录每个属性项的类型或潜在的范围值。根据类型描述,C4.5算法将计算每个特征项的增益。
计算机计算每个描述性特性的增益值在一个循环的方式,比较每个属性的增益值,选择最高的属性增益值分类,并最终构建一个理想的决策树。挖掘算法的程序流图所示3。首先,程序的初始变量设置根据初始输入数据:窗口大小和增量的值,然后不同的分类树生成在一个连续不断的循环。修剪错误率比较找到最好的分类器。
5.2。构建决策树
根据维护的正确速度的方法判断分类方法,本文随机选择的三分之二的数据预处理的数据作为训练数据C4.5算法,得到决策树从训练数据和输出易于理解的规则。(1)安装和导入包。熊猫作为pd导入。进口NumPy np。进口matplotlib。pyplot作为plt进口seaborn sns(2)导入数据df = pd。数据读取(“保险行业决策树\ \ ma_ resp_ data_ temp.csv”)df。头()df。形状。df。信息()(3)将数据分为训练和测试clf = DecisionTreeClassifier ()clf。适合(X_trainy_train)。clf。分数(间y_列车)。clf。分数(间测试,y_测试)。0.5297687199450424。clf。get_深度()42。(4)这是获得的决策树模型的分类精度没有任何参数调整。接下来,我们将调整模型的参数。test_得分= []train_得分= []CV_得分= []为我范围内(42):dtc = DecisionTreeClassifier (max深度=我,随机状态= 100)dtc。适合(间y_列车)。CV_得分。追加(cross_ val_得分(dtcX_火车,y_火车,简历= 5,n_ = 1)的工作。意思是())train_得分。附加(dtc。评分(X_火车,y_火车)test_得分。附加(dtc。评分(X_测试,y_测试))(5)为此,学习曲线调整单个参数,并选择的最大深度max_depth参数调整,如图3。plt。图(dpi = 150)。plt。情节(范围(42),test_得分,标签=“test_分数”)。plt。情节(范围(42),train_得分,标签=“train_分数”)。plt。情节(范围(42),cv_得分,标签=“cv_分数”)plt。传奇()plt。显示()print(“最好的分数是{}”。格式(np。马克斯(cv_分数)),“最佳深度:{}”。格式(np。argmax (cv_分数)+ 2))最优分数是0.651036326061516和最佳的深度是0.8。
5.3。分析的结果
在市场研究中,金融机构可以使用关联规则。数据研究了在这种情况下材料客户获得保护。保险提供者可以创建一个分类模型,指定保险政策时购买。公司目标受益于该协会在几个政策以不同的目标基于这些现实。同一家公司与客户有两个保险计划更有可能比那些只有保险更新。一个客户有多个政策不太可能比客户用更少的政策转移。公司增加价值和提高客户满意度提供很大的折扣和包装产品的客户,如人寿保险和投资计划,减少客户转向竞争对手的可能性。表1显示了marketing-based保险和融资的投资。
保险公司可以设计一个行业的应税利润,支付方式,保险金额。这些模式可以被记录在数据库中。当消费者要求购买保险,代理商可以得到信息,如客户的年龄和收入。这种设计可能是与数据库相关的记录,和代理可以提供付款方式,付款金额,和政策持续时间客户基于匹配的模式。表2和图4保险和金融行业的数据。
通过C4.5算法的训练,以下决策分类树,如图5。Y代表了保险金融数据安全类别;N代表了保险金融数据损失类别。使用训练集和测试集方法分类精度测试,测试结果是正确的保险金融是鉴定率为96.25%。
6。结论
数据分析被用于各种企业在世界各地。数据挖掘和机器学习有很多的潜力给予公司超越其竞争对手的竞争优势。本研究可在各种学科和使用多种分析方法。在数据挖掘,决策树是一种常见的算法工具。众多的决策树算法C4.5算法应用和高频率。分类数据挖掘过程完成数据预处理后,参数和类选择、决策树构造和修剪,分析和评估,并生成规则。本文探讨数据挖掘技术的应用保险金融数据统计。一些保险行业最初获得的影响因素,在实验后,效果相对较好,但没有深入研究这个实验在其他因素的影响。因此,加强学习,逐渐修复其缺陷在未来学习的过程。可能比较结果和各种分类方法可能是未来研究的一部分。 Customer segmentation learning efficiency and performance might also be evaluated using computational complexity analysis. Other industries that might benefit from the strategy recommended in this study include retail, healthcare, food, and bookshops.
数据可用性
数据集用于支持本研究的发现可以要求从相应的作者。
的利益冲突
作者宣称没有利益冲突。