文摘

现代企业会计解决方案开发在一定程度上提供会计信息的真实性,并提供计费模块,薪酬的作用,总帐,,但他们有一定的问题,如会计信息失真,不完整的指标变量,选择和识别方法的有限和单一使用。在此基础上,本研究从两点开始。第一个就是给决策树的概念和支持向量机(SVM)数据挖掘。然后,会计失真信息识别模型在此基础上,通过设置验证实验和模型效果。第二个是建立回归模型在企业战略和会计信息质量之间的关系,进一步探索的因素影响企业会计信息的质量。以下研究结果:(1)分类的准确率和识别训练集数据的总体数据,使用基于svm识别模型和测试集的数据是99.19%,96.21%,和94.8%,分别。(2)样本数据的识别平均是88.5%使用识别模型基于决策树的。(3)企业战略和会计信息质量的回归系数−−0.053和0.054,分别不考虑行业和变量,考虑到行业和去年同期变量,这两个是负0.1显著性水平。本研究的目的是使用数据挖掘来实现高质量的识别企业会计信息,为企业提供一些参考选择或制定相关的发展战略。

1。介绍

会计是一种识别和记录方法,分析、总结和解释一个组织的财务信息。生成的数据,因为业务实体的交易被称为会计信息。一旦发现这些信息,它是分为不同的类别和记录,以便它可以用在不同的报告。会计信息对于组织的利益相关者是非常有用的,因为它作为一个媒介组织可以与内部和外部世界的通信。会计信息系统是使用计算机处理这些信息。会计活动是记录和跟踪信息技术系统的帮助下,最终以报告的形式在公司内部和外部使用。

世界各地的组织使用不同的软件企业会计,允许这些组织密切关注金融交易及相关数据。企业会计软件一般包括特定模块为应付账款和应收、总账,账单,支付的作用。企业会计软件可能部署校园,或者它可能是一个基于云的选择。它可以提高生产力,通过引入自动化和提高可视性和跨部门的协作,因此简化流程。高层管理人员的协助,通过帮助企业战略的制定和监控业务性能。

企业会计领域的一个重要因素是会计信息的可靠性和完整性的要求。这有助于验证信息和制定准确的报告,反映组织的财务状况的准确情况因此改善组织的可信度。的相关方法和技术确定国外会计信息的真实性是成熟和丰富。大量的模型已经发展为识别会计信息。典型的回归模型,多元判别模型、神经网络模型和文本挖掘模型近年来(1]。然而,逻辑回归模型和各种神经网络方法研究和应用(2]。

本研究概述了相关的工作。然后,识别的方法和战略管理的企业会计信息提出了利用数据挖掘技术。该方法被详细讨论后,结果进行了讨论和分析。最后,结论和未来研究的范围进行了讨论。

2。文献综述

国内研究起步较晚,与国外研究上市公司会计信息失真的识别。国内研究主要集中在财务指标的分析和研究,包括盈利能力、偿债能力、运营能力、发展能力、现金流和资产质量3]。随着许多金融欺诈丑闻的出现在中国,国内学者对金融诈骗案件进行深入研究,充分暴露了企业治理的缺陷。随后,国内学者也开始关注非金融企业治理等指标(4]。

外国学者对企业战略的研究如下。一些学者认为,企业战略与企业绩效和信息质量偏差呈正相关。企业绩效是衡量使用资产回报率和销售增长速度通过因子和聚类分析5]。例如,一些研究发现,采用倾斜企业战略对企业绩效(会产生积极的影响6]。此外,一些研究认为,企业绩效的不确定性的原因是,企业主要采用行业传统的策略当其策略选择(7]。国内外一些学者研究企业战略的差异,如企业战略之间的关系和在中国的上海和深圳a股上市公司过度投资。研究表明,企业战略与过度投资显著正相关,和进攻策略极大地影响过度投资超过防卫策略(8]。此外,还发现,在两人之间有显著的正相关关系研究企业战略之间的关系和多余的在职消费。更激进的企业的总体战略,在职消费过剩的规模就越大。如果企业的整体治理机制是好的,或者是企业的高层管理人员有很高的管理技能,企业战略的影响过度消费会抑制(9]。

根据收集到的文献,首先,虽然会计信息识别技术已经成熟,有问题,如会计信息失真、不完整的指标变量,选择和识别方法的使用是有限的,单身。第二,现有文献已经充分研究企业的战略选择,企业会计信息的质量,但仍然有更少的研究企业战略之间的关系和企业会计信息的质量。在此基础上,本研究使用数据挖掘技术建立一个会计失真信息识别模型,建立实验来验证它。建立了相关回归模型根据企业战略管理和企业会计信息质量之间的关系,以及通过统计软件模型的结果进行了分析。创新是使用支持向量机(SVM)技术和决策树算法的数据挖掘技术来构建会计失真信息识别模型。本研究的目标是达到很好的识别企业会计失真信息和进一步勘探提供了一个参考的企业会计信息质量和企业战略之间的关系。

3所示。方法

3.1。数据挖掘的应用在会计信息失真
3.1.1。会计信息

会计信息的定义是“通用术语为各种可接受的和可以理解的新闻,数据,和材料,反映过去,现在,和未来的会计主体的资金流动通过实际的会计记录或科学预测”(10]。会计信息揭示了企业的财务状况,经营成果,资本变动外部信息使用者通过财务报告或其他形式。会计信息不仅是会计记录的过程的一个重要载体,还依据企业内部业务绩效评估和投资决策。会计信息是基本条件,确保证券市场的有效运行。会计信息质量的最基本要求是确保会计信息的真实性。评估的一个重要准则会计信息系统的工作质量是会计信息是否扭曲(11]。

3.1.2。会计信息失真

会计信息失真是指会计信息的形成,不能正确反映会计主体的财务和操作条件下的原则,违背了客观的真实性原则(12]。财务报告基于扭曲会计信息误导和可能导致错误的决策由外部投资者和债权人等信息使用者。会计信息失真分为故意失真和故意失真(13]。故意失真是指财务欺诈或会计作弊这是经过深思熟虑的,由员工个人利益的负责基本的会计信息。这个结果在现实和报告之间的偏差情况。无意失真是指计算错误,在本质上是无意的。它可能出现人为错误而会计计算。这也导致现实之间的偏差和报告信息。(14]。

3.1.3。会计信息失真的原因

会计失真的主要份额由作弊或计算错误。错误通常是由于会计的疏忽或无能,而会计作弊是由会计师的个人利益14]。会计信息失真的原因可以归因于外部原因和内部原因(15]。的具体内容如图的外部原因1

内部会计失真的原因的具体内容是显示在图2

3.2。数据挖掘

数据挖掘是一个过程,通过大型数据集找到相关性排序,模式和异常预测结果通过创建和测试模型。产生的数据量的一倍大约每两年90%的非结构化数据的数据。数据挖掘是通过数据分析被用来提高组织决策。数据挖掘技术可以大致分为两类基于他们的效用。他们可以被用于描述特定的数据集或使用机器学习算法,他们可以预测的结果。数据挖掘的过程涉及许多步骤从数据采集到可视化有价值的信息。通常有四个主要步骤:设置业务目标、数据准备、模型构建和模式挖掘和评价结果。有多种数据挖掘算法和技术,它们可以将原始数据转换成有用的信息,如关联规则,支持向量机,神经网络,再和决策树。在这项研究中我们将使用支持向量机,决策树信息的识别和分类(16]。

3.2.1之上。支持向量机

支持向量机在1995年被首次提出。支持向量机可以应用于模式分类和非线性回归,和它的理论基础是Vapnik-Chervonenkis统计理论(17]。主要的想法是找到一个最大化的分类超平面分离两类样本之间的差距,并用作决定表面。简而言之,支持向量机是实现结构风险的最小值18]。1990年代后,随着统计学习理论的发展和机器学习方法,如神经网络、支持向量机和开始迅速发展受到了人们的广泛关注19]。支持向量机广泛用于其它机器学习问题,如函数拟合由于其完美的优势在解决小样本、非线性和高维模式识别问题(20.]。模式分类问题,支持向量机良好的泛化能力。图3显示其优势。

支持向量机学习方法包含三个模型。首先是一个线性可分支持向量机。一个线性分类器是由硬间隔最大化学当训练样本数据是线性可分的。第二个是一个线性支持向量机。当训练样本数据是线性可分的,这意味着函数间隔的约束不能满足。一个线性分类器是学会了通过引入软间隔最大化或松弛变量。第三是非线性支持向量机。当训练样本数据是分不开的,hyper-surface模型的输入空间对应于特征空间的SVM通过非线性变换。非线性支持向量机学习使用内核函数和软利润最大化。最终,SVM实现全局优化通过构建一个最优分类超平面在属性空间使用结构风险最小化原则[21]。

3.2.2。决策树

决策树与树状流程图,他们很容易理解和广泛使用。在决策树分类过程中,顶级树的根节点。下降的非叶节点。每个变量的数据从根节点开始,前往不同的非叶节点根据不同的属性。最后是叶子节点。每个叶节点是一个类标签。可变数据从非叶节点开始,也将前往不同的类标签(根据不同的属性22]。

一个未知的变量X是给定的,它的类标签决定通过决策树。首先,变量X从根节点开始,进入相应的非叶节点根据不同属性的判断。然后,该变量X重新分类到相应的叶节点根据不同的非叶节点的属性。未知变量分类到相应的类标签的方式通过这个树状判断路径被称为决策树分类(23]。决策树的分类过程是显示在图4

3.3。会计信息失真识别模型的整体流程

根据会计信息失真的相关理论,具体内容的会计信息失真识别模型的整个过程,如图5

3.4。基于支持向量机的信息失真识别模型

支持向量机训练变量数据,最后获得一个输出值。这也是训练数据集会计信息失真识别结果。SVM是一个学习机器,三层网格结构,多个输入,单输出。图6显示了其体系结构。

在图6,K是内核函数。有四种主要类型,即线性核函数,多项式核函数,径向基核函数(RBF),和两层感知器内核函数。在这项研究中,径向基核函数选择通过其他学者的研究和比较各种内核函数。RBF内核是一种最广义形式的内核和广泛应用是由于其再相似算法和具有的优势克服空间复杂性问题。的两个点X和X,它计算距离。

在训练数据的过程中,交叉验证方法用来找到最好的支持向量机训练点球参数c和核函数参数。在这个方法中,可以找到参数c 使训练集来实现分类精度最高的想法下交叉验证(25]。

3.5。基于决策树的信息失真识别模型

本研究确定了会计信息失真的过程,基于决策树和使用决策树来找到会计信息失真和某些特征之间的关系来达到识别的目的。决策树识别模型使用训练集和测试集数据随机生成的数据支持向量机识别模型。然后,部门培训结果的规则生成决策树的剪枝优化。在构造决策树模型中,1和2是用于表示扭曲会计信息和会计信息non-distorted叶节点分别。

3.6。仿真实验
3.6.1。数据样本来源

本研究的样本是来自国家数据库。在这个数据库中,数据的a股上市公司在过去的五年里被选中为研究样本。根据行业,1:1的比例上市公司会计信息失真和non-distorted上市公司。此外,102家公司和1362个数据记录最后选为研究样本,以确保非重复性的样品和高数据完整性的指标体系。其中,有51个样本扭曲会计信息和51个样本没有失真。

在实验中会计信息的基于支持向量机的识别模型,参数 交叉验证的设置为5,和最优参数c 分别将是64和1.52。此时交叉验证精度为80.27%。然后,基于支持向量机的分类和识别模型是通过MatLab平台。模型是用来确定训练集的数据,总体指标变量数据,测试集的数据。此外,在1362年获得500块数据记录用于仿真实验在MatLab平台上。

3.7。企业战略对会计信息的影响
3.7.1。企业战略

企业战略是一个一般术语,一个企业的所有策略。企业战略可以分为几种类型根据其规划的层次和角度。企业战略是一个集成规划过程从上到下。企业战略从上到下是公司的战略水平,功能层面,业务层面和产品水平。分类的整体企业战略,企业战略可以分为增长战略,稳定战略,收缩战略。

3.7.2章。命题的假设

企业在不同的阶段有不同的会计信息的质量要求,所以外部会计信息用户的质量和效率也不同。级别的信息效率,企业选择一个增长战略往往意味着企业偏离行业经验和专家的意见,这将带来效率的风险。这将导致会计信息的失真,不能反映企业的状况。企业选择一个紧缩战略可能减少管理和财务人员经验,和一些部门将暂停操作。因此,会计信息不充分反映企业的真实经营状况。企业选择一个稳定的策略意味着企业会计信息的质量是稳定的。可靠的会计信息是接近行业,高质量和信誉。在此基础上提出假设:H1:稳定的战略将提高企业会计信息的质量与其他条件保持不变

4所示。提出的模型

4.1。衡量企业战略

本研究使用四个变量指标来衡量企业战略。这四个指标是企业研究和开发支出的比例,企业销售收入(X1),企业销售收入的历史增长率(X2),企业总数的比例在企业销售收入(销售和管理费用X3),固定资产在总资产的比例(X1 - 4)。在这里,X4治疗方法用于测量。

本研究优化了上述理论和平均的年值X1,X2,X3、1 -X4在过去的五年里。

从以前的方程,企业战略度量指标XT1423年企业在过去的五年里。更大的价值XT、更激进的企业的战略。的值越小XT更稳定的企业。

4.2。控制变量和解释

控制变量的选择是重要的实证研究结论的正确性。因此,控制变量的实证研究在本研究股东连接性、独立董事的数量管理、一致性的办公区域、资产和负债、总资产回报率,和企业规模从研究的可操作性和合理性,指的是现有的研究进展。考虑到时间和行业的影响,本研究今年的控制和行业变量。解释变量的具体含义和计算方法,解释变量、控制变量和年和行业变量主要用于本研究如表所示1

4.3。模型建立

经验回归模型部分,首先建立有序概率单位回归模型来研究企业战略和会计信息质量之间的关系。回归模型主要分为模型(1)和模型(2)根据行业和年份是否控制。模型(1): 模型(2):

在上面的模型中, 代表上市公司的会计信息质量t , , 分别代表上市公司的企业战略选择t的比例上市公司的最大股东t和交互的第一股东的持股上市公司的企业战略选择t , , , , , 代表股东连接,控制变量的数量管理,独立董事的一致性的办公区域、资产和负债、总资产回报率,和企业规模。 代表了残余项。 代表了常数项系数。 代表了解释变量的系数。( , )表示控制变量的系数。此外,在模型(2),印第安纳州一年分别代表控制工业和年。

4.4。仿真实验

解释变量来自信息披露评级的模块深圳证券交易所。除了会计信息质量数据,其他研究数据主要来自国泰国安研究数据库。解释变量的企业战略是计算总结国泰国安的指标数据库。根据上面的数据筛选标准,本研究获得1423“公司/年”在深圳的观察。描述性统计和回归分析进行数据通过统计产品服务解决方案(SPSS)平台。

5。结果和分析

5.1。会计信息的影响基于数据挖掘的识别模型

7显示了该训练集训练获得的结果数据,整个数据,通过MatLab平台测试集数据。

从图7,识别准确率是99.19%,96.21%,和94.8%,分别时,此模型用于分类和识别训练集数据,总体数据和测试集数据。数据都超过90%,表明该模型积极影响会计失真信息的分类和识别。

5.1.1。基于决策树的影响

8揭示了决策树结果通过培训会计信息识别模型在MatLab平台上。

从图8110块扭曲的样本数据,证实该识别模型获得的诊断的数量是89,误诊的数量是21,鉴定率为81%。无畸变的390块的数据,证实诊断通过识别模型的数量是373,误诊的数量是17,鉴定率为96%。总的来说,500年的样本数据,平均识别模型的率是88.5%。上述数据表明,会计失真信息识别模型基于决策树也有良好的识别能力。

5.2。企业战略对会计信息的影响
5.2.1。描述性统计分析

解释变量的描述性统计结果,解释变量和控制变量使用SPSS平台如图所示9

从图9,会计信息质量的平均值是2.97,而中位数是3。从的角度解释变量,企业战略的中位数是34.25,平均为53.65,最大值为796.25,最小值为0,范围很大。标准偏差为80.55,这是大,表明企业策略的差异波动很大。从交互的角度变量,第一股东的平均持股比例为33%,最高比例是90%,最小的比率是6%。从控制变量,股东连接的平均值是0.56。经理的平均和中位数的号码是6.43和6,分别表明上市公司的高管人数主要集中在6人。均值一致性的独立董事办公室面积是0.39。这表明,平均39%的上市公司独立董事的工作地点是一样的,他们列出。均值和中位数的资产和负债和总资产回报率接近,和标准偏差很小。这意味着在深圳证券交易所上市公司是稳定的财务杠杆的使用和操作的回报,这有助于控制其他客观因素。 This plays a controlling role in studying the relationship between enterprise strategy and accounting information quality.

5.2.2。模型回归结果

SPSS平台用于对解释变量进行回归分析,解释变量和控制变量,结果显示在图10

10显示,企业战略和会计信息质量的回归系数−0.053将不考虑行业和年份变量时,它在0.1显著性水平是负的。当变量被认为是工业和年,企业战略和会计信息质量的回归系数是−0.054,在0.10显著性水平是负的。系数值增加而当行业和年份变量不控制。上述数据表明,企业采用激进的策略,和程度的不确定性增加。然后,企业的会计信息的质量将显著减少。当企业采用稳定的战略,企业会计信息的质量是很高的。因此,这里的H1提出验证。

6。结论和未来的工作

本研究进一步研究企业会计信息的识别中存在的问题。会计失真信息由支持multi-vector有效识别和决策树算法的数据挖掘技术。企业战略之间的关系和企业会计信息质量的研究获得的因素,影响会计信息的质量。结果表明:(1)基于数据挖掘的信息分类和识别模型具有良好的识别性能。(2)不同的企业战略部署有不同影响企业会计信息的质量。更稳定的企业战略,会计信息的质量就越高。此外,本研究的缺陷是,它只研究之间的直接关系企业策略和企业会计信息的质量。是否由中介变量控制的关系是未知的。在未来,我们将专注于扩大企业会计信息的影响指标,进一步的研究其关系。后续研究也将目标转向过来的缺陷的研究探索之间的间接关系的企业战略和企业会计信息的质量及其影响。 This study aims to create high-quality enterprise accounting information, thereby promoting the further development of enterprises.

数据可用性

在当前的研究中使用的数据集是可从相应的作者在合理的请求。

信息披露

贾邵和裴郑co-first这项研究的作者。

的利益冲突

作者宣称没有利益冲突。

作者的贡献

贾邵和裴郑了同样的工作。

确认

这项工作是由中国国家社会科学基金重点项目“研究技术创新的成本分担机制和效应”(20 ajy003)。