文摘
最近,能源不足和严重的空气污染问题在世界各地一直在上升。从今以后,有必要开展新能源的研究。很快,新能源汽车将成为主流趋势,这不仅可以减少消费者的负担由于燃料价格的上涨也解决空气污染问题引起的燃料汽车的废气排放。随着科学技术的快速发展,深度学习继续突破,而且,在经济领域的庞大的信息数据,我们有更强大的武器可用来预测和研究重要的经济数据与无限的价值,这不仅可以为决策者提供参考信息,还有助于企业甚至经济市场更健康和可持续发展。因此,本文使用深度学习算法来预测和分析新能源产业,从财务信息发布的新能源汽车公司在他们的年度报告中,为了做出基本判断和帮助政策制定者和企业在新能源汽车产业。
1。介绍
自工业革命以来,一系列的生态和环境问题1)所带来的过度的人类生产和消费(2)开始,我们必须注意采取措施补救和纠正他们。在这种背景下,低碳发展的概念(3),平衡环境保护和发展,已经逐渐浮出水面,成为一个全球的趋势。从个人生活方式的政府政策,低碳发展的影子随处可见。经济、社会发展和环境保护一直是人类的困境(4),特别是在工业化时代。经过多年的实践探索,人类终于发现低碳发展道路,这是发展融入建设生态文明和环境保护为经济发展。从目前的能源生产和消费情况,新能源和节能技术和产品的开发是一个重要的步骤,以确保可持续发展的全球经济。
汽车工业不仅是国民经济支柱产业驱动(5),但也是一个高消费和高排量行业(6],它扮演着一个重要的角色在宏观经济发展和低碳经济转型。中国经济的快速发展和市场吸引了许多来自发达国家的汽车制造商来中国,不仅带来了先进的产品和技术,也使中国面临环境保护的巨大压力,如石油危机,城市环境污染,和交通恶化。汽车工业的传统发展模式有明显的阻塞性影响经济的可持续发展,因此,汽车工业必须将以技术创新为核心的低碳。新能源汽车是时代发展的必然产物,和新能源汽车的发展是全球汽车工业的必然路径。
工业的变化引发了新能源汽车的发展将是一个完整的重组;然而,新能源汽车产业的发展也将伴随着大量的不确定性,尤其是新能源汽车企业已从传统的汽车行业显著差异。出于这个原因,决策者的新能源产业和新能源汽车企业的从业人员总是需要准确评估和控制行业。在当前快速发展的21世纪,科学家和研究人员已经为我们提供了许多新的技术和分析工具来研究工业经济。深度学习不仅成为最重要的一个关键技术在人工智能领域,但也吸引了很多的注意力从相关业务的研究人员经济体(7]。深度学习各领域有广泛的应用,工业(8),推动产业创新和突破性的发展。在经济和金融领域,人们也越来越意识到经济数据对企业的重要性,它决定了企业的发展和未来9]。经济数据大幅增加的数量和形式的数据变得越来越多样化,深度学习的方法提供了一种新的研究从大数据中发现模式和学习的想法背后的潜在特性数据通过深入学习模型(10]。所以它是非常重要的应用深度学习经济和金融领域。
本文的主题和重点使用深度学习的方法来分析和预测公司新能源汽车企业的财务报告,特别是公司的净利润和经营活动的净现金流量。一个企业的最终产品操作是净利润,即原则企业劳动生产率的迹象。净利润是利用复制企业的经营和盈利能力。然而,收入应该的价值评估以及其他综合因素。最重要的因素是净现金流量从现金流量表中经营活动。自由收入业务练习中创建基于保证正常运行和一致的/可靠的企业再投资,保证自由流通和投资在一个安全的形势和实际的基金,可以被称为企业,营运现金流量是最重要的部分,构成自由现金流。分析净利润和经营活动净现金流量不仅反映了一个公司的运营能力在可持续的基础上还传达的信息可能存在的异常的长期运行的公司。通过分析匹配比净利润与经营现金流之间,我们可以做出一个基本判断可持续经营能力和竞争力的新能源汽车的公司。
剩下的纸是组织如下:部分2回顾相关文献。在第三部分中,深度学习预测模型构建,基于格勒乌和CNN。部分4介绍了实验分析和试验的成果。节5,最终的结果和成就是深思熟虑的结论。
2。相关工作
2.1。数据资源
如今,企业经营者和普通投资者高度重视经济和金融等领域的数据公司的年度报告,股票,基金,和,因此,主要的金融网站收集和显示各种公告和数据信息。在本文中,我们需要获得的年度报告公司在新能源汽车行业和爬他们进一步处理和分析年度报告中的重要信息。
从金融网站爬行PDF格式的财务报表的过程大致如下:(1)利用爬虫技术,我们获得所有公司的id,生成统一资源定位器(url)的主要页面所有公司信息,并把它们爬到url的队列。(2)爬虫从队列中读取url的爬反过来,通过域名解析器解析url (DNS),并将链接地址转换成web服务器的IP地址,然后网页可以下载。(3)我们使用Python的请求模块爬到公司主页的信息,和公司的年度报告的URL以PDF格式的网页内容。根据年度报告的URL的特点,生成一个正则表达式,然后使用Re模块搜索该公司的年度报告的URL。(4)最后,使用请求模块下载PDF格式的年度报告,并使用公司ID作为文件名存储供以后使用。
2.2。PDF和表数据提取分析
在本文中,我们要研究新能源汽车企业的可持续发展,需要和重要的经济数据是净利润和经营活动净现金流量,所以我们需要提取损益表和现金流量表PDF上市公司年度报告的后续研究和分析。我们需要大量的公司以及多年的数据,所以你要高效、准确地分析PDF,你需要作物PDF,根据关键字目标形成的特定位置,使分析更加方便。如图1,具体的步骤将在下面详细解释。
2.2.1。基于关键字的位置信息
为了简化和拦截PDF来获得更准确的定位和分析,提高效率,第一步是需要得到目标数据根据关键词页面数量和位置。本文使用Java编写ITextpdf方法来定位目标数据。我们提供PDF文件路径时,存储目标位置信息文件路径,和匹配目标的内容与关键词的三个参数,我们可以达到目标位置和页码,和后续的批量管理使用。
2.2.2。PDF页面精简和拦截
在本文中,我们使用Python库PyPDF2精简和拦截页的上市公司的年度报告和大量的页面。根据前一节的方法获取目标位置和页码,叫addPage()和其他方法添加循环PdfFileWriter类创建的对象,在输出流添加PDF页;最后,我们想要简化和拦截目标页面写入一个新的PDF文件,想实现批处理操作和管理为了遵循的分析工作。
2.2.3。PDF表单解析和数据批量抓取
获得简化PDF后,我们能够目标中的重要经济数据表和使用Python中的Pdfplumber技术第三方库解析PDF和提取损益表和现金流量表的几个新能源公司和多年。最后,提取的结果修改和整理得到损益表和现金流量表的年度报告所需的新能源公司在这项研究中,根据公司和时间顺序根据不同行业和整理成一个易于使用的CSV文件。
2.3。实验数据预处理和示例的一代
从PDF解析和提取数据后年度报告的新能源汽车公司,获得的数据在一个方便的CSV格式使用。为了获得最终模型的数据集要求,本文还需要数据的预处理,包括各种数据清洗、归一化、特征选择,最后示例生成的实验要求。
2.3.1。数据清理
数据清理是一个重要的和关键的步骤,数据分析11,清洗后获得的数据的质量将直接影响到后续的模型效果和实验的结论。缺失值的第一步清洁,首先每个功能是缺失值的比例计算。如果有很多遗漏值,特征的有效性是失去了,所以80%以上的功能列缺失值直接删除。然后缺失值填充。因为每个经济指标有一定的标准,如果是随机填充,它可能导致数据是不现实的,和有许多0值在很多特性,因此,本文根据经验,填写缺失的值为0。第二步是干净的格式化内容。数据会影响数据的格式导入以及实验过程;例如,会计,时间在损益表和现金流量表是清洁的格式。
2.3.2。归一化
在真实的数据,不同的功能有不同范围的值,因此它可能发生大的特征值在特征空间样本的显性效应。为了所有功能相同的规模,重要的是要将它们映射到相同的规模,这样可以提高模型的准确性以及合适的速度,所以这个实验是正常样本(12]。我们使用最大最小归一化法,量表数据集一样,最终被表示为一个值在[0,1],见以下方程:
2.3.3。特征选择
特征选择是一个非常重要的步骤在实际数据处理(13]。它不仅有助于进一步理解的特点和数据之间的关系特性但也降低了特征维数,减少过度拟合,以提高模型的泛化,并提高了算法的性能和模型。我们有实验选择了随机套索顶级特征选择算法的算法,这是一种稳定的选择。套索回归意味着罚函数用于解决目标函数的回归系数是L1参数化,见以下方程:
2.3.4。滑动样本代
通过以上数据预处理,使用特征选择有效的特征选择算法;本文利用2年的时间跨度和滑动来选择样本,样本在每个公司分别分为样本的一代。2年的时间跨度是最好的时间跨度进行测试。通过分析,如果时间跨度太小,它不会很容易把握趋势模式,如果时间跨度太大,样本的数量太小了,这将使预测效果差。具体操作过程如图2,最后与多个特征在多个数据集样本时间跨度。作为我们的目标是研究数据在新能源汽车公司的年度报告,不仅有数量有限的新能源汽车的公司,但是也有限数量的年的年度报告,因此滑动样本生成方法不仅可以更详细的描述的特性,同时保持了时间序列特征但也增加样本的数量和适用于较小的数据集。
3所示。构建基于格勒乌和CNN的深度学习预测模型
深度学习应用于新能源汽车企业的年度报告,预测和分析净利润的损益表,它反映了企业的经营和盈利能力,经营活动的净现金流量,现金流量表反映盈利能力的质量。最后的可持续性的基本判断单个企业和整个行业有一定的研究和现实意义。
重要的经济数据和时间序列预测的特点,本文首先使用机器学习模型的优点是简单,高效,稳定,如高钙模型(14),这是最简单的多元线性回归模型,可以处理线性关系好,和SVR模型(15),有多个内核函数,可以应用于数据与各种各样的特征。然而,他们没有充分考虑和反映的时间序列特征数据也不能提取底层特征之间的深度数据,预测结果,而平庸的。然而,出现这两个问题,可以使用深度学习方法改进。格勒乌模型(16),递归神经网络(RNN)的一种变体的复发性单元(17),尤其适用于时间序列数据,也解决了长期依赖问题,对于预测回归结果很重要,再加上卷积神经网络(CNN)模型,该模型可以有效地提取数据之间的潜在的重要特征。格勒乌和CNN模型(18因此适合我们公司财务报表的预测和回归。
3.1。CNN模型
cnn在提取当地高层抽象的特征有很大的优势,由于当地的知觉,体重分享和池层将采样(19]。CNN使用向前传播计算输出值和梯度下降法和反向传播训练模型,调整权重,偏见,等等。远期CNN卷积层计算公式如下: 在哪里K卷积的内核,包含n∗米权重。层的功能映射映射l−1是卷积K点积操作,然后总结和添加一个偏见,防止过度拟合。最后,激活函数用于获取功能的地图l层。为了减少计算复杂度和提取的主要特性,特性映射地图需要压缩,因此,将采样池层公式如下: 在()是一个函数,样本的特征值层l−1,例如,找到最大值和平均值,然后添加一个偏见的激活函数来获得一个特性的指定压缩后大小的地图l层。当使用反向传播算法训练集训练,重量和偏见,不断调整达到培训目标。这些设置重量和偏见可以用于获得回归预测当测试组测试。
CNN的具体操作大致如图3。
在输入层,输入样本中的每个特性都被视为一个神经元。设置后卷积内核的数量、大小、卷积移动一步,等等,使用重量参数的卷积计算内核反向传播算法,执行卷积操作和求和与神经元在输入层获得的特征图卷积层组成的特征值。汇聚层,我们使用的最大连接池算法,它集的大小池内核和滑步计算新特性值,形成压缩池层的特征图谱。
3.2。格勒乌模型
格勒乌模型不仅有能力RNN的时间序列数据,但是也有一个LSTM网络的优势,擅长处理长期和短期依赖关系。格勒乌模型如图4与方程(5)(12)。
格勒乌有两个重要的盖茨,更新和重置登机口。如图4,代表更新门。方程(5)连接输入的两个向量ht−1之前的隐藏层,然后执行一个点积的权重矩阵Wz。最后,结果是乙状结肠压缩在0和1之间的激活函数。越接近是0,更多的信息从先前的隐层应该被遗忘,隐藏层,和越接近1,更多的信息需要被保留在隐藏层。代表了重置门,类似 ,除了权重矩阵 ,如方程所示(6)。越更接近于0,前面的隐层的更多信息应该被遗忘在当前的记忆内容,是越接近1,更多的信息需要被保留在当前内存的内容。越接近1,更多的信息需要在当前的内存内容将继续保留。
在图4,代表候选人隐层状态(候选人激活),由相乘表示前一时刻隐藏层重置的门 ,用于确定有多少前一时刻隐藏的状态是被遗忘在当前内存的内容。然后输入有关矩阵,点缀着权重矩阵 ,最后−1比1的比例激活功能。最后商店所有的重要信息记录的格勒乌通过计算中的重要信息隐藏层前一刻以及重要的信息在当前的输入,见以下方程:
最后,有必要计算当前时刻隐藏层 ,用方程表示(8)乘以所有重要信息候选人隐藏层中的状态和更新门获取重要的信息需要得到更新。继续被保留的信息隐藏层前一刻总结得到隐藏层 。最后,通过点重量的产品矩阵然后输入乙状结肠激活函数,结果获得,见方程(9)。
上述过程是格勒乌向前传播的过程, , , ,和训练有素的参数, , ,和分别由两个向量矩阵缝合。这是显示在以下方程:
模型是由反向传播算法和梯度下降训练正规化。的参数,如重量和偏见,调整,更新,和迭代直至收敛损失;培训完成后,和测试集数据可以预测送入格勒乌。
3.3。CNN-GRU模型建设
利用潜力之间的关系特征的有效提取由CNN和格勒乌的强大能力来处理长期和短期的依赖关系的时间序列数据,CNN-GRU的施工过程20.),第一个模型结合CNN和格勒乌本文图所示5。
第一个输入样本大小是5∗的矩阵k,5代表一个样本,5年的时间步。k代表的数量特性特征选择后的样本。25损益表的特性选择上市公司培训时预测净利润,k是25。当从经营活动净现金流量预测,现金流量表是用来获得29个特征选择后的特性。特征选择后,可用29特性k目前= 29。
然后样本数据输入到CNN抽象的本地功能,和CNN Convolution2D被选中。首先,第一个卷积层是参加了训练,卷积核的大小设置为2∗3矩形,和卷积的内核数过滤器设置为32,可以得到32层的特征图谱,用于提取不同类型的潜在的关系和功能;卷积一步的进步都等于1。通过滑动卷积从上到下从左到右的顺序,填充属性设置为相同,因为边界信息选择被丢弃当填充等于另一个有效值。当设置为相同,边界信息保存,输入和输出大小保持一致,因为边界补充通过添加0。这一层是学会了使用ReLU激活函数,这是更容易学会优化,然后喂给第二个卷积层为了提取特征更多的深度。在这一层,卷积核的大小被设置为一个矩形3∗5,和过滤器的数量设置为一个更大的64存储提取的特征,导致厚64 -层特征图谱,与卷积步长进步仍然等于1。在汇聚层,窗口大小的池内核设置为2∗2矩形,窗口滑动的步骤是设置为2,ReLU激活函数。池之后,64年的层数不变,但是功能是压缩得到特征图,最后,一个辍学机制用于临时禁用隐层神经元在随机利率为0.25,有效缓解过度拟合情况。
样本的特征提取后的CNN网络,提取的特征可以平铺的时间顺序TimeDistributed(平())层保存的时间顺序特性。然后美联储格勒乌层特性,利用格勒乌的流程时间特性有效地和处理能力的长期和短期的依赖问题。最后,密集的完全连接层连接,最后使用线性预测结果输出的激活函数。
3.4。CNN +格勒乌融合模型建设
最后一列的功能在本文的样本被称为直接功能,和其他列的特性被称为间接功能。换句话说,当预测净利润通过过去的新能源汽车企业的损益表,最后一列是前几年的净利润的特点,和其他列的间接特征操作前几年的收入和销售费用。当预测经营现金流从经营活动现金流量表,最后一列是前几年的经营现金流的特性,和其他列间接退税等特性在前几年,在现金和现金等价物净增长。因为不同的特性有不同的潜在特征,在本文中,我们建立不同的模型为每个不同的特征进行训练最后合并和接头不同的抽象特性获得每个培训,然后进行下一个培训在一起获得更好、更理想的预测结果。我们的第二个模型的施工过程结合CNN和格勒乌,也就是说,CNN +格勒乌CNN和格勒乌融合(21),如图6。
首先,样本大小5∗k矩阵的输入,仍是最好的时间步5年后实验验证,k代表了许多有效的特性特征选择后,k当预测净利润,k= 29当预测经营性现金流。然后分为样品,样品和第一k−1间接功能是输入到CNN模型作为培训left-dashed框所示,和最后一列的直接功能特性k输入到格勒乌模型作为培训right-dashed框所示。
在左边的CNN模型,为了提取潜在的高层抽象间接特性之间的关系,首先进入第一层Convolution2D卷积,卷积核的大小设置为2的矩形∗3,并执行卷积操作顺序从上到下的顺序,从左到右,步长为1。32卷积核的数量设置为提取不同的特征,最后32层的特征映射可以获得在这一层。然后我们进入第二个层Convolution2D卷积,卷积核的大小在这层3∗5,和卷积核的数量增加到64存储提取的特征。激活函数的卷积层使用高效ReLU激活函数。为了减少参数提取和高级特性和关系更重要,一个池层是连接,使用最大池算法,每次选择一个矩阵的最大值池内核大小2∗2,目的是反映提取最重要的特性。然后使用辍学机制,将参数设置为0.5,随机让一些神经元隐层的神经网络失败,为了提高模型的泛化能力和其他方面的影响。最后,平层用于瓷砖CNN特征信息提取的后续培训。
格勒乌模型在右边,前几年的预测价值,他们直接输入到格勒乌模型非常适合处理时间序列数据和提取时间序列数据的长期和短期的依赖性使更好的这一部分的分析特性。所以最后一列的直接功能样品格勒乌与128个神经元的输入,而输入形状设置为(5、1),5代表一个时间步的5年,1代表一个列的功能。返回序列设置为False,以确保只有最后一个目标值输入结束时根据整个时间步训练后。相同的辍学机制参数为0.5格勒乌培训完成后使用。最后,格勒乌的重要特征提取模型。
在CNN和格勒乌模型训练中提取不同的特征,分别有必要使用最重要的合并融合机制提供Keras一起把两个模型和参数设置为concat整个样本提取后所有功能。那么所有功能是输入密度层培训完全连接在一起,最后输入到一个完全连接图层最终使用线性回归预测的激活函数。
4所示。实验结果和分析
4.1。评估标准
在本文中,为了评估实验结果,RMSE和R2首先选为评价标准。这两个题目是常见的标准判断预测和回归分析的结果。
均方根误差(RMSE)后获得的价值的根源预测值和真实值之间的差异,和RMSE是清晰的预测结果比MSE和更好的代表的真实值和预测值之间的偏差,因为错误的根源单位可以保持不变。计算公式(13)所示代表和预测价值代表了真正的价值。
确定系数(R平方,R2),也被称为拟合优度,表明在0和1之间变化。R2反映了预测效果的变化数据,比较实际值的预测值,见以下方程:
分子表示预测值-真值的平方之和,像均方,也就是说,训练模型中的所有错误的预测。分母是均值-真值的平方的总和,这是类似于方差,即猜测是真实值的均值。r2的值区间[0,1];当结果为0,这意味着模型预测偏离很多;如果r2等于1,这意味着相当准确,所以越近r2是1,模型预测结果越好。此外,大R2意味着模型预测结果更接近真实值。
4.2。模型实验结果
在本文中,我们建立了模型并进行了实验基于Python 3.6使用高级神经网络模块Keras Theano为后端。我们建立了高钙和支持向量回归(SVR)模型的深度学习方法和神经网络,CNN, RNN, LSTM,格勒乌一般神经网络的模型,卷积神经网络递归神经网络,长期短期记忆网络,封闭的复发性单元深度学习方法比较模型的实验比较。在构建机器学习模型,使用第三方模块Sklearn,在高模型中,样品是瓷砖和输入到模型LinearRegression()进行训练。初始化SVR在SVR模型中,使用径向基核函数。在构建深度学习模型,连续()模型,创建特定的模型通过添加add()函数,并通过一系列不同的层。在神经网络模型中,样品瓷砖,美联储只有一个完全连接层进行训练。在CNN模型中,使用两个卷积层和一层最大池。在RNN模型,它是由一层SimpleRNN (128)。LSTM模型和格勒乌模型是由LSTM /格勒乌(128年,input_shape return_sequences = False),分别。这些比较模型训练和测试CNN-GRU模型和CNN +格勒乌融合模型构建本文使用相同的训练集和测试集。 The experimental results are shown specifically in Tables1和2。
可以通过以下总结表1和2评价指标结果数据:(1)从每个评价指标的整体视图,机器学习高钙和SVR最吻合,但SVR略优于一般高。深入学习算法中,一般神经网络(NN)执行一般,和CNN和RNN有明显改善,而LSTM和格勒乌可以达到更满意的结果。然而,CNN-GRU和CNN +格勒乌融合模型构建本文基本上在每个评价指标达到最理想的效果;特别是,CNN +格勒乌融合模型在每个数据集的总体性能最好。(2)从R2拟合优度评价指标,CNN-GRU和CNN +格勒乌模型甚至可以达到0.8或0.9或更多的在两个数据集,也有大约5%比其他比较模型的最佳效果;和R2 CNN +格勒乌模型的价值会高于一般CNN-GRU约2%。(3)从均方根误差(RMSE) CNN-GRU和CNN +格勒乌模型可以达到约0.015在每个数据集,实现最低的RMSE值。
4.3。模型分析结果
为了进行比较,我们分析了新能源公司的实际数据,提出CNN +格勒乌融合预测模型。图7描绘图形对比净利润,净利润,提出预测净利润。表中的数据1和2和下面的图表显示了净收益大于0,净利润逐渐从消极变为积极,总体的趋势是上升的。CNN预测的净利润+格勒乌融合模型也适合实际净利润和可以预测的趋势。新能源汽车企业拥有更多的发展空间。
5。结论
在本文中,我们首先分析上市公司年度报告的PDF格式,通过ITextpdf PyPDF2和Pdfplumber技术,来解析和提取PDF表在一个更加规范与准确的方式,实现多年的目标数据批处理。然后数据清洗和规范化,随机选择套索算法用于功能稳定。我们研究新能源汽车企业的财务报表,和每个公司的数据是有限的,所以本文执行滑动样本代增加达到一个合理的样本数据和维护之间的时间顺序数据特性和最终获得与多个功能在多个数据集样本时间跨度。
我们已经成功地建立两个回归预测模型,CNN-GRU和CNN +格勒乌融合。通过在不同的数据集进行实验和比较与其他模型如高钙,SVR, NN, RNN, LSTM,本文构造的两个模型获得更满意的结果在每个数据集,R2值达到0.8甚至0.9或更多和RMSE基本上约0.015,表明预测的趋势基本上是与实际情况一致,并在一个全面的视图中,CNN +格勒乌融合模型的整体性能最好。
在实际的需求,有许多新能源汽车最近成立的公司,所以我们可以在这个问题上做进一步的研究和分析在随后的研究。年度报告中的其他数据和信息也很丰富,和更多的数据和指标可以更深入地研究提供更有利的帮助投资者和企业在新能源汽车产业基于深度学习。
数据可用性
在当前的研究中使用的数据集是可从相应的作者在合理的请求。
的利益冲突
作者宣称没有利益冲突。