文摘

银行财富管理解决方案现在已经成为最重要的一个组成部分金融行业经过近二十年的不断发展。然而,仍然有问题,如一个不完美的定价模型和一个模棱两可的定价机制。在本文中,我们使用机器学习来预测收益率无担保的金融产品,模型训练和预测后,随机森林模型和LightGBM模型有很高的适用性;也就是说,机器学习可以有效地用于产量预测的过程。

1。介绍

2018年是一个重要的转折点,银行财富管理业务。发布的“新资产管理规定”,银行理财产品显示的趋势无担保和资产净值符合政策要求。Yueqiu和Bo相信资本保证财富管理将逐步退出市场,商业银行在未来的主要任务是积极改变产品根据政策和透明地公布每日净值。事实上,无担保理财产品是银行的表外业务,可以归类为影子银行。由于其高风险近年来快速发展的趋势,影子银行吸引了从监管机构和学者的重视1]。

巨大的可用性数据和大量的科学计算工具的发展促进了使用机器学习近年来,随着计算机科学和技术先进。虽然机器学习问题,这仍然是一个相对较新的话题在资产定价。然而,不可否认的是,在瞬息万变的金融市场,大量的数据,很难找到变量之间的关系迅速而准确地与传统的预测模型。因此,基于机器学习的方法,我们将分析理财产品的收益率的中国商业银行和预测收益率根据其影响因素。

研究的其余部分组织如下:部分2概述的背景。部分3讨论提出的概念的理论分析。部分4讨论了模型,并在部分5的训练和预测,我们探索建议工作。部分6对整篇文章进行总结。

2。背景

与银行理财产品的发展,学者们开始关注产品产量的影响变量。Pelster和Schertler2)提出,最关键的是资本运营的方式影响指标。Acharya et al。3做出了实证分析的25家银行发行的理财产品在过去的7年,提议,理财产品的数量由于今年新发行的数量会影响收益。经验模型的测试后,沃恩和夏尔马(4)确定投资者的投资模式和投资目标将有一个角色,与收入是最重要的元素。此外,新产生的理财产品越来越受投资者的欢迎。根据监管政策变化的角度来看,Na (5)得出的结论是,监管政策的引入将会有一个短期抑制作用的回归财富管理产品,和产品,市场利率的决定因素是理财产品的回归。石羊et al。6)认为,一方面,商业银行贷存比受到严格控制,另一方面,由于其吸收存款的能力差,他们不能获得足够的资金来扩大他们的业务规模,通常需要发行理财产品作为替代存款。。因此,商业银行吸收存款的能力会差的产品制定较高的预期回报。

一些学者也进行了产量的预测研究。一些学者也进行了研究的回报率的预测。Ronghua et al。7)金融产品分类根据其风险水平根据银行金融产品的本质,然后使用半参数模型与随机效应构造和分析金融产品的收益率曲线。Chunling et al。8)的研究进展总结资本市场收益的可预测性,发现一台机器学习方法是近年来的研究热点。

氮化镓et al。9)提出了一个基于深度学习策略期权定价,速度可以产生更精确的结果。李等人。10)生成的股票技术指标的值使用股票的每日频率价格和交易量数据,然后利用派生技术指标的值作为输入变量来预测股票价格上升或下降的几天。锅等。11)使用神经网络来预测股票回报率来捕捉市场的三个因素之间的非线性关系投资组合回报率,账面值对市值价值比率,和市场价值。陈(12)进行了一系列的研究巨灾债券定价的风险息差和比较传统机器学习模型和回归模型的影响。

此外,机器学习可以应用在风险预测等领域。方和罗13)建立了一个风险指标报警机制使用随机森林算法分离风险警报指示器变量分为两类:企业特点和商业行为。

一些学者也比较了各种算法的应用程序。Breiman [14)认为,随机森林算法具有明显的优越性。由于大数定理,利用该算法不会overfit模型。Kampichler et al。15相比)的实际结果五个机器学习算法:决策树,随机森林、人工神经网络、支持向量机和基于规则的模糊模型,最后提出随机森林的预测效果是最好的。

3所示。理论分析

理财产品的收益率应该由产品本身的性质影响严重。资金投入的时间越长,不确定性越大投资者承担,他们面临的流动性风险就越高。此外,风险效应和阈值效应也会影响资金的时间价值,资本流动性和投资的风险投资,这是反映在产品的产量。

银行间也有一些变化。由国有资本和国有商业银行控制直接受到更大的监管。虽然财富管理方面所提出的产品没有法律保证,他们实际上是国家隐性担保信贷投资者和银行将资产定价时更加谨慎。

此外,较小的银行通常需要扩大资金来源扩大业务规模。理财产品的发行资产管理业务是一种形式。因此,为了提高运作效率和吸收资金,制定更高的收益率可能成为商业银行的方式增加财富管理业务的规模。

宏观经济变化会产生巨大和深远的影响对金融行业。这个职位在其他市场也应该被考虑。银行间市场地位是在银行间市场资金的流动性,因此,间接反映了银行的融资渠道。此外,相当一部分的资金理财产品发行后会投资于经营管理的基金池,和部分基金池涉及到股票市场。

因此,我们讨论的独立变量影响理财产品的收益率从四个方面:发行的银行,产品设计,宏观经济学,和其他市场。变量如表所示1

4所示。模型

4.1。多元线性回归模型

多元线性回归模型通常是用于研究因变量和多个独立变量之间的关系,这是由一个矩阵表示。

我们第一次使用多元线性回归模型进行回归预测两个样本集,建立模型1基于影响因素的分析:

模型2如下:

4.2。随机森林模型

随机森林模型基于装袋集成学习的方法,所以训练和构建随机森林模型的过程基本上遵循装袋集成学习的基本过程。具体地说,对于一个数据集D包含k样品,我们先执行k随机self-samplingD,收集k训练样本子集D1, D2,…, Dk,然后选择D1, D2,…, Dk trainand构造k决策树,然后我们可以结合这些决策树来获得一个随机森林模型。

2显示的名称、描述和设置随机森林模型的重要参数。

4.3。LightGBM模型

LightGBM模型部分优化传统的增强算法。因为传统增强算法需要扫描所有的采样点为每个特性来选择最佳分割点,非常耗时,而LightGBM算法是基于直方图。决策树算法大大降低了时间复杂度。直方图算法首先执行装箱处理特征值。连续特性,装箱处理离散化连续的数据,然后,不需要扫描每个特性的传统算法只需要按扫描的垃圾箱,加快培训。

3显示名称、描述和LightGBM模型中重要参数的设置。

5。训练和预测

5.1。数据

我们收集了201572 20商业银行发行的无担保理财产品(五国有商业银行、股份制商业银行、城市商业银行、商业银行和农业)从2017年1月至2020年12月。因变量是上界和下界的收益率发行的时候。

与此同时,我们收集的数据,比如最低购买数量阈值和设置在产品描述,以及发卡银行的资产规模,理财产品发行的数量,和银行的性质。选择的样本银行基于其发行规模近年来,和数据都是来自风数据库。此外,Shibor我们聚集索引,Fintech指数和居民消费价格指数的宏观经济运行。由于出版周期短,GDP和m2只有年度数据。同时,自20家银行的样本都是上市银行,收盘价作为一个因素被认为是在其他市场。

我们采取限制预期收益率和击倒预期收益率的金融产品样本作为因变量,名叫rate_max rate_min。

数据预处理后,我们样品后删除缺失值和极端值划分为训练集和测试集,测试集划分比例设置为0.2,和部门标准随机除以使用软件。

5.2。功能的重要性

随机森林算法可以测量的相对重要性每个特性值预测,也就是说,每个特性的平均贡献每棵树的随机森林模型。评价指标是用来计算错误。out-of-bag数据的差值计算通过随机添加噪声干扰特征值。我们利用随机森林方法检查和排名的重要性16个特征值处理后的样本特征,如图12

根据特征值的重要性排名结果输出的机器学习算法,在这两个样品,委托的时期是最重要的特征值,和风险的重要性和阈值也在上游位置。可以看出,财富管理产品的设计对预测的进步有着至关重要的影响。

然而,这是一个国有银行是否有小轴承。两个样品,银行资产和发行前一年有截然相反的重要性和影响力。

宏观经济的操作变量,国民生产总值和m2在两个样本集都将有一个更大的因素对预期收益的影响。

其他市场,股票市场影响收益率高于银行间市场。一方面,上市商业银行的股票市场情况代表了银行的声誉和投资者的信心,另一方面,基金通过银行通过发行理财产品也将进入股票市场。

5.3。预测

多元线性回归模型的预测结果如图所示3。由于样本量大,只有100块的结果数据图所示。水平轴的测试集的序列号,纵轴是预期的返回值,这两条线是真正的价值和预测价值通过多元线性回归模型。从图可以看出3两条线不符合,并预测了多元线性回归模型不符合真正的价值。

我们使用的平均绝对误差(MAE)指数,均方根误差(RMSE)指数,和r平方得分和分析模型的回归结果。

平均绝对误差是用来测量之间的平均绝对误差预测值和真实值。美越小,模型越好。这是定义如下:

均方根误差也用来表示模型将产生的错误预测。指标越小,模型越好。这是定义如下:

r平方代表模型的适应。值越接近1,模型越好。这是定义如下:

在随机森林,n_estimators弱学习者的最大迭代数的随机森林模型,也称为弱学习者的最大数量的随机森林。我们设定这个参数的范围从1到200,和其他参数暂时设置为默认值;然后,我们使用网格搜索命令调整参数的上限和下限的预期回报率样本金融产品。

随机森林模型,最大深度是树的最大深度。如果不改变,默认值是没有,这意味着决策树不会限制时子树的深度。当样本容量小,该参数将不会过度影响回归的过程。样本容量比较大,所以我们调整的最大深度参数两个样本集,分别设置max_depth参数范围从1到100。调整后的结果参数如表所示4

应用调整参数后的回归预测模型,具体的预测结果如图4显示,只有100条结果。从图可以看出4尽管一些点的两个折扣不重叠,趋势基本上是相同的。

我们使用了网格搜索方法优化LightGBM模型的参数是随机森林模型和不断改变的间隔和步长,直到我们实现理想的参数值,这是显示在表中5。其中,Num_leaves是叶子的数量在每棵树,和这个参数有着重要影响的复杂性模型树。

我们应用的优化参数回归模型得到的预测结果图。由于样本量大,只有100条结果如图表所示。如图5、两个折线有高度的配合和有相同的趋势。

5.4。比较

预测的上下界的预期回报率的金融产品在本例中,我们利用多元线性回归方法,随机森林,分别和LightGBM模型。梅的比较结果,RMSE和r平方值的每个模型如表所示6

帽样的美和RMSE指标的多元线性回归模型是0.24和0.28,分别在地板上样品,他们是0.27和0.30,分别显示高错误。然而,随机森林模型的误差值和LightGBM模型并不完全不同,他们既不超过0.26上样本集也不低0.20的样本集。

r平方是健康指数。帽样本集,r平方的三个模型是0.67,0.46,和0.39,分别。在地板上样本集,他们是0.51,0.72,和0.81,分别。可以看出LightGBM回归模型的拟合程度是最好的,其次是随机森林模型,最后多元回归模型。多元线性回归模型的预测效率和其他两个模型是完全不同的。

6。结论

我们使用多元线性回归模型,随机森林,LightGBM合奏学习预测的产量20商业银行发行的无担保理财产品在过去的四年。

预测的实证研究通常分为两个部分,第一个是考试的特征值的重要性排名。然后,基于两组样本的特征值的重要性,我们构建了一个机器学习模型,使预测价值的回报。无论样本集,LightGBM回归模型的拟合程度是最好的,其次是随机森林模型,最后多元回归模型。

数据可用性

在当前的研究中使用的数据集是可从相应的作者以合理的要求。

的利益冲突

作者宣称没有利益冲突。