文摘

金融文本情感分类是非常重要的对于预测股票市场和金融危机。目前,随着应用程序的流行领域的自然语言处理(NLP)采用深度学习,自动文本分类和文本情感分类的应用越来越广泛。然而,金融领域的文本情感分类,由于缺乏标记样本,这样的应用程序是有限的。domain-adaptation-based金融文本情感分类方法提出了本文可采用源域(SD)与情绪标签和大量的文本数据标记目标领域(TD)金融文本数据,提出了神经网络的训练样本。该方法是一个跨域transfer-learning-based方法。子网域分类添加到原始神经网络和域分类损失函数也添加到原始训练损失函数。因此,网络能够同时适应目标域,然后完成分类任务。拟议的情绪分类转移的实验学习方法是通过一个开源的数据集进行的。该方法在本文中使用亚马逊的评论书籍,dvd、电子、和厨房电器作为源域跨领域学习,和分类准确率可以达到65.0%,61.2%,61.6%,和66.3%,分别。与nontransfer学习相比,分类准确率提高了11.0%,7.6%,11.4%,和13.4%,分别。

1。介绍

与大数据等技术的快速发展,人工智能,和深度学习,如何采用这些技术对金融领域已成为一个研究热点。金融文本情感分类的基于机器学习的预测股票市场和金融危机具有重要意义。基于金融文本情感分类与传统方法相比,它具有以下优点:(1)可以减少人类情感因素的影响,(2)可以采用大量数据样本进行分析。事实上,情绪预测基于机器学习的文本金融已成为一个研究热点。通过分析当前金融文本从互联网上,初步判断可以对当前的经济基本面。

目前,在文本分类领域的深入研究。文本表示,Collobert [1)首先提出通过这个词来表示文本向量。参考文献(2,3)提出了一个word2vec表示方法。在这种方法中,单词不仅可以表示为向量,但表示还嵌入一词向量到另一个空间,这个空间中的向量距离可以表达语义和语法相似。word2vec的表示方法采用了语料库的先验信息,这是训练通过CBOW模型(4]或skip-gram [5)模型得到的向量表示的单词。一般来说,由于语料库涵盖了广泛的文本,也代表提到的词表示方法。文献[6)提出了doc2vec模型通过扩展文字段落,文本表示的粒度在哪里发生了变化。基于文本的分类,它可以分为传统machine-learning-based和deep-learning-based方法。作者在7)提出了一种层次支持向量机(SVM)方法对文本进行分类。作者在8)提出了改进传统的决策树的剪枝策略模型对文本进行分类,取得了良好的效果。作者在9)建议使用朴素贝叶斯模型对文本进行分类。自从deep-learning-based方法可以从样品中提取更抽象和高级特性,它们通常比传统方法具有更好的分类性能。作者在10)首先介绍了深度学习的领域自然语言处理(NLP)。作者在11)结合词向量和卷积神经网络情绪分类的文本和取得了良好的效果。

本文的主题是金融文本情感分类。判断金融文本是否积极通过分类网络可以具有重要意义判断当前的经济形势和投资热情。它有预测股票市场和金融危机具有重要意义。然而,在金融领域的文本情感分类,从文本情感分类在其他领域最大的区别是缺乏大量的标签样本。因此,金融文本情感分类的应用大大受到限制。为了采用深度学习的方法来执行金融文本情感分析,一个简单的想法是使用跨域的学习方法将情绪从其他域分类知识转移到金融领域文本。一般来说,转移在这个领域学习的方法可以分为三类。(1)第一类参数fine-tuning-based方法。在[12),通过pretraining卷积神经网络使用源域数据,然后采用目标域数据调整神经网络的参数,原神经网络可以被转移到目标域。这种方法的一个缺点是,它需要大量的标记目标域数据。因为金融文本标记数据的数量是不够的,这种方法不适合金融文本分类的应用。作者在13]提出冻结浅网络参数的过程中参数的微调,只有改变更高级别的网络参数。方法的原理是,跨域样本的浅特性是相同的,但高水平的抽象特性是不同的。因此,只有高级功能需要被转移。这种方法可以减少所需的标记样本数量在目标域但仍不适合应用在我们的纸上。(2)第二类是学习特征表示方法。作者在14,15)提出,跨域表示学习可以通过堆叠进行去噪autoencoder (SDA)。学习后,可以获得特征提取的神经网络。网络可以提取不同数据域之间的共享特性。采用共享中提取特征向量,可以解决跨域文本情感分类的问题通过SVM分类器。在这种方法中,不需要标记目标域样本。作者在16,17]提出一个金融文本情感分类方法基于生成对抗网络(GAN)相结合产生的随机噪声在生成网络文本表示向量。然后采用判别网络模块区分真正的源域样本,生成的样本,和情绪。该方法可以取得良好的成果,但网络的训练需要大容量的数据集。作者在18,19]提出采用主动学习方法,该方法可以有效地减少标签样本的数量在目标域。作者在20.,21]提出一种敌对的学习方法;情绪分类学习和域辨别学习领域适应气候变化的目的。

金融的文本情感分类方法提出了基于无监督领域适应(DA)。该方法可以转移情绪源域到目标域的分类知识的金融文本。尽管源域和目标域的分布是不同的,共享功能仍然可以学习分类。该方法具有以下优点:(1)它不需要金融文本标签样本,方法是无监督的实际情况,适合金融缺乏情绪标签文本和(2)该方法中采用的网络结构类似于原始的网络结构,唯一的区别是,子网域分类需要补充道。这可以使该网络结构不太复杂。该方法是一种跨域的神经网络学习方法转移。子网域分类添加到传统的情绪分类网络和域分类成本添加到原来的培训成本,网络可以同时适应目标域以及源域。情感分类的迁移学习的实验是通过开源数据集进行的。拟议的情绪分类转移的实验学习方法是通过开源数据集进行的。该方法在本文中使用亚马逊的评论书籍,dvd、电子、和厨房电器作为源域跨领域学习,和分类准确率达到65.0%,61.2%,61.6%,66.3%。 Compared with nontransfer learning, the classification accuracy rate has improved by 11.0%, 7.6%, 11.4%, and 13.4%, respectively.

2。方法

本文要研究的问题可以表述如下:训练后的标签文本数据来源域和无标号数据在目标域,情感分类是在目标域上执行的,也就是说,金融文本。其中,文本的向量样本源域的表示为 ,在哪里 表示的向量表示 - - - - - -th样本,可以表示成相应的标签 ,在哪里 代表的标签 - - - - - -样本。目标域的示例中,它是表示为 ,和相应的域标签 在本文的应用,分类所需的数量是2,这是积极的评价标签和负面评价标签。在这种方法中,根据源域模型训练样本和目标域样本集的一部分,然后在目标域测试集样本用于测试模型的准确性。在本节中,介绍了模型根据下面的部分。首先,域的整体模型适应在这篇文章中介绍。其次,本文模型的成本函数。最后,介绍了该模型的训练过程。

2.1。提出了网络的结构

本文提出的模型图所示1。可以看出,本文的模型分类子网域添加到传统的分类模型。域转移学习本的想法是:通过添加子网域分类,提取的特征不能区分数据域。因此,提取的特征从不同的数据域更相似,从而实现学习目的转移。

本文提出的网络结构是由三个子结构:特征提取子网,人气预测子网,子网域分类。介绍了三个子网的细节如下:(1)详细的结构特征提取子网图所示2。输出是提取的特征向量,可以表示为 本文特征提取网络可以有两种结构。如图所示,第一个是一种常见的卷积网络结构,包括卷积网络层的三层。特征提取子网是类似传统的卷积网络层,由浅到深的中提取特征样本的分类。第二个是特征提取结构的残余网络。由于残余网络卷积不相邻层之间的直接联系,它通常是更容易训练。在我们的实现中,采用剩余网络结构特征提取子网。在传统的卷积神经网络中,由于只有分类的成本函数,提取的特征可以用来区分样本的标签。然而,在此,情绪分类成本和域分类成本都是采用。通过培训,特征提取子网可以提取功能,满足以下两个条件:首先,情绪分化的特性可以有效地采用,其次,它无法分辨哪些域输入样本来自根据提取的特征,例如,金融数据域的文本或普通产品评论文本。(2)情绪的结构分类子网如图3,它由两个完全连接层加上一层softmax最后情绪预测。前面的特征提取的输出特性子网可以采取作为输入,输出的概率表示样本是否属于积极的评价。上述特征提取子网,子网情绪分类可以形成一个传统的情绪分类神经网络。因此,在本文中,现有的神经网络结构的情绪分类可以直接使用。跨域的情绪分类网络,可以获得与改善现有的情绪分类网络。下列方程表示将softmax层操作, 代表的类别和数量 代表的特征输入维度 (3)域的结构分类网络如图4。域分类子网,它的主要目的是能够区分样本是否来自源域和目标域的(本文样本来自金融或其他文字)。正如前面提到的,对于特征提取子网,我们希望提取功能,无法区分样本数据域,实现转移的目的学习。然而,这个目的是矛盾的领域分类的目的。为了解决这个问题,如图4反向梯度层添加到传统分类网络。相反的梯度层可以表示如下:

其中, 代表的功能相反的梯度层的向前传播。在向前传播,这一层没有任何影响数据的传播。梯度是backpropagated时,原始梯度层增加了一个负号。设计以这种方式相反的梯度层可以使子网域分类训练,使特征提取子网获得特性,无法区分域。

2.2。的损失函数提出了网络

根据上面的描述,表1显示功能和参数的符号在不同的子网。

根据上面的符号,可以看出有两种网络结构中的成本函数:(1)情感分类的成本函数:成本可以表达的 ,可以写成如下: 在这里 表示指数的样本, 代表样品的数量, 代表相应的情绪标签样本, 代表输入源域的样品, 代表相应的熵函数,该函数可以写成: 在哪里 代表将softmax层和的输出 代表一个炎热的编码的数量根据实际情绪分类标签。(2)域分类成本函数:可以写成本如下: 其中, 代表了成本函数, 代表样本的指数, 代表样品的数量, 代表相应的域标签样本, 代表了样本的输入源或目标域,和 表示域分类叉: 在哪里 代表的输出将softmax层域分类子网和 代表域资源的数量在一个炎热的编码。

根据情绪分类成本函数和域分类成本函数、总成本函数可以写成: 在哪里 代表了总成本函数和参数 表示两个成本函数的比值。指出,一个负号前添加域分类成本函数,相当于上述梯度反向传播层的操作。后添加负号,培训过程相当于最大化子网域分类的成本同时最小化成本的情绪分类子网。通过这种方式,特征提取的特征提取子网可以有效区分情绪标签区分领域,同时不敏感。

2.3。培训流程

根据上面提到的总成本函数,在培训期间,不同子网参数可以更新如下:

的参数 显示更新速度。学习速率的值 在我们的实现中被设置为0.0005。学习速率的值是一个典型的值。

在实际培训过程中,培训是分批进行。为了优化所有成本函数项在每一批,批处理采用这里需要包含的样本源域和目标域。因此,在优化过程中,有一定的对抗情绪分类的成本最小化和最大化之间的关系领域分类的成本。这里的参数 决定了两个成本函数的比例。在培训过程中,hyperparameter 将根据以下方程:

设置hyperparameter根据上面的公式,优点如下。(1)在早期阶段的训练,识别率低的价值 接近0。设置 接近于0可以训练网络成为一个纯粹的情绪分类网络学习不考虑转会的问题。(2)当 的增加, 也增加了。这意味着收敛的特征提取和情绪分类子网在训练,转移成本的学习应该考虑。的参数 决定了转换速度两种情况。只在一个情况下,识别率。在其他,只有域分类精度。在上面的公式中,的价值 根据后续实验设置为25。

3所示。结果与讨论

3.1。采用数据集

为了验证提出的跨域情绪分类方法,采用经典的亚马逊的数据集。数据集包含超过340000条评论,覆盖22个不同的产品。因为数据集包含太多的类型,设置的大小很大,和积极的和消极的评论是不均匀;,相应的减少了亚马逊的数据集采用实验。减少数据集的基本知识如表所示2。可以看出,文本的数据集包含四个不同的领域:书籍,dvd,电子产品,厨房用具。每个类别包含2000个标记的评论,其中1000是积极的评论和1000年负面评论,各占50%。此外,他们都有几千张不带标签的评论。减少数据集可以用来评估领域适应方法。为了验证情绪分类的效果在金融文本字段,Stocktwits也采用了微博数据集,其中包含2000份未标记样本和500个样本标签。在这个实验中,可以使用此数据集的目标领域的研究。

3.2。该方法的性能

根据上述数据,该方法可以得到证实。四个产品降低了亚马逊的评论数据集作为源域,和微博数据集作为目标域用于训练和测试。测试结果如表所示3,不同的源和目标域对应表中的不同情况如表所示4。可以看出,该方法可以有效地进行跨域情绪分类、及其校正率可以达到65.0%,61.2%,61.6%,和66.3%的情况下,B, C和D,分别;与结果没有转移学习相比,识别率提高了11.0%,7.6%,11.4%,和13.4%,分别。对于平均识别率,提高了10.9%。该方法没有转移学习方法没有子网域分类。本节的主要目的是验证传递学习方法。因此,该方法比较具有相同的结构方法,唯一的区别是,没有子网域分类。

4所示。方法的比较

该方法与前面提到的基于svm方法相比,参数调整方法,SDA-based传输方法。在此,基于svm方法作为基准的方法。注意,在基线法,转移学习不执行。添加基线方法的目的是评估转移的影响根据以下度量学习方法。为了更好的比较转移效应,灵感来自[14),转移率指数 和在域比指数 定义。其中,转移率指数 可以表示如下: 在哪里 分别代表了源域和目标域; 代表的数量对从源域到目标域; 表示传输错误,它表示测试误差传递学习;和 代表了在域根据基线误差的方法。转移率指数反映了转移相应的方法,学习效果和其价值呈正相关转让学习方法的性能。在域比指数可以表示如下:

其中, 代表所有域的数量; 代表了在域错误相应的方法,也就是说,测试错误条件下训练和测试都是在源域,和 代表了在域基线误差的方法。在域的错误可以用来表示情绪分类方法的影响的条件下相同的数据域进行训练和测试。值越小,更好的分类性能。图5显示的比较转移率和拟议的方法,在域比基线方法,参数调整方法,SDA方法。可以看出,转移和在域的值错误本文提出方法的都是最小的,这表明,该方法的分类性能最好不仅在同样的领域,也为实现的情况下。采用了数据集的数据量不够大的GAN-based网络。因此,它不是在我们的实现中。这也显示了GAN-based方法的缺点,这是很难被训练。GAN-based方法的性能将在未来研究。

6显示了酒吧的情节跨域识别利率,包括方法、基准方法,参数调整方法,SDA方法。表5显示了跨域的平均识别率的比较四种方法。可以看出,该方法的跨域识别率达到63.5%。与基线方法相比,参数调整方法,SDA方法,平均识别率提高了11.1%,5.1%,和1.8%,分别。

5。结论

financial-text-based情绪分类,通常很难获得高识别率由于缺少金融文本标签样本。为了解决这个问题,转移学习方法提出了基于域的适应。在该方法中,大量的源域文本样本采用情绪分类。该方法是一个跨域transfer-learning-based方法。子网域分类添加到原始情绪分类网络和域分类损失函数也添加到原始训练损失函数。因此,网络可以同时适应目标域和完成分类任务。拟议的情绪分类转移的实验学习方法是通过开源数据集进行的。该方法在本文中使用亚马逊的书籍、dvd、电子、和厨房电器作为源域跨领域学习,和分类准确率达到65.0%,61.2%,61.6%,和66.3%,分别。与nontransfer学习相比,分类准确率提高了11.0%,7.6%,11.4%,和13.4%,分别。与基于svm基线方法相比,CNN-based参数微调转移学习方法,和SDA-based方法,平均识别准确率提高了11.1%,5.1%,和1.8%,分别。

采用了数据集的数据量不够大的GAN-based网络。因此,它不是在我们的实现中。这也显示了GAN-based方法的缺点,这是很难被训练。GAN-based方法的性能将在未来研究。

数据可用性

亚马逊的数据集是对外公开的。

的利益冲突

作者宣称没有利益冲突。

确认

本文被批准作为人文社会科学研究项目由湖北省级教育部门(19 g009)。