文摘

法律判决预测(LJP),是一种有效的法律助理和关键应用系统,旨在确定判决结果根据信息基于事实的决心。在真实的场景中,处理刑事案件中,法官不仅利用事实描述,但是还要考虑外部信息,如被告的基本信息和法院的观点。然而,大多数现有的作品以事实描述为LJP的唯一输入而忽视外部信息。我们提出一个Transformer-Hierarchical-Attention-Multi-Extra (THME)网络充分利用信息的基于事实的决心。我们现实世界的大规模数据集上进行实验刑事案件的民事法律制度。实验结果表明,我们的方法优于所有最先进的LJP方法判断预测任务。

1。介绍

法律判断预测(LJP)旨在预测判断结果根据信息基于事实的决心,由事实描述,被告的基本信息,和法院的观点。LJP技术可以提供便宜的和有用的法律判决结果不熟悉法律术语的人,和他们也有利于法律咨询。此外,他们可以作为一个方便的参考专业人士(例如,律师和法官),可以提高他们的工作效率。

LJP被认为是一个典型的文本分类问题,已经研究了多年1]。例如,刘等人提出了浅层文本特征提取(如汉字,单词和短语)费用预测(2]。Katz等人预测美国最高法院的决定基于高效特性从案例概要文件3]。罗等人结合事实描述和相应的法律文章预测费用(4]。LJP虽然已经取得了很大的进步,仍然存在一些问题,如多个子任务,拓扑子任务之间的依赖关系和相似病例描述不同的处罚。钟山等人指出,法律文章预测的基本子任务在一些国家(如中国、法国和德国)的民事法律制度,而这些子任务在现实世界中有严格的顺序(5]。此外,杨等人提出了一个神经模型之间的交互子任务的结果(6]。

尽管这些努力在设计高效的特性和使用先进的自然语言处理(NLP)技术,LJP仍然面临两大挑战。

1.1。外部信息的缺乏

一些现有的作品提出各种机制中提取信息的描述,比如这个词集合注意力机制。一些其他作品提出各种框架建立子任务之间的依赖关系,如子任务和MPBF DAG依赖性。然而,对于判断文档图1还有许多其他的信息项,可以利用除了描述。这些信息被称为外部信息包括被告的基本信息和法院的观点。因此,如何有效地利用外部信息是一个重大的挑战。

1.2。编码长文档是很困难的

事实判断文档中描述往往是长文档,其中包含长期依赖问题。许多现有的模型,如递归神经网络(RNN) [7]和卷积神经网络(CNN) [8),表现良好的文本处理无法处理长期依赖问题。有一些关键字LJP的判断文档是非常重要的。很难判断文档中找到他们。

为了解决上述挑战,在本文中,我们提出了Transformer-HAN-Multi-Extra (THME)网络。它包含一个结构化数据编码器获取外部信息的语义以及Transformer-Hierarchical关注网络(TH)编码器编码的事实描述。具体来说,如图1从被告人的基本信息,我们可以得到被告的性别、年龄、教育程度和内容相关的犯罪记录被告使用正则表达式。同样,我们可以得到一些客观属性的情况下,如数量、情节和后果,从法院的观点。基于大样本的统计分析,我们可以发现数据和处罚的条款之间的关系如表所示1,象征” “代表”相关。“例如,给定相同的条件下,雄性的处罚条款比女性的某些情况下长。我们使用符号” ”表示正相关。例如,情况更严重的情节,就会越长,被告人的处罚条款。我们使用符号” ”表示负相关。例如,被告有罪的态度越好,越短被告人的处罚条款。值得注意的是,这样的结论在判断文档是重要的点球,但不能用它作为输入来预测的条款处罚。如果是用作输入预测处罚条款,似乎这样的猫偷时总是闭着眼睛。因此,我们首先利用外部信息来预测情况下的结论,然后使用它的外部信息预测的条款处罚。与此同时,根据数据属性,我们将数据划分为连续和离散的类型。然后,我们通过连续提取所需的信息数据编码器和离散数据编码器。为了减少信息损失的过程中,把句子转换成固定长度的向量,采用一种注意力机制。但是,它不能解决一词多义的问题。然后,我们选择一个合适的变压器(9]。变压器结构的关注;它优于RNN在解决长期依赖问题和执行比关注一词多义。层次关注网络(汉族)很容易抓住长文档中的关键字(10]。因此,我们可以把变压器与汉族来解决长期的依赖问题。实验结果表明,Transformer-HAN的性能比门复发单元(格勒乌)汉。

总结了本文的主要贡献如下:(我)我们提出一个新的文本处理结构,即Transformer-HAN,提高文本编码能力。这个模型可以解决比GRU-HAN长期依赖问题。Transformer-HAN编码器使用注意机制除了必要的完全连接层的参数矩阵,它很速度比编码器结构基于格勒乌和长期短期记忆(LSTM)。(2)我们提出一个结构化数据编码器。引入外部信息作为辅助,我们从被告的基本信息中提取有关数据和法院认为模型的补充信息。根据不同属性的数据,我们设计两个连续和离散数据编码器。实验表明,基于事实的决心可以有效改善信息判断预测,尤其是对处罚的条款的预测。(3)实验结果表明,该THME few-shot数据的网络可以有效地提高预测精度。本文macro-average法律的三个任务指标预测,预测,和处罚方面预测相对改善与其他模型相比,这表明few-shot数据的预测精度都得到很大的提高。

本文的其余部分组织如下。部分2简要回顾了相关工作。在第三节,我们建议THME总体框架和详细的方法。并给出了实验结果和分析第四节。最后,第五节包含了结束语。

2.1。法律判决的预测

随着中国法律的发展数字化过程中,最关键的任务之一在LegalAI步骤,LJP已变得越来越重要。由于机器学习和文本挖掘技术的发展,更多的研究者形式化这个任务在文本分类框架。大多数这些研究试图提取文本特征(11- - - - - -13)或引入一些外部知识(4,14]。然而,这些方法只能利用浅特性和手工设计因素;通常这些方法的效果变得更糟的是当应用到其他场景。因此,研究人员利用其他技术来提高模型的可解释性和泛化。例如,江泽民等人利用深层强化学习获得的短片段文件的描述来预测费用(15,陈等人提出了一个法律图网络犯罪(LGN)来实现高精度的分类(16]。由于稀薄的某些类型的情况下,在现实生活中,few-shot问题是不可避免的。虽然一些研究人员使用机器学习很难解决这个问题,其他人发现,神经网络有良好的结果。例如,陈等人提出了一种神经网络模型通过将法律文章和事实描述嵌入到相同的嵌入空间以同样的方式(17]。杨等人提出了一个重复的相互影响的机制来模拟法官的判决的过程(18]。

2.2。多任务学习

多任务模型有许多有利影响深刻的学习任务。Sulea等人提出了多个任务,包括法律的文章预测,预测,和处罚的预测方面,测试机器学习在司法领域的应用(19]。钟山等人提出了一种网络拓扑结构,它可以模拟法官的判断过程来提高性能的各种任务。杨等人设计了一个多角度Bi-Feedback网络(MPBFN)来加强之间的联系任务,使任务流在两个方向上的结果。王等人法律之间的关系的文章设置为通过分层树结构匹配网络(卫生计量系统网络)和匹配相关法律文章通过一个两层的匹配网络(20.),从而提高工作效率。

多任务学习的出现促进了LJP的发展;然而,由于缺乏外部信息,这也导致不满意的预测的惩罚。在这项工作中,我们提出一个框架来有效地利用外部信息。不同于大多数现有的工作,我们从事实描述和提取信息的外部信息并将它们合并成一个拓扑分类器预测LJP的三个子任务。

3所示。方法

在本节中,我们将描述THME网络。我们第一次给LJP任务的基本定义和THME网络的组成部分3所示。13所示。2,分别。我们描述一个文本编码器的事实描述部分3所示。3。我们在部分介绍了结构化数据编码器3所示。4。最后,分类器提出了部分3所示。5

3.1。问题公式化

在大多数中国文本处理任务,char-granularity处理优于word-granularity处理(21),所以对于每个判断文档,我们将每个汉字作为令牌。描述是一个令牌序列 ,在哪里 是令牌的数量。这可以减少模型的复杂性,使其适应更容易。除了输入 ,被告的基本信息和法院的观点也视为外部输入的结构化数据编码器。鉴于这些输入,我们将预测适用法律的判决结果的文章,费用,和处罚方面,这是一个多任务分类的问题。

3.2。概述

我们的THME由三部分组成,即。,the text encoder, the structured data encoder, and the classifier. The text encoder is composed of text embedding layer, text convolution layer, main encoder layer, and information extraction layer. Due to different attributes of the structured data, we divide structured data into discrete data and continuous data, for which we propose discrete data encoder and continuous data encoder, respectively. The classifier is implemented with a topological structure, which utilizes the topological dependencies between subtasks in LJP. The general framework of the THME is shown in Figure2

我们采用文本编码器中提取信息的描述;事实描述是嵌入到CNN,高级功能正逐渐从浅中提取文本特征。 代表了jth汉字th句子。编码器的主要层实际上是Transformer-HAN,包括两个层次:第一层聚合标记级特性文句上的特性,和第二层骨料字面意思特性添加到文本级别特征。最后,我们生成四个隐层的状态 对应于三个子任务LJP和 对应的情况下的结论是至关重要的在预测处罚的条款通过信息提取层。接下来,我们使用正则表达式提取离散数据和连续数据从外部信息。然后,我们连续数据标准化,嵌入离散数据,并输入到离散数据编码器和连续数据编码器,分别。这两个编码器的输出相结合生成结构化数据向量 和隐层状态 连接成一个完整的连接网络来预测这样的结论 这样的结论向量 和结构化数据向量 结构化数据编码器的输出 最后, 并在LJP隐层的所有子任务 连接到与拓扑结构分类器预测法律文章,收费和罚款。

3.3。文本编码器的事实描述

我们雇佣一个文本编码器生成向量的事实描述作为分类器的输入。我们将简要介绍这个编码器由查找层,卷积层,Transformer-HAN层和信息提取层。

3.3.1。查找和卷积

在令牌序列 作为输入,通过两层编码器计算一个简单的文本表示,即:一层一层和卷积,查找。

(1)查找。我们首先把每个令牌 成一个自然数 通过预处理字典映射。令牌序列 转换成一个整数序列 接下来,我们提出一个初始化的词序列嵌入 ,在哪里 是字典的大小。 映射到 通过嵌入这个词序列 因此,我们可以获得的文本嵌入序列 ,在哪里 的长度是嵌入。

(2)卷积。为 ,我们用卷积矩阵卷积操作 给出的 在哪里 连接词嵌入的吗 - - - - - -th窗口, 是偏差向量, 过滤器的数量, 是一个滑动窗口的大小。我们在每个窗口应用卷积 最后获得 汉字矢量卷积后语法功能;也就是说,卷积后汉字矢量上下文特性和不再是孤立的。

3.3.2。Transformer-HAN编码器和信息提取

(1)Transformer-HAN编码器。变压器目前最主流的信息提取器,主要是由于其独特的注意机制,实现真正的双向编码。然而,多层变压器编码器的参数的数量是非常巨大的。为了充分利用变压器同时限制参数的数量,我们设计Transformer-HAN作为我们主要的编码器。

Transformer-HAN编码器分为两层:第一层为中国使用变压器character-granularity编码,然后使用注意力机制,在每个单词嵌入提取最重要的信息,并将它们组合成句子向量。第二层使用变压器sentence-granularity编码,然后使用注意力机制中最重要的信息提取句子向量,并结合成一个chapter-granularity向量。因此,分为事实描述 句子 ,th句子组成 汉字 ,在哪里

由于变压器编码器对汉字的位置不敏感,我们需要添加的位置嵌入嵌入之前输入的词。汉字的jth句子 ,我们计算它的位置矢量 作为 在哪里 这个汉字的位置在句子, 的索引吗 - - - - - -th价值在其词中嵌入 是其词中嵌入的维数。所有汉字的位置向量的句子 形式的序列 然后,我们合并句子的位置 获取句子序列的信息的位置 给出的 在哪里 以聪明元素添加操作。

变压器编码器由多线程(尼古拉斯),注意添加&标准层和前馈(FF)。多线程的注意力由Self-Attention,输入 , , 都是一样的。多线程的注意转换 , , , , 通过使用一个参数线性变换矩阵。接下来,我们应用Self-Attention提取语义信息的机制。重复这个过程 次了。结果连接在一起,然后执行线性变换。给出的计算过程如下: 在哪里 ()是向量连接操作, 头的大小, 的参数矩阵。

添加&标准层包含添加图层和标准层。首先,我们合并的输入多线程的注意 的输出 并获得语义向量 作为

有两个原因:首先,它可以弥补信息的缺乏。第二,它相当于引入公路网络。backpropagating网络时,它的一部分可以直接传播到原始信息不经过复杂网络,防止梯度爆炸或梯度消失。然后,我们采用归一化层(22]规范化 并获得 因此,我们得到句子的顺序 作为 在哪里 参数矩阵和吗 是基本向量。然后,我们使用注意向量提取主要信息。为了使句子向量 ,我们初始化一个向量的关注 并获得 作为

同样,我们得到的句子顺序 这个句子编码器基本上是一样的汉字编码器。所不同的是,令牌矢量被替换为一个句子是由汉字编码器。

因为我们仍在使用这个句子变压器编码序列,我们首先计算句子的位置向量 和合并句子顺序 通过

变压器作为输入, 通过变压器的尼古拉斯,添加&标准层和前馈序列获得一个新的句子 ,更高层次的特点和更全面的和有用的信息。

(2)信息提取。LJP的最后,对于我们的三个子任务和案例的结论,我们需要四个不同的注意向量提取四种不同的信息从相同的信息序列。我们第一次初始化四注意向量 并获得向量 作为 在哪里 完全连接矩阵和吗 是偏差向量。

3.4。结构化数据编码器

就像一个法官的深度学习模型。我们训练模型和保持喂养数据模型,就像不断显示不同的情况下,法官和法官的职业素质培训。然而,大多数以前的工作只给“看见”模型描述的事实。在实践中,法官判决被告不仅会基于事实描述判断的时候。判断预测的过程中,我们有时需要一些明确的数据来定罪,判决被告。例如,信息,如被告有罪的态度,是否提交累犯,涉及的金额直接影响最终的判断。基于上述事实,我们使用正则表达式提取离散数据和连续数据从外部信息,如表所示23。为了将数据集成到会员,我们设计离散数据编码器和连续数据编码器,如图3

3.4.1。连续数据编码器

我们每个类别的连续数据规范化 在哪里 连续数据的均值和吗 是方差。我们可以获得连续的数据序列 ,在哪里 是类型的连续数据的数量。然后,我们使用一个完整的连接网络融合不同类型的连续数据,获得连续数据向量 作为 在哪里 是完全连接矩阵, 偏差向量,

3.4.2。离散数据编码器

因为很少有离散数据类别,我们使用这个词嵌入方法创建一个离散数据向量空间离散数据的每个类别。我们将每个类别的离散数据转化为其字嵌入 同样的,我们获得离散数据向量 作为 在哪里 是完全连接矩阵, 偏差向量, 然后表示为离散数据序列 在哪里 离散数据的类别数。

3.4.3。案例的结论预测

案件的具体内容的结论提出了表4

为了预测的结论,我们首先获得离散数据序列的组合和连续的数据向量 ,给出的

为LJP的结论是非常有用的,尤其是对于处罚方面的预测。案例的结论,预测的输入 相应的连接情况下的结论向量 同样的,我们获得的矢量的结论 作为 在哪里 是完全连接矩阵, 偏差向量, 最后,我们获得结构化数据编码器的输出

3.5。分类器

当法官决定,他/她第一次搜索等相关法律依据这种情况下事实描述。然后,根据有关法律,信念。最后,积算所有的证据和事实,法官通过句子。因此,有拓扑多任务之间的依赖关系的结果5]。我们评估三个LJP子任务上的性能,包括法律的文章(表示 ),费用(表示为 ),和处罚条款(表示 )。注意,我们实现依赖图的分类器2;也就是说, 在哪里 代表的输入 是空集,这意味着费用预测取决于法律文章,和处罚的条款预测取决于法律的文章和指控。这种显式的依赖关系符合人类法官的司法逻辑,这将在后面的部分得到证实。为了结合事实描述和结构化数据,我们将结构化数据向量 - - - - - -子任务的相应的向量 获取向量 作为

考虑到拓扑子任务之间的依赖关系,首先我们预测法律文章,那么,最后的点球。我们获得法律文章的向量 作为

费用预测和处罚方面预测的过程是相似的法律文章的预测。不同的法律文章预测,电荷的输入预测的连接 ,虽然点球方面预测的输入的连接 , 最后,我们获得 , ,在哪里 为子任务的类别标签的数量是1,2,3,分别。为了学习THME参数模型,我们使用亚当算法(23]。培训过程中我们采用熵损失如下: 在哪里 是预测结果, 是真正的结果, 是法律的文章预测, - - - - - -样本。方程(20.)代表一个样本的损失函数的预测法律文章。当有多个样本,我们将所有的损失在一起形成法律的全损的文章。我们有三个子任务,所以损失之和的三个子任务组成的最终损失模型。我们训练我们的模型在一个端到端的时尚和利用辍学24),以防止过度拟合。

4所示。实验

在本节中,我们验证我们提出的模型的有效性。我们首先介绍数据集和数据处理。然后,我们提供必要的参数模型。最后,我们做了一些实验来验证我们的模型的优势和外部信息的重要性。

4.1。数据集建设

因为没有公开LJP数据集在以前的作品,我们收集和建立一个CJO LJP数据集。CJO由中国政府公布的刑事案件从中国在线判断1。在这个实验中使用的数据从判断文档都是由中国最高人民法院发表。正式的数据处理之前,我们首先清理数据。我们的实验目的是犯罪行为,所以其他类型的判断文档筛选了犯罪的除外。然后,我们过滤掉multi-criminal判断文档。multi-criminal判断文件的结构是复杂的,和我们将在未来的研究工作。为单一刑事处罚的条款判断文档到25年,我们筛选出判断文件的条款处罚超过25年(除了死刑和无期徒刑)。最后,我们筛选5480000判断文档和750000块可用数据获得的。我们所选的750000块数据用于实验。

我们的模型的输入包括令牌序列 ,离散数据和连续数据。然而,我们发现,我们的处理方法是不适合前科的处罚条款。它不能解决不均匀分布的问题。因此,我们离散化的条款处罚。具体方法见表5

对于大多数CJO数据集的数据,他们的处罚是不超过12个月。与此同时,数据量会随着处罚的条款的增加而延长。特别是对于那些点球超过3年,数据的数量已经明显下降。为了解决分布不均的问题,我们使用小间隔数据密集数据稀疏和大间隔,以保证稳定的在每个时间间隔的数据量。

4.2。基线

评估我们的表现提出THME框架中,我们使用以下文本分类模型和判断基线预测方法:(我)Fact-Law注意力模型(4:这是罗等人2017年提出的。主要的思想是将法律条嵌入模型,然后利用事实描述中提取相关的法律帮助条模型得到好的结果。(2)TOPJUDGE [5:这是钟山等人2018年提出的。主要的思想是使用拓扑子任务之间的依赖关系来提高任务的效果。(3)MPBFN-WCA [6:这是杨等人2019年提出的。子任务之间的主要想法是,重复迭代可以减少积累误差,从而提高工作的有效性。

4.3。实验设置

我们设置字嵌入大小 在256年。对于离散数据编码器,离散数据的维数嵌入 是32。输出向量的维数的离散数据编码器 是64,连续的输出向量的维数数据编码器 是64,向量的维数情况下的结论是 是256。

我们使用TensorFlow框架来构建神经网络。在培训的部分,我们亚当的学习速率优化器设置为0。0001年辍学概率为0.5。填充文本的长度 是320令牌,每个句子的长度吗 是16的令牌,每个文本分为20个句子。我们批量的大小设置为256对所有模型。我们训练每个模型对256年时代,如果发生过度拟合,我们将终止培训早期。

我们雇佣 (Acc), (MP), (先生), 作为评价指标。在这里,macro-precision /回忆/ 计算的平均精度/召回 每个类别。

4.4。结果和分析

所有的模型都是重复3次,我们评估三个LJP子任务上的性能,包括法律文章,指控,惩罚和报告方面的平均值作为最终结果清晰的插图。实验结果的测试集CJO如表所示6。结果表明,THME在所有指标达到最佳性能。因此,我们建议的框架的有效性和鲁棒性进行了验证。TOPJUDGE和MPBFN-WCA相比,THME利用信息的决心,从而达到承诺的改善。它表明,外部信息使模型学习规则,不是在原来的事实描述。与Fact-Law模型相比,我们的模型利用相关的子任务之间的相关性达到显著改善。因此,重要的是要正确模型拓扑不同的子任务之间的依赖关系。

4.5。烧蚀研究

进一步说明模块的重要性在我们的框架。THME相比,我们设计了以下模型:(我)Transformer-HAN-Single-Extra(这些):我们将多任务模型分解成一个单一任务模型来验证多任务模型的优越性。(2)Transformer-HAN-Single(黑色):为了反映连续和离散数据的角色基于事实描述单一任务,我们用这些设计解说比较效果。(3)Transformer-HAN-Multi (THM):为了反映角色的连续和离散数据基于事实描述在一心多用,我们设计三卤甲烷与THME比较效果。(iv)GRU-HAN-Multiextra (GHME):为了证明变压器的作用模型,我们设计GHME模型和THME比较的影响。

如表所示7与黑色相比,三卤甲烷可以提高性能 , 法律文章预测,预测,和处罚方面预测在我们的数据集,分别。因此,多任务模式有利于提高每个任务的性能。这些执行比解说,尤其是点球预测。这些增强的性能 因此,结构化数据基于事实描述中扮演一个重要的角色,即使单任务操作模型也明显好于多任务模型没有的结构化数据。因此,结构化数据扮演更重要的角色与多任务结构。

通过比较GHME解说,我们可以看到这笔表现更好,这表明变压器的性能比传统的格勒乌模型在处理长文档和Transformer-HAN对LJP的影响大于多任务的拓扑结构和外部信息。这也证明了提出Transformer-HAN是一个最先进的模型来处理长期的依赖问题。

4.6。信息来源的研究

进一步显示外部信息的意义和探索的影响的信息来源,我们评估THME的性能在不同的信息来源。我们移除所有的外部信息(事实),法院视图(法院视图),被告的信息(被告的信息),和案例的结论(案例的结论),分别。结果总结在表8

表明THME的性能恶化后的所有任务删除要么起源的信息。更具体地说,当我们把所有的外部信息,极大的降低是观察处罚的条款的预测。这表明,外部信息有利于刑罚方面的预测。当我们把被告的信息,性能比在拆卸法院的观点。这也表明,法院的观点是更重要的比被告的信息和它在LJP起着决定性的作用。案件的结论来自于法院的观点。当我们删除的结论,THME的影响比被告的信息删除的情况,这是类似的情况取消法院的观点。这表明这样的结论在LJP起着非常重要的作用。

4.7。误差分析和解决方案

我们建议的模型引起的预测误差可以被追踪到以下原因。

4.7.1。数据不平衡

数据不平衡是一种自然现象,因为长处罚条款的病例数明显低于那些短的惩罚。尽管我们已经采取了有效的技术离散化处罚的条款,以减少数据不平衡的影响,法律的文章和子任务的指控,我们的模型实现多 精度,而只有 macro-F1。这个问题更严重的处罚条款的子任务,我们的模型的收益率的表现不佳 macro-F1。坏的表现主要是由于不平衡的分类标签;例如,只有少数训练实例的术语“无期徒刑或死刑。“大多数的判断预测方法表现不佳(尤其是对召回)这些标签所列在图4

4.7.2。的处罚问题

从结果可以看出,尽管我们的模型预测超过其他模型的惩罚,惩罚的预测的影响依然非常贫穷。准确率只有 ,甚至macro-average指数小于 这一指数远未满足实际的需求。实际情况下往往是多个刑事案件,这比我们分析的情况更复杂,但复杂的情况下,通常包含更多的信息,这也为我们提供了解决问题的思路上点球预测。在多个刑事案件中,我们可以将案例分为多个子用例,然后综合考虑子用例的类别,子用例的数量,和子情况的严重程度为点球预测方面提供更多的信息。具体实现方法还有待探索。

5。结论

在本文中,我们研究了multi-extra和多任务LJP的拓扑子任务之间的依赖关系和地址信息不足和不足的问题在LJP编码。基于多个任务之间的拓扑结构,我们提取信息通过Transformer-HAN编码器的描述,从判断文档中提取外部信息的结构化数据编码器,然后将它们集成到分类器来减少误判点球的预测。实验结果表明,我们的模型达到明显改善了所有判断基线预测任务。

在未来,我们将努力探索以下方向:(1)有趣的是探索多任务与多个标签和多个被告合法预测。近年来,知识的增长图表和图表神经网络(GNN)使这一切成为可能25- - - - - -28]。(2)我们将探索如何把各种因素融入LJP,如被告的主观恶意,被告的犯罪手段,和被告的身份不被认为是在这个工作。(3)当一个法官决定的情况下,类似案件判决结果至关重要。因此,我们也可以推荐类似法官判断文档(29日- - - - - -31日]。(4)随着越来越多的转移研究学习,GPT,伯特,和其他自然语言模型也生产和持续改进从文本中提取信息的能力。使用传输过程中学习处理事实的描述可能提高模型的有效性32- - - - - -34]。

数据可用性

使用的数据来支持本研究的发现可以从相应的作者。

的利益冲突

作者宣称没有利益冲突。

作者的贡献

郭Kongfan朱镕基和润东了同样的纸。

确认

这部分工作是支持关键研究和发展项目批准号下的中国2018 yfc0831000也没有。2017 yfc0803400。