文摘
本文提出了一种新颖的分类框架,可以分类样本的多个域基于多个模型的输出。不同于现有的方法,训练单一模型在所有领域,我们的每个域框架火车多个模型。在测试样品,所有训练模型用于预测的输出这个示例的域。然后,这个样本分类的输出模型,属于预测领域。实验表明,我们的框架实现更高精度比现有的方法。此外,我们的框架实现良好的可伸缩性在多个领域。
1。介绍
在这些天,深度学习模型可以实现良好的性能在许多应用程序中(1- - - - - -5]。一般来说,深度学习模型的性能取决于捕获的特性(6- - - - - -10]。更多的领域是重要的深入学习系统的可伸缩性,这些增加的难度训练高性能模式。图1介绍了一个包括多个域的例子。我们使用数据集的样本收集相应的域。这些数据集可能有不同数量的标签和各种样本,这些都会增加的难度训练高性能模式。转移学习(11- - - - - -13]可以暂时解决这个问题,而性能仍然是有限的结构模型。如图1(一)介绍,一个更大的模型(更深层次的结构和更多的层)是一个通用的解决方案,因为这可以捕获更多的功能虽然这是有限的计算资源或可能导致梯度消失的问题14- - - - - -16]。因此,应该有另一种方式来提高性能的深入学习系统使用多个模型等多个领域。
一些融合方法(17- - - - - -19)可以利用多个模型来提高分类精度,性能取决于高准确的训练模型的选择。与训练相比单个模型在多个领域,培训每个模型对应的域可以是一个很好的解决方案,因为这可以实现良好的可伸缩性,我们介绍了图1(b)。一般来说,容易保证高精度的训练模型相应的域。相反,这个模型可能在其他领域低精度,从而减少这些融合方法的性能。因此,在一个测试样本,预测领域的融合方法是很重要的。
在本文中,我们建立了一个新的框架(CMS-CMM,多域样本的分类基于多个模型)的合作来提高分类的准确性在多个域的样本。可以概括为以下我们的贡献。(1)我们建立了一个新的框架,达到深入学习系统的可伸缩性。域的数量增加,转移学习的难度增加,因为它必须考虑所有领域的性能。相反,我们的框架只需要培训一些深度学习模型训练集上的一个新领域,这好处可伸缩性。(2)我们的框架提高分类的准确性不增加模型的结构。一般来说,一个更大的模型提高了分类精度,它需要更多的内存空间来满足在某些应用程序中是不可能的。相反,只会增加我们的框架模型,他们每个人的数量降低了内存空间的消费比一个大模型。
本文的其余部分组织如下:部分1.1介绍了现有的方法和他们的问题。节2,我们提出我们的框架和相关的分析。实验组织部分3。第五部分给出了结论和未来的工作。
1.1。相关的工作
VoVNet-57(各种视图网络)是专为对象分类的任务,由卷积模块包括3层和4阶段步模块和输出3220.]。样品通过卷积层,这里的过滤器由一个小的接受域。ResNeSt(残余网络)是图像分类技术发展水平深学习模型,使用模块化的结构和一个份块和注意力机制适用于功能映射组(21]。从ResNeSt50 ResNeSt269,结构变得更大、更复杂,所以这些可以得到更高的精度特别是有更多、更大的训练样本大小。根据测试样本的大小和计算资源,在本文中我们使用ResNeSt101。RepVGG (re-parameterization视觉几何集团)是一个分类模型,这是改进现有模型的基础上(22]。DenseNet(密集连接卷积网络)是一种卷积神经网络密集连接(23]。在这个网络中,任意两个层之间有着直接的联系,这意味着每一层的输入连接到前面的层。VGG16 VGG的变体(视觉几何组)模型对图像分类(24]。ResNet(残余神经网络)允许原始输入信息直接绕行到输出,简化了流程,减少培训的难度(25]。
一些融合方法已应用于提高分类的性能,适用于多个模型(17]。在这篇文章中,加权投票方法中精度最高达到了所有其他的人。加权投票也用来构造一个更可靠的分类系统(18]。滑动窗口是应用于加权多数表决算法在那篇文章中。该方法应用于一款(深层神经网络),一个CNN(卷积神经网络),和一个LSTM(长短期记忆)网络提高性能(19]。这些方法可以结合模型来提高精度的结果。作为权重组合发挥重要作用,应该有一个验证集来计算这些权重。此外,更多的各种模型可以受益的准确性的提高。在本文中,我们还将这些融合方法应用到系统精度高和一些优化。
使用这些方法时,每个模型的性能是很重要的。培训模式单一域可以确保高精度这个域虽然可能导致低精度在其他领域。同时,培训一个模型在多个领域可能会减少对每个域的准确性。因此,我们的框架试图解决这个问题,这是在下一节介绍。
2。我们的框架
给我们的框架的细节之前,我们给出下面的定义。这些定义来解释的实现方法。
2.1。预赛
我们设置作为一个样本标签的一个对象。我们设置随着地面实况在哪里 (26,27]。标签是效益计算,通常一个数字(28,29日]。例如,当有10个对象分类,标签从0到9。
2.2。说明我们的框架
图2说明我们的框架,它被命名为CMS-CMM。在第一步,我们的框架列车一些现有的深度学习模型(像深度学习模型0、1和2在本图)在每个领域(如域名在这个数字0和1)。然后,在一个测试样本,每个模型的概率输出标签。首先,根据这些概率的差异,我们可以预测这个示例的域(图表所示)。其次,我们选择的训练模型预测领域。然后,我们可以使用这些模型的输出预测这个样本的标签(图表所示)。
2.3。培训的概率模型和输出标签
我们选择一个深度学习模型 。然后,我们的火车在一个域训练模型 。我们定义 标签的概率对样本 ,训练模型的输出是什么 。一般来说,最可能的结果是由以下方程: 这是作为预测结果。
2.4。预测领域
在我们的框架中,我们首先选择一些现有的深度学习模型 。然后,我们在每个域训练这些模型一组训练模型 。当我们假定一个示例属于一个域 ,我们可以得到一个概率的标签 通过一个模型 。然后,通过另一个模型 ,我们也可以得到 。我们定义模型的区别和模型在一个示例如下:
我们可以定义之间的差异和在一个示例如下:
一般来说,我们可以选择可以达到的最高精度的模型验证集。因此,(3)是目前最准确的模型的区别与其他的人。然后,我们可以选择域作为样本的预测领域如下:
图3用一个例子来解释如何预测领域。我们假设域包含样本训练和有三个模型在这个领域,这是 , , 。因此,这些模型可以捕捉这个示例的关键特性,导致狗的概率高和其他标签低。我们假设域不包含样品的狗。然后,我们也可以得到相应的三种训练模型 , , 这个域。因为这些模型没有捕获的狗在训练集的特点,这些模型可以捕捉噪声特性的狗(也包括其他标签),导致这些模型输出之间的巨大差异。
2.5。预测的标签
一旦我们的框架预测领域的示例中,我们可以使用相应的模型训练在这个域预测这个样本的标签。为了提高预测的准确性,我们的框架使用融合方法19),加权平均模型如下: 在哪里介绍了重量,应用于模型的输出。通过使用这些权重,高精确的模型的输出最终结果中扮演更重要的角色。我们可以计算出通过使用验证集。我们的名字与这个优化框架CMS-CMM从现在开始。
2.6。优化分配的标签
有两种情况可能导致的错误预测领域。图4介绍了两种情况。我们假设域0 100标签和域1 10标签。训练模型的一般设置,域名0的概率将输出100标签。同时,训练有素的域模型1的概率将输出10标签。在4(一)这个图中,我们输入测试样本域0到训练模型。训练模型之间的差异之间的域1可能会低于训练模型域0偶尔因为错误标签的范围减少。特别是当模型的准确性很低,这种情况下很容易导致错误的预测领域。在4 (b)这个数字,我们输入域1的测试样本训练模型。训练模型之间的差异之间的域0可能会低于训练模型域1偶尔的错误标签分布广泛。特别是当模型的准确性高,这种情况下也容易引起错误的预测领域。
(一)
(b)
为了解决这个问题,我们所有的训练模型预测相同数量的标签。例如,训练模型(100标签)标签(10)可以预测10标签,标签在这些领域的最大数量。然后,当测试样本属于 ,我们只考虑标签0到9可能正确。因此,我们修改方程(4)以下有不同数量的标签域之间。 在哪里相应的域可能是正确的标签吗 。我们设置保持标签。例如,当包含了100个标签和域包含10个标签,我们可以设置从10到99 。因此,所有这些领域的模型输出的概率相同数量标签。我们可以使用通过使用验证集。我们的名字与这个优化框架CMS-CMM-opt从现在开始。
3所示。实验
我们评估我们的方法与现有的一些真实的数据集。当我们随机参数,评价1000倍。我们训练有素的深度学习模型(VoVNet-57 [20.],ResNeSt50 [21],RepVGG [22],DenseNet [23],VGG16 [24],ResNet [25)在报道一些真实数据集的这些模型的默认设置。我们时代的数量(30.,31日]10为所有这些模型训练集。我们不关注的设计结构或调整hyper-parameters。相反,我们将集中讨论如何使用多个模型来实现可伸缩性和同时确保精度高。我们设定一个随机数验证样本,从500年到800年。
3.1。引入数据集
CIFAR-10 [32,3310000有50000个训练样本和测试样本,属于10标签。我们使用50000个训练样本训练模型。然后我们还剩下10000个样本验证和测试。cifar - 100数据集就像CIFAR-10,除了它有100类包含600图片(34,35]。100年有500个训练图像和测试图像/标签。我们使用50000个训练样本训练模型。然后我们还剩下10000个样本验证和测试。Mini-ImageNet [36,37数据集是few-shot学习评估。其复杂性高由于使用ImageNet图像,但需要更少的资源和基础设施比全ImageNet数据集上运行。我们使用48000个训练样本训练模型。然后我们还剩下12000个样本验证和测试。EuroSAT [38,39]数据集是基于卫星图像组成的10类27000标签样本。我们使用21600作为训练样本和5400测试的。英特尔的影像分类(40]数据集包含世界各地的自然场景。大约有14 k图像进行训练,测试3 k, 7 k预测(没有标签)。
3.2。引入评价指标
我们介绍一些指标来比较不同维度的方法测试样品。我们假设样本属于域和相应的地面真值的标签 。我们定义标签和预测的结果吗域的预测结果的方法。然后我们可以定义以下评价指标。
CD礼物的准确性预测正确的领域如下: 更高的一个更好的地方。CDCL提出了预测的准确性正确的域和正确的标签如下: 更高的一个更好的地方。CDWL提出了正确预测领域的比例和错误的标签如下: 下一个更好的地方。
WD提出了预测错误的领域的比例如下: 下一个更好的地方。WDCL提出了预测错误的域和正确标签的比例如下: 下一个更好的地方。域出错的预测时,预测的标签是没有意义的不同数据集的标签显示不同类型的对象。WDWL提出了预测错误的域和错误的标签的比例如下: 下一个更好的地方。
3.3。域预测评估
我们不使用额外的信息(如样本的分辨率或大小)来预测样本的正确的域。在表1,最大方法预测领域出现的最大出现标签。在更多的细节中,我们选择的结果出现的最大次数训练的每个域模型。在所有这些结果,我们选择出现的最大次数和相应的域设置为预测领域。遵循同样的方式,融合方法19]预测域体重最大值的概率。
我们使用CD(预测正确的域)的精度评价方法。我们可以看到在桌子上1,我们CMS-CMM-opt达到更高的精度比现有的方法,这是平均高出16.62%。此外,比我们CMS-CMM CMS-CMM-opt达到更高的精度,证明了优化的效率。
3.4。标签分类评价
我们的最终目标是对样本进行分类。因此,基于域的预测,也必须有样品的分类下面的步骤。因此,在一个测试样本,只有当一个方法正确预测域和标签同时,我们承认这种方法正确输出结果。例如,标签CIFAR-10 9和标签9 cifar - 100的意思是不同的对象。
我们使用CDCL(预测的准确性正确的域和正确的标签)来评估方法。我们可以看到在桌子上2,我们CMS-CMM-opt达到更高的精度比现有的方法,这是平均高出14.01%。与域预测相比,增加的精度从16.62%降低到14.01%,因为还有错误预测的标签。CMS-CMM使用融合方法(19]预测域预测后的标签。我们可以看到比CMS-CMM CMS-CMM-opt也达到更高的精度,这是平均高出11.25%。
3.5。评估的可伸缩性
在本节中,我们所做的研究框架基于度量的可伸缩性CDCL(预测的准确性正确的域和正确的标签)。我们添加了域,计算标签分类如表3所示。
我们可以看到在桌子上3的准确性CIFAR-10不变域的数量变得大。另一方面,cifar - 100和Mini-ImageNet的精度变得更低。每个模型的准确性起到重要作用的分类精度。精度的其他重要因素是域之间的相似性,将在下一小节中介绍。
3.6。影响域之间
我们可以分析域的影响到其他领域如表4所示。在这个表中,我们比较了CDCL(预测的准确性正确的域和正确的标签)与4 5域域,这意味着我们放弃一个域评价之间的关系这一领域和其他的。CIFAR-10下降时,我们发现的准确性cifar - 100是比别人更增加。通过同样的方式,我们可以找到域之间的关系。域之间有类似的标签时,预测域和标签很容易出错。例如,标签的“狐狸”cifar - 100类似于Mini-ImageNet的标签“白狐狸”。因此,如何考虑数据集之间的相似性是重要的增加准确性。
3.7。评价模型的数量
在本节中,我们评估的数量之间的关系模型和CDCL(预测的准确性正确的域和正确的标签)。我们设定模型的数量从2到6。可能会有不同的组合模型,我们评估这些组合的平均精度。我们可以看到在图5,所有数据的准确性增加模型的数量变得更大。另一方面,当模型的数量是6,一些数据的准确性就低于5的模型。当有较低的精确模型,这些可能会降低分类精度的框架。适当数量的模型可以计算验证集。
3.8。评价的指标在所有测试样本
我们可以看到在桌子上5,我们的方法实现更好的性能指标。CDWL(预测正确的域和错误的标签)的比例情况下,方法的比例高于其他方法。这是因为我们的方法能够较为准确地预测领域,这可能导致更多错误的标签。与融合方法相比(19),我们的方法可以增加19.14%的CDCL而CDWL只会增加9.01%。
3.9。评估的执行时间和内存消耗
表6显示的总执行时间和最大内存消耗训练模型对应的数据集。我们使用NVIDIA Tesla K80 [41运行模型。在更多的细节中,我们使用的NVIDIA Tesla K80运行模型VoVNet-57 CIFAR-10和记录的总执行时间和最大内存消耗模型,这个表所示。然后,我们还可以使用NVIDIA Tesla K80其他数据集上运行模型VoVNet-57和记录的总执行时间和最大内存消耗模型。通过相同的模式,我们可以在每个数据集上运行其他模型和记录的总执行时间和最大内存消耗模型。
我们的方法生成多个模型在每个数据集,导致运行时我们的方法比使用单一模型变得更大。在串行CMS-CMM-opt运行模型,导致执行时间等于以下:单一模型的执行时间的数量×模型+我们的融合过程的执行时间。在更多的细节,我们的在串行CMS-CMM-opt运行多个模型CIFAR-10(后)。然后我们运行我们的融合方法。在这些过程中,我们记录的总执行时间和最大内存消耗如表所示6。
一个简单的解决方案来减少执行时间,我们可以使用更少的模型但是这可能降低精度。为了进一步减少执行时间不降低精度,我们运行模型的分布式计算节点集群基于并行模式的纸(42]。在更多的细节,CMS-CMM-opt并行利用多个计算节点,每个节点有一个NVIDIA Tesla K80 [41]。每个节点可以同时运行模型,可以减少总执行时间。总执行时间记录为所有节点和最大内存消耗算作其中最大的一个节点。作为CMS-CMM-opt并行的表6表明,与总运行时间减少在串行CMS-CMM-opt。造成的额外的执行时间沟通和融合的过程。造成的额外的内存消耗缓冲区的沟通和融合的过程。
在单一模型在多个领域实现精度高,结构变得更深入、更复杂导致内存消耗变得更大。例如,谷歌的V-MoE达到高精度训练模型150亿参数对ImageNet [43]。与超级模型解决方案相比,我们的框架更具有可伸缩性。
3.10。域和标签分类的说明
首先,我们用一个例子来解释域分类。如图6显示,我们选择标签的测试样本1属于域CIFAR-10。然后,我们这个样例和计算上运行所有的模型输出之间的平均差异属于同一个数据集的训练模型。图6(一)的区别是之间的输出模型,CIFAR-10训练。数据6(一)- - - - - -6 (e)的差异之间的输出模型,对准cifar - 100, Mini-ImageNet, EuroSAT,英特尔的影像分类。作为测试样本属于CIFAR-10 CIFAR-10的训练模型之间的区别很明显小于其他的数据集。因此,域分类基于模型的区别是合理的。
(一)
(b)
(c)
(d)
(e)
我们提出以下模型不同的统计结果。对于一个样本属于域 ,我们使用 现在平均的训练模型的区别如下: 在哪里被定义为(2),是最高的输出精确的模型,其他模型的输出。对于一个样本属于域 ,我们使用 提出的模型之间的区别( )如下: 在哪里是最高的输出精确的模型验证的样品吗 , 是其他模型的输出验证的样品吗 。我们可以看到在桌子上7, 显然是小于 在每个数据集,这意味着我们可以使用这个值预测领域。在此基础上分析,我们进一步优化领域的预测方法。cifar - 100和Mini-ImageNet比另一个更大数量的标签数据集,导致模型的区别比其他的数据集。
其次,我们用三个例子来解释这个标签分类训练模型的基础上相应的域。在第一个例子中,我们从CIFAR-10选择标签1的测试样品。然后,我们运行CIFAR-10这些样本的训练模型。如图7(一)所示,标签1的平均概率每个模型(CIFAR-10训练)明显高于其他的标签。在图7 (b)情况下,我们选择标签9 cifar - 100的测试样本。然后,我们运行cifar - 100在这些样本的训练模型。在图7 (c)情况下,我们从Mini-ImageNet选择标签90测试样品。然后,我们运行Mini-ImageNet这些样本的训练模型。所有这些情况表明,地面实况标签的平均概率明显高于其他的标签,当我们正确地选择相应的数据集的训练模型。因此,基于标签的概率的分类是合理的。
(一)
(b)
(c)
我们现在标签概率的统计分析模型。对于一个样本属于域 ,我们定义的平均概率地面实况标签的训练模型如下: 在哪里 介绍了方程(1)。对于一个样本属于域 ,我们定义其他标签的平均值最大概率的模型如下:
我们可以看到在桌子上8, 显然是比 在每个数据集,这意味着我们可以使用这个值来预测标签。在此基础上分析,我们进一步优化标签的预测方法。
3.11。介绍使用首字母缩略词
我们用表9给的引入使用缩略词在本文中对读者的方便。
4所示。结论
在本文中,我们引入了一个小说的框架,实现了通过使用多个模型分类的可伸缩性。不同于现有的单一超级模型方法,我们的框架降低了计算资源的消耗,同时实现良好的可伸缩性。此外,我们解决现有融合方法的问题。我们是一个很好的解决方案的应用程序的框架,这对多个域样本进行分类。
在未来的工作中,我们将研究如何解决相似的问题域和标签。在某些情况下,类似的标签的相似性是由不同领域CIFAR-10“福克斯”和“白狐狸”cifar - 100。在其他情况下,这可能是由于标签相同的域之间的相似的特征,这是有关模型的准确性。我们相信这些因素是提高分类精度的关键。
数据可用性
在这项研究中使用的数据是在CIFAR-10可用:https://tensorflow.Google.cn/datasets/catalog/cifar10cifar - 100:https://tensorflow.Google.cn/datasets/catalog/cifar100Mini-ImageNet:https://github.com/topics/miniimagenetEuroSAT:https://tensorflow.Google.cn/datasets/catalog/eurosat和英特尔的影像分类:https://www.kaggle.com/datasets/puneet6060/intel-image-classification。
的利益冲突
作者宣称没有利益冲突。
确认
这项工作一直支持中国的国家自然科学基金(批准号。61802279,6180021345,6180021345,61702366),天津市自然科学基金(批准号。18 jcqnjc70300 19 jctpjc49200 ptzwhz00020 19日和19 jcybjc15800),天津大学的基础研究基金(批准号2019 kj019),天津科技项目(批准号19 ptzwhz00020)和部分ASIC和系统的国家重点实验室(批准号2021 kf014和2021 kf015)和天津教育委员会科学研究计划项目(批准号2020 kj112和2018 kj215)和北京理工的基金(批准号2022 x017-kxz)。