文摘

异构数据和模型构成联合学习的关键挑战。学习框架,然而,传统的联合培养全球模型通过转移模型参数,有很大的局限性;它要求所有参与者有相同的培训模式架构,和训练有素的全球模型并不能保证准确预测参与者的个人数据。为了解决这个问题,我们提出一个新的联邦框架命名个性化联合学习semisupervised蒸馏(pFedSD),确保参与者的隐私模型架构,提高沟通效率,传输模型的预测类分布而不是模型参数。首先,服务器采用自适应聚合方法来减少低质量的重量对模型的预测模型预测类分布上传的所有客户,这有助于提高预测的聚合类的质量分布。然后,服务器发送回客户为当地培训获得个性化的模型。我们终于进行了不同的实验数据集(MNIST, FMNIST, CIFAR10)和结果表明,该模型pFedSD超过最新的联邦蒸馏算法的性能。

1。介绍

近年来,联合学习已经成为一种流行的机器学习范式(1- - - - - -3]。在联合学习,一群客户合作培训没有上传本地数据集的全局模型。每个客户端只能访问其数据,保护参与者的隐私数据的训练。因为它的优势,联合医学学习有广阔的应用前景,金融,人工智能,和其他行业,它一直是近年来的研究热点。联合的训练学习,参与者的存储模型设备内存和计算能力可能有所不同。例如,一些参与者的设备性能可能更好或当地的数据集可能更大,这就需要一个更为复杂的模型架构。然而,如果本地设备性能差,和本地数据集不是很大,应该选择一个相对简单的模型架构。

此外,一些参与者已经训练本地数据之前使用的模型体系结构联合训练,所以他们不需要从头开始训练时联合培训与其他参与者。一些参与者甚至不愿意分享他们的模型由于隐私(4]。由于上述原因,模型结构选择参与者也不同。然而,传统的联合培养全局模型的学习框架服务器和客户端之间的传输模型参数,无法满足每个客户的需要自由选择自己的模型架构。因此,有必要让每个客户自由选择合适的模型结构进行训练。

特别是,在医疗和财务情况,由于区域和设备的差异,每个医院的病人数据或每个保险公司的用户数据异构。然而,当前的联合学习关注学习本地数据从所有客户获取全局模型。然而,由于客户的异质性在实际场景中,训练有素的全局模型的性能差时,它运行在客户端。此外,在现实中,每个参与者(如医院)大多无标号本地数据,和很少的标记数据。因此,如何培养一个合适的模型(包括模型的性能和模型框架)的约束下每个参与者的隐私保护和semisupervised场景是一个迫切需要解决的问题。

在本文中,为了解决上述问题,我们首先提出个性化的联合学习semisupervised蒸馏(pFedSD),旨在共享相同的无标号数据集在所有客户,然后使用这个辅助无标号数据集训练与客户的私人数据集。这为每个客户端提供了一个个性化模型的体系结构是完全由客户端本身和未知的服务器和其他客户。

当前方法结合联合学习和知识直接蒸馏平均模型预测(通过softmax)上传的客户(4- - - - - -6]。然而,由于客户的数据异构性和模型的变质量培训客户,他们上传的模型输出的重要性也不同。因此,模型的输出不能平等对待每个客户端上传的。因此,为了确保聚合模型预测的质量,本文提出了一种自适应基于Jensen-Shannon知识聚合方法(JS)发散,使聚合模型预测的质量减少聚合的重量在每一轮低质量的模型,也就是说,减少他们的贡献程度。

此外,当训练模型相对复杂,模型参数将消耗巨大的传播沟通成本、传输效率是很慢。pFedSD使用正确的数量的蒸馏数据集来提高通信效率联合学习通过上传模型预测客户和pseudolabel共享的无标号数据在服务器上。此外,朱et al。7和阴等。8]证明了原始数据可以恢复使用偷来的梯度模型,和pFedSD可以有效地抵御梯度攻击服务器和客户端之间的传输模型输出。本文的贡献总结如下:(我)我们提出一个新的联邦框架满足每个客户的需要自由选择其模型架构培训,这是第一个框架,结合联合蒸馏在semisupervised场景中学习和知识解决问题的数据和模型的异构性。(2)采用动态知识聚合的方法在服务器端。通过减少的重量低质量模型,该方法提高了聚合模型的预测类分布然后改善当地的性能模型。(3)客户端上传模型的预测类分布,和服务器返回的pseudolabels无标号数据共享,大大提高了通信的效率联合学习。(iv)在基准数据集和真实数据集的实验结果表明pFedSD的性能优于现有的蒸馏方法相结合。

2.1。知识蒸馏

知识蒸馏的基本思想是将一个广泛的复杂网络的输出和传输作为一个小知识网络(9]。在培训过程中,小型网络可以学到真正的标签数据的信息和可以学习不同标签之间的关系,可以转换成一个紧凑的网络。一个广泛的网络称为老师网络,和一个小网络被称为学生网络。然而,传统知识蒸馏算法需要pretrained老师网络,从学生和老师网络不能获得反馈网络在训练过程中。Zhang et al。10)提出了一种深相互学习方法同时多个网络的训练。在训练过程中,每个网络不仅从真正的标签接收监督,还可以从其他网络的经验,进一步提高模型的泛化能力。

基于知识蒸馏联合学习协作训练多个客户端。然而,直接使用知识蒸馏联合学习需要每个设备的本地数据相同,这显然是不切实际的。为了解决这个问题,李,王4),Itahara et al。5),太阳和律6),常et al。11,胡锦涛等。12]介绍了公共标记数据集。使客户能够完成联合学习培训通过蒸馏相同的数据。图1显示了联邦蒸馏的过程中,每个客户端是一个学生和一个老师。作为学生,他们从中央服务器接收模型预测分布聚合蒸馏培训,教师,他们提供自己的模型的预测类分布指导其他客户端聚合蒸馏培训。然而,这些方法假定一个可用的公共未标示的数据集或使用原始数据作为公共数据,引入了一定的约束和可能会影响用户数据的隐私。与先前的研究努力,pFedSD使用发电机由客户在本地无标号数据训练获得公共数据。

2.2。Semisupervised学习

在大多数情况下的现实世界中,很少有数据和标签。因为标签数据是复杂的和无标号数据容易获得,人们用许多标记数据来训练标记数据。这种训练方法称为semisupervised学习。Semisupervised学习近年来取得很大成就的人(13- - - - - -15]。当前最优semisupervised学习方法,FixMatch [14),集成了前面的方法和持续演化弱增强和强烈增强图像相同的图像,从而实现更好的性能。

2.3。个性化的联合学习

联合学习的最初的目的是与所有的参与者获得一个聚合合作模式3]。然而,当客户的私人数据呈现不同的分布,也就是说,他们不是独立同分布(non-IID),导致每个客户端模型更新方向不同。最后,单一的全球模型聚合由服务器不能适合所有客户。甚至一些客户得到全局模型,模型比他们训练本地没有参与协作。这削弱了客户的动机参与协同训练。异构数据的客户问题可以通过使用个性化的解决联合学习法,也就是说,每个客户的个性化模型训练。目前,各种个性化联合学习方法(16- - - - - -19]。这些个性化的联合学习方法是一样的传统联合学习框架,列车模型的服务器和客户端之间的传输模型参数。然而,这将导致每个客户端获取模型相同的架构,而忽略了本地设备能力的客户和有很大的局限性。FedPU [20.有点类似于我们的工作,他从标记和未标记数据集构建模型存储在客户端。但FedPU训练是一个全球性的目标模型,它也遵循传统的联合学习框架,不允许当地的异质性模型。

当前作品采用知识的组合蒸馏和联合学习客户端和服务器之间转移模型的预测而不是模型参数,以确保客户的隐私模型架构(4- - - - - -6,10,12]。然而,这些联邦知识蒸馏方法直接上传的客户平均模型预测。由于每个客户的不同质量模型的本地培训,知识的重要性在模型中预测他们上传的都是不同的,所以应该有一个更合适的聚合方法。与先前的研究工作,pFedSD获得公共无标号数据通过使用发电机由客户和分配不同的总重量训练每个客户端根据相似性模型预报值的客户在当前轮和上一轮的聚合的预测价值。聚合方法减少低质量的贡献模型;因此,聚合模型预测的质量改进。客户提取聚合模型预测,最后聚合方法提高了客户的个性化模型的性能。

3所示。方法

3.1。联邦蒸馏学习

设置 客户联合学习培训,每个客户端 有标记数据集 的大小 从分布 在这里, 有公共数据 的大小 共享给客户。每个客户端 设计它的模型 根据通信能力、存储容量和本地数据集大小的设备。当通信圆 ,为每一个客户 ,他们的优化目标是

然后,模型 是用来预测公共数据获得 ,然后平均由服务器和发送回客户端:

当通信圆 ,客户端 获得 并执行模型一起更新 :

然而,公共数据可能会影响原始数据的隐私。此外,当客户端数据non-IID,模型训练的质量,每个客户端都是不同的,从而导致不同的类分布预测的每个客户端模型的重要性。方程(的聚合方法2)不能灵活地为每个客户端提供聚合的重量。

3.2。问题的定义pFedSD

在现有的联邦蒸馏方法进行监督设置,pFedSD semisupervised进行设置。我们定义 客户与当地数据集 包含标签数据集 和无标号数据集 ; 为每一个客户k从不同的发行版,

观察相同的数据在客户端上,我们共享相同的无标号数据 在每个客户端 pFedSD的学习任务是获取个性化的模型 通过联合训练 客户提供不同的模型架构 和不同地方的数据集

3.3。pFedSD框架

传统联合学习列车模型通过转移模型参数在服务器和客户端,但这种方法有很多局限性。为了解决这些局限性,我们建议pFedSD, pFedSD框架如图2。有标记和未标记图像数据集不同程度(不,轻微、中等、严重)的阿尔茨海默氏症在本地客户。整个框架的过程是由一个中央服务器和多个客户端作为主要角色。

3.3.1。代的公共无标号数据

因为知识蒸馏是观察到的相同的数据样本,我们共享相同的无标号数据 在客户端。算法1显示的方式获得 首先,每个客户端k火车一台发电机 在本地无标号数据并上传服务器一起随机种子 随机噪声的控制。然后,服务器使用 生成数据和混合。之后,服务器选择 生成的样品质量好作为公共无标号数据,最后将它们返回给客户端。

3.3.2。自适应聚合方法

中央服务器的角色主要是聚合模型输出上传的客户。因为客户的数据和模型架构是异构的,他们的模型输出的重要性是不同的,所以他们不能平等对待。

输入:数量的客户 ,本地无标号数据 为每一个客户
输出:
返回
结束
服务器 :
初始化D
结束
样本 例子 作为
返回 给客户的

在我们pFedSD框架,一个中央服务器的动态聚合方法将重量分配给每个客户端根据分布相似性模型输出每个客户端上传的和模型输出值前一轮的聚合。我们使用JS散度测量分布的相似性,与一个值在0和1之间。相似性越小,重量越小。首先,我们计算辅助价值 总重量的客户机 在每一轮参与培训,可以编写如下: 在哪里 参与者的数量吗 - - - - - -th沟通, 散度值模型的预测 每个参与者上传的 - - - - - -th沟通,和模型预测 在最后一轮聚合。为了防止上述的表达 从变得毫无意义 ,我们添加一个项 分母; 代表一个最小值接近0。归一化后的 ,聚合的每个客户端。

然后,服务器获得总输出 通过 是一个 矩阵, 在数据集类的数量。每一行的 对应于每个样本的类的概率分布,从我们选择的概率最高的pseudolabel样本并将其发送回客户端。使用这种方法大大提高了通信的效率而不影响性能。采用这种方法,低质量的聚合重量模型可以减少,和可以提高聚合模型预测的质量。我们展示了服务器的聚合过程的伪代码的算法2

输入:数量的客户 ,数字通信轮
输出:聚合预测
分配公共无标号数据集
每一轮
选择随机 客户从
如果 然后
ClientUpdate (t)
计算 由方程(4)
结束
其他的
ClientUpdate ( t)
计算 由方程(4)
结束
结束
计算 由方程(5)
结束
输入:沟通一轮 ,当地带安全标签的数据时 ,本地无标号数据 和公共数据 为每一个客户k、当地的时代 ,批量大小 带安全标签的数据时,批量大小 公共数据,批量大小 无标号数据,信心的阈值 ,学习速率 ,减肥
输出:模型的预测类分布 初始化本地模型
分裂 成批量的大小
分裂 成批量的大小
如果 然后
每个局部时代e= 0、1、2、…E−1
每一批 ,
计算 由方程(1)
结束
结束
其他的
每个局部时代e= 0、1、2、…E−1
每一批 ,
计算 由方程(6)- (9)
结束
结束
结束
返回 到服务器
3.3.3。本地更新基于蒸馏

所有客户只有火车在本地数据通信 ,这是一样的前联邦蒸馏方法。在沟通一轮 ,他们使用标记损失共享公共数据和本地标记数据和未标记损失当地无标号数据进行模型更新。我们制定的目标每个客户端 作为 在哪里 培训的总损失函数, 是预测之间的叉损失 的模型 标记的数据 和硬标签 在客户端 , 是预测之间的叉损失 和pseudolabel 在共享公共无标号数据 的损失函数是无标号数据。 是固定hyperparameters ( = 1, = 1)表示的重量损失 ,分别。 可以写成

,我们采用相同的一致性正则化方法如FixMatch [14]。同样的图像数据,模型的预测应该在小扰动下不会改变明显。具体来说,数据疲弱增加(翻转或裁剪)和强大的数据增加(图像失真)上执行图像数据 获得 ,分别。函数 用于确定最高的类置信概率大于阈值 在模型输出 的pseudolabel 根据一致性正规化,pseudolabel 模型输出应该是一致的吗 , 可以写成 在哪里 代表了熵的损失。通过培训当地的公共数据数据,每个客户端获得全球知识的聚合预测和改善当地的推广模式。我们给客户培训在算法的伪代码3

4所示。实验

4.1。实验设置
以下4.4.1。数据集

我们在三个基准数据集进行实验,MNIST [21],FMNIST [22],CIFAR10 [23]。MNIST,我们把数据集分割成60000个样本进行训练,5000个样本进行验证,5000个样本进行测试。FMNIST和CIFAR10数据集,数据集分割成50000个样本进行训练,5000个样本进行验证,5000个样本进行测试。每个客户端使用DCGAN [24训练发电机,和服务器随机样本= 5000样本所有生成的样本作为公共标记数据。

4.1.2。模型

我们进行了实验在两个场景:齐次模型和非均质模型。模拟客户培训与不同的模型框架,类似于(12),我们使用神经网络的不同层次和不同数量的神经元。卷积2或3层可以选择,和神经单元的数量在每一层可以选择从64年开始,128年,192年和256年。均匀模型的情况下,我们选择一个三层卷积层和一个完全连接层的模型框架。卷积的神经输出通道层128、192和256。

4.1.3。基线

我们使用三个算法,FedMD [4],DS-FL [5),和支配12),个性化算法结合知识蒸馏和联合学习,作为pFedSD比较算法。特别是,类似于(6),我们观察不同的蒸馏方法的影响,pFedSD-soft pFedSD-hot,我们的算法。pFedSD-soft代表使用预测分布信息公共无标号数据训练模型。聚合的预测分布信息包含了模型预测类公共无标号数据中的每个样本的分布。pFedSD-hot意味着最高的类概率模型预测类分布的样本作为训练样本的pseudolabel模型。基准的性能评估指标是所有方法(测试精度。

4.1.4。实现细节

我们实现了pFedSD FedMD, DS-FL,支配使用PyTorch semisupervised场景。所有的数据集,我们选择K= 10客户和随机样本与压裂= 0.8为每一个客户沟通。MNIST数据集,每个客户样品的总数是6000,和标签样本和未标记样本是50和5950年,分别。FMNIST,每个客户样品的总数是5000,和标记和未标记样本是50和4950年,分别。CIFAR10数据集,每个客户样品的总数是5000,和标签样本和未标记样本是150年和4850年,分别。

客户端本地数据训练和SGD hyperparameters学习速率(lr) = 0.01, = 5∗动量= 0.9,体重衰变 , = 1, = 1, = 0.8, = 20, = 100, = 100, = 100, = 10。狄利克雷分布(25采用客户端数据分布,它使用 控制non-IID程度的数据。较小的 是,non-IID越大程度的数据。

4.2。实验结果
4.2.1。准备性能基准测试数据集

数据34可视化性能比较MNIST pFedSD和基线的数据集在不同分布设置(IID和non-IID)和不同的场景(均质模型和异构模型)。可以看出,我们的方法的测试性能pFedSD优于基线在不同设置。FedMD采用最简单的聚合方案,认为所有参与者的模型预测是同等重要,直接上传的客户平均模型预测。自聚合后的熵值模型预测过高,这是不利于客户的蒸馏。同时,DS-FL加剧,降低聚合的熵值模型的预测。结果,客户端蒸馏培训学习更准确的预测分布的信息聚合更快,所以DS-FL的性能略优于FedMD在大多数情况下。支配实现信息聚合在服务器上通过培训辅助模型。

在数据34,当本地数据分布的客户不是很扭曲,训练模型的质量不是如此不同,支配pFedSD没多大区别。相比之下,当客户的本地数据分布偏斜和当地的模型有很大区别,服务器上的辅助模型训练未能有效地聚合信息,导致性能下降。由于客户的数据异构等,模型训练上本地客户的质量是不同的,和我们的方法的原因,pFedSD,优于基线每一轮是聚合低质量模型的重量减少,因此聚合模型预测的质量改进。,此外,在pFedSD pseudolabels聚合的客户端下载服务器训练作为公众的硬标签标记数据以及本地标记数据,和pFedSD大大提高客户端本地模型的性能,由于数据增大。

此外,我们可以看到,几乎没有区别的性能pFedSD-soft pFedSD-hot,甚至略有改善pFedSD-hot pFedSD-soft相比的性能。

4.2.2。绩效评估在不同的场景和不同的数据集

5显示了所有的测试性能评估的方法在不同的数据集和设置。non-IID的程度逐渐降低,所有方法的测试性能也逐渐增加,这是非常合理的。对所有 价值观不同的数据集,pFedSD的性能不低于基线,显示我们的方法的优越性。

具体地说,当 ,每个方法的测试精度几乎没有区别,即使pFedSD略比其他方法更准确,并没有显著的差异。这可能是因为客户的知识学会了当地模型是有限的,和预测的质量分布聚合的聚合方法pFedSD并不显著不同的聚合方法FedMD DS-FL,而支配明显低于pFedSD。相反,当 ,自适应pFedSD聚合方法改善了预测分布的聚合质量减少预测的重量分布的低质量的模型,从而提高了学习当地的性能模型的客户,因为知识的重要性从当地的每个客户端模式是不同的。很明显从图5pFedSD有比其他方法更好的测试性能。

4.2.3。沟通效率的比较不同的联邦蒸馏方法

与传统的联合学习框架相比,火车模型通过服务器和客户端之间传输模型参数,联邦蒸馏火车模型通过传输模型预测信息,大大提高了沟通效率模型更为复杂。然而,在这一部分中,我们主要关注的通信效率对比pFedSD和其他联邦蒸馏方法。经过大约15轮,相同的精度,pFedSD少比基线用于数据通信轮34

1总结了每个通信所需的参数数量轮为每个方法(FedMD, DS-FL支配和pFedSD)。pFedSD-hot,我们的方法要求最少的参数每一轮沟通。因此,pFedSD-hot大大降低沟通成本,提高沟通效率,联合学习。我们使用pFedSD-hot作为当地客户的蒸馏方法在我们的框架

4.2.4。性能影响不同公共数据的大小

在本节中,我们研究了不同公共数据大小的影响 测试算法的性能。数据6(一)6 (b)与公共数据的增加说明 ,pFedSD的性能也略有增加,pFedSD pFedSD-hot。因此,公共数据集的大小 应选择适度。如果 太小,性能会显著下降。如果 太大,性能不是很好,但通信传输成本增加。

数据6 (c)6 (d)显示每个方法的性能比较,在不同的场景中不同大小的公共数据。从图中,我们知道增加的公共数据 ,增加了每个方法的程度是不一致的。我们的方法比其他方法更好的同构和异构的场景。特别是在异构的场景中,我们的方法显示性能优越,也验证我们的方法分析。

4.2.5。进一步的实验结果和分析

(1)实际数据集上实验。我们认为一个真实的实验例子提供了有力的证据来评估该方法。因此,我们评估pFedSD COVID-19 X [26数据集。三个类别的图像包含的数据集(正常、肺炎和COVID-19),训练数据集包含13954训练图像和测试数据集包含1579个测试图像。我们使用ResNet50作为模型来评估我们的方法和基线。我们给每个客户端150标记图像和其他标记图像。我们随机抽样与压裂= 1为每一个客户沟通。结果如图所示7

如图7在场景中,我们的方法优于所有基线数据倾斜程度不同,这与我们之前的观察是一致的。真实场景的实验证明我们的方法的有效性。

(2)蒸馏为本地更新的重要性。在以下描述,仅pFedSD出现时,它是指pFedSD-hot。了解知识的重要性在pFedSD蒸馏,我们评估两种方法的性能在pFedSD使用知识蒸馏( = 1, = 1)和没有知识蒸馏( = 1, = 0)。不使用知识蒸馏pFedSD意味着仅在本地客户端更新。如图8使用知识在pFedSD蒸馏,测试性能优于当地,这意味着我们的方法可以有效地捕获其他的知识模型来提高当地的性能模型。

(3)pFedSD使用不同的阈值的影响。澄清pFedSD不同阈值的影响,我们研究了不同阈值对pFedSD的结果。结果如表所示2;我们发现,低阈值将导致低pFedSD性能。这是因为当阈值很低,大多数标记数据将不正确的标记,从而导致大量的误差与观测相一致FixMatch [6]。

(4)使用不同的学习速率的影响为pFedSD时间表。表3显示了我们的烧蚀研究的结果有不同的优化。我们尝试不同的学习速率参数不同的优化。从表3,SGD优化器执行比亚当在我们提出的方法。同样的优化器,很明显,使用不同的学习水平导致不同pFedSD表演在表3。与此同时,不同程度的学习速率也会导致不同程度的表现。

5。结论

在这篇文章中,解决异构数据和模型联合学习的问题,我们提出一个个性化的学习框架pFedSD基于自适应联邦聚合和蒸馏semisupervised知识,为客户提供个性化的模型通过转移nonmodel参数在服务器和客户端之间的知识。观察相同的公共数据的客户,每个客户端采用生成敌对的网络训练一台发电机在本地无标号数据上传到中央服务器上。根据发电机,服务器生成合成的样品客户的本地数据和需要高质量的样本作为公共数据。其次,我们使用当地的标记和未标记的客户数据训练与学习的公共数据从其他客户,然后使用训练模型来预测公众数据和模型预测上传到服务器端。特别是,我们提出一种自适应基于JS聚合方法分歧,从而减少服务器端的低质量模型的重量和提高聚合模型预测的质量,从而提高了性能的个性化模型在客户端。最后,客户端下载的伪标签信息公共数据从服务器与本地数据训练它获取个性化模型。我们证明pFedSD测试性能的优越性和通信效率实验。在未来,我们将努力探索其他方法比知识解决蒸馏数据和模型异构问题。

数据可用性

所有数据都包含在这篇文章。

的利益冲突

作者宣称没有利益冲突。

确认

这部分工作是支持广西自然科学基金(没有。2020 gxnsfaa297075),广西“Bagui学者”创新团队和研究项目,广西协同创新中心的多源信息集成和智能处理、广西重点实验室(不受信任的软件。KX202037),广西科技(没有的项目。GuiKeAD 20297054),广西自然科学基金项目(没有。2020 gxnsfba297108)。