文摘

深度学习的进步技术帮助研究人员获得和处理多通道数据信号从不同的医疗保健领域。现在,焦点已经转向提供端到端解决方案,即:,processing these data and developing models that can be directly implemented on edge devices. To achieve this, the researchers try to solve two problems: (I) reduce the complex feature dependencies and (II) reduce the complexity of the deep learning model without compromising accuracy. In this paper, we focus on the later part of reducing the complexity of the model by using the knowledge distillation framework. We have introduced knowledge distillation on the Vision Transformer model to study the MIT-BIH Arrhythmia Database. A tenfold crossvalidation technique was used to validate the model, and we obtained a 99.7% F1 score and 99.3% accuracy. The model was further tested on the Xilinx Alveo U50 FPGA accelerator, and it is found fit for any low-powered wearable device implementation.

1。介绍

心血管疾病是一个总括的术语,它指的是心血管疾病是全球死亡的主要原因。根据世界卫生组织(世卫组织),在2017年,心血管疾病(心血管病)据报道全世界死亡的主要原因(2017)。报告指出,心血管病引起全球死亡人数的31%,其中至少四分之三的死亡发生在低收入和中等收入国家(1]。这背后的主要原因之一是缺乏基本医疗支持和无法点播健康监测基础设施。心电图(ECG)被认为是连续的基本属性之一健康监测需要识别这些未来心血管事件的风险严重或死亡(2- - - - - -4]。

心电图的波形信号如图1。全球每天约300万ecg生成(5]。心电图阅读给多的信息关于心跳的速度和节奏。心电图是临床评估连续短暂使用图表的众多心脏周期。程序首先发现的 - - - - - -高峰。通常的最突出部分心电图,因此最容易识别。纵波显示窦性节律,而长期公关间隔通常表明一级心脏堵塞(4,6]。因此,心脏病学家一直使用心电图评估心脏状况和性能。

然而,这些信号主要是由皮肤接触收集心电图/ BVP传感器,这可能是不舒服和不愉快的长期监测2,7,8]。photoplethysmogram (PPG),光学技术监测血容量的变化在皮肤表面,被视为替代心电图监测,携带重要的心血管信息(9]。例如,研究显示很强的相关性之间的一些特性获得分(如脉搏变异性)和相似度量收集从心电图(如心率变异性),突显出这两个模式之间相互的信息。然而,随着smartwatches,智能手机和其他类似的可穿戴和移动设备先进,分已经成为行业标准的简单,wearable-friendly,低成本选择连续监测心率(HR)日常使用(10- - - - - -12]。尽管如此,PPG在人力资源估计不准确和其他限制标准心电图监测设备相比,由于肤色,不同皮肤类型,交叉运动工件和信号。

然而,许多深度学习(DL)解决方案可以解决心电图分类问题,但大多数使用手工制作的特性。一些完全自动化的解决方案需要很高的计算资源如gpu和tpu (13- - - - - -15]。所以,他们需要高功率消耗,即。,they cannot be implemented on energy-constraint devices directly. These methods use a standard convolutional neural network (CNN) as their backbone network as they can perform very well when the input data have regular structure i.e., Euclidean. However, the ECG signals are non-Euclidean time series in nature; hence, processing them with conventional convolutional neural networks (CNNs) compromises accuracy. This motivates graph-based deep learning algorithms [16]。图神经网络(GNN)是一个通用术语,用来表示这些算法。变形金刚是特殊类别的卫星系统(进行17]。物联网的发展(物联网)设备需要将这些复杂的能源和存储深度学习架构约束装置。

一般而言,FPGA实现深度学习模型是最合适的,因为他们获得高资源利用率和更低的能耗比图形处理单元(GPU) [18]。

我们对本文作出了如下贡献:(我)一个变压器的神经网络深度学习模型(ECG-ViT)来解决心电图分类问题(2)级联蒸馏的方法来减少ECG-ViT分类器的复杂性(3)在FPGA ECG-ViT模型的测试和验证

2。背景研究

自动分类模型只能研究如果一个大型心电图数据库与注释。MIT-BIH, ST-T,啊哈数据库是用于大多数当代心电图研究[6,19]。有一个类所有的心电图的迹象。信号预处理的基本步骤加强ECG信号的质量和心电图分析的准确性20.]。这个调查已经彻底研究的主题。几个机器学习算法开发了评估一个心电图信号的质量。这些方法主要依赖于ECG信号属性如RR间隔和P -和T-waves的形式21]。

2.1。心电图分类

将深度学习模型应用于心电图分类得到了越来越多的关注(22,23]。心电图心跳一样的最先进的方法分类最近表明,优越的结果达到了通过应用ResNet模型,分别将每个心跳类(19,21,24]。比起在这项工作中,我们重点开发的基于变压器用于心电图分类方法。比较结果与最先进的方法部分所示4

2.2。心电图合成从分

我们最好的知识,只25)已经出版了PPG-to-ECG翻译的特殊问题。这项工作没有使用深度学习,而不是用离散余弦变换(DCT)技术将每个分周期映射到相应的心电图周期。首先,发作PPG信号是一致的 - - - - - -山峰的心电图信号,其次是消除趋势操作来减少噪音。接下来,每个周期的心电图和PPG分段,紧随其后的是时间扩展使用线性插值来维护一个固定的区段长度。最后,线性回归模型训练学习的关系分的DCT系数和相应的心电图段。尽管一些贡献,本研究也存在一些局限性。首先,模型未能subject-independent方式产生可靠的心电图,这限制了其应用程序只有先前见过的数据。其次,分和心电图段之间的关系通常不是线性的。因此,在一些情况下,这种模式未能捕捉这两个域之间的非线性关系。最后,没有进行实验表明使用生成的心电图获得的任何性能增强而不是可用分(例如,比较测量人力资源)。心电图和PPG(相关的其他工作26- - - - - -31日),但他们不显示如何从分综合心电图。

2.3。变压器在图像分类

变压器、深层神经网络引入Vaswani et al。32),作为自然语言处理领域的参考模型。有多个变压器块具有相同的结构,见图2。一个关注层前馈网络,跳过连接,变压器和归一化层存在在每一块。

self-attention变压器机制定义使用方程(1)。 , , 查询,键和值向量,分别。 模型的尺寸。计算输入向量之间的分数乘以查询矢量转置的关键。然后,分数是稳定的归一化梯度除以√维度。在最初的论文中,有8个多线程的关注。Softmax函数用于计算分类的概率,和获得的分数乘以重量值矩阵。

多线程的关注技术提高的性能标准self-attention层。注意,当我们经过一个句子,我们经常想专注于多个句话说除了参考词。单头self-attention层限制我们的能力集中在一个或多个特定位置不影响我们的注意力在其他同样重要的位置。这是通过子空间注意力分配不同的表示层。更精确地说,不同的查询、关键和价值矩阵受聘为每个头,这些矩阵可能项目输入向量到不同的子空间表示训练后由于随机初始化。方程方程(2)显示了多线程的过程。 在哪里

2.4。知识蒸馏(KD)

知识蒸馏(KD),通常称为师生范式的网络,是一个模型压缩技术用于减少神经网络的复杂性。丰富监督是至关重要的在开发机器学习或图像识别方法,它使模型培训在当下的任务是加速通过使用相关的学习经历pretrained模型。KD提取几种类型的黑暗知识/特权知识援助模型的训练过程从“数据”的角度来看(33]。根据教师和学生的培训,蒸馏技术是归类为离线,在线,self-distillation图3。在离线蒸馏,老师(复杂)的独立模型训练,和它的知识传递给学生(简单)模型,而在在线蒸馏,老师和学生模型都是训练有素的同时(34]。在这项研究中,我们使用self-distillation是更高效的处理真实世界的情况下,一个大容量的老师模型不可用。

2.5。现场可编程门阵列(FPGA)

设计师们传统上转向现场可编程门阵列(fpga)的加速性能的硬件设计计算密集型应用,如计算机视觉、通信、工业嵌入式系统,越来越多的物联网(物联网)。工程师需要运用复杂,计算密集型算法往往依赖于fpga加快预算执行不影响紧力量(10,11,18]。fpga已成为占主导地位的平台加快人工智能算法在计算系统(14,18,35]。

3所示。方法

我们的工作主要包括三个步骤,演示图4。我们第一次火车维生素模型与较小的块大小,证明的准确性不下降。然后,我们使用知识蒸馏的方法来降低模型的复杂度。此外,在Xilinx FPGA测试模型。

3.1。Transformer模型架构

视觉上变压器(ViT)是一个纯粹的变压器,直接使用图像补丁序列图像分类任务。它遵循严密可行的变压器的原始设计。维特的框架如图5。维特范式后,维特版本开发视觉任务来提高性能。的主要技术是提高位置、self-attention和建筑设计。最近,学者们开始关注提高本地数据的建模能力(36]。

Self-attention层,作为变压器的关键组件,使全球互动视觉补丁。众多学者一直致力于改善self-attention层的计算。DeepViT建议建立十字头通信以再生注意地图为了提高各级种类。KVT介绍了 - - - - - -NN注意采取图片接近的补丁和无视吵闹的令牌通过计算只关注前 类似的标记(37]。炼油企业调查关注扩张在高维空间和使用卷积来丰富注意力地图的地方模式。我们建议设计类似于维特没有卷积操作图5

3.1.1。建筑设计

维特把输入的图片大小224 14到16 16重叠补丁14像素和他们使用卷积杆嵌入向量的维度 然后传播整个12块补丁维护补丁的维度。每一块由一个SA层紧随其后的是一个两层的前馈网络(FFN) GeLU激活,这两个有剩余连接。ECG-ViT本质上是一个维特与SA层被GPSA层中的卷积初始化前十块。

我们ECG-Vit基于DeiT (Touvron et al ., 2020)38),一个开源hyperparameter-optimized版本的维生素。由于其能力产生竞争的结果,而无需使用外部数据,DeiT作为良好的基线和相当简单的训练:最大的模型(DeiT-B)需要几天的培训八gpu。模拟两个,三个,四个卷积过滤器,我们分析三种替代ECG-ViT模型有四个,九个,分别和16个注意。注意力的头更比Touvron et al ., (2020) (38]。DeiT-Ti、ConViT-S ConViT-B利用4、7和13注意正面,分别。类似尺寸的模型,我们使用两个比较技术。

3.2。知识蒸馏

传统上,蒸馏的原理是将信息从一个笨拙的教练模型转移到一个灵活的学生模型(39,40]。因此,大规模的模型必须提前训练,选择知识的基础上定义和方法建议转移到提高学生模型的性能(41,42]。我们增加原嵌入一个新的令牌,蒸馏令牌(补丁和类标记)。我们蒸馏牌类似于类标记,它与其他嵌入通过self-attention和最后一层后产生的网络。损失的蒸馏组件表明其用途。与传统的蒸馏,蒸馏嵌入使我们的模型学习老师的输出而保持免费类嵌入。

有趣的是,我们注意到学类和蒸馏令牌往不同的向量,这些令牌之间平均余弦相似度为0.06。类和蒸馏嵌入计算在每一层,他们的相似性在网络上递增,直到他们到达最后一层,他们的相似性是伟大的( )但仍小于1。这是预期的,因为他们正试图创建目标,类似但不完全相同。

在一个更大的分辨率,我们使用真正的标签和老师在微调一步预测。我们使用相同的老师目标分辨率的分辨率较低的老师,这通常是获得使用Touvron et al。43)方法。我们也试着用完全真正的标签;然而,这降低了教师的优势,导致性能下降。

在测试时,变压器的类或蒸馏嵌入加上线性分类器和推断照片标签的能力。尽管如此,我们的参照技术是一个晚期合并这两个不同的头,我们添加将softmax两个分类器的输出。

蒸馏策略结果的视觉变压器与顶部回旋网accuracy-throughput权衡。令人惊讶的是,蒸馏模型比其教练的accuracy-throughput权衡。我们最好的模型MIT-BIH数据集有一个排名前99.7%的准确性。

3.3。硬件设计

我们深入学习算法的核心取决于通用矩阵乘法的一步。这是乘法和积累单元(MAC)的神经网络的初始权值显示在图6

MAC4通过结合四MAC单位如图7。通过实现16个苹果4单位在FPGA上,我们已经获得了ECG-ViT。总共有64 GEMM单位1时钟周期执行的操作使用64乘法器和加法器,如图5

我们必须提供 矩阵 ,相当于32个标量,获得16点积矩阵 因此,我们只需要将2标量/从记忆点积在每个更新。

为有效的实现中,我们使用16位定点表示。我们有近似的乘法操作准确性降低能耗成本,推理速度,和更少的占用面积。我们少消耗38%的面积和减少27%的能源来实现一般矩阵乘法。由于乘法器电路是更昂贵的比加法器电路,近似已经做乘法。在测试时,我们分析了,没有多少精度的下降。

4所示。结果与讨论

分类器性能如下:彻底消融研究ECG-ViT模型执行MIT-BIH心律失常数据库(MITDB),一种广泛使用的基准。我们预处理获得的数据样本在128赫兹。四个分类任务提出的促进协会医疗仪器(AAMI)如表所示1

对于这四个分类任务,我们测试了我们建议的方法,我们报告结果在测试记录报告。表2演示了灵敏度的比较,阳性预测价值, - - - - - -分数的ECG-ViT Guttag算法和恩斯(44]。我们的方法明显优于使用的分类器(4]。

我们相比ECG-ViT Cong et al。45在参数的平均精度和平均精度如表所示3。所有四个分类任务,比如VE、SVE,,和你相比。我们的分类器显然已经超过前面的分类器(4以明显的优势。

5。结论

在这篇文章中,我们提供了一种新的方式来实现心电图物联网监测系统基于变压器。使用知识模型压缩蒸馏,以减少其复杂性。实现的算法进行了测试在Xilinx Alveo U50 FPGA和优于现有最先进的方法。我们已经获得99.7%的准确性。在未来的工作中,我们计划减少区域即对硬件实现。,to make it area aware so that it could be implemented on wearable devices to diagnose heartbeat.

数据可用性

数据集可以找到从下面提到的链接https://physionet.org/content/mitdb/1.0.0/

的利益冲突

作者宣称没有利益冲突。