基于模型的硬件软件合作设计的数字处理单元等

文摘

图像重建算法及其控制器构成的主要模块电电容层析成像(ECT)系统;为了实现之间的权衡实现性能和图像重建的灵活性和控制等系统的设计、硬件软件合作设计的数字处理单元(DPU)针对FPGA芯片系统(SoC)。软件和硬件组件的设计和实现ECT-DPU及其集成和验证的基础上,基于模型的设计(MBD)范式提出了。大向量的内积构成的核心多数这些ECT图像重建算法。完整的并行实现大向量乘法FPGA消耗大量的资源和增加长组合路径延迟。ECT-DPU提出MBD的解决这一问题,制作参数分段并行内积的架构,以工作为核心共享硬件单元的并行矩阵乘法图像重建和ECT系统的控制。这使得参数化核心单元被配置在系统级解决大型矩阵的区段长度设计自由度。它允许之间的权衡性能和资源使用并确定计算并行性的水平。用MBD提出分段体系结构、系统设计可以灵活地根据设计规范来满足所需的性能,同时满足资源约束。linear-back投影图像重建算法,分割方案表现出高资源节省43%和71%的小退化帧率的3%和14%,分别。

1。介绍

电电容层析成像(ECT)是一个工业过程层析成象技术成像材料分布在一个特定的感兴趣区域(1,2]。可视化等多相流的石油/天然气石油管道等的一个最重要的应用(3]。ECT系统包括三个主要组件,电容传感器、数据采集器、等数字处理单元(ECT-DPU)如图1(4]。电容测量数据无线发送到基站连接到ECT-DPU在图像重建算法实现生成一个图像描述成像区域内的材料分布(5,6]。

ECT图像重建算法实现软件在通用处理器(7),但在严格的时间限制,可以使用专用硬件(6)实现实时操作。嵌入式系统设计的最重要的驱动因素是性能和灵活性。而高灵活性和低设计工作可以通过应用软件实现,其性能较低。相比之下,硬件固有并行性意识到过度的系统性能,但是其设计复杂性开销很高。硬件软件(HW / SW)合作设计等数字处理单元提出了允许实现性能和灵活性之间的平衡。

最近,FPGA SoC成为合适的嵌入式系统硬件软件实现平台;事实上是合适的候选人ECT-DPU平台实现(8,9]。传统嵌入式SoC的设计进行硬件和软件组件的两个不同分支设计流程和使用不同的工具集10,11]。硬件部分是建模和模拟基于手写HDL代码(12),软件是使用一组不同的建模和交叉编译工具。这种传统ECT-DPU软件和硬件组件的设计和实现,他们的集成和验证需要一个伟大的努力和容易出错。这些问题可以使用基于模型的设计方法进行管理。

基于模型的设计(MBD)是一种以模型为中心的方法广泛应用于嵌入式系统设计(13,14]。它使一个可执行的系统模型的使用在整个设计周期从系统级的实现。MBD是系统级的方法,适用于改进和转换抽象系统模型用于算法设计和仿真在系统级HW /西南分区、自动代码生成对SW处理器以及HW实现和测试和验证,在一个单一的集成平台。细化和转换过程是通过应用指定的工具MBD工具链(15]。

基于模型的设计已被广泛用于实现软件定义无线电(SDR)系统在FPGA (16- - - - - -18),在嵌入式控制硬件/软件合作设计和实现FPGA (19),并在FPGA图像处理算法设计和实现(20.]。

图像重建的主要组成模块等数字处理单元。矩阵乘法的内积构成内核操作众多图像和信号处理算法(21,22)和密码(23]。它的核心操作矩阵向量乘法(MVM)用于linear-back投影(LBP)和Landweber电电容层析成像系统的图像重建算法(24- - - - - -26]。

矩阵向量乘法的核心大运算在大多数ECT图像重建算法。在这个研究中,迭代linear-back投影(iLBP) [27用作图像重建算法。在数学上,矩阵向量乘法(MVM)构成了关键的计算结构iLBP图像重建算法,而内积构成MVM的内核操作。内积和矩阵向量乘法具有内在的并行性,使其在通用的图形处理单元并行执行(28和多核处理器29日]。另一方面,FPGA内在平行结构是一种很有前途的可行的硬件实现平台内积和矩阵向量乘法。

FPGA实现矩阵向量乘法算法解决了许多研究工作在算法层面以及位操作层面(30.- - - - - -32]。大多数的这些提议的平行结构的FPGA实现矩阵乘法的算法水平小矩阵维度。完整的FPGA并行实现的大型矩阵向量乘法消耗大量的FPGA资源和产生长组合路径延迟。精心设置的平行度以及平行结构的设计是至关重要的,以满足严格的嵌入式系统性能和符合可用的FPGA资源。

提出了一种基于模型的硬件软件合作设计流数字处理单元的实现图像的重建和ECT系统的控制模块在FPGA SoC平台。基于模型的设计提出了完全自动化和优化设计,和实现ECT-DPU及其软件和硬件组件的集成和验证。本文的另一个贡献是,它提出了一种参数分段并行内积架构作为一个共享的硬件核心单元并行矩阵乘法在图像重建、控制等系统,相似矩阵向量multiplication-based嵌入式系统算法。这种细分方法允许设计师使用MBD优化设计过程实现所需的性能,同时满足FPGA资源约束。在每个设计周期,ECT-DPU模拟,测试,代码生成和验证,对FPGA结构和附加的ARM处理器的FPGA SoC平台。系统设计使用MBD提出分段体系结构允许灵活地根据系统实现所需的性能,同时满足资源约束。提出了分段体系结构的建模方程可以用来快速生成估计执行时间和所需资源的系统级。使用MBD可以大大减少开发时间,减少了设计周期以及减轻重构系统在每个设计周期。

我们建议的解决方案的图像重建和ECT系统的控制模块是不同,介绍了以前的工作在25,33]。图像重建,FPGA模块(25),完全是一个硬件系统建立在矩阵分解在一些层面上,而我们SW / HW系统硬件模块的图像重建是建立在该共享并行分割内积结构。此外,我们的参数化MVM核心单元是可调系统级解决大型矩阵,与设定的区段长度设计师来满足所需的性能,同时满足FPGA资源约束。

本文的其余部分组织如下:”一节2”ECT-DPU模型的细节解释说,“部分3“介绍了矩阵向量乘法的制定问题。提出系统的建模和实现”小节中介绍4”。最后,将进行实验来验证该方法。

2。数字处理单元(ECT-DPU)

2.1。图像重建算法

测量的电容进行序列通过一个电极作为发射器和接收器然后连续变化的第二电极接收机(26]。因此,独立测量数8-electrode ECT系统28日计算在哪里收集的参数和总吗代表电极的数量。的向前线性模型表示为在哪里的测量,图像矩阵,图像的像素的数量大约是256像素的形象,为每个元素定义的灵敏度矩阵如下: 在哪里时电容向量成像区域充满了低介电常数材料和时电容向量由高介电常数。如方程所示(2),图像像素的数量远远大于实测数据;因此,问题是不适定的,任何小的变化测量图像中会造成很大的差异。此外,灵敏度矩阵不是方阵,无法计算通过使用和重建图像(34]。因此,重建算法分为两种类型:noniterative和迭代算法。Linear-back投影(LBP),方程(4),是一种noniterative算法通常产生模糊图像,但适用于低计算。

而迭代算法,如迭代linear-back投影(iLBP),情商所示。5),提供更准确的图像,其时间复杂度高,线性迭代的数量成比例。在哪里松弛参数,提出问题解决方案,是迭代数34]。

通常情况下,这些算法涉及大量的矩阵运算;因此,并行处理平台上实现它而不是顺序执行PC是至关重要的。例如,LBP算法2.53 GHz-i5 PC上实现生成一个4 GB的RAM 元素在超过1.5年代的形象。

方程解(5)可以归纳为如下步骤和流程图描述图2:

1。最初的LBP算法获得的图像是方程(4)使用灵敏度方程(3)

2。方程(提出问题2)是解决计算一个向量的电容测量

3所示。差异乘以计算和实际测量计算像素错误

4所示。前面的图像和像素之间的区别错误代表了新形象(5)达到终止时的区别在步骤3中达到一定可以接受的价值。

2.2。系统架构

ECT-DPU单位负责图像重建和控制等系统。它由图像重建子系统(IR-unit)和主要DPU控制器(DPU-C)如图3。图像重建子系统包括图像重建算法、图像重建控制器,和相关的记忆和缓冲块。

图像重建算法的核心模块(IR-alg)是一个矩阵处理实现方程的三个iLBP算法步骤(5)。内存和缓冲块需要存储输入测量电极电容,恒定灵敏度矩阵,计算图像像素构成IR-unit的内存子系统。他们是指定为C缓冲区,S-ROM, IM-RAM块图3,分别。图像重建控制器(IR-C)控制IR-alg处理和坐标的数据流,从内存子系统。它是一个接口之间的图像重建子系统和主要DPU控制器。

主要DPU控制器(DPU-C)外部LCD的接口和无线基站外围设备连接到ECT-DPU系统。它无线接收的数据收集的测量电极电容,并将其发送到图像重建子系统。末帧处理,它收集image-pixel向量,将其存储在连接更快,并显示到液晶。

2.3。分区

嵌入式系统设计的最重要的驱动因素是性能和灵活性。而高灵活性和低设计工作可以通过应用软件实现,其性能较低。相比之下,硬件固有并行性意识到过度的系统性能,但是其设计复杂性开销很高。

通常情况下,嵌入式系统是随着soc设计的方法,在全系统组件(如处理器,内存,专用硬件协处理器、输入输出设备集成在一个芯片上。硬件软件(HW / SW)合作设计的嵌入式SoC允许实现性能和灵活性之间的平衡。应用程序的硬件软件分区的软件和硬件组件的一个关键步骤嵌入SoC HW / SW合作设计[35]。

量化设计指标系统的构建块驱动器分区所需的过程。这些量化值,如延迟(执行时间),区域,和权力可以使用分析,获得系统的仿真和静态分析。MBD的可执行模型和自动代码生成允许方便的验证和分析数据收集,以协助HW /西南分区的决定。分析图像的重建系统暴露的计算intensiveness iLBP算法。其核心是一个计算密集型的过程重复的矩阵乘法和加法在大型循环迭代,这使得它的可行候选人在FPGA硬件实现结构。因此,可以实现所需的性能。图像重建控制器(IR-C)控制数据流块ram的住房的敏感性,电容,图像矩阵,IR-alg模块。其通信成本效益将它映射到FPGA结构而不是HPS软件方面。

另一方面,DPU-C的功能块作为一个控制流密集状态机使其成为一个完美的候选人在FPGA内部的ARM处理器软件映射SoC平台。此外,软件实现DPU-C块的允许利用这些外设的遗留软件驱动程序。美联储IR-alg必须与输入数据的灵敏度矩阵, ,以及电容向量, 。因为ECT系统的灵敏度矩阵是非常大的,仔细的系统级映射决策必须考虑的FPGA实现。因为灵敏度矩阵有固定不变的元素,它可以是硬编码的一部分IR-alg模块建模为一个单一的MATLAB函数块MBD的方法。在这种方法中,剩下的灵敏度矩阵合成工具将其映射到寄存器分散FPGA内部结构。连接如此大的灵敏度矩阵的合成计算元素IR-alg模块以这种方式消耗大量的FPGA路由资源和患有长期可能违反时间约束的路由路径。

使用模块的系统方法来单独处理的内存需求和其内部组织结构IR-alg模块本身,灵敏度矩阵, ,映射到FPGA块ram, IR-alg算法被认为是一个单独的模块,可以建模为一个MATLAB函数块MBD的方法。在这种情况下,整个块矩阵必须准备和美联储IR-alg模块在每个计算周期。这个模型提供了确定的时间要求和少量的FPGA路由资源。灵敏度矩阵是我们ECT-DPU系统建模中使用这种方法。

基于上述推理以及收集分析数据,ECT-DPU系统分区如图3。它显示了映射等数字处理系统的硬件和软件的气旋V SoC FPGA平台。

2.4。定点表示法和字长

的定点版本iLBP算法生成了低成本的硬件实现以及高性能增益和能源效率。虽然定点单词长度可以手动设置里面的MATLAB代码IR-alg模块,它更适合从浮点模型自动生成与援助定点转换工具的MBD工作流的一部分。以来增加了单词长度消耗更多的硬件资源,定点转换工具可以引导设计师设置单词长度的定点iLBP算法的版本保持相似的精度的浮点。

3所示。矩阵向量乘法细分方案

3.1。矩阵向量乘法

矩阵向量乘法(MVM)构成了枸杞多糖的关键计算结构和iLBP图像重建算法方程(4)和(5),分别,而内积构成MVM的内核操作。本节介绍了分段内积体系结构作为resource-sharing-based核心单元方法的矩阵向量乘法阶段的图像重建算法。的要求,设计和实现一个高效的FPGA硬件架构的大型矩阵向量乘法满足实时性能要求在不违反硬件资源约束。建议的解决方案是建立每个矩阵向量乘法阶段在一个共同的分段并行内积体系结构实现性能/资源使用情况的权衡。

在本节中,为通用MVM的问题,我们将按照通用的符号。矩阵和向量的名字,以及他们的指标,每个阶段的替换为相应的符号迭代linear-back投影(iLBP)算法在方程(5)。

让和是一维的定点数据向量的大小和 ,分别。MVM, ,被表示为在哪里

3.2。多周期的路径量化

计算周期定义为乘法和加法操作的原子处理应用于数据从两个输入向量的内积。让组合路径延迟, ,显示所需的延迟传播的信号通过组合路径内积的硬件单元在一个计算周期。内积的硬件单元需要计算时间, ,等于它在每个计算周期组合数据处理。因此,组合路径的计算时间可以实现在一个时钟周期的时间相等 ,或在 ,多个时钟周期等于与时钟周期。多周期的实现路径是通过使组合实现路径结果写到存储元素的计算周期,在时钟周期 ,和带来的计算时间

因此,系统设计运行在一个操作频率与周期, ,等于的实现和等于多循环的路径在单循环路径实现。多周期的组合路径也可以由FPGA实现署计时工具(由阿尔特拉TimeQuest [10]分析工具)。数据元素的向量内积不得不准备计算通过阅读从内存位置如FPGA硬件块ram。

3.3。平行的内积

完全可以实现串行实现MVM的硬件使用单个multiply-accumulate单元和控制器生成行和列索引在嵌套循环类似于软件实现,介绍了在(12]。虽然这串行实现需要一个乘法器和加法器,它长的计算时间计算周期。另一方面,完全MVM可以实现高性能的并行实现,实现在一个计算周期(36的成本),但这需要大量的FPGA资源乘数和小蝰蛇。性能/资源使用交换是一个可行的方法来满足嵌入式系统时间约束和/或实现高性能,同时仍然在可用的FPGA资源。建筑周围的矩阵向量乘法共享并行架构内积可以完成这个交易。

利用内积的乘法操作过程之间的内在并行性来构建一个平行的内积体系结构会增加成本的性能增加所需的资源。它由乘数和蛇为了实现两个向量的长度之间的内积在一个计算周期。组合路径延迟可以并行执行乘法操作缩短对所有元素的输入向量内积;然后,乘法运算结果总结与一组方案生成最终的内积的结果,如图4。

并行架构内积的多周期的路径实现组合路径需要读取输入数据从内存位置在FPGA块ram读取期, ,在方程(9),而其单循环实现所输入数据读取期如方程(10)。这个对比的减少输入数据读取期的一个因素情况下的多周期的路径而不是单路径实现。另一方面,计算时间几乎是类似的 ,和 ,多和单路径的实现,分别。

3.4。分段内积体系结构

组合路径延迟往往是长大型向量,从而导致长时间的计算周期延迟和大量的资源。的资源使用情况,以及组合路径延迟,可以大大缩短通过分段长度的输入向量内积到多个领域 ,和complete-vector内积完成计算周期长度向量,表示段的数量。在每个计算周期,结果分段内积之前添加到缓冲部分内积,表达的是方程(13)。

在方程(符号后6),和是和分别向量内积可以写成

然后,一个段的部分内积,的长度 ,被编写为

因此,可以写在分段内积形式每一段的部分内积计算在一个计算周期。

在每个计算周期,应满足分段内积单元只有一段长度从两个输入向量,而不是整个向量,大大缩短了组合路径延迟和其所需的硬件资源。

图5说明了分段内积的架构。

它需要平行乘数和蛇,它经历组合路径延迟, ,表达的方程(14)。它的组合路径延迟实现多个时钟周期通过延迟计数器,使写作部分内积计算周期的最后一个内存缓冲区,在时钟周期。在哪里和传播延迟通过乘数和所需的蛇的内积长度向量,分别。为了减少传播延迟,蛇被组织为一个树状结构。

的长度向量,分段内积架构需要相同的输入数据读取期nonsegmented架构,在方程(9)。另一方面,它规定的计算时间

方程(15)表明,分段内积架构带来了一些计算时间开销相比nonsegmented并行体系结构方程(8)。将实验结果所示,这个开销非常小的优点相比大幅减少所需资源的数量。

执行时间, ,完成内积计算是输入数据读取期之和, ,和计算时间, 。假设每个数据元素需要一个读单时钟周期,时间的执行时间长度内积,表示为时钟周期的数量

段的长度是一个设计自由度,允许之间的权衡性能和资源使用和确定计算并行性的水平以及输入端口的最大数量。并行输入端口的数量是另一个设计自由度更多的性能。增加并行输入端口的数量使用多个Block-RAMs喂养分段内积单位多个元素的两个输入向量,和 ,同时,降低了读取期,以提高性能。

让表示并行输入端口, ;的执行时间长度内积,表示为时钟周期的数量

提出的分段体系结构变成内积单元参数模块,与设定的区段长度设计师来满足所需的性能,同时满足资源约束。表1比较硬件架构的要求平行的内积计算作为内核操作矩阵乘法算法。


	卡西姆(12]	女子(33]	分段(提议)

乘数
输入端口

计算周期

3.5。基于航段矩阵向量乘法架构

分段内积架构作为核心单元resource-sharing-based矩阵乘法的方法;每个矩阵向量乘法阶段的图像重建算法是建立在这个共享并行分割内积的架构。

使用方程(13),让 ,通用矩阵向量乘法, ,在分段形式,写成方程(18在方程()和代表20.)

使用方程(18),MVM要求的执行时间

在基于模型的设计在系统级,线段的长度是一个设计流程的输入。首先,设计师计算估计执行时间(使用方程(21)对小段长度以保护HW野生动物检查实现所需的性能。然后,区段长度可以增加,估计执行时间重新计算,直到满足性能需求。插入指定的区段长度在系统级模型,系统设计可以灵活地根据设计规范来满足所需的性能,同时满足资源约束。耦合MBD的区段长度分配过程将大大减少开发时间和精力,减轻设计师从重构系统在每个设计周期。

在此基础上基于航段MVM的架构,iLBP架构如图6。第一个枸杞多糖iLBP算法的矩阵向量乘法阶段组织为每一行向量矩阵以及分段内积单位向量计算周期。在此体系结构中,枸杞多糖MVM的需要计算周期。类似的,第二个和第三个iLBP MVM阶段要求和分别计算周期。

4所示。系统建模与实现

4.1。硬件平台

阿尔特拉气旋V SoC FPGA平台(8)用于ECT-DPU作为SoC系统实现平台。这个SoC平台是一个评估板。它包括气旋V 5 csxfc6d6f31c6 FPGA器件将多核ARM处理器子系统集成到FPGA结构(37),除了DDR3内存和通用接口控制器。双核处理器ARM cortex - a9 MPCore操作在一个925 MHz子系统连接一组丰富的外设连接构成的硬处理系统(HPS)一边气旋V SoC设备。HPS和FPGA结构之间的通信是通过标准AXI4桥。HPSFPGA AXI桥梁让主人在FPGA结构与奴隶的HPS逻辑,反之亦然(37]。

4.2。系统级建模与仿真

MathWorks引入了一个完整的基于模型的设计平台基于MATLAB环境(15]。它涵盖了整个设计流程,使用MATLAB / Simulink建模与仿真在FPGA SoC平台上部署。MATLAB的MBD工作流取决于两个关键技术,高密度脂蛋白编码器”工具箱用于生成synthesizable HDL代码和嵌入式编码嵌入C代码生成工具箱,MATLAB代码和仿真软件模型。

ECT-DPU系统设计过程遵循MBD的方法。它是基于MATLAB使用MATLAB HDL MBD流编码器和嵌入式程序员工具箱(15]。对于一个完整的过程,这些工具箱与硬件合成工具:阿尔特拉套件的开发工具,第四的二世和软件编译工具:SoC嵌入式设计套件(SoC-EDS) [11]。

基于提出的基于航段ECT-DPU MVM使用MATLAB仿真软件体系结构建模和HDL编码器工具箱。它的功能行为是在系统级验证。相当于硬件描述语言(VHDL)生成代码,合成和执行时间分析通过集成与阿尔特拉第四的二世和设计部署到阿尔特拉气旋V FPGA器件。这些FPGA设计步骤自动化使用高密度脂蛋白HDL编码器的工作流顾问。

ECT-DPU系统编码的图像重建子系统与HDL-synthesizable MATLAB代码,而主要DPU控制器建模与C-compatible MATLAB代码。两者都是建模为在仿真软件MATLAB功能块模型。在MBD cycle-accurate模型允许的系统级仿真功能验证以及旋回性能度量。MATLAB仿真数据检查工具是用于此目的的ECT-DPU检查和验证的行为分割内积的核心内部使用每个三个阶段iLBP IR-alg,以及DPU-C和IR-C控制器之间的握手信号的模块。图7说明了时间周期级别的行为MVM的分段内积的核心在一个阶段 - - - - - -元素矩阵和32-element向量的例子,SL参数设置为8。此外,HPS-to-FPGA h2f, FPGA-to-HPS f2h,握手信号数据所示8(一个)和8 (b)。

(一)

(b)

4.3。代码生成

使用高密度脂蛋白HDL的工作流顾问工具程序员工具箱,HDL-code作为ip核的图像重建子系统生成(IR-alg和IR-C模块)。在同一进程中,IP接口逻辑及其抽象的软件界面模型的ARM处理器是根据AXI4自动生成的接口标准。

另一方面,DPU-C相应的生成C代码的ARM处理器是由嵌入式程序员工具箱,被连接到生成的AXI4接口模型。编译和位流配置文件生成的C和HDL代码部分,分别系统可以部署到FPGA平台直接从高密度脂蛋白中的工作流Advisor工具。DPU-C生成C代码是可以与其他软件组件集成的完整的ECT-DPU系统。使用转换频率第二第四的CAD系统的工具,为图像重建子系统生成的高密度脂蛋白ip核可以重用在其他相关ECT-DPU系统。

4.4。FPGA测试和验证

基于模型的设计方法用于设计和实现ECT-DPU从一个可执行的功能系统级模型的FPGA实现和测试。在每一个设计周期,基于航段MVM的区段长度参数结构,三个阶段的iLBP图像重建算法,设置的测试值作为输入到系统级的设计流程。在每一个设计周期,ECT-DPU模拟,测试和验证,为FPGA结构和生成的代码是HPS ARM处理器。

使用MBD可以大大减少开发时间,减少了设计周期以及减轻每个设计周期系统的改造。变化的区段长度参数的影响基于航段MVM架构所需的硬件资源和执行时间开销与64 -元素说明向量,作为一个例子如图9。的区段长度分段内积共享核心单元是减少从64到4元素的完整长度的向量。图9显示所需的硬件资源以乘数的数量,同时在执行时间开销的百分比nonsegmented版本。方程的分析模型(16)是用于生成数据作为计算的第一步MBD的最高级别的计划。另一方面,代码生成和实现,FPGA硬件资源合成记录在表中2对这些区段长度测试值。阿尔特拉的TimeQuest [10分析工具在CVSoC FPGA器件的工作频率100 MHz是用来获得组合路径的传播延迟组件。合成的传播延迟比较分段内积和计算分析数据如图1064 -元素向量。它显示了接近匹配分析模型的方程(16)合成的结果。


SL	64年	32	16	8	4
利用逻辑(在施舍)	1496年	746年	382年	216年	113年
DSP模块	64年	32	16	8	4
寄存器	727年	375年	199年	111年	67年

计算数据和合成FPGA硬件资源说明减少区段长度的线性效应最小化FPGA硬件资源及其对之间的权衡的影响性能和资源使用。这说明了MBD方法可以帮助设计师ECT-DPU尝试输入参数的设计流程从系统级模型的FPGA实现,无需改造系统在每个设计周期。

分割效果的LBP图像重建算法,方程(4),见图11。说明帧率在公斤帧/秒 - - - - - -在基于航段MVM架构元素灵敏度矩阵。它说明分割方案达到高资源节省43%和71%(对应线段长度的57%和29%的完整长度的向量)的小退化帧率为3%和14%,分别。管线式架构的三级iLBP图像重建算法,方程(5),达到相同的帧的吞吐量。

该算法验证通过合成数据收集从一个ECT系统如图1与电极。这些电极周围均匀分布的二维平面血管成像。一次一个电极上的电压作为发射机其余电极接收器。通过测量这些电极的制作费用, 独立收集互电容值。通常情况下,生成的图像的质量可以通过增加增强传感电极在成像区域。然而,这从根本上增加了测量电路的复杂性以及系统的硬件设计的成本。

这里显示的结果代表了两种不同介电常数的变化。电极之间的相互各相应介电常数分布估计使用有限元模型[4]。720年的有限元网格由线性三角形元素。一个图像区域的大小选择像素中心的有限元模型来降低计算的复杂性。因此,灵敏度矩阵的大小和一个测量电极电容向量的大小28元素应用在实验。非均匀材料的介电常数的值是1.8,而介电常数的值区域是空的时候是1.0。灵敏度矩阵也计算基于方程(3从有限元模型)。弛豫参数是调整和选择给更好的重建图像。

ECT-DPU MBD的方法是测试和验证对枸杞多糖和iLBP图像重建算法在FPGA上实现。电容测量和灵敏度值存储在内部。枸杞多糖和iLBP图像重建算法应用于探测材料内部成像的分布区域。两个物体之间距离都用来测试算法如图12。枸杞多糖重建图像在FPGA如图12 (b),而iLBP重建图像FPGA 10和200次迭代中描述的数据12 (c)和12 (d),分别。图12证明的能力的FPGA实现ECT-DPU检测多个对象的电容测量系统等。数据12 (c)和12 (d)验证iLBP算法能够准确地检测到该对象的大小和位置比LBP算法。此外,这说明之间的权衡iLBP迭代的数量和重建图像质量造成ECT-DPU FPGA实现。

(一)

(b)

(c)

(d)

错误和真实之间的重建图像计算方程(22)[26]。在哪里重建图像和吗是真正的图像分布。图像的质量增加的相对误差降低。

的错误在300年迭代对象如图12如图13。误差会随着迭代的数量增加。

5。结论

摘要基于航段矩阵向量乘法架构提出了工作的核心单元等数字处理单元。此外,硬件软件(HW / SW)等数字处理单元提出的合作设计。ECT-DPU遵循MBD的设计和实现方法。它是基于MATLAB使用MATLAB HDL MBD流编码器和嵌入式程序员工具箱,阿尔特拉相关开发工具套件,第四的二世和SoC-EDS。

在每一个设计周期,基于航段MVM的区段长度参数结构,三个阶段的iLBP图像重建算法,设置的测试值作为输入到系统级的设计流程。在每一个设计周期,ECT-DPU模拟,测试,代码生成和验证,对FPGA织物以及HPS ARM处理器。体系结构评估和部署到阿尔特拉气旋SoC FPGA平台。这些FPGA设计步骤自动化使用高密度脂蛋白HDL编码器的工作流顾问。

设计和实现的通过MBD ECT-DPU大大减少开发时间,减少了设计周期以及减轻重构系统在每个设计周期。计算数据和合成FPGA硬件资源说明减少区段长度的线性效应最小化FPGA硬件资源及其对之间的权衡的影响性能和资源使用。在LBP算法,分割方案说明高资源节省43%和71%的小退化帧率为3%和14%,分别。

数据可用性

每个请求的数据可用。

的利益冲突

作者宣称没有利益冲突有关的出版。

确认

这项工作由国家计划科学、技术和创新(MAARIFAH),阿卜杜勒阿齐兹国王科技城,沙特阿拉伯王国(批准号13-ELE469-10)。

引用

n A·A·拉赫曼·r·A . Rahim A . m . Nawi et al .,“回顾电子电容层析成像传感器的发展,“j . Teknol,卷73,不。3,35-41,2015页。视图:出版商的网站|谷歌学术搜索
m . Meribout和美国Teniou管线式并行硬件体系结构为二维实时电电容层析成像使用帧间相关性,”IEEE超大规模集成电路(VLSI)系统,25卷,不。4、1320 - 1328年,2017页。视图:出版商的网站|谷歌学术搜索
吴w·杨,李y, z . et al .,“电电容层析成象测量多相噢,”2011年IEEE国际会议上成像系统和技术巴图Ferringhi,页108 - 111年,马来西亚,2011年。视图:出版商的网站|谷歌学术搜索
m·A·Abdelrahman A·古普塔和w·A . Deabes“提出问题提出了解决方案在电子电容层析成象的导电材料,”IEEE仪表和测量,60卷,不。2、430 - 441年,2011页。视图:出版商的网站|谷歌学术搜索
a·k·勒姆和w·a . Deabes“电电容层析成象数字处理平台(ECT-DPU)”IECON 2016 - 42年会上IEEE工业电子产品的社会,页4767 - 4771,佛罗伦萨,意大利,2016年。视图:出版商的网站|谷歌学术搜索
r . Tessier k Pocek, a . DeHon“可重构计算架构,”IEEE学报》,卷103,不。3、332 - 354年,2015页。视图:出版商的网站|谷歌学术搜索
周h . l .徐曹z、x Liu和刘,“一个复杂的可编程逻辑基于高精度电电容层析成象系统,”测量科学与技术,24卷,不。7,074006年,页2013。视图:出版商的网站|谷歌学术搜索
阿尔特拉公司气旋V SoC发展委员会示意图,Tech.rep。,阿尔特拉,20.15,https://www.altera.com/content/dam/altera-www/global/en_US/support/boards-kits/C5SOCDEVKITE.pdf。
g . Xilinx和美国指南zynq - 7000所有可编程的SoC技术参考手册(UG585)2014年,Xilinx Tech.代表。https://www.xilinx.com/support/documentation/userguides/ug585 zynq - 7000 trm.pdf。
阿尔特拉,第四的黄金标准版手册卷1:设计和合成2015年,Tech.代表阿尔特拉,https://www.altera.com/en_US/pdfs/literature/hb/qts/qts-qps-5v1.pdf。
阿尔特拉公司阿尔特拉SoC嵌入式设计套件(ug - 1137),Tech.rep。,阿尔特拉,20.14,https://www.altera.com/en_US/pdfs/literature/ug/ug_soc_eds.pdf。
s·m·卡西姆,a . a . Telba和a . y . AlMazroo“FPGA的矩阵乘法器架构设计和实现图像和信号处理应用中,“IJCSNS——Int。j .第一版。科学。Netw。安全内核,10卷,不。2、168 - 176年,2010页。视图:谷歌学术搜索
f .水银地震计,r·桑切斯a Agenjo et al .,“欧几里得家设计环境设计的快速部署,”第六届国际会议上天体动力学工具和技术2016年,达姆施塔特,德国。视图:谷歌学术搜索
o . Raque k .施耐德,“即插即用设备的标准化基于模型的嵌入式系统的设计”IEEE 2016年11日研讨会工业嵌入式系统(sy)2016年,页1 - 4,克拉科夫,波兰。视图:出版商的网站|谷歌学术搜索
Mathworks,基于模型设计的工具箱2018年,Mathworks Tech.代表,https://www.mathworks.com/solutions/model-based-design.html。
x x Cai、m .周和黄,“基于模型设计FPGA软件定义的无线电,”IEEE访问,5卷,不。1,第8283 - 8276页,2017。视图:出版商的网站|谷歌学术搜索
s . b .初级v c . De Oliveira, g . b .初级“软件定义的无线电实现QPSK调制器/解调器在一个广泛的基于fpga的硬件平台Xilinx ZYNQ,”计算机科学期刊,11卷,不。4、598 - 611年,2015页。视图:出版商的网站|谷歌学术搜索
n .杨·g·华、j .莉莉和z彭宇,“基于模型的设计方法为数字上下转换软件定义无线电的,”国际多媒体和无处不在的工程杂志》上,11卷,不。4,27-36,2016页。视图:出版商的网站|谷歌学术搜索
k . m . Deliparaschos k . Michail s . g . Tzafestas和A·c·Zolotas“基于模型的嵌入式控制硬件/软件合作设计方法优化工业系统中,传感器的选择”2015年23日地中海会议控制和自动化(地中海)Torremolinos,页889 - 894年,西班牙,2015年。视图:出版商的网站|谷歌学术搜索
f . Memon f·贾米尔,m . Arif和f . a . Memon“模型基于FPGA设计的直方图均衡化,”信德省大学研究Journal-SURJ系列(科学),48卷,不。2、435 - 440年,2016页。视图:谷歌学术搜索
j . w .张成泽、s . Choi和v . k . k . Prasanna”区域和时间e_cient fpga的实现矩阵乘法,”2002年IEEE国际会议现场可编程技术,2002年。(把)。程序。,页93 - 100,香港,中国,2002。视图:出版商的网站|谷歌学术搜索
r·古”的实现卡尔曼滤波器和声纳图像处理在FPGA平台上”2015年国际工业工程与运营管理会议(IEOM),页1 - 7,迪拜,阿拉伯联合酋长国,2015年。视图:出版商的网站|谷歌学术搜索
s . r . Huddar s . r . Rupanagudi r·拉维s Yadav和s . Jain”小说架构为AES逆列混合使用古老的吠陀数学在FPGA上,”2013年国际会议上的进步计算、通信和信息(ICACCI)迈索尔,页1924 - 1929年,印度,2013。视图:出版商的网站|谷歌学术搜索
w·Deabes m·阿卜杜拉,o . Elkeelany和m . Abdelrahman”可重构无线电力电容层析成象,独立的平台”2009年IEEE研讨会上计算智能控制和自动化纳什维尔,页112 - 116年,TN,美国,2009年。视图:出版商的网站|谷歌学术搜索
A . f . Firdaua和m . Meribout”一种新的并行VLSI架构实时电力电容层析成象,”IEEE计算机,卷65,不。1,30-41,2015页。视图:出版商的网站|谷歌学术搜索
w .问:杨和l .彭“电力电容层析成像图像重建算法,测量科学与技术,14卷,不。1,R1-R13, 2003页。视图:出版商的网站|谷歌学术搜索
w·A·Deabes和m . A . Abdelrahman非线性模糊辅助电力电容层析成像图像重建算法,”ISA事务卷,49号1,10 - 18,2010页。视图:出版商的网站|谷歌学术搜索
k . Andryc m .商人,r . Tessier”FlexGrip:软GPGPU的fpga,”2013年国际会议现场可编程技术(把)《京都议定书》,页230 - 237年,日本,2013年。视图:出版商的网站|谷歌学术搜索
美国威廉姆斯,l . Oliker r . Vuduc j . Shalf k . Yelick和j . Demmel”优化的稀疏矩阵向量乘法在新兴的多核平台上,“并行计算,35卷,不。3、178 - 194年,2009页。视图:出版商的网站|谷歌学术搜索
w . Deabes”的Fpga实现数字成像系统等导电材料,”算法,12卷,不。2、2019年p。28日。视图:出版商的网站|谷歌学术搜索
美国Kestur、j·d·戴维斯和e . s .钟“矩阵矢量相乘对通用FPGA架构,”2012年IEEE 20国际研讨会现场可编程定义计算机器9 - 16页,多伦多,加拿大,2012。视图:出版商的网站|谷歌学术搜索
Sangjin香港、Kyoung-Su公园和Jun-Hee妈妈,“高速矩阵乘法器的设计和实现基于word-width分解,“IEEE超大规模集成电路(VLSI)系统,14卷,不。4、380 - 392年,2006页。视图:出版商的网站|谷歌学术搜索
美国女子和n .之一Meena”高效的硬件设计实现矩阵乘法的使用PPI-SO,”国际期刊的创新在计算机和通信工程的研究,1卷,不。4、1020 - 1024年,2013页。视图:谷歌学术搜索
o . Isaksen”,对电容层析重建技术”,测量科学与技术,7卷,不。3、325 - 337年,1996页。视图:出版商的网站|谷歌学术搜索
p . r . Schaumont一个实际的硬件/软件代码符号概论激飞美国,波士顿,MA, 2013年。视图:出版商的网站
美国女子,s·辛格和n .之一Meena“FPGA设计和实现矩阵乘法的架构通过PPI-MO技术,”国际期刊《计算机和应用程序,卷80,不。1、19 - 22日,2013页。视图:出版商的网站|谷歌学术搜索
阿尔特拉,气旋V硬处理器系统技术参考手册2016年,Tech.代表阿尔特拉,http://www.altera.com/literature/hb/cyclone-v/cv.5v4.pdf。

建模和模拟在工程

文摘