6.5 mm, and its power consumption is approximately 349.318 mW. Experimental results demonstrate that the proposed EGPU can be used in a System on Chip (SoC) configuration connected to sensors to accelerate its processing and create a proper balance between performance and cost."> 一个基于题目EGPU融合通用处理引擎和图形协处理器集群 - raybet雷竞app,雷竞技官网下载,雷电竞下载苹果

杂志上的传感器

PDF
杂志上的传感器/2016年/文章
特殊的问题

图像放大使用多个传感器

把这个特殊的问题

研究文章|开放获取

体积 2016年 |文章的ID 7281031 | https://doi.org/10.1155/2016/7281031

杨,李周,道太阳,Yanhu陈,王磊,Shaotao太阳, 一个基于题目EGPU融合通用处理引擎和图形协处理器集群”,杂志上的传感器, 卷。2016年, 文章的ID7281031, 9 页面, 2016年 https://doi.org/10.1155/2016/7281031

一个基于题目EGPU融合通用处理引擎和图形协处理器集群

学术编辑器:Gwanggil全
收到了 2015年3月16日
修改后的 2015年5月15
接受 2015年5月18日
发表 2015年11月22日

文摘

各种应用传感器集成到嵌入式设备,嵌入式图形处理单元(EGPU)承担更多的处理任务,这需要一个EGPU更高的性能。提出了一种基于题目EGPU可以用于通用计算和三维图形渲染。与融合、可伸缩、分层并行架构,EGPU有能力解决近1亿顶点或片段,达到每秒1 GFLOPS时钟频率为200 MHz。融合和可扩展的架构,由通用处理引擎(UPE)和图形协处理器集群(GCC),确保EGPU可以适应各种图形处理场景和情况下,实现更高效的渲染。此外,通过UPE分层并行实现。此外,瓷砖带来显著减少系统内存带宽和能源消耗。0.18µ米技术图书馆是用于时间和功率分析。提出EGPU的面积是6.5毫米 6.5毫米,其能耗约为349.318兆瓦。实验结果表明,该EGPU可用于系统芯片(SoC)配置连接到传感器来加速其处理和创建一个适当的性能和成本之间的平衡。

1。介绍

随着嵌入式应用程序的发展,各种嵌入式平台和设备已经成为人民日常生活的重要组成部分1]。手机、手持电子产品和汽车电子产品大大改变了人们的生活方式。作为嵌入式平台的最重要部分,图形处理单元(GPU)在嵌入式系统中起着重要的作用2]。

GPU的概念在1999年首次提出的NVIDIA (3]。其强大的性能在3 d图形处理加速度和通用计算从不同领域的研究人员已经引起了相当大的关注4,5]。gpu的硬件设计已经取得了引人注目的进步在过去的十年。现代GPU已经从传统的固定功能图形管道可编程并行处理器。传统图形处理管道的固定功能阶段没有可编程性。随着顶点和片段着色器,顶点和像素可以被处理,分别。然而,当这些着色器是应用于不同处理情况下,典型的工作负载的顶点和片段着色器通常是不平衡,导致效率低下。统一着色器架构被介绍给启用动态负载平衡变化的顶点和像素处理的工作负载(6]。

近年来移动应用都取得了极大的成功(7]。嵌入式GPU的性能(EGPU)已经成为一个最重要的因素在评估嵌入式平台。与桌面GPU相比,一个EGPU需要等效处理性能,降低能源消耗,更好的便携api,低成本,更有效的利用内存带宽。这些关键因素与相互依赖性和严格,这决定了EGPU硬件设计的优化策略。基于题目的立即模式渲染器(IMR)和渲染器(创业)是两个最受欢迎的渲染器在现代EGPU硬件设计。而传统IMR呈现在屏幕上的所有对象边界,为使每个屏幕瓷砖一个接一个,直到完整的图像呈现。此外,在Z-buffer IMR依赖深度值对最终结果进行排序。结果,仍然掩盖碎片处理,透支的数量增加了现代奥运会的4和5倍之间变得更加现实的(8),导致内存带宽的浪费。相反,为确定什么是可见的,只显示是必要的,以避免透支。

基于题目的方法将显示屏分为瓷砖,是相互独立的。因为每个瓷砖地区占据了整个场景的一个小子集,减少内存访问可以很容易地实现基于片上内存。有几个支持基于题目的图形处理芯片上的记忆,包括Z-buffer颜色缓冲区,和瓷砖帧缓冲。一个 以及基于片上Z-buffer执行。像素处理和混合使用颜色缓冲区和芯片上的“瓷砖帧缓冲”作为本地存储区域。与传统的3 d EGPU相比,一个基于题目EGPU降低内存带宽成本,提高了系统的性能。执行所有的芯片上的处理在完整的深度和像素精度高时钟频率没有外部内存访问延迟。这种方法大大节省内存带宽,从而使现代奥运会和其他图形应用程序运行与优化性能(9]。

本文提出了一种融合EGPU架构。通用处理引擎(UPE)与图形协处理器集群(GCC)合作,完成图像处理任务和通用的计算效率。这个设计是一个灵活的组合,可以在两块模式和混合模式处理大多数场景。提出的基于题目EGPU平台呈现不透明物体基于融合和并行体系结构。考虑到瓷砖是互相独立的,更多的处理元素意味着更强大的性能和更高的并行性。两个通用处理器(UPs)的设计是本文解决瓷砖渲染管理下的通用处理器控制器(UPC)。基于SIMT(单指令多个线程)10)体系结构中,不同的线程是并发分布式流媒体处理器(SP)的UPs。具体的图形处理和通用GPU (GPGPU)任务可以执行和加速。

在这部作品中,贡献了:(1)和GCC构成融合和可伸缩的架构,允许整个平台在不同的模式来满足各种场景。(2)不同的瓷砖被分配到不同的UPs在呈现阶段,使系统更加高效。SIMT架构应用于,与不同的线程处理单元的分配。整个UPE与分层并行实现。(3)一个灵活的瓷砖机制设计完成 以及早些时候,减少透支和提高效率。(4)介绍了记忆中心(MH)解决内存访问冲突。

剩下的纸是组织如下。部分2描述了EGPU提出的体系结构。实验结果提供了部分3。部分4给出了结论和未来工作的方向进一步考虑。

2。基于题目EGPU

在本节中,一个基于题目EGPU提出了细节,如图1。提出EGPU架构包含一个和GCC处理加速度。UPE的处理操作都是基于一个统一的编程模型,可用于图形处理和通用计算。海湾合作委员会,包括瓷砖、混合、纹理和插值协处理器,配合UPE实现增强的图形处理性能。和GCC的EGPU融合在一起,构成一个融合硬件平台不同处理情况和应用情况。其他组件,包括命令处理、数据准备、数据预处理和光栅操作,配合和GCC来完成整个图形处理流程。所有组件相互通信通过一个内部网络和缓冲,工作作为一个整体。

命令处理器(CP)响应命令从主机CPU和协调与其他EGPU组件协调工作。CP分析指令,将控制信号发送到数据准备(DP)单位、派遣UPE指令,和改变渲染模式根据当前应用程序场景。DP单位收集几何基元,如点、线、三角形,获取相关MH的顶点属性数据。所获取的数据都存储在一个输入缓冲区,以便UPE可以直接访问它们。UPE完成后的处理顶点着色程序,结果数据写入芯片上的内部缓冲区,然后进一步处理的原始汇编(PA) /夹/视图/设置/光栅单元在CP的控制直到实现最终的像素片段。

巴勒斯坦权力机构组装相关的顶点成三角形建立基本的几何基元。然后,视窗和剪辑单位视频原语到标准视图平截头体。他们将postclipping顶点转换为屏幕(像素)空间和拒绝原语外视图体积以及后面的原语。幸存的原语然后由安装单位处理光栅化程序生成边界方程。属性平面方程也生成的线性属性插值像素的像素着色阶段。粗光栅化阶段生成的所有像素块至少部分覆盖的原始。UPE读取相关的像素片段内部缓冲区的数据完成pixel-fragment阴影。阴影pixel-fragments通过互连网络发送到光栅操作处理器(ROP)单元。输出缓冲区中的数据通过MH最终写入系统内存。

2.1。通用处理引擎

UPE,如图2整个EGPU处理的核心,承担大部分的工作负载在图形处理和科学计算。UPE设计并行和分层架构,包含两个统一的UPs的管理下UPC一起工作。UPC发送相应指令和数据从输入缓冲区或内部缓冲区,执行顶点、几何、和像素着色程序和通用计算程序。UPE作为中央控制单元,UPC分配各种任务的UPs和平衡工作负载动态。两个独立的UPs可以并行工作,提高EGPU的效率。特别是,在基于题目EGPU架构,同时每个可以处理不同的瓷砖在片段着色阶段。

基于分层架构,基本和重要UPE的处理单元。一个由一个指令池(IP),一个线程分配器(TD)、分层处理组(高压天然气)和内存。TD从IP中读取指令,存储32 CP的指示,并分配到高压天然气。高压天然气,包括SPs和特殊功能单元(学院)的执行单元。一旦所有的数据被处理,写入到输出缓冲区。通用算法、逻辑、高压天然气处理和内存访问,支持16每种类型的具体操作。大多数EGPU操作。

内存单元在每个由一个常数缓冲区,共享内存,和相对的记忆。常量存储常量用于EGPU阴影阶段。共享内存属于高压天然气和分为5银行为4 SPs和1学院。中间结果写入共享内存进行数据交换的高压天然气。相对内存存储数据对应于当前阴影阶段。一个anticonflict机制提出了确保有序的内存访问。SPs和该学院写他们自己的银行,以避免数据冲突。并给出他们的读和写访问特定的优先级,以确保正确的数据访问。

指令coissue实现了TD的帮助。指令从1到4 d标记根据他们的维度。所有处理器的高压天然气、SPs和学院1 d标量的只能解决32位浮动操作。数据的维度反映了宽度,等待处理。因此,操作64位,96位,128位数据被定义为2 d, 3 d,分别和四维操作。虽然128位操作可以充分利用SP 4芯,必须结合其他操作来占领同时SP核心。3 d和1 d的组合操作,2 d和2 d操作使用。最复杂的场合,同时TD发射4独立1 d指令。coissue架构,SP芯都占领了指令执行效率更高。此外,TD区分基本操作和复杂的和分发SPs和学院不同的线程。 By communicating with the HPG, the TD balances the workload dynamically. Additionally, a flexible memory access mechanism is designed to solve the memory access conflicts that arise with instruction coissue. Two AXI buses are valid for SPs, and another one is reserved for the SFU. Consequently, 4D, 3D and 1D, and 2D and 2D instructions can read corresponding data in one cycle. Four 1D instructions spend 2 cycles to finish a memory access.

处理元素(PE)和计算单元(CU)是基本的并行处理单元的SP和学院,分别。高压天然气是一种层次化的处理系统。SPs和学院组成一个可伸缩的架构来解决基本的和复杂的操作,分别构成顶级并行性。此外,PEs间的并行处理和客户是一个潜在的并行性。分层并行性可以有效解决这些线程分配的TD。

SP和学院的体系结构如图3。SP和该学院也有类似的架构,该学院是解决这些复杂的操作更复杂。的基本操作,如添加、复制和比较,可以在一个周期执行。然而,复杂的三角函数和对数等,可能需要多个周期,因为他们的复杂性在访问查找表(附近地区)。认识到大多数操作都是基本的,该学院分离SPs减少消费和共享的区域芯片(14]。

附近地区旨在产生一个复杂的计算结果通过索引一个预定义的数组来减少处理时间,因为从内存中检索值通常比经历一个复杂的计算。输入操作数的宽度影响硬件面积和附近地区的准确性。输入本文附近地区是6位的宽度,3-bit函数控制。功能实现的附近地区包括互惠、正弦,余弦,指数,对数和二进制。

考虑到每个SP或学院只能获得一个内存总线,PEs和CUs管道工作,确保只有一个PE或铜占据内存总线在每个时钟周期。在每个PE,业务分为5子阶段:指令取出(如果),指令解码(ID),读取数据(RD),执行(EXE)和写入数据(WD)。首先获取一个指令的指令FIFO,然后它是ID解码阶段。数据准备在RD阶段后,指令执行EXE阶段。最后,相应的数据写入内存WD阶段。通用寄存器(GPR)阵列是PEs的接口和客户互动与共享内存。铜是设计一个类似的管道。三个额外的周期被添加到地址的请求,复杂的操作,而这些周期定义为EXE0 EXE1 EXE2, EXE3。与体育的核心,这只能解决基本操作,铜核含有更多的算法和逻辑资源复杂的操作。

2.2。图形协处理器集群

图形协处理器集成到EGPU系统加速graphics-related计算。在这个设计,四个图形协处理器,包括瓷砖协处理器(TC),早期的Z和插值协处理器(EZIC),纹理获取协处理器(交通)和alpha-blending协处理器(ABC),集成进行特定的图形任务。各种协处理器在不同模式的控制下使用CP。这种设计提供了两种模式,瓷砖模式和混合模式。第一个是用于不透明的场景,如图4。后者适用于透明或混合场景。

TC,如图5,执行剪辑,项目,和重叠测试操作几何UPE已经改变的数据。统一shader-based系统,UPE执行顶点着色程序几何数据的坐标变换和其他种每个顶点都具备的操作,如照明。结果数据然后TC。TC把屏幕分成几个瓷砖,法官在屏幕和瓷砖的三角形之间的关系,并将相关信息写入瓷砖列表。一个边界框的测试(《)是用于决定三角形和瓷砖之间的重叠。如图5(8),如果三角形判断属于一个特定的瓷砖,三角形的信息写入相应的瓷砖的位置列表。毕竟三角形已经通过了该剧,TC更新所有的瓷砖覆盖的几何对象,并将转换后的数据写入缓冲区。

瓷砖的数量完成渲染所需的分辨率是由瓷砖。大的瓷砖大小能提高性能,从而减少瓷砖过程和更少的瓷砖来更新列表。然而,它也导致增加图形核心的芯片上的内存需求。选择瓷砖尺寸是图形处理性能之间的平衡和额外的资源的成本。摘要每个瓷砖的大小是固定的,32×32来处理不同的场景。

瓷砖后,由EZIC对象数据测试和处理。一般来说,TC和EZIC同时启用。EZIC,如图6,比较了计算深度信息的每个片段的值存储在芯片上的瓷砖深度缓冲来确定当前片段是可见的。只有那些可见的片段然后插值和存储在内部缓冲区。碎片不同的原语的标签识别的原始属性,应该用于纹理的碎片。当所有的原语在瓷砖列表中已经处理,EZIC提交剩余的碎片回到UPE纹理和其他操作。此外,碎片属于同一原始组织在同一组的帮助下他们的标签,在内存访问和片段处理提高效率。

交通预取纹理数据的基础上计算纹理坐标UPE之前开始流程片段。薄膜电路计算相应的地址根据纹理坐标然后发送阅读对MH的请求。准备的纹理数据存储在芯片上的缓冲区UPE易于访问。

ABC旨在绘制透明对象并实现图像融合效果。呈现混合对象准确,硬件必须单独处理每个对象,他们可能会导致帧缓冲的颜色。不幸的是,瓦结构,深度测试执行前,和模糊对象都丢弃。因此,α和混合不能同时实现。为了克服这个缺点,提出了ABC法。当当前场景需要透明度或混合效应,CP暂停TC和EZIC。整个系统出口瓷砖模式和进入混合模式。然后,CP的渲染任务分派和ABC。UPE完成顶点和片段阶段没有瓷砖加速度。最后渲染,美国广播公司根据混合系数计算新颜色和原来的颜色的颜色缓冲区,然后替换原来的颜色的帧缓冲,如图6。ABC是专为透明或半透明的场景,需要混合操作。所有混合操作是由访问芯片上的颜色缓冲区,这样他们可以非常迅速地执行,而不是浪费额外的系统内存带宽。EGPU与ABC的体系结构能够适应类型的场景和获得进一步增加灵活性。

2.3。记忆中心

MH提供了即将离任的仲裁请求同时还系统内存和缓冲区数据。MH函数作为仲裁者处理内存访问期间相关部分之间的冲突。如图7MH与以下EGPU交互模块:CP, DP,交通,罗普。CP可以从系统中获取指令通过MH记忆。MH的DP读取顶点数据,然后将它们发送到输入缓冲区,它包含一个缓冲区列表,包括顶点缓冲区,正常颜色缓冲区和缓冲区。此外,所有这些缓冲区用于存储对应的数据。通过MH交通获取纹理,罗普写数据到系统的帮助下MH。此外,CP和DP支持多个阅读目标,确定不同的主id。MH支持总共4独特的读硕士和2写大师。MH响应这些请求,给他们读或写的权限。当几个内存请求被发送到MH同时,MH给回车场访问其中一块基于预定义的优先级。然后,内存总线将占领和忙。内存管理单元(MMU)将读写地址映射到输入地址和号码,和下面的请求将进入队列等待响应。只有当内存总线是当前发布的客户端将MH继续解决剩余的未完成请求。 The fixed priority is designed according to the following order of graphics processing for increased efficiency: CP → DP → TFC → ROP.

MMU处理MH的读写请求,如图7。因为不同的请求仲裁,MMU当前请求响应,计算内存地址,建立数据路径。请求首先分类。然后,他们的访问地址计算根据指数和数量。预取绕过机制设计,确保高优先级或紧急请求可以及时回应。阅读和写作要求的顺序控制,以避免潜在的冲突。通过数据传输块数据传输。

3所示。实验结果

在这一节中,有几个实验结果提供给评估EGPU系统的性能。

建立一个系统验证平台来验证的性能EGPU设计提出了。3 d图形场景开发了转移相关数据手动测试用例满足EGPU的输入的要求。这个图形场景包括大约1000点和800个三角形。不包括点和线原语。因此,EGPU成功处理数据并生成二维图像帧缓冲。

处理器的速度被认为是最重要的一个评价因素。每条指令使用的时钟周期可以直接反映速度。此外,硬件设计成本也被认为是通过逻辑设计的面积和功耗。性能和硬件成本之间的平衡设计中研究了这项工作。提出的,它能增强的速度处理硬件资源成本低。200 MHz的频率,平均大约5000万个顶点或每秒可以处理在每个片段。表1礼物的处理能力。以例1为例。四1 d指令包装在一起,SPs + 5周期过程 包。


情况下 指令包类型:数字 时钟周期使用 执行单元

1 1 d 4: + 5 SPs
2 1 + 3 d: + 4 SPs
3 2 d + 2 d: + 4 SPs
4 4 d: + 4 SPs
5 复杂的操作: + 7 学院

在表2,一系列的设计指标,提出了相应的模块。以三角形为例,处理时间之间 和7 时钟周期来处理 三角形。对于一些操作,时钟周期消费取决于对象的大小、位置和属性的3 d应用程序。例如,三角形通常是不同的大小,表明它们含有不同数量的碎片,这最终将导致难以评估的时钟周期内消费。此外,快船,原语将首先分为三种类型,根据这些类型和操作会有所不同。第一类是完全原始视图平截头体内部,和这样一个原始不会剪。第二种类型是完全原始视图截锥体外,和这样一个原始的将被丢弃。最后的类型是内部分的原始视图平截头体,和这样一个原始将剪。不同的类型有不同的时钟周期内消耗有关。


目标:数量 处理时间
(时钟周期)
处理模块

三角形: ( 7 ] 限幅器

原语: ( 3 ] 巴勒斯坦权力机构

原语: 的大小取决于原语 TC

现在使用的时钟周期大小的瓷砖都依赖于原语和原语之间的重叠条件和瓷砖,TC的性能是衡量三角形每秒瓷砖的数量。200 MHz的频率,TC每秒能处理570万个三角形在最坏的情况下,1840万在最好的情况下。

此外,0.18μm CMOS技术图书馆应用于分析时间和功耗在最坏的情况下。结果PVT角落,区域,和权力中演示了表3


处理技术 电压 温度

0.18μm互补金属氧化物半导体 1.68 V 125°C

区域 电力消耗 频率

6.5毫米 6.5毫米 349.318兆瓦 200兆赫

作比较,如表所示4。UPE的性能在这个工作是与其他设计相比。面积和能源性能受到不同程度改善与常规工作。的UPE还提供了一个浮点能力1 GFLOPS。


体系结构 (11] (12] (13] 这项工作

功能 顶点处理器 统一的材质 图形处理器 UPE

加速度范围 几何 几何、渲染 几何、渲染 GP-GPU、几何、渲染

性能 186点/秒 9.1点/秒
100 M / s片段
顶点50 M / s
50 M / s片段
1 GFLOPS
100点/秒
100 M / s片段

处理技术 0.18μm互补金属氧化物半导体 0.13μm互补金属氧化物半导体 0.18μm互补金属氧化物半导体 0.18μm互补金属氧化物半导体

频率 110兆赫 100兆赫 200兆赫 200兆赫

电力消耗 160.7兆瓦 195兆瓦 155兆瓦 198.228兆瓦

区域 4毫米 4.8毫米 3.3毫米 3毫米 22毫米2 ~ 27毫米2

4所示。结论

摘要基于题目EGPU融合,提出了可伸缩、分层并行体系结构。提出了一种UPE通过SIMT架构,提高计算效率coissue机制、高并行性。不同的模式来满足不同的需求,提供场景在海湾合作委员会的帮助,导致更大范围的适应性。此外,基于题目的机制可以显著降低内存带宽的消耗花砖屏幕和使用芯片上的缓冲区。MH的设计有效地避免内存访问冲突。创新的架构和处理机制,提出EGPU之间取得适当的平衡性能和硬件成本。UPE有能力解决近1亿每秒的顶点或碎片在200 MHz时钟频率。此外,TC可以处理1840万个三角形在其最好的情况下瓷砖模式。此外,0.18μ米技术图书馆是用于时间和功率分析。EGPU的面积大约是6.5毫米 6.5毫米,能耗大约是349.318 mW。整个EGPU可以成功完成图像处理任务。此外,它可以进一步提高当前的设计。例如,TC不能全速运作,因为速度限幅器和PA的局限性。同时,海湾合作委员会也可以改善匹配UPE在性能和加工质量。下一阶段的研究将集中在如何提高的效率UPE通过更先进的架构。

利益冲突

作者宣称没有利益冲突有关的出版。

确认

这项工作得到了山东省自然科学基金(ZR2013FQ006),山东省重点创新项目(2013 cxb3020),数字多媒体技术的国家重点实验室(2013-1-2569),山东博士后创新基金会(201002029)、中国博士后创新基金会的资助(20110491601)和中国国家自然科学基金(国家自然科学基金委)授予(61302063)。作者想感谢所有研究伙伴的重大贡献这个工作。作者还感谢暨南大学的支持的硬件平台。

引用

  1. l·加伯”gpu去移动。”电脑,46卷,不。2、文章ID 6457381, 16 - 19, 2013页。视图:出版商的网站|谷歌学术搜索
  2. 想象力的技术,PowerVR MBX技术概述、修订1想象技术,2009年。
  3. c . m . Wittenbrink大肠Kilgariff, a .您正在“费米GF100 GPU的体系结构,IEEE微没有,卷。31日。50 - 59岁,2,页2011。视图:出版商的网站|谷歌学术搜索
  4. j·d·欧文斯m .休斯顿,d . Luebke美国绿色,j . e .石头和j·c·菲利普斯“GPU计算”IEEE学报》,卷96,不。5,879 - 899年,2008页。视图:出版商的网站|谷歌学术搜索
  5. s . w .闲扯,w . j .磨磨蹭蹭的,快b . Khailany m .花环和d . Glasco“gpu并行计算的未来,”IEEE微没有,卷。31日。5、7 - 17页,2011年。视图:出版商的网站|谷歌学术搜索
  6. e . Lindholm j . Nickolls s Oberman, j . Montrym“NVIDIA Tesla:一个统一的图形和计算架构,”IEEE微,28卷,不。2,39-55,2008页。视图:出版商的网站|谷歌学术搜索
  7. B.-G。南、h·金和周宏儒。柳”,低功耗手持3 - d图形编程系统统一的运算器,”IEEE固态电路杂志》上,42卷,不。8,1767 - 1778年,2007页。视图:出版商的网站|谷歌学术搜索
  8. 想象力的技术,POWERVR Series5图形新交所架构开发人员指南、版本1.0.8想象技术,2011年。
  9. m·法尔和r·费尔南多GPU宝石2:为高性能图形编程技术和通用计算美国,addison - wesley,纽约,纽约,2005年。
  10. H.-Y。金,Y.-J。金,黄永发。哦,L.-S。金”,一个可重构SIMT处理器为移动光线追迹与减少争用共享内存,”IEEE电路和系统I:普通文件,60卷,不。4、938 - 950年,2013页。视图:出版商的网站|谷歌学术搜索
  11. 学术界。Yu k .钟d·金工程学系。金,L.-S。金”,一个186 - mvertices / s 161 - mw浮点顶点处理器优化datapath公司和顶点缓存,”IEEE超大规模集成电路(VLSI)系统,17卷,不。10日,1369 - 1382年,2009页。视图:出版商的网站|谷歌学术搜索
  12. j . h .哇,孙j . h, h . Kim和h . j .柳”195千瓦/ 152 mW移动多媒体SoC和完全可编程的3 d图形和MPEG4 / h / JPEG,”IEEE固态电路杂志》上,43卷,不。9日,第2056 - 2047页,2008年。视图:出版商的网站|谷歌学术搜索
  13. 黄永发。孙,黄永发。哇,,硕士。李,周宏儒。金,r .吸引,周宏儒。柳”,一个155兆瓦的顶点50 m / s图形处理器与定点可编程顶点着色器为移动应用程序,”IEEE固态电路杂志》上第41卷。。5,1081 - 1091年,2006页。视图:出版商的网站|谷歌学术搜索
  14. Y.-J。金,纳米比亚。金,工程学系。金,js。公园,美国Paek, L.-S。金”,均匀流处理器与嵌入式高端应用可编程着色器专用功能单位,“IEEE超大规模集成电路(VLSI)系统,20卷,不。9日,第1704 - 1691页,2012年。视图:出版商的网站|谷歌学术搜索

版权©2016杨王等。这是一个开放分布式下文章知识共享归属许可,它允许无限制的使用、分配和复制在任何媒介,提供最初的工作是正确引用。


更多相关文章

PDF 下载引用 引用
下载其他格式更多的
订单打印副本订单
的观点1242年
下载826年
引用

相关文章

文章奖:2020年杰出的研究贡献,选择由我们的首席编辑。获奖的文章阅读