摘要
考虑到低功耗设计时代所报道的各种研究,超大规模集成电路(VLSI)的亚阈值设计趋势近年来有了重大发展。对最低功耗的日益增长的需求一直是这一领域研究增加的主要动力,尽管通过阈下设计也实现了其他目标,如最低能源延迟生产。然而,很少有广泛的研究提供全面的设计洞察力,以赶上快速步伐和大规模实施的次阈值数字设计方法。本文综述了这一领域的最新研究成果,并对阈下设计方法的各个方面进行了探讨。此外,近阈值设计和低功耗流水线也被考虑,以提供一个亚阈值应用的一般回顾。最后,对未来超低功耗设计的发展方向进行了讨论。
1.介绍
亚阈值数字电路现已为超低功耗设计人员所熟知,并已频繁且成功地用于植入传感器和移动外围处理器等应用。然而,性能下降和对过程/电压/温度(PVT)变化的高灵敏度是限制亚阈值电路实现到低活动应用的主要挑战。
最近有许多评论论文涵盖了亚/近阈值数字设计的主题及其挑战。然而,这篇综述的目的是涵盖更广泛的设计,展示低功耗数字设计的不同解决方案的相互关系,并回顾超低功耗时代的最新更新和新进展。
以下是一些有用和全面的评论。作者在1提出了详细的回顾,讨论了亚阈值设计的优点/缺点,以及亚阈值电路所需的数学方程。本文还简要介绍了变型问题,并介绍了静态随机存取存储器(SRAM)的阈下设计技术和多处理设计技术。这些讨论使[1]最具包容性的早期论文之一。
在 [2]作者已经集中在变化和泄漏减少,在更大程度上,和除了DC-DC转换器也被讨论。
在最近的一篇评论中,作者(见[3.[])通过探讨阈下建模方法、一些减少泄漏的技术、对流水线/并行化的简短讨论以及对SRAM的良好回顾,对阈下设计进行了详细的回顾。另外,还讨论了双金属氧化物半导体场效应晶体管(d- mosfet)等其他器件技术。
低功耗设计人员不断需要更多的证据来考虑阈下/近阈值设计作为克服所有挑战的可靠技术。本综述收集了该领域最近所有重要的著作,并考虑了以前的综述。鉴于以上综述,对阈下定义和公式的进一步深入解释不在本文的讨论范围之内。因此,本文从上述综述以来出现的挑战开始,并将解释最近的进展。随后,本研究将比较他们的结果,以找出这些解决方案的有效性,并最终提请注意仍然存在的挑战。
阈下挑战将在本节中讨论2.讨论了最近用于应对PVT变化的解决方案2.1在逻辑和SRAM设计两个领域。部分2.2介绍处理性能下降问题的最新解决方案。部分3.对所复习的论文进行讨论。部分4提出了一些未来的方向,从这一回顾,和部分5总结了纸。
2.阈下的挑战
由于超级电压,亚阈值设计通常必须处理两个主要挑战,即亚阈值PVT变化和性能下降。借助最近的研究,以下小节将解决每个挑战。
2.1.挑战1:PVT变异
本小节将讨论使变异恶化或消除变异的技术。这些技术在减少变异的同时可能产生的副作用也被考虑。此外,由于PVT变化的延迟/性能变化将在本小节中讨论。
堆叠已被广泛用于增加阈值,因此降低亚阈值泄漏[4].然而,这种技术中一些导致变化的缺点是很重要的,下面将对此进行讨论。
首先,虽然堆叠器件表现出较低的电流变异性,但由于输出摆动不足,特别是在较低的电源电压下,它们有较高的逻辑故障概率[5].
众所周知通过大型化的堆叠设备和作者在该不足的输出摆幅能够被补偿[5]利用它的优势来弥补堆叠设备中降低的输出电平。故障率为0.13%是目标,建议的32位加法器具有恒定产量大小,适用于低电压,直到300伏 mV[5].除了弥补PVT的变化,大尺寸还可以降低漏损诱导屏障降低(DIBL)效应,从而降低功耗[6].事实上,在Fan Out of 4 (FO4)逆变器中,在32 nm节点上的放大数纳米可以在0.3 V的10mhz下降低65%的每次操作能量,在小于0.2 V的10khz下降低两个数量级[6].
堆叠过程中的第二个问题是由于设备堆叠导致的电流降低,导致亚阈值区域的速度损失。然而,这可以被身体偏置所抵消[7].例如,在[7作者提出了用于超低功率应用的互补混合锁存触发器(CHLFF),并使用前向体偏置(FBB)来提高PMOS (p沟道MOSFET)堆叠网络的速度。研究发现,在NMOS (n沟道MOSFET)堆叠触发器(FF)中,将电源电压降至0.3 V会导致一些角落故障。将FBB应用于PMOS网络后,电源电压降低到0.23 V,速度提高了3倍(5 MHz),功耗为0.159μW.同样的想法也适用于在[基于感测放大器触发器(SAFF)7]和改进的互补SAFF (CSAFF)工作正常供电电压甚至小于0.3 V和消耗0.144μw速度加倍(5 MHz)。
在较低的频率(~100 然而,由于阈值电压降低,前向自适应机体偏置(ABB)增加了最小能量[8].相反,反向ABB中使用[8]对于8位倍增器和具有0.2 V电源的低频。此外,证明比自适应电源电压缩放(AVS)更有效(能量开销70%较小)。还发现全球PT变化可能表明最小能点的错误频率估计。这可能导致设备/针对低功率(LP)或通用(GP)设计的选择,并导致能源的最坏情况角落的能源开销高于200% [8].
到目前为止,这些论文已经检查了使用特殊电路的不同技术,如触发器(FF)、加法器或乘法器。然而,接下来的论文考虑了更广泛的电路,如处理器。表中比较了他们的表现1.例如,上述关于身体偏差(BB)的说法可以通过查看[9它使用三种BB电压:正向、零和反向BB电压,由BB发电机和一个光伏监控器产生,该监控器是一个逆变器(不研究温度变化)。BB还被用来防止NMOS/PMOS不匹配导致的故障,这在实践中调制β-比自适应子区域,使开关阈值()将接近1/2.逆变器与两个参考电压比较。如果,表示NMOS比PMOS强,转发BB将应用到PMOS网络。相反,如果,NMOS网络是前向体偏置的。还指出,BB的应用可以成功地改变β- 降低分布,导致亚阈值电路的鲁棒性增加[9].
|
||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
作者在10]采用了同样的想法,并提出了一个可配置的用BB降低平衡器在NMOS和PMOS晶体管之间不匹配,从而增加了功能和定时/速度产量。这种速度改进是因为当平衡器打开时,PMOS和NMOS晶体管都被正向偏置。这然而,平衡器在典型-典型、快-快和慢-慢的弯角应用FBB,这是一个更快的设计,但FBB可以在这样的弯角取消,特别是快-快的一个,以节省更多的能源,并能够缩放电压甚至更多。电压和温度变化的结果也没有。从单元库中丢弃具有四个以上并联晶体管或四个堆叠晶体管的逻辑门,以减少泄漏电流变异性,并将比率逻辑替换为非比率逻辑[10].
尽管上述研究降低了特定电路的电压,但在GP设计中使用动态电压缩放(DVS)还需要更多的讨论。当能源效率是关键性能标准时,在面对阈下电压的可变性时,DVS被认为不如动态频率缩放(DFS) [11].事实上,它不仅仅局限于DVS和DFS的选择。在[11]澄清了许多区域最优和性能最优的设计,在超阈值电压下,不适合亚阈值电压(因此他们的库被重新描述为亚阈值操作,并最大限度地提高鲁棒性,一些细胞被从它中删除)。
[12]T.Hat DVS is more energy-efficient for high target frequencies (i.e., GP designs) while ABB is more energy efficient for low target frequencies (low-power designs) over the frequency range of 30–300 kHz. In fact, [12]验证[11为了使用DFS并批准DVS应以更节能的技术在亚阈值设计中替代。作者在12]再次使用ABB来消除性能变化。还证实,通过施加反向BB(RBB)并用FBB增加亚阈值电路,能量降低。
最近的研究表明,除了BB和堆叠之外,还应该考虑尺寸的影响。体偏置技术通常是芯片级的,而施胶可以在芯片或块级上应用,也可以沿栅极宽度或长度应用。选择最合适的芯片(芯片/块,宽度/长度),12,14在…进行一些实验mV。它显示了一个处理器上浆(PROC B)和另一个与两个在关键路径上,大小调整(Proc C)比最小大小的处理器(Proc a)分别快22%和85%。但是对于Proc C来说,这种改进带来了与Proc a相比%14的能量损失,而随着时间的增加,可能会有7%的能量损失这表明,尽管尺寸优于调整大小时,它仅适用于块级性能调整,而不是作为整个芯片性能变化解决方案。
除了调整大小之外,还必须指出,在0.18中实现的处理器 μmT.echnology is 7.7 times larger than a similar processor in a 65 nm technology, but analysis discloses that total energy is reduced by 647 times [4].这是一个非常理想的平衡,特别是当产品的大小是由电池大小决定的时候。此外,在[8]authors verified the same idea by stating that minimum energy level is 30% higher in 45 nm technology (at 30 MHz) than in 130 nm technology (at 0.7 MHz).
2.1.2。SRAM的设计
尽管上述技术通常会将处理器的功耗降低20%左右,但SRAM仍然保持了芯片中很大比例的功耗,从运行时的30%到待机时间的90% [4].这是因为在每次新处理器生成时,通常会有更多的区域(超过50%)分配给片上缓存。而且,这是由于sram具有低活度和高晶体管密度等吸引人的特性[15]此外,由于将内存尽可能靠近处理器,从而实现了电源和性能优化。
低功耗应用程序,如无线手机或传感器处理器通常需要两种工作模式,即高性能和低功耗/待机。后一种模式通常是泄漏功耗的来源,这主要发生在sram中(特别是在待机时间)。众所周知,在低功耗设计中,当活动和电压降低时,泄漏和PVT变化将像以前一样成为最重要的因素。该规则也适用于sram,本节将继续回顾处理这些问题的最新技术。值得指出的是,泄漏减少技术总是有助于解决SRAM中的PVT变化,因为它们通常使SRAM更健壮和无错误;因此,也对一些减少泄漏的技术进行了综述。表格2比较了SRAM设计的最重要的标准。
|
|||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
同样,从堆叠开始,作者在[4],通过叠加SRAM的交叉耦合逆变器以及其他保留门,进一步减少比特单元的泄漏。结果表明,当堆叠器件数目超过两个时,泄漏灵敏度与堆叠器件数目成线性关系。因此,堆栈高度为2。此外,交叉耦合逆变器中器件长度的增加可以更有效地减少泄漏。还观察到IMEM(指令内存)和DMEM(数据内存)消耗89%的备用电源,而CPU在电源门控时只消耗7%的电源。提出了一种特殊的体系结构,用于在IMEM中存储应用程序特定指令的同时,在IROM中存储频繁使用的过程。因为ROM可以在待机模式下进行电源门控,所以在IROM中放置尽可能多的指令是有益的。为进一步减少泄漏,请参阅[4, DMEM中的特定条目只有在特殊的自由列表表明该条目是空闲的时候才被功率门控。
除了门控、大小调整和堆叠之外,通常还会使用各种写/读辅助来防止sram中的阈下区域故障,这将在下面的文章中看到。
然而,为亚阈值区域设计的写/读辅助可能会严重影响高压性能[16].为了解决这个问题,[16]提出了一种具有可重构的三种不同的写辅助体系结构的SRAM。通过结合针对亚阈值和超阈值电压进行优化的不同电路,并利用可重构性在它们之间进行切换,他们的SRAM的工作电压从1.2 V降至250 mV。Ultra DVS的有效性在[16].考虑在低功耗模式下(0.4 V)的内存,每2次访问一次μ每一个通道都造成有效能源消耗。观察到,泄漏功率从1.2 V(无UDVS)缩小到0.4 V(有UDVS),减少了40倍。但是UDVS电路也消耗能量,在低功耗模式下,有和没有UDVS的能量消耗在5次访问(或10次)后变得相等μs) 。因此,仅当系统在低功率模式下停留的时间超过10分钟时 μ那么利用UDVS会更有益,否则会消耗更多的能量。
在[17](已经在审查文件中进行了审查)[2,3.)与[相似16].采用缓冲读来保证读的稳定性,为了实现阈下写和读,在不降低比特单元密度的情况下,对位单元电压和读缓冲脚电压进行外围控制。作者还修改了感知放大器(SAs),通过冗余,SAs中的面积偏移权衡问题得到了缓解,与放大相比,这反过来减少了5倍的读错误。
而不是使用传统的差分结构,作者在[18]采用单端电池,在一侧有一个完整的传输门。通过消除第二个位行,增加一个字行的成本得到了平衡。这种设计的一个明显的好处是位线从一个轨道驱动到另一个轨道的能力,消除了检测放大器的必要性(这通常会导致差分设计中的密度和可变性问题)。此外,在读操作期间,噪声被隔离到单位行,这使得这种设计基本上比差分设计更鲁棒地处理读故障。在写操作期间,在反馈逆变器上对电源电压进行门控,以弥补降级的写余量。扩大规模也被用来处理工艺变化。
在中继续关于阅读帮助的讨论[19为SRAM单元定义了四种操作模式:保留模式、读模式、写模式和一种新的模式,称为访问保留模式(ar模式)。当这些SRAM单元格位于一个被访问的行,但是它们没有被选择去读或写时,这种新的模式表示这些SRAM单元格,这种方法类似于[16,17].这些细胞不释放它们的位线,因此节省了能量。它还增加了被访问单元的读噪声裕度。此外,在亚阈值区域使用RBB的设计使所有非选择单元的漏电流都很低。此外,由于对所选电池(用于读取操作)设置了超阈值电压,因此在保持ar模式电池稳定性的同时,电池访问时间大大缩短。
移动到写辅助,在[15[作者提供了一种差分10T位,可有效分开读写操作,结果实现了高电池稳定性。细胞中的写辅助晶体管被提升以弥补弱写性。每个四列连接到具有动态阈值MOS的公共接地电压驱动器,以减少工艺变化。读取驾驶员的下拉设备在读取期间正向偏置,以增加驱动电流。
在之前看过,在一些SRAM中,在编写小区时,在某些SRAM中共享字线的其他单元格可能会保持稳定性问题[15].一些解决方案,实现相邻比特为相同的逻辑字,使暴露于多比特的软错误(这是更关键的亚阈值的SRAM)所述SRAMs。在所提供的列逐列写控制[15使相邻单元格的保持稳定性在写入期间不受影响。动态差分级联电压开关逻辑(DCVSL)方案也用于读访问。在这种方案中,位线泄漏噪声被一个保持器的驱动电流所抵消,提供了大的位线摆动。保持位线时,位线泄漏亚阈值电流由于堆叠位线泄漏通路而显著降低。
在 [9],然而,代替使用读/写辅助,基于一个施密特TRIGGER-(ST-)10晶体管SRAM单元,提出了与使反相器对理想逆变器附近的位单元中的哪一个基本的特性的想法用于鲁棒细胞操作。从额外的晶体管的正反馈自适应地改变了根据输入转换的方向(0→ 1输入转换,反之亦然)。建议的ST位单元利用了差分运算,并提供了更好的抗噪性。
虽然小区设计在降低延迟和能量方面起着重要的作用,但SRAM架构也是另一个有效的部分。在片上系统(SOC)设计中,多层sram是防止昂贵的片外内存访问和提高性能的常用技术。
另外,亚阈值的SRAM的低速限制阈下芯是其速度通常超过阈值下的SRAM的能力[22].因此,有必要讨论最优的次阈值SRAM体系结构。
作者在22]观察到,由于L2开始相对消耗更多的能量,因此最佳L1尺寸从64kb增加到128kb的目标。即使较大的L1导致每个接入的能量更多,即使从降低L2访问(在较低频率和较大的L1中)的能量也超过了L1的任何增加。此外,观察到,在接近阈值区域(400-500mV)和频率为约15MHz-50MHz的频率下获得最佳能耗。
另一个例子是[23通过多层SRAM,高性能设计成为可能。建议的设计支持ultra从标称电压到sub/near阈值电压的缩放。为了减少片外流量,提高性能和能源效率,嵌入了10Mbit的大片内帧存储器(FM),允许保留视频图形阵列(VGA)帧。然而,如前所述,当处理缩放,通常的SRAM不能可靠地在700 mV以下工作。因此,提出了一种混合内存架构(HMA)来通过在刮擦存储器(SM)中采用数据局部度来将来自处理器的访问率降低到FM。在提议的HMA内,存在三个特征记忆来保存数据:(1)ACCU寄存器:短期数据;(2)SM:中期数据;(3)FM:长期数据。
另一方面,逻辑上的近阈值运算比超阈值运算降低频率。然而,这种速度下降表明了一些关于内存系统选择的新的和有趣的设计机会[24].首先,存储器技术(如逻辑设计部分中讨论的130nm或180nm设备)2.1.1)和更慢的设计可以替代时序临界记忆设计。这将有助于降低芯片的总能量,同时存储器在近阈值中以超级阈值电压和逻辑工作。此外,可以在逻辑的一个近阈值时钟周期中执行对存储器的多次访问。这意味着可以在一个周期中获取更多并行数据并进行处理。最后,较慢的内存可能性允许缓存,寄存器文件和最初旨在补偿长内存延迟的其他元素,关闭或删除。因此,实现了一种管道,使得在单个指令多个数据(SIMD)管道的单个周期中,可以进行多个存储器访问。还显示,由于额外的硬件和临界路径延迟的增加,更广泛的SIMD宽度并不总是提供更少的能耗。
2.2.挑战2:性能下降
如引言所述,性能下降是亚阈值电路的另一个挑战,通常是通过并行或流水线来解决。正如稍后将看到的,管道在超阈值设计中很流行,因为它通常需要许多电路来控制管道,当在亚阈值电压下操作时,将导致系统泄漏。因此,许多研究人员都考虑在流水线电路中进行近阈值电压运算。在超阈值区域,能量对由于有功能的二次依赖性.因此,电压缩小到近阈值电压产生10倍的节能减排在近10倍的性能下降为代价[25].有趣的是,当从近阈值区域缩小到亚阈值区域,但在相同的时间延迟升高到50-100x。结果,作者在[25]的结论是,只要后退一点,在接近阈值的区域工作,就可以恢复大量的性能。
关于近阈值设计的更多信息:[26,还发现延迟率随电源电压变化而变化在近阈值范围内是非常大的。电源电压从0.3 V到0.5 V的200毫伏变化导致大约30倍的性能变化。这个概念通过提供一个2来证明设计,只有50毫伏的间隔和建议的小电压电源上升,造成非常可观的加速。双核为了限制双电压配电的剩余成本,在布局中的整行水平上应用了分配,并且没有使用水平移位器,因为这些双电压不超过100 结果表明,最大加速比(与V和V)为~45%,相当于所有电池通电后得到的.
以上研究表明,近阈值电压对于更高的速度要求是必要的。记住这一事实,本节将继续介绍一些文章,这些文章试图通过子/近阈值区域内的并行和流水线来提高性能。
2.2.1。并行化
一个很好的并行性的例子已经在JPEG核中得到了说明。10].逻辑设计部分中解释的子/近阈值技术2.1.1它最适合低耗能和中频应用,如移动图像处理。
并行的综合研究可在中找到。22,研究了影响系统能量的所有主要因素,如L1缓存的大小和集群的大小、集群的数量和和集群内的选择。首先,内存在亚阈值区域的运行速度往往快于核心,因此提出了使用多个集群共享一个内存的想法。结果表明,能量最佳点是每个集群2个核心,共2个集群。这一点使能源效率提高了53%与传统的多处理器设计相比。用于150以上的目标 MHz时,最佳簇数从2增加到3。有趣的是,簇数增加的设计,因此总芯数增加的设计,所需的能量比标度电压为较少芯数且具有相同约束的设计要少。
2.2.2.流水线
如前所述,亚阈值区域的流水线会导致漏电路,因此,如果仍然需要亚阈值管道,那么它必须非常简单。例如在[32考虑到亚阈值操作困难,如PVT变型,它被得出结论,变化分布在路径的长度上,使得每个阶段具有高FO4延迟的浅管道更有利。因此,在[11为处理器选择了一个2阶段的管道实现。
由于上述研究以及对不同文献的回顾表明,在近阈值时代讨论低功耗流水线比在阈值时代讨论低功耗流水线更符合逻辑,本小节的其余部分将重点放在近阈值区域。
通常,管道中有三种主要的能量消耗来源:指令、电路(包括数据路径、寄存器和控制)和同步计划。正如将详细解释的那样,每条指令都有其特定的能源使用情况。根据不同阶段之间运行的同步策略,活化能也不同。虽然部分2.1.1涵盖数据路径和控制电路,在本小节中讨论了一些具体问题。此外,由于一些可用于近阈值流水线的技术(例如如何应对管道的PVT变化),位于低功率超级阈值研究中,因此还包括这些研究(见表3.)。
|
|||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
从教学开始,第一个讨论将是关于隔离。已于[27]当电源电压降低时,ADD指令正确运行,直到0.74 五、 而逻辑指令(XOR和and)允许缩小到0.68 V。因此,有人提出,隔离ADD操作使ALU在0.68 V下运行,ADD操作提供2个周期,其他指令提供1个周期,从而节省更多的电能。对于ADD, ALU在降低频率时又节省了23%的电量同样降低了性能下降成本的功耗。
作者在28已经同时考虑了指令和数据路径。通过自适应地将时钟周期延长到两个周期,而所有标准操作都是单周期,从而防止了特定指令(如ADD(在过程变化和电压缩放下))中任何可能的延迟故障。执行数据路径被更改,以便每当操作可能出错时,这些操作可以在两个周期内执行。这个预测是利用一个小的前置逻辑完成的。此外,如果温度超过阈值,则降低电源电压()应用于执行单元。一旦温度降至阈值以下,额定供应(重新应用。同样有趣的是,在执行期间,只有EX阶段收到虽然收到的所有其他管道阶段.
在同步中,经常试图修改时钟,以便数据路径中的松弛时间用于补偿变化或电压缩放。例如在[29通过考虑指令、数据路径和时钟,作者将可变延迟与每个管道阶段关联,并对延迟表进行调整,以满足每个特定指令的延迟。当所有阶段的延迟过去时,就会创建一个新的时钟,因此,一些时钟会缩短,整体速度会增加。该可变延迟单元位于对应的数据路径附近,以满足类似的PVT条件。延迟选择器读取管道的输入,从操作选择表中选择适当的延迟值。
在 [30.[通过专注于同步计划,提出了一种新的软边触发器(SEFF),以推迟主锁存器的时钟以产生主锁的窗口,主机和从锁存器都处于活动状态。此窗口称为透明度窗口,允许定时松弛在相邻管道阶段之间传递。通过采用逆变器链来创建延迟时钟并施加它们以保持所需的延迟。阶段的可用休闲裤通过了之前的阶段,提供了以前的阶段,借来的盈余时间。由于在管道的所有阶段都有正缝隙,因此由于此时间借用,因此可以增加时钟或电路电压可以降低以降低功耗。
在 [31,提出了一种设计,在两级之间有一个流动插销,这样插销的时钟给管道增加了额外的半个周期。这个半周期提供了额外的时间借出,以吸收由于前几个阶段的过程变化而造成的延迟。门闩门控和模式之间的切换,有或没有额外的延迟,允许制作后的调谐。电压插值也被用来有意地选择不同的有效电压所需的每一级运行在一个单一的标称频率。因此,如果管道由于工艺变化而运行缓慢,有两种方法可以获得标称运行频率。一个选择是连接更多的阶段这样有效电压增加。之前讨论的另一种选择是在单个阶段与锁存器延伸两个阶段,以便通过切换更多阶段来减少能量的同时提供额外的时间。.
考虑到时钟对功耗的影响,作为另一种同步方案,需要指出的是,异步管道在最近的设计中起着至关重要的作用。虽然它们超出了本综述的范围,但以同步世界中消除时钟的想法为例,可以发现[33莫比乌斯管道的提议。在这个管道中,当计算完成时,一个阶段向前一阶段发送一个COMPLETE信号,同时保存结果,直到下一阶段的COMPLETE信号到来。这种方法除了节省时钟功率外,还能非常有效地利用路径中的可用冗余,并且以更好的方式处理变化。
本次委员会在流水线上进行了调查结束了[34].这项调查表明,单问题顺序架构,和上述研究的情况一样,适用于非常低能耗的设计点,而四问题顺序架构只适用于非常高性能的应用[34].还发现,双问题有序和无订单处理器对于许多不同类型的设计性能有效。
3.讨论
节2.1.1,通过加大尺寸解决了用于减少泄漏的堆叠技术的主要问题[5]及BB [7].BB也被[9,10,12用来处理各种变化。在 [12]也被BB优于DVS对于较低频率。DVS也差到DFS通过报道[11].此外,在[14比…更高效的电源/性能但不像BB只在整个芯片层面使用,上浆是仅在块级别是有用的。最后,使用亚阈值设计较老的技术是由[鼓舞4,8]这就大大节约了能源。
在SRAM设计部分2.1.2, [4研究了大尺寸和门控对降低泄漏的效果。
不同的读/写辅助方法如[16可重构的写辅助,支持从超阈值到亚阈值电压的UDVS。为了提高读稳定性,在[16,17,19].读取问题是通过[中的新型单端单元格设计18]此外,还消除了具有密度和可变性等常见问题的SA。
弱可写性在[15,并考虑了亚阈值电压下的多位软误差。在 [9,基于ST的设计去掉了读/写辅助的必要性。
功率/性能最佳缓存大小和分层SRAM设计在[22,23),分别。最后,在[24].
移动到性能降低部分2.2, [25]提出的近阈值电压为更好的性能结果,而从它的低功耗优势中获益。避免了昂贵的电平转换器,在[26]近阈值电压获得了与超阈值电压相同的加速。为寻求更高的性能,作者在[10]使用具有子/近阈值电压的平行核心。寻找电力/性能最佳核心数,在[22建议使用2个簇的2个核心,用于2个目标低于150 MHz的目标。
然而,在处理器世界中,流水线是至关重要的,但在[32]有人指出,当考虑到变化时,亚阈值设计将管道限制为两个阶段。因此,近阈值设计再次受到重视。
一些对接近阈值电压有用的低功耗流水线技术是必要的。在 [27更多的耗电指令被分离出来,这有助于节省更多的能源。在[28]其中防止变化的时间从故障被执行的指令。
利用分段的时间松弛是处理管道变化的最重要技术。在 [29,例如,由于指令之间的差异而产生的不同延迟,正如我们将看到的,许多类型的FFs被设计来从时间松弛中获益。在 [31此外,时间借用是使用插入舞台内部的锁存器来完成的,这也有助于制作后的调谐。
最后在34人们承认,单问题有序架构适用于非常低功耗的设计目标。
这表明,复杂的指令和架构不适合于低功耗的管道,因为它们会导致漏水和容易出错的结构。
从表中可以得出1通过使用体偏置来补偿之间的变化和不匹配,可以降低功耗上拉和下拉网络。在SRAM设计中,使用可重构性和使用不同的读/写辅助来隔离非访问单元是与Table一致的速度和功率的重要因素2桌子3.还表明,为了优化功率和速度,使用同步策略与指令隔离一样重要。
本综述也在下一节中提出了未来的方向,但在进行之前有必要讨论时间借用(读者参考[25,35,以全面了解管道中的错误检测技术)。首先应该注意的是,在过程变化的情况下,SEFF延迟应该改变。这意味着一种技术应该评估变化,并应用不同的后硅SEFF延迟,以补偿变化。设计和集成一个能够计算变化的系统。剃须刀(36是一种已经被使用过的技术。然而,Razor方法可能会拾取错误的频率。例如,如果AND后面跟着ADD,因为ADD更容易发生变化并导致错误,Razor检测到这个错误并增加时钟周期。然而,后面的指令是AND,不需要这种频率降低。
判断FF是否像Razor一样捕获了真实数据的一种方法是,将数据与延迟的时钟数据进行比较。然而,另一种方法是计算传入数据是否违反FF的设置和保持时间,并在此基础上锁定错误数据,如[37].这个想法实际上与Razor II相似[38和雷泽有同样的问题。此外,剃须刀也需要至少短路径延迟,因为当一个时钟触发,影子门闩在剃刀将等待迟来的信号,通过延迟时钟,但在同一时间短路径结果可能改变影子门闩的数据,之前以前时钟透露其数据的关键路径。此外,有一种可能性,亚稳态通过错误检测逻辑传播,并导致恢复信号本身的亚稳态,这已经在下一个版本中通过添加更多的电路来解决,如[39].在 [35](这是一种先进的形式[37])的新FF提出了可以处理短期和关键路径错误,而且FF可以恢复关键路径的错误,像剃刀,并且还可以预测短路径错误。但是,这种技术会带来大面积,适用于超阈值电压,它仍然有同样的问题,因为之前的讨论。
这些现场监测仪的另一个问题是它们的活动、面积和能量开销[40]使用高时钟相位作为短路径问题的错误检测窗口,其中最小延迟路径不得在时钟下降沿之前到达。还利用了闩锁透明度特性,并根据上述假设,消除了FF的额外主闩锁,降低了能量,并利用透明度解决了亚稳态问题。
然而,使用指令隔离和由于指令特定的延迟,由不同指令延迟导致的违例率将被取消,只会出现由温度引起的违例。作者在27]通过将所有这些想法以及使用纠错(然而,为其管道和LUT提供纠错纠正的所有这些想法以及纠错方案的细节,以保持不同的指令。下一节将呈现近阈值和亚阈值设计技术的未来方向。
4.未来发展方向
不同指令对延迟的要求不同,这意味着需要一个透明窗口,其大小可以由不同指令改变。为此目的使用SEFFs是一种独特的技术,据我们所知,迄今为止还从未使用过。通过设计这种新的FF,过渡检测器可以检测透明窗口期间的长路径延迟,从而设置一个错误信号来调整窗口的大小。此外,不同的指令也会导致应用不同的延迟,从而降低错误率。
就像[27],可以使用查找表(LUT)预测指令延迟,并应用于SEFF,如果由于错误检测而违反了时间,则LUT条目应该以增加的延迟更新。这个LUT可以在ROM中实现,因为一旦填满,它将永久保存数据。在另一种技术中,如果只考虑过程变化,错误检测可以通过后硅评估来消除,这样错误检测电路可以被时钟门控或完全被芯片外错误检测方案抛弃。
性能改进的另一个机会,可以通过使用流水线的EX级的额外透明的FF(TFF)采用指令隔离中创建,使长延迟指令可以使用两个阶段,短延时使用一个阶段(见图1),甚至更多的阶段是适用的。根据具体情况,这些TFFs可以是透明的,也可以是功能性的。这样就没有必要为了两个周期(或更多)完成消耗能量的指令而停止管道。此外,短指令可以快速完成,根据管道上的其他指令,它们可以在没有时钟的情况下通过透明的FFs(这再次节省了能源)。我们应该改变EX阶段的设计,将长指令分割成两个(或更多)部分,以便在管道的一个阶段中以几乎相同的延迟执行每个部分。此外,为了利用DVS, FFs可以是具有纠错和借用时间功能的之一[40].当管道需要更高的速度,可以处理更高的电压时,TFF变得透明,管道可以工作更高的频率。一旦管道需要消耗更少的电力和更低的频率可以被容忍,通过激活TFF,分布式交换机帮助管道以最低的电压工作。当施加最优电压时,错误检测方案有助于DFS管道处理PVT变化。LUT还可以用来记录不同指令的适当延迟。