【安防在线 www.anfang.cn】《人工智能芯片技术白皮书(2018)》第四章分析在CMOS工艺特征尺寸逐渐逼近极限的大背景下,结合AI芯片面临的架构挑战,AI芯片的技术趋势。
一方面,研究具有生物系统优点而规避速度慢等缺点的新材料和新器件,采用新的计算架构和计算范式;另一方面,将芯片集成从二维平面向三维空间拓展,采用更为先进的集成手段和集成工艺,将是AI芯片技术在很长一段时期内的两条重要的路径。
冯・诺伊曼的”内存墙”
在传统冯・诺伊曼体系结构中,数据从处理单元外的存储器提取,处理完之后再写回存储器。在AI芯片实现中,由于访问存储器的速度无法跟上运算部件消耗数据的速度,再增加运算部件也无法得到充分利用,即形成所谓的冯・诺伊曼”瓶颈”,或”内存墙”问题,是长期困扰计算机体系结构的难题。
提高AI芯片性能和能效的关键之一在于支持高效的数据访问。目前常见的方法是利用高速缓存(Cache)等层次化存储技术尽量缓解运算和存储的速度差异。
从上图可见,AI芯片中需要存储和处理的数据量远远大于之前常见的应用。比如,在常见的深度神经网络的主要参数中,VGG16网络需要138M个权重参数,一次推断过程需要15.5G次乘累加运算。
不夸张地说,大部分针对AI,特别是加速神经网络处理而提出的硬件架构创新都是在和冯・诺伊曼的瓶颈做斗争。概括来说,在架构层面解决这一问题的基本思路有两种:
(1)减少访问存储器的数量,比如减少神经网络的存储需求(参数数量,数据精度,中间结果)、数据压缩和以运算换存储等;
(2)降低访问存储器的代价,尽量拉近存储设备和运算单元的”距离”,甚至直接在存储设备中进行运算。
摩尔定律”失效”
由于基础物理原理限制和经济的原因,持续提高集成密度将变得越来越困难。目前,CMOS器件的横向尺寸接近几纳米,层厚度只有几个原子层,这会导致显著的电流泄漏,降低工艺尺寸缩小的效果。此外,这些纳米级晶体管的能量消耗非常高,很难实现密集封装。
另外,目前DRAM技术已经接近极限,而物联网(IoT)、社交媒体和安全设备产生的大量数据所需要的存储、交换和处理都需要大量的存储器。非易失存储技术的主力是NAND闪存,最先进的3DNAND具有多达64层和256Gb的容量,预计于2018年进入市场。
由于DRAM和NAND闪存都是独立于计算核心的,即使采用最小的SRAM单元填充1平方厘米芯片面积的一半,也只有约128兆的片上存储容量。因此,我们有充足的理由开发提供大量存储空间的片上存储器技术,并探索利用片上存储器去构建未来的智能芯片架构。
在计算架构和器件层面,类脑芯片是一个不错的思路。神经元和大脑突触的能量消耗比最先进的CMOS器件还低几个数量级。理想情况下,我们需要具有生物系统优点而规避速度慢等缺点的器件和材料。
近年来,可以存储模拟数值的非易失性存储器发展迅猛,它可以同时具有存储和处理数据能力,可以破解传统计算体系结构的一些基本限制,有望实现类脑突触功能。
目前以深度学习为代表的人工智能新计算需求,主要采用GPU、FPGA等已有适合并行计算的通用芯片来实现加速。在产业应用没有大规模兴起之时,使用这类已有的通用芯片可以避免专门研发定制芯片(ASIC)的高投入和高风险,但是,由于这类通用芯片设计初衷并非专门针对深度学习,因而,天然存在性能、功耗等方面的瓶颈。随着人工智能应用规模的扩大,这类问题将日益突出:
GPU作为图像处理器,设计初衷是为了应对图像处理中需要大规模并行计算。因此,其在应用于深度学习算法时,有三个方面的局限性:第一,应用过程中无法充分发挥并行计算优势。深度学习包含训练和应用两个计算环节,GPU在深度学习算法训练上非常高效,但在应用时一次性只能对于一张输入图像进行处理,并行度的优势不能完全发挥。第二,硬件结构固定不具备可编程性。深度学习算法还未完全稳定,若深度学习算法发生大的变化,GPU无法像FPGA一样可以灵活的配Z硬件结构;第三,运行深度学习算法能效远低于FPGA。学术界和产业界研究已经证明,运行深度学习算法中实现同样的性能,GPU所需功耗远大于FPGA,例如国内初创企业深鉴科技基于FPGA平台的人工智能芯片在同样开发周期内相对GPU能效有一个数量级的提升。
该文观点仅代表作者,本站仅提供信息存储空间服务,转载请注明出处。若需了解详细的安防行业方案,或有其它建议反馈,欢迎联系我们。