本篇文章1460字,读完约4分钟

传统计算机将数据存储在内存中,然后将其发送给处理器进行计算。这种来回“处理”数据的活动消耗能量和时间,这被认为是冯·诺依曼计算体系结构的核心瓶颈。

人脑不是这样,它直接在记忆中计算。忆阻器被认为具有“存储和计算一体化”的潜力,已经成为像计算这样的大脑中的流行设备。

近日,清华大学微电子研究所和未来芯片技术高级创新中心的团队成员何谦和吴华强在顶级学术期刊《自然》上发表了在线论文,报道了基于忆阻器阵列芯片的卷积网络的完整硬件实现。

存储计算集成系统在处理cnn时的能效比尖端图形处理器芯片(gpu)高出两个数量级,可以说在一定程度上突破了“冯·诺依曼瓶颈”的限制:在大大提高计算能力的同时,实现了更小的功耗和更低的硬件成本。

基于忆阻器芯片的存储计算集成系统

什么是忆阻器?

忆阻器是忆阻器的全称,是继电阻、电容和电感之后的第四个基本电路元件,代表磁通量和电荷之间的关系。加州大学柏克莱分校的教授蔡少棠在1971年首次预测到了这一点,惠普公司在2008年成功开发了这一点。

简而言之,该元件的电阻将随着流经它的电流量而变化,即使电流停止,它的电阻仍将保持在先前的值,并且它将不会被推回,直到它接收到反向电流,这意味着它可以“记住”先前的电流量。

这种奇妙的效果实际上类似于神经元的突触。此外,忆阻器具有体积小、工作功耗低和大规模集成(三维集成)的优点,因此难怪计算机科学家已经看到了忆阻器中集成存储和计算以及低能类脑计算的前景。

近年来,人工神经网络取得了巨大的成就。如果忆阻器作为人工神经网络的硬件连接成一个阵列,会有什么影响?

忆阻器阵列

尽管国内外许多企业和研究机构都很重视,但据清华大学新闻网报道,目前国际上对忆阻器的研究仍停留在简单网络结构的验证或基于少量器件数据的模拟上。基于忆阻器阵列的完整硬件实现仍有许多挑战。

例如,在设备方面,有必要准备高度一致和可靠的阵列;在系统方面,忆阻器由于其工作原理而存在固有的缺陷(如器件之间的波动、器件的粘滞电导、电导状态的漂移等)。),这将导致计算精度的降低;在体系结构中,忆阻器阵列需要以串行滑动的方式对多个输入块进行连续采样和计算,以实现卷积函数,这与全连接结构的计算效率不匹配。

清华用忆阻器制人工神经网络芯片,能效比GPU高两个数量级

通过近年来积累的一些成果,何谦和吴华强团队逐步优化了材料和器件结构,制备了高性能忆阻器阵列。

2017年5月,该研究小组在《自然通讯》上报道称,首次实现了基于1024个氧化物忆阻器阵列的类似大脑的计算,这将氧化物忆阻器的集成规模提高了一个数量级。这使得芯片能够更高效地完成人脸识别计算任务,并将能耗降低到原来的千分之一以下。

清华用忆阻器制人工神经网络芯片,能效比GPU高两个数量级

忆阻器神经网络

这次,钱和吴集成了包括2048个忆阻器在内的八个阵列,以提高并行计算的效率。

在此基础上,构建了一个用于图像识别的五层卷积神经网络,准确率达到96%以上。结果表明,基于忆阻器的卷积神经网络的能量效率比最先进的图形处理器高两个数量级。

这一提升是如何实现的?最初,为了解决设备固有缺陷导致系统识别精度下降的问题,他们提出了一种新的混合训练算法,只需要用较少的图像样本训练神经网络,并微调最后一层网络的一些权值。

同时,他们提出了空之间的并行机制,将同一个卷积核编程到多组忆阻器阵列中,每组忆阻器阵列可以并行处理不同的卷积输入块,从而提高了并行性,加速了卷积计算。

多个忆阻器阵列的并行处理

随着摩尔定律的放缓,计算界急切地期待新的架构能够突破冯·诺依曼的瓶颈,适应日益复杂的人工智能问题。基于忆阻器的存储计算集成系统正在这场竞争中稳步前进。


来源:零点娱乐时刊

标题:清华用忆阻器制人工神经网络芯片,能效比GPU高两个数量级

地址:http://www.02b8.com/yjdyw/28153.html