清华大学微电子与纳电子学系在可重构芯片和人工智能芯片领域取得重要进展

时间:2019-07-03 10:50来源:21Dianyuan

摘要:满星辰所做的题为《AGeneralPattern-BasedDynamicCompilationFrameworkforCoarse-GrainedReconfigurableArchitectures》(基于模板的可重构芯片通用动态编译框架)的报告,提出了可重构芯片基于模板的通用动态映射技术,利用静态映射结果并结合优化模板,实现了低复杂度的动态配置信息转换。

清华大学微纳电子系可重构芯片研究团队在魏少军教授的带领下,十数年如一日,聚焦集成电路设计技术的国际前沿研究,在可重构芯片领域取得了全球领先的成果,并通过采用可重构芯片技术,走出了一条有特色的人工智能芯片发展之路。近年来,该团队在该领域不断取得重要突破和进展,成为全球最重要的研究团队之一。

在6月6日结束的全球电子设计自动化顶级会议DAC2019上,该团队博士生满星辰、莫汇宇和硕士生刘虹,在刘雷波教授的具体指导下共发表3篇第一作者论文,其中1篇获最佳论文提名;硕士生熊峰和本科生范元祺组成的Thinker团队,在尹首一教授的具体指导下,参加低功耗目标检测系统设计挑战赛,获GPU组亚军。

满星辰所做的题为《A General Pattern-Based Dynamic Compilation Framework forCoarse-Grained Reconfigurable Architectures》(基于模板的可重构芯片通用动态编译框架)的报告,提出了可重构芯片基于模板的通用动态映射技术,利用静态映射结果并结合优化模板,实现了低复杂度的动态配置信息转换。相比同类最好的通用方法,映射效率和性能提高了3-5倍,相比非通用动态转换方法性能提高7%以上。

莫汇宇所做的题为《A 1.17 TOPS/W, 150fps Accelerator for Multi-Face Detection andAlignment》(拥有1.17TOPS/W能效和150每帧处理速度的针对人脸检测和对齐的加速器)的报告,介绍了一个可同时支持人脸检测和对齐任务的加速电路架构,解决了传统人脸检测和对齐任务中只能同时处理一张约束的问题。该加速电路的能效和速度远高于当前最优的同类电路,为后续人脸处理任务的实时应用提供了强有力的技术支撑。

刘虹所做的题为《L-MPC: A LUT based Multi-Level Prediction-Correction Architecturefor Accelerating Binary-Weight Hourglass Network》(加速二值化沙漏网络的基于查找表的多级预测修正架构)的报告,采用查表法和预测法大幅减少了二值化网络中的冗余计算和访存操作,在保持较少精度损失的前提下实现了更高的电路能效,非常适用于IoT边缘端场景的应用。


 
图一 莫汇宇同学做学术报告(获最佳论文提名)

本届会议举办的低功耗目标检测系统设计挑战赛的题目是为无人机设计高精度且高能效的目标检测系统,要求在Nvidia Jetson TX2上达到20fps以上的速度,最终的评测指标还需综合考虑精度和功耗等参数。Thinker团队选择RetinaNet作为检测框架,在对网络结构进行大量优化的基础上,采用数据增强、loss平衡等训练技巧实现了高精度并且实时的RetinaNet。与原始的网络相比,参数量降低了60倍,计算量降低了90倍,精度仅降低了0.02mIoU。为了充分利用Nvidia Jetson TX2的算力,采用多线程处理以及16bit定点化,最终达到28fps的速度。

 
图二 Thinker团队获低功耗目标检测系统设计挑战赛亚军  

人工智能芯片是近年来全球研究的前沿热点,魏少军教授团队充分利用前期可重构芯片技术的优势,在可重构深度神经网络计算芯片设计上取得了重要突破,形成了Thinker系列人工智能芯片,赢得了国际上的高度关注。

在日本京都举办的2019超大规模集成电路国际研讨会(2019 Symposia on VLSI Technologyand Circuits)上,该团队博士生郭瑞琦等在尹首一教授的具体指导下,发表了题为《A5.1pJ/Neuron 127.3us/Inference RNN-based Speech Recognition Processor using 16Computing-in-Memory SRAM macros in 65nm CMOS》(采用16个存内计算单元的高能效(5.1pJ/神经元)低延时(127.3us/推理)语音识别芯片)的学术论文,详细介绍了基于可重构计算架构,融合存内计算技术,支持完整人工智能算法的数模混合新型计算芯片。该芯片实现了5.1皮焦/神经元的能效,是已发表最好结果的2.8倍;单次推理最低消耗3.36微焦,单次推理的最小时延仅127.3微秒;语音识别应用中,识别精度超过90%。

近期,该团队已经利用“数模混合、存算一体”这一新架构,针对语音识别场景设计了全球第一颗数模混合架构人工智能芯片Thinker-IM,为人工智能芯片的架构演进开拓了新方向。


 
(1)Thinker-IM芯片的显微照片
 
 
(2)RNN计算引擎架构图  
 
魏少军教授领导的可重构计算团队近5年取得一些列重要学术成果:在领域内顶级会议和期刊上发表学术论文100余篇、授权发明专利60余项、出版专著5部、参与制定国家标准1项。团队承担了多项重点研发计划项目、自然基金重点项目、国家重大专项项目、重大国际合作项目等。关键技术在可编程芯片、CPU芯片、人工智能芯片和可穿戴芯片等领域取得批量应用,获得国家技术发明奖二等奖、中国专利金奖、教育部技术发明奖一等奖,以及世界互联网大会领先科技成果奖等一系列重要奖项。

关于DesignAutomation Conference(设计自动化会议):设计自动化会议被公认为电子系统设计自动化的首选国际学术会议。会议为芯片设计工程师、研究人员、设计工具开发人员和供应商提供出色的培训、教育、展览和极好的交流沟通平台。会议由计算机器协会(ACM)和国际电气与电子工程师协会(IEEE)主办,并由ACM设计自动化特别兴趣小组(SIGDA)支持。第56届设计自动化会议2019年6月1-6日在美国拉斯维加斯会议中心举办,论文录取率为24.8%,有5篇论文获最佳论文提名,占被录取论文总数的2.5%。

关于Symposiaon VLSI Technology and Circuits(超大规模集成电路国际研讨会):超大规模集成电路国际研讨会(VLSI)是关于半导体技术和电路的国际会议,为从工艺技术到系统芯片(SoC)的各个领域提供互动和协同的机会。超大规模集成电路国际研讨会每年夏天召开,与每年冬天召开的国际固态电路会议(ISSCC)并称为集成电路领域的两大旗舰会议。

免责声明:本文若是转载新闻稿,转载此文目的是在于传递更多的信息,版权归原作者所有。文章所用文字、图片、视频等素材如涉及作品版权问题,请联系本网编辑予以删除。
我要投稿
近期活动
帖子推荐更多

Copyright 2008-2024 21dianyuan.com All Rights Reserved 备案许可证号为:津ICP备10002348号-2