摘要: |
针对目前嵌入式微控制器的性能难以满足实时图像识别任务的问题,提出一种适用于微控制器的卷积神经网络加速器。该加速器在卷积层设计了无阻塞的行并行乘法-加法树结构,获得了更高的硬件利用率;为了满足行并行的数据吞吐量,设计了卷积专用SRAM存储器。加速器将池化和激活单元融入数据通路,有效减少数据重复存取带来的时间开销。FPGA原型验证表明加速器的性能达到92.2 GOPS@100 MHz;基于TSMC 130nm工艺节点进行逻辑综合,加速器的动态功耗为33 mW,面积为90764.2 um^2,能效比高达2793 GOPS/W,比FPGA加速器方案提高了约100倍。该加速器低功耗、低成本的特性,有利于实现嵌入式系统在目标检测、人脸识别等机器视觉领域的广泛应用。 |
关键词: 卷积神经网络 并行计算 流水线 硬件加速器 专用集成电路 |
DOI:10.3969/j.issn.1005-9490.2024.01.009 |
|
基金项目:山西省研究生教育改革研究课题(2021YJJG247) |
|
|
|
() |
Abstract: |
|
Key words: |