Eyeriss

1 minute read

Published: December 04, 2022

Authors: Yu-Hsin Chen, Joel Emer, and Vivienne Sze

Reference1: Chen Y H, Krishna T, Emer J S, et al. Eyeriss: An energy-efficient reconfigurable accelerator for deep convolutional neural networks[J]. IEEE journal of solid-state circuits, 2016, 52(1): 127-138.

Reference2: Yu-Hsin Chen, Joel Emer, and Vivienne Sze. 2016. Eyeriss: a spatial architecture for energy-efficient dataflow for convolutional neural networks. In Proceedings of the 43rd International Symposium on Computer Architecture (ISCA ‘16). IEEE Press, 367–379. https://doi.org/10.1109/ISCA.2016.40

Intro

本文提出了一种基于spatial PE阵列的数据流RS（row stationary），在支持并行性的同时减少数据移动开销（数据重用），提高能效并降低带宽压力。

为了控制除了数据流以外的外部变量，作者在相同的面积、处理并行度、工艺节点下评估能效，提出了一种分析框架，将不同的数据移动根据能耗分级，通过分析对不同级别数据移动的分析来量化比较不同数据流。

本文的novelty:

相较于之前只能针对某一种类数据移动优化的数据流，它尝试对所有数据移动类型同时优化，提出了RS数据流
提出一种量化分析框架，比较不同数据流

Dataflow Analyze

CONV的数据流总被写成如下的多层循环（假设已被padding）：

$O[z][u][x][y]=B[u]+\sum\limits_{k=0}^{C-1}\sum\limits_{i=0}^{R-1}\sum\limits_{j=0}^{R-1}I[z][k][Ux+i][Uy+j]\times W[u][k][i][j]$

此外，z,u,x,y四变量还需要循环并行计算$NME^2$次。

其中$0\le z<N,0\le u<M,0\le x,y<E,E=(H-R+U)/U$，N为batch数，M为ofmap的channel数，E是ofmap的边长，H是ifmap的边长，R是kernel的边长，C是kernel的channel数（FC层可以看做一维CONV，所以也符合上式）。

所以，对CONV的数据流优化本质上就是将上述的循环尽可能的并行化（无论是空间还是时间），并增加数据复用。

Existing Dataflow

Weight Stationary (WS)

在PE的RF里固定存上weight pixel，使之重复利用$NE^2$次。$RR$ 的kernel被map到 $RR$ 的PE array上，每个ifmap pixel广播到每个阵列，psum在PE间spatial accumulated。

这种方法挖掘了weight reuse，ifmap reuse，convolutional reuse。（这种方法缺点可能在于ofmap都算了，但是都没算完，psum整出来一堆需要缓存）

Output Stationary (OS)

在PE的RF里固定存上psum，同一时间只取4D ofmap的一个子区域计算，直到算完为止（这就是集中力量办大事，不至于psum过多）。

可分为multi/single ofmap channel，multi/single ofmap pixel：

SOC-MOP 挖掘了邻近pixel的convolutional reuse
MOC-MOP 挖掘了convolutional reuse和ifmap reuse
MOC-SOP 挖掘了ifmap reuse

No Local Reuse (NLR)

将循环完全空间展开，PE array被分为各个区，同时计算不同kernel channel的结果，最后在空间上直接相加，免去了RF的需求，所以global buffer可以做大一些。（ifmap reuse被丢弃）

Proposed Dataflow

因此，作者分析并提出了要解决的两点问题：

data handling(data reuse)
adaptive processing(programmable)

其中第一点有实现难度，因为maximum input data reuse不能与immediate partial sum reduction同时实现（从上面可以看出，简单dataflow很难在相同资源限制下，高度reuse的同时还减少psum数量），作者认为需要设计dataflow同时完成二者。

From 1D Conv to Two-Step Primitive

作者提出使将高维的卷积运算分解成很多个1D Conv原语，每个原语计算one row of filter weights and one row of ifmap pixels, and generates one row of psums ，psum会暂存并在后面逐步加和。

每个原语映射到一个PE，所以是Row Stationary，但是仍需要优化，因为显然同时映射所有原语是不可能的。

所以，作者采用了两步法

logical mapping
首先，将原语映射到无限数量的逻辑PE上，并将具有数据重用关系的PE组合成一个logical PE set，set内的kernel,ifmap,psum通过NoC共用。对于Conv运算共需要$NMC$个set。
physical mapping

其次，根据array和RF的大小，将若干数量的logical set映射到相同的physical set上。作者还解释了为什么在set粒度上fold而不是其他粒度：保持intra-set的结构，并且$NMC$个set之间有很强的reuse，所以会Folding multiple logical PEs from the same position of different sets onto a single physical PE。这个过程叫做processing pass。

根据Global buffer的大小，可以继续折叠 processing pass。

Architecture

为了完成不同层级的数据重用，Eyeriss采用四级storage hier: DRAM，global buffer，array (inter-PE communication)，RF，分别挖掘不同的重用性。

Comment

总结来说，Eyeriss主要是在细粒度分解（row）和数据重用优化的交叉数据流上的创新，有效解决了intro里提出的问题。

同时，Eyeriss处理器强调着能效优先的规则，这点与学术派的架构设计有着明显不同侧重（更加注重绝对值）。ISCA版主要是采用分析模型来优化配置，达到最佳能效。JSCC版则是用流片数据来说明。

eyeriss的jscc版值得后续深入研究，对于内部机制有着更加详细的描述，之后可以查阅源码复现。

Bohan Yang