Networks of Chiplets

1 minute read

Published:

title: A_Scalable_Methodology_for_Designing_Efficient_Interconnection_Network_of_Chiplets

authors: Yinxiao Feng, Dong Xiang, and Kaisheng Ma

Motivation

chiplet技术是目前工业界和学术界都很看重的研究方向,一方面chiplet能通过芯粒重用减小成本并降低开发迭代时间,另一方面在可拓展性、良率、并行性性能挖掘方面都有很好的特性。

当然chiplets之间的互联结构会成为很大的一个性能因素,目前的互联结构大多是基于2D-mesh的(很少会有nD-mesh, hypercube, dragonfly),这是基于实现的考虑。但是现阶段的工作都或多或少没有很好的在互联上解决chiplets结构特有的问题,还保留比较原始的2D-mesh-NoC结构,不会采用长连线或者是低网络直径的拓扑结构。这在片上是没有问题的,因为scale还比较小,但是在chiplet级别(甚至是wafer-scale)会导致一些性能和可拓展性上的缺陷(比较容易想到的是网络两端的通信性能,直径是$O(\sqrt{N})$)。

作者总结了两个challenge:

  • 不同scale下的设计方法是不同的,tradeoff会有区别
  • 片上routing策略不能直接拿来用,因为直接将几个NoC连起来会有潜在的死锁和拥塞问题,同时像刚才讨论的,简单的维序优先策略在大量的核数面前是一个很大瓶颈。

目前也有一些其他工作提出了自己的解决方式,比如说turn restriction(需要修改硬件并且会有load imbalance问题), remote control(需要大量buffer),adapt-noc(目前适应性还很有限,并且只能支持flat topo)。

innovation:

  • a method to scale high-radix 2D-mesh network

  • a scalable deadlock-free adaptive routing algorithm for most common topologies

  • a safe/unsafe flow control

  • a network interleaving method

Background

Chiplet Arch

作者介绍了一些chiplet方向发展的情况,目前chiplet靠着packaging tech和high-speed high-density wirelines(serdes,2.5D)获得了很好的拓展性和多样性,甚至可以有一些超越之前平面flat结构的方式互联(包括多维互联和环形拓扑),这在之前的单die上是很难做到的。现有的一些设计没有利用到这一多样性,仍采用flat设计。

同时作者也提到了chiplet的拓展性,chiplet可以适用于各种场景下的工作负载,无论是边缘端还是服务器端,这可以使得芯粒可以重用在各个场景下,形成开发成本的巨大降低。

Network on Chip

这一部分介绍了基础的片上网络原理。在并行计算中,尤其是超算中,互联架构是非常重要一部分。下面依次讨论network三要素:topo、routing、flow control

  • 拓扑结构

正如上面所说,一个拓扑结构的好坏会决定packet的hop count和latency,网络直径则会影响最大值。对于大规模互联,我们倾向于选择直径比较大的互联方式(hypercube)。下图列出了一些常用的静态互联网络。动态互联网络则包括crossbar、bus等可编程改变拓扑的方式。

pic1

还有一些特殊性质比如超立方网可以完美嵌入2-D环绕网,这证明二者的routing本质上是相似的。

  • 路由算法

为了防止死锁,可以采用virtual channel的方式,将物理通道分时复用以隔离对channel资源的依赖性。但是VC数一般不采用太多,否则会有太多的overhead。

关于死锁的解决,有一个充分条件可以做到

pic2

这个定理有一些定义我没有很清楚,但是可以看出一点,我们只要有一个baseline channel network routing满足deadlock-free条件,那么我们就能在这个算法的基础上引入其他efficient的结构来提升性能,毕竟有baseline兜底(作者用escape channel逃生通道形容),如果死锁了也能有方案解决。

关于路由算法,作者采用了Minus-first routing(MFR)。这种算法是将每个节点编一个号,从小号到大号的link为正,反过来为负,命令正不能转为负link,这样便移除了dependency cycle,也即负号优先。但是这种编号系统拓展性很差,一旦改变scale和topo就需要重编。后面会更深讨论。

下图给出了在规则下所有可能的6种路径,根据link type和起终点的性质分类。

pic3

Interleaving

多体交叉访问在存储访问中是很重要的一环,因为它的程度会直接影响最大带宽。在chiplet间我们也是采用multi-channel的方法,但是现阶段的设计一个message只能走一个channel,浪费了很多可用带宽,本文会做出优化。

Interconnection of Chiplets

作者说了很多,我总结为以下方法:

  • each node has a label for routing

label-based routing是比较常用的方法,比如下图就是一个例子,采用了自然顺序标号内部core,而有序的negative label ring作为interface nodes标号方法。

pic4

  • interface grouping

为了采用multi-channel,作者把几个相邻的physical link在软件上看做一个link group,这样一个chiplet node可以抽象成任意度,既能保持高radix的。当然为了利用好multi-channel,还需要interleave技术来辅助。

pic5

  • interconnection method

虽然我们把interface nodes划分成了几个组,但是不同组毕竟在空间上是不等价的,所以不同chiplet间的连接会有比较大的影响。作者观察到两点:一是如果我们用相同的label互联,那么MFR可以拓展到多chiplet;二是在intermediate chiplet上的出入口越近延迟越低(很显然)。根据这两点,作者针对不同的拓扑给出了相应的结构。

hypercube(left), fully-connected(right):

pic6

超立方为了保证label consistency,只将相同序号的组连接起来,比如说d1只连接dim=1:(0,1)的两个chiplet。dragonfly也采用了一种可以适用于MFR的连接方案(给了文献但没有具体介绍)。

我们可以发现这么一个情况,上图如果有packet从-4进来,那么这个chiplet一定是他的目的地址,这说明一个包是unsafe的可能性存在。

nD-mesh:

pic7

这里是分成了2n个group,要求只能adjacent label的+与-相连。hypercube是nD-mesh的特例,限制每个维度只有2个元素。

Routing Algorithm

Minus-first routing

Minus-first routing(MFR)是一种优先走-号路径的算法,只能从负号link转向正号。定义如果一个packet所在位置具有一个到达目的地的minus-first path,则它是safe的,否则unsafe(无法按规则正常到达目的地)。显然,这不是一种贪心算法。

整个routing的方案可以总结为下表:

pic8

其中最复杂的就是从一个chiplet的core到另一个chiplet的core,需要经过以下步骤:

  • 先走only minus path到一个IF
  • 沿着IF ring负方向到自己的目标出口,然后从link出去
  • 到达另一个chiplet,沿着IF ring负方向,直到相邻的core label是比目标label小的才进入core(保证了不违背plus-second)
  • 后面走only plus path到达目的地

可以发现,算法的具体实现还要注意很多,比如很多的packet会尝试从-19和-1进入core,因为相邻的为0节点,必然存在路径到达目的地。所以还需要其他的流控制和VC来调节拥塞程度。

Deadlock Issues of Equal Channels

注意到作者对同一个group全部标记了相同的label,所以equal channel会出现在两个地方:intra-group, inter-chiplet,而这会在nD-mesh的某些时候造成死锁(hypercube和dragonfly 没有这个问题),比如在下图中的相同维度的三个相邻chiplet出现了equal-equal 的竞争依赖环。因为这些group全是label等价的,所以可以以任意的合法方式routing,这导致了冲突,存在一种不违法的情况使得四个packet在其中互相依赖对方的link。虽然这种情况可以用其他方式(比如cost function)规避,但我们最好能根除这个问题。

pic9

一种直接的办法就是不要把同一个group中每个IF标为相同的label,但是失去这种等价性无疑增加了算法复杂性,并且这会无法采用group的概念,从而在chiplet-level上不能用单link来抽象,也就不能采用正常维序路由的方案。

因此,作者修改了MFR的规则以避免这一问题。

pic10

简单来说,它使得环路不可能出现,如果有从+link进入equal group的packet,则分流到其他sub-network上,保证原来网络的资源不被占有。同时条件3也限制了equal label内的流动。

具体实现的话,只要在IF节点上增加一个VC即可将d+和d-的包分开,保证没有资源争抢问题,而且这种实现只需要在IF上改变就行,不需要改动cores。

Flow Control

flow control的具体实现是尝试利用好非baseline VC的其他VC,以使得MFR有时候非最短路径的问题得到缓解,而且MFR path有时候是很难找的,不能完全依赖baseline。

flow control算法如下图所示。简单来说,就是为了把VC资源全部利用上,同时限制目前没有移动机会的包在本地,而不是堵住相邻节点。

pic11

我们已经知道safe packet不可能形成死锁。那么只有可能在unsafe packet形成依赖环,但是可以发现这要求该unsafe packet在相邻节点也是unsafe的,即会存在相邻的几个node里的packet始终没有到达各自目的地的MFR path(可以认为这几个节点被孤立了,label必须非常特殊才能达到),作者claim这种情况基本无法发生。

目前的flow control放松了这一限制,带来了很多便利,而且允许最短路径方法前进(只要有位置+前面是确实是通的,我感觉这是限制死锁情况的逻辑),即使两点没有MFR path也有可能通信。

Example: hypercube

算法贴出来,对照之前的函数实现可以明白原理

pic12

hypercube没有死锁问题。

Network Interleaving

出发点很显然,就是把packets均分到一个group的各个IF上,实现方式就是改一改Core2IF函数的target IF。修改方式分粗粒度和细粒度(按照修改周期分,一个packet改一次就是细粒度,几个packet改一次就是粗粒度)。

pic13

pic14

优缺点也很明显,粗粒度的在轻载下基本没有优化,但是可以减少能耗并且实现简单;细粒度的效果更好更平均,但是能耗大且电路复杂(需要反复切换逻辑)。

interleaving带来的乱序问题本文没有解决,不过可以参考TCP/IP协议的方式在端上处理。

Evaluation & Conclusion

作者写了一个C++模拟器,并且以Duato’s protocol based adaptive negative-first routing (NFR) on 2D-mesh为baseline,本质上就是不采用本文的core/IF-label method,而是直接当做一体网络(显然baseline没有对chiplet做特定优化),展现本文的方法效果。

这里介绍一下流量矩阵traffic matrix的概念,简单来说就是把N*N-1个节点对的各自独立流量形成的列向量映射到L个实际link的流量上,显然一个entry代表一个节点对对这个link的流量贡献。

  • task1: 作者在四个pattern上比较:uniform(random), uniform-hotspot(10% active), permutation(4 specific patterns),topo选择2D-mesh(baseline), 3D-mesh, hypercube

pic15

可以看到无论是饱和注入率还是延时都是优于baseline的,具有很高的适应性。

  • task2: scalability

pic16

可以发现,增大NoC大小,会使得intra-chiplet的占比增加,从而增大延时并减小饱和度。增大chiplets数目,方法效果逐渐拉开优势,并且scale对其的影响很小。

  • task3:energy

pic17

作者分析,正是因为采用了high-radix的设计,减少了intra-chiplet和inter-chiplet的hop counts,从而减小能耗。

  • task4: C2Clink bandwidth

pic18

hypercube始终保持两倍的饱和注入率和一半的延迟。但是如果link的带宽太高,high-radix带来的优势会逐渐减少,因为此时的瓶颈变成了intra-chiplet link。

  • task5: C2Clink latency & buffersize

pic19

buffersize对性能影响很小。下面的红线代表hypercube-15cycles,仍然比2D-mesh-5cycles好。

  • task6: interleaving

pic20

带宽越受限,效果越好(利用率成为瓶颈)。

Comment

读完文章,我对其性能提升并不意外,因为high-radix topo确实能带来好处,之前NoC不采用是因为实现问题。我还有一些疑问:

  • 高bw时候性能反而不好,是否说明intra-chiplet routing algo不好?如果是,是否是为了支持high-radix设计(确实绕了远路)?能否避免?

  • 是不是应该在2D-mesh上用本文的routing algo来比较一下效果,因为完全可以认为是hypercube和nD-mesh的优越性而不是路由算法好?
  • 之前有无采用high-radix topo的文章?
  • 之前的chiplet2chiplet设计是怎么办的?
  • routing algo为什么不是很行?是因为在避免死锁吗?