行业新闻 (News) 芯片封装主页/ 行业新闻 / AI芯片取胜的关键——封装
< 返回列表

AI芯片取胜的关键——封装

今天AI芯片层出不穷,初创公司和科技巨头推出数不清的AI芯片,这只能证明AI芯片门槛低。而老一代芯片巨头,英伟达英特尔、Xilinx、谷歌、高通华为对这些层出不穷的AI芯片基本不予置评,因为他们知道AI芯片取胜的关键不是芯片本身,而是芯片以外的封装。而这正是老一代巨头们擅长的。所谓的AI芯片,核心就是乘和累加MAC矩阵,难度并不高。

对AI芯片来说,要提升算力,最简单有效的方法有两种,第一种是增加运算单元,也就是增大芯片面积。第二种是缩短存储器与运算单元之间的物理距离,加大存储器与运算单元之间的带宽,解决存储器瓶颈,减少运算单元等待时间,减少数据搬运。这两种方法看起来简单粗暴,但这是提升算力最强的方法。实际自人类进入28纳米后,摩尔定律主要靠芯片封装来推动,这两种方法都可以靠封装来实现。

第一种方法的局限在于芯片面积不能无限增大,芯片面积越大意味着良率越低,成本越高。半导体业内有一条不成文的规矩,单一芯片的裸晶面积不超过800平方毫米,超过800平方毫米,成本会飞速增加,不具备实用性。要突破800平方毫米极限,半导体业内采用一种称之为Chiplet的技术,Chiplet可以称之为小芯片。用多个小芯片有机联接起来构成一个实质意义上的具备商业化可能的大芯片。也有称之为“内核”,不过容易跟传统意义上的内核混淆。Chiplet再进一步就可像IP那样,可复用,可独立使用,使得成本大大降低。

2017年英伟达、德州大学、亚利桑那州立大学、巴塞罗那超算中心、加泰罗尼亚理工大学联合出品一篇研究论文:MCM-GPU: Multi-Chip-Module GPUs for Continued PerformanceScalability,对此有详细的研究,在2017年加拿大多伦多ISCA上发表。

简单地说就是用4个小芯片合成一个大芯片,英伟达称为MCM技术。

上图为英伟达采用MCM-GPU和多GPU性能对比。英伟达在2019年VLSI大会上提出RC-18概念,采用36个小芯片。

英伟达的MCM尚在论文研究中,毕竟英伟达是没有晶圆厂的,晶圆级封装是英伟达完全陌生的领域。拥有强大晶圆级封装技术的英特尔就优势十足,英特尔的小芯片构成大GPU芯片,已经准备推出商用了。这就是英特尔重返独立显卡的第一个产品Xe显卡,同时Xe显卡也可用在深度学习的训练。2019年3月,英特尔和美国能源部(DOE)宣布,世界上第一台能够进行百亿亿次计算的超级计算机—Aurora,将于2021年交付给阿贡国家实验室。该超算也比现在任何超算都要快,它可以持续不断地进行每秒200千万亿次的浮点运算,而单次最高可以进行每秒400千万亿次的浮点运算。Aurora的加速器就是英特尔的Xe显卡。

第一代Xe显卡采用两个600平方毫米GPU小芯片合成一个大芯片,下一代计划采用4个400平方毫米GPU小芯片合成一个大芯片。

不仅GPU或者说AI芯片可以这样做,CPU也可以,这就是AMD在服务器领域崛起的关键,最典型的是AMD的32核(应该是32小芯片)EPYC,这种方式最大优点是成本低,如果将32核封装到一块芯片中成本是1,那它们的MCM方式只有0.59,换言之,节省了41%的成本。

把小芯片合成一个大芯片,貌似就是一个“胶水”大法,但实际门槛是很高的,GPU的“胶水”大法目前只有英特尔能实现,AMD目前还没这个能力,虽然AMD已经实现CPU的“胶水”大法。

第二种方法是要解决存储瓶颈,对AI来说,存储器对指令和数据的搬运(写入和读出)的时间是运算单元运算所消耗时间的几十倍乃至几百倍。换句话说,很多AI芯片所描述的实际算力会因为存储器的因素降低50%甚至90%。

软件改进方面,在计算机体系结构领域,常用的提升访存性能的方案是缓存Cache机制的引入,CNN算法会引入大量的访存行为,这个访存行为的频繁度会随着参考取样集合的增加而增加(原因很简单,缓存无法装下所有的参考取样,所以,即便这些参考取样会不断地被重复访问,也无法充分挖掘数据本地化所带来的cache收益)。针对这种应用类型,实际上存在成熟的优化范式——Loop tiling。

Loop tiling的基本思想是,对于循环逻辑,通过将大块的循环迭代拆解成若干个较小的循环迭代块,减少一个内存元素的复用距离,换句话说,也就是确保当这个内存元素被加载到cache以后,尽可能保留在cache中,直到被再次访问,这样就达到了减少了昂贵的片外访存的开销的目的。使用Loop tiling,片外访存减少了 90%。这就是将访存逻辑定制在硬件层面,通过引入一个称之为IM(Index Module)的硬件模块,完成稀疏访存的处理,从而将稀疏向量/矩阵运算转换成常规向量/矩阵运算。这就是寒武纪的DianNaoYu指令集的核心,华为就曾使用了寒武纪的IP。

但最为有效的方法还是减小运算单元与存储器之间的物理距离。这也是这15年来高性能芯片封装技术发展的主要目标,这不仅可以提高算力,还能降低功耗减少发热。

众所周知,当处理器跟内存之间的距离越短,则处理器的运算延迟越低。而这也是当代的高效能处理器普遍内建三级缓存的原因--缓存的容量越大,则处理器需要从内存搬移数据的机率越低,整个系统的效能与功耗也能因而获得明显改善。

上表为各种技术存储器的性能对比,很明显,SRAM性能最优,但Cell Size最大,这意味着成本也最高,是NAND的20倍以上。因此一级缓存多SRAM,并且容量很小。PCM\MRAM\ReRAM这三种新兴存储器目前还不成熟,性能与SRAM也有明显差距。

封装技术路线

手机SoC是出货量最高的高性能芯片,2008年开始使用FC-BGA技术,这种平面封装,需要外置存储器,要经过PCB板焊点连接,带宽、功耗和性能都比较差,运算性能不强的芯片尚可使用,像特斯拉FSD芯片,因为缺乏代工厂支持同时也缺乏对应的技术,不得不使用这种10年前的封装技术,其实际算力远不及其PPT里所描述的理论算力。2010年后,开始使用FC-BGA与LPDDR的PoP封装。手机SoC与LPDDR通过基板和Bumping连接。

2016年,革命性的封装方式Info第一次出现,苹果A10是第一个使用此种封装技术的手机SoC。台积电正是凭借Info打败三星拿下苹果独家大单,并一直延续到A13,台积电制胜的关键就是台积电的2.5D封装技术。

实际台积电最早研发的不是Info技术,而是CoWoS技术。台积电从2011年认识到制程工艺的缩微已经无法达到摩尔定律的要求,开始研发先进封装来实现摩尔定律的延续,第一个成果就是CoWoS,据台积电称与老旧的FC-BGA比,性能提升5到7倍,能耗降低20%。目前台积电和英特尔是唯二掌握此类技术的公司,这也是台积电AI芯片代工市场占有率95%以上的最有力武器。

CoWoS简单说就是用硅中介层将逻辑运算器件与DRAM合成一个大芯片,CoWoS缺点就是中介层价格太高,对手机市场并不合适,台积电做减法,将CoWoS缩小为Info。CoWoS相比,InFO最大的特点在于使用以高分子聚合物(Polymer)为基础的薄膜材料来制作重分布层(Redistribution Layer, RDL),并以此取代硅中介层跟封装载板,不仅省下大量成本,也让芯片的封装厚度明显降低。Info是不穿孔的,因此良率也比较高,耗时也短。但其带宽和Pin脚有限制,不能太高。

按照台积电的规划,手机和移动领域使用Info-PoP封装,L/S(线空)只有5微米,而FC-BGA是毫米级。AI的推理用芯片用Info-MS( Integrated Fan-Out memory on substrate)封装,线空为2微米。AI训练、服务器、网络交换则使用高成本的CoWoS封装。全球最具影响力的AI芯片基本都是CoWoS封装,包括谷歌三代TPU(ASIC+HBM2)、英伟达自GP100以来的所有加速器芯片(GPU+HBM2)、英特尔Nervana(ASIC+HBM2)、英特尔Stratix(FPGA+HBM2)、Xilinx的UltraScale(FPGASilices+HBM2)。华为、高通和联发科则清一色Info-PoP封装。

台积电CoWoS封装技术路线图

台积电下一代封装技术为SoIC,再下一代是WoW,让三星疲于奔命,继续垄断全球AI芯片制造。

SoIC技术是采用硅穿孔(TSV)技术,可以达到无凸起的键合结构,可以把很多不同性质的临近芯片整合在一起,而且当中最关键、最神秘之处,就在于接合的材料,号称是价值高达十亿美元的机密材料,因此能直接透过微小的孔隙沟通多层的芯片,达成在相同的体积增加多倍以上的性能,简言之,可以持续维持摩尔定律的优势。

2018年10月,台积电在第三季法说会上,已针对万众瞩目的SoIC技术给出明确量产时间,预期2020年开始给台积电营收贡献,至2021年将会大量生产,给台积电更加显著的营收贡献。2019年6月,台积电赴日本参加VLSI技术及电路研讨会发表技术论文时,也针对SoIC技术揭露论文,论文中表示SoIC解决方案将不同尺寸、制程技术及材料的裸晶堆叠在一起。相较于传统使用微凸块的三维积体电路解决方案,台积电的SoIC的凸块密度与速度高出数倍,同时大幅减少功耗。此外,SoIC能够利用台积电的InFO或CoWoS的后端先进封装至技术来整合其他芯片,打造强大的3D×3D系统级解决方案。

这世界上唯一能和台积电一争高下的只有英特尔。

英特尔的封装技术为EMIB,即Embedded Multi‐die Interconnect Bridge。英特尔在2019年8月推出的NNP-T(早期也叫NNP-L)就采用EMIB和台积电的CoWoS技术。

NNP-T内部框架图

按英特尔的介绍,似乎是用CoWoS技术将四片小芯片(Chiplet)通过硅中介层内联,内联后总裸晶面积1200平方毫米,每个小芯片包含6个Tensor Processors(TPC),(但英特尔也说小芯片的裸晶面积只有680平方毫米,英特尔有意淡化台积电CoWoS技术的威力,语焉不详),总计270亿个晶体管。24个TPC分享60MB的SRAM。然后英特尔利用EMIB技术将这四个小芯片与四个堆叠二代2400 8GB HBM内存连接,同时也包含了64行SerDes的HSIO,总计带宽达到惊人的3.58Tbps。最终封装面积达3600平方毫米。

英特尔还将NNP-T与英伟达的旗舰V100做了对比。

NNP-T的效率几乎是V100的两倍。

英特尔的EMIB也用在英特尔8代酷睿上,第一次在低电压笔记本CPU上实现4核设计。与台积电的CoWoS硅中介层相比,EMIB有两个优势,一是成本优势,无需制造覆盖整个芯片的硅中介层,以及遍布在硅中介层上的大量硅通孔(TSV),而只需使用较小的硅桥在裸片间进行互联即可。同样的,由芯片I/O至封装引脚的连接和普通封装技术相比并未变化,而无需再通过TSV或硅中介层进行走线。台积电的Info成本与EMIB相当,但只能达到5微米的L/S,EMIB可轻易达到2微米。二是减少延迟,降低干扰,特别适合5G。硅桥接只需在硅片边缘进行,不需要在中介层中使用长导线。对于模拟器件(如收发器)而言,由于不存在通用的中介层,因此对高速信号的干扰明显降低。EMIB的劣势在于它最终封装形态可能不是一个四边不对等的矩形,有可能产生发热不均衡导致的应力、连接、可靠性等问题,但八代酷睿已经得到验证,这个问题似乎不存在。

上图为英特尔在Stratix10 FPGA上使用的EMIB技术,将高速收发器与FPGA融合在一起。Xilinx则为了对抗英特尔的FPGA,在台积电CoWoS上增加了SSI技术(从2009年Xilinx就开始研发SSI,封装工艺的研发周期都很长),不过成本上无法和英特尔的FPGA对抗。

不仅在训练端,在推理端,英特尔也推出了采用EMIB技术的NNP-I,对NNP-I的细节透露不多。

英特尔自八代酷睿就开始使用EMIB,性能有明显提升。

通过EMIB将GDDR5和AMD的VegaGPU与CPU合在一块芯片上,而NNP-I没有GPU,推测只整合了高速内存,考虑到成本可能是64GB 的LPDDR4。NNP-I实际就是英特尔Ice Lake的深度学习推理版,Ice Lake也就是英特尔的第十代酷睿,2019年8月已经正式出货,下半年即将看到采用10代酷睿的笔记本电脑。和十代酷睿一样,制造工艺是英特尔的10纳米工艺。NNP-I将Ice Lake的CPU核和GPU核换成10-12个推理计算单元(Inference Compute Engines,简称ICE)。12个ICE分享24MB的L3缓存和两个IA核。这个IA核就是英特尔引以自豪的十代酷睿的Sunny Cove微架构。

Sunny Cove的架构更新可以分为两部分,一是通用目的性能提升,二是特定目的性能提升。通用目的性能的提升,就是通过架构增强,改进大量应用的性能和能效,几乎所有人在日常使用中都能体验到,其本质上就是原始IPC(每时钟周期指令数)吞吐量的变化,或者运行频率的提高。二是增加了三条新指令,即整数融合乘法加法(IFMA),矢量字节操作指令(VBMI)和基于硬件的SHA,分别对应深度学习最常用的乘和累加以及矢量字节操作以及硬件加密的SHA安全散列算法。IFMA是512位整数融合乘法加法(FMA),其行为与AVX512浮点FMA相同,能够最大限度地发挥英特尔CPU中的标准双精度浮点硬件乘法器,也就是说消费级的十代酷睿也足以胜任一般的深度学习推理任务。VBMI实际就是VNNI,VNNI,即可变长度神经网络指令集,其本质是让AVX-512单元支持8位INT数据的运算。VNNI还有一个名为VNNI4的变种指令集,它曾在Xeon Phi家族中针对机器学习应用而研发的Knights Mill处理器上出现。 内存控制器ECC为LPDDR4型,总带宽高达4.2Tbps。ICE内部主要是一个深度学习计算网络核一个VP6型矢量处理器DSP,还包括4MB的SRAM,SRAM可以尽量减少数据搬运,最大限度挖掘运算单元潜能。ICE主要对应整数运算INT8,也有浮点的FP16,但是没有NNP-T的原生Bfloat16的支持。DSP方面,英特尔直接采购了CadenceTensilica Vision P6 DSP,Vision P6 DSP已经被 5 家顶尖移动应用处理器供应商中的 2 家设计到其产品中,这其中包括华为海思的麒麟970,海思的3519A,还有日本东芝的车载ADAS芯片。

英特尔NNP-I框架图

英特尔对抗台积电下两代WoW的是FOVEROS。

英特尔将左右水平桥接称为EMIB,上下垂直称为FOVEROS。第一个使用FOVEROS的CPU是英特尔的LACKFIELD,如果一切顺利,英特尔在2019年底就会推出LACKFIELD,领先台积电的WoW最少三年以上。

Foveros本身就是一种3D IC技术,透过硅穿孔(Through-Silicon Via, TSV)技术与微凸块(micro-bumps)搭配,把不同的逻辑芯片堆叠起来。其架构概念就是在一块基础的运算微芯片(compute chiplet)上,以TSV加上微凸块的方式,堆叠其他的运算晶粒(die)和小芯片(chiplets),例如GPU和记忆体,甚至是RF元件等,最后再把整个结构打包封装。英特尔更特别把此技术称为「脸贴脸(Face-to-Face)」的封装,强调它芯片对芯片封装的特点。凸块接点的间距(pitch)仅有约36微米(micron)。一步到位,超越SoIC,直接晶圆对晶圆贴合,也就是台积电2021后的WoW。

不过台积电选择晚点开发WoW也是有原因的,由于多芯片的堆叠,势必会大幅加大热源密度;而上下层逻辑芯片的供电性能也会受到挑战;而如何克服上述的问题,并在合理的成本内进行量产供货,则是最后的一道关卡。台积电认为欲速则不达,企者不立,跨者不行,最慢的或许是最快的。

有人会说,既然封装这么重要,那选择台积电的CoWoS不就行了,诚然,人人皆可选择台积电的CoWoS,技术门槛很低,但商业门槛不低。目前台积电的7纳米CoWoS产能早就被塞爆了,出货量低的厂家自然会被排到几年以后,苹果、华为、AMD、英伟达、高通、Xilinx、博通这些大客户才会得到优待,大部分初创业者无奈只能选择三星代工。此外CoWoS成本较高,对于本来就出货量很低导致成本高昂的特斯拉FSD之类芯片,再用CoWoS成本只会更高。

比较正确的做法是百度,百度在低端使用自研的昆仑,委托三星代工,高端还是与英特尔合作,使用NNP-T。

AI芯片的低门槛导致AI芯片泡沫急速扩大,泡沫迟早要破裂的。

  • 联系长芯

    重庆总部:重庆市长寿区新市街道新富大道5号佳禾工业园8栋2层
    电话:023 40819981 (前台)

    深圳办事处:深圳市南山区留仙大道 1213 号众冠红花岭工业南区 2 区 1 栋 1 楼
    电话:0755-26975877 (前台)

    电子邮件:sales@longcore.com

    网址:http://www.longcore.com