异构集成 (News) 芯片封装主页/ 异构集成 / 解决内存瓶颈
< 返回列表

解决内存瓶颈

芯片制造商争相解决处理器与内存之间的瓶颈,并且他们正在以不同的架构为基础开发出新的设计,其速度甚至是几个月前都没有人想到的。

问题是如何提高系统的性能,特别是那些需要在本地或区域处理大量数据的边缘系统。 传统方法是在芯片中增加更多的计算能力,并在芯片上增加更多的内存。 但是这种方法已无法扩展,因此工程师已开始集中精力解决处理器与内存之间的瓶颈。

在将计算迁移到内存的过程中,人们的意识有了很大提高。 直到最近,它仍被认为是适合研究的主题,并且通常被系统公司所忽略。 即使在设计自动化会议(2019年6月)上,也有很多反对者。 但是截至HotChps(2019年9月),几家公司已经发布了产品,其中几家已经签约了第一轮客户。

所发布产品的变体很多,尚待发布。 西门子业务部门Mentor仿真部门的存储专家Ben Whitehead说:“通常,您必须停止移动数据,并就地进行处理,即数据所在的位置。” “这一趋势确实起飞了。 它已经在创新和采用曲线上屈指可数,或者说是大弯。 该曲线从实验开始,并且在该区域花费了很长时间。 仅在今年,它就从膝盖上脱落了,并且开始以更快的速度增长。”

有趣的是,在行业内的多个层面都提出了同样的问题。 Cadence产品管理高级小组主管Frank Schirrmeister说:“当人们关注边缘处理时,这就是我们的讨论。” “网络领域的问题是,'我在哪里处理数据以及传输多少数据?' 它是网络与通信结构之间的平衡,而与靠近内存的处理之间是一种平衡。”

在服务器市场中,在存储中也存在类似的问题。 NGD Systems营销副总裁Scott Shadley说:“我们在查看传统应用程序和工作负载时会看到它。” “例如,正在转变为放置数据库管理层的位置。 它不再像Oracle或Hadoop这样的内存中。 那水有些混浊。”

这些变化已经酝酿了一段时间。 Crossbar业务开发和战略营销副总裁Sylvain Dubois表示:“这完全取决于冯·诺依曼在体系结构方面的局限性以及摩尔定律和Dennard缩放的问题,这些问题导致了有效缩放的问题。” “这是关于在这些节点上进行计算必须消耗多少功率和能量。 对于新架构而言,这是一个绝佳的机会。”

难道这只是短期炒作? Mentor的Whitehead说:“很难夸张这种运动的腿。” “这将改变整个行业。 仍然有很多问题需要解答,但是今天市场上有产品。 从基准来看,这个数字是巨大的。”

安静的开始
这种转变的开始往往不为所动。 Crossbar的Dubois说:“ GPU是对此的一种解决方案,但实际上并不能解决它。” “由于高度并行化,它只是提供了一点额外的空间。 它仍然基于相同的内存瓶颈。 人们已经意识到,诸如CNN或Google TPU之类的新架构是新架构。 从处理器和内存集成到半导体业务,公司现在一直在垂直投资。 对于半导体行业来说,这是一个好消息。”

许多人还认为这是方向上的必要改变。 “今天,人们正在谈论针对AI进行优化的引擎,然后讨论引擎是位于单独的芯片上还是位于内存中,” Adesto首席技术官Gideon Intrater说。 “当您使用片上芯片时,带宽会得到改善,但是如今,还有一些解决方案超越了这些解决方案-这些解决方案实际上是在内存阵列内进行计算,或者是通过利用模拟功能来进行计算。”

解释器指出了许多不同的可能性。 “与其使用数百个硬件乘法器来进行矩阵运算,不如将其取为每个8位,并通过D2A对其进行运算,然后以模拟方式进行计算,而您只需使用基尔霍夫定律即可进行乘法。 它不像数字方式那样精确或准确,但是在大多数情况下,它已经足够了。 通过这样做,供应商声称其运行速度明显加快,功耗更低。 即使那样也不是领先优势。 最前沿的是将位作为模拟值存储在存储器中,并使用非易失性存储器(NVM)的电阻作为存储在权重中的值,然后驱动电流通过该值并进行乘法。 因此,除了以数字方式进行操作之外,至少还有两个步骤似乎很有希望。 这些是真正的内存处理器,而不是近内存处理。”

这些问题中的许多问题已经解决了一段时间,但仍有些隐藏。 Whitehead补充说:“磨损程度和垃圾收集以及固态驱动器(SSD)中发生的所有事情都比大多数人认为的要复杂得多。” “这些设备中有许多都装有十几个或更多的处理器。 随着越来越多的计算被填充到SSD中,并且并非所有的计算都一直使用,那么如果我们碰巧使某些处理能力可用怎么办? 他们开始在不同的模式下使用它或添加应用程序处理器并开始运行Linux并不是一件容易的事。”

这些方法在不破坏现有计算范式的情况下增加了新的可能性。 NGD的Shadley断言:“ 闪存存储在旋转媒体面前占据了主导地位,并且由于轮换而总是存在延迟,这一概念极大地帮助了硬件人员能够通过新架构满足软件需求。” 。 “ Flash启用了许多功能,包括内存和存储处理,如果我们卡在硬盘驱动器上就无法完成。”

实际上,其中很多都不是新鲜事物。 但是必须在AI / ML系统以及边缘的新计算需求的背景下进行更新。 Intrater指出:“您正在谈论的是微控制器的等效功能。” “今天,它们存在的方式在芯片尺寸方面比处理器消耗的内存更多。 您可以在内存中调用该处理。 自8051的前辈以来,就一直将处理器和应用程序所需的所有内存组合在一起,并将它们放到同一芯片上。显然,该解决方案有一个缺点,就是您只能处理尽可能多的内存。数据可以装入片上SRAM中 。 也许您只需要构建它以适合应用程序即可。”

与当今的许多进步一样, 人工智能 (AI)和机器学习 (ML)正在带头采用新技术。 它们不受束缚其他领域的遗产的束缚。 “ ML算法需要对大量数据进行相对简单和相同的计算,” Real Intent首席技术官Pranav Ashar说。 “在此应用程序域中,内存中/近内存处理将是有意义的,以最大化性能功耗指标。”

随着计算,其他操作可以被优化。 Adesto的Intrater说:“这些引擎旨在完成特定任务,例如AI所需的矩阵运算,并且与仅提供必要信息的特殊DMA引擎一起使用。” “这些矩阵很大,但是数组的重要部分为0。您不希望将它们相乘,因此通常您会使用智能DMA引擎,这些引擎仅会引入非零值。 对于专门为AI设计的处理器,正在考虑许多优化。”

Crossbar的Dubois说,但是到目前为止,诸如卷积神经网络之类的技术才可以发展。 “ CNN很重要,但它们并不能解决主要问题,即数据访问。 人们已经意识到,通过计算和AI,这完全取决于您如何有效地访问数据并将其带回到计算中。 这是一个有利的趋势,因为每个人都意识到,如果我们想提高能源效率或将AI置于边缘,那么数据访问是最重要的解决方案。”

异构思维
但是,要利用内存中或内存附近的处理功能确实需要进行一些更改。 UPMEM首席执行官Gilles Hamou表示:“在最高层次上,您必须考虑如何分散和并行化这项工作。” “您将不得不考虑数据局部性和并行性-数据局部性,因为您必须将数据与处理器相关联,并且必须了解如何并行化应用程序。 与组织工作相比,共享工作有效率。 这不像使用SIMD方法的GPU。 这样,您不仅必须并行化,而且还必须使计算均匀化。”

随着系统变得越来越异构,需要解决其他问题。 Whitehead说:“很多东西都是异步进行的,而且很难夸大其异质性。” “我看不到这种变化。 它是计算集群和少量存储集群,并且会有软件对其进行管理。 但这不是同质的。 它不再只是可寻址的存储空间。 当您将计算分配到所有节点时,获得答案的延迟将是所有节点中最高的延迟。 以前,如果设备不进行垃圾收集,它将很快为您提供答案,但是现在延迟成为一个重要问题。”

这就需要重新考虑整个过程。 “人们意识到,有新颖且创新的方式来做事情,而这些事情并不花钱,但是这确实需要做出改变的意愿,并且异类能够以过去只能以同质方式完成的工作方式,”指出NGD的Shadley。 “每当出现新技术时,您都会发现有人说,'我知道这是如何工作的,因此在您向我证明这一新知识之前,我不确定我是否会信任这些新事物。' 甚至这种情况开始消失,以允许更多类型的体系结构变得可行。 您将始终拥有属于同一难题的所有者的公司,这些公司不希望它因为市场不得不改变而改变。 但是他们现在意识到,他们可以允许它进行调整,而他们必须对此进行调整。”

许多产品因未考虑该软件而失败。 赛普拉斯内存产品部副总裁Amr El-Ashmawi说:“硬件专家会研究该芯片,然后考虑如何使用它。” “软件团队说,'这就是我要做的事情。' 这就产生了冲突。 后来打开了嵌入式处理器的产品公司有时会忘记,他们不得不去拥有一个完整的生态系统的软件团队-工具箱,SDK,驱动程序,一堆东西-这是一个完全不同的游戏。”

新的验证挑战
这些新架构中有许多都需要新的验证技术来配合使用。 “对于数据局部性,您会遇到一致性问题,” Schirrmeister说。 “如果您有不同的处理元素,则必须弄清楚它们是否可以通过存储器相互讨论。 然后,缓存一致性变得非常重要。 当某人访问内存时,他们都必须确定谁拥有该元素的最新版本。 内存内处理为此增加了一个更有趣的方面,因为该内存上的处理也开始起作用。”

这不是一个无法解决的问题。 “有些内存是共享的,有些紧密地附着在每个内核上,” Dubois说。 “我们确实在系统中拥有更多的内核,并且越来越多的硬件加速器具有一些专用的内存,并且一些数据必须在内核之间共享。 因此,它的确增加了一个层次的复杂性,但这并不是一场革命。 设计人员习惯于在其芯片开发中处理多核系统。 那只是一个进化。”

仍然有一些新要求。 Whitehead说:“我们必须提供使他们能够测量与这些驱动器相关的性能和延迟的解决方案,而这些驱动器的功耗仅为硅片的5%。 这些是我们需要使用我们的验证工具才能解决的问题类型。 我们可以看到行业的发展趋势,因为我们必须了解为什么某些事情对他们如此重要。 他们知道他们需要什么,并且他们对我们的要求很高,以提供他们需要的工具。”

一个问题是让媒介行使它们。 “从性能的角度来看内存接口变得更加重要,” Schirrmeister补充道。 “应用程序级性能分析变得更加重要。 您如何为此生成测试? 许多错误显现出来的唯一方法是有人说此操作应该比实际操作快。 然后,您必须进行分析和调试(不是在信号级别,甚至不在事务级别,而是要在拓扑级别),以找出其他进程为何停止的原因以及系统周围存在的依赖关系,这些问题表明任务未正确并行化或管道未正确定义。”

最重要的是系统的时间方面。 “不同的处理可能会在时间上随机发生,因此依赖逐周期激励和监视的验证解决方案将不会有效,” Breker Verification Systems副总裁兼首席营销官Dave Kelf说。 “将需要一种依赖于整体意图规范的验证,该规范可以以各种方式处理意外的并发活动。 这将推动更多可以生成这些测试向量形式的测试合成方法。”

也许我们必须以不同的方式看待这个问题。 异步接口不是事后的想法,也不是核心计算的叠加。 它们已扎根到核心计算中,” Real Intent的Ashar断言。 “在这种设计范例中,可以认为自底向上的验证流程可以验证上述异步接口上的亚稳性硬度和数据完整性,这是必不可少的。”

结论
尽管内存中或内存中计算的大多数技术方面都不是新鲜事物,但它们的采用将迫使整个行业发生重大变化。 冯·诺依曼架构的三重奏,摩尔定律和Dennard缩放现在正共同迫使整个行业发生变化,而这反过来又将影响应用程序对运行硬件平台的思考方式。

今天有许多新设备进入市场,其中大多数为现有软件提供了适度的收益。 但是为了获得最大的利益,将需要重新设计软件。

收费将由同时控制这两部分的系统公司负责,并且该行业的其余部分将被允许尽可能使用新功能。 但是,等待时间过长的人可能很快会在市场上失去竞争力。

· 2019-09-28 14:03  本新闻来源自:半导体指南,版权归原创方所有

阅读:995
  • 联系长芯

    重庆总部:重庆市长寿区新市街道新富大道5号佳禾工业园8栋2层
    电话:023 40819981 (前台)

    深圳办事处:深圳市南山区留仙大道 1213 号众冠红花岭工业南区 2 区 1 栋 1 楼
    电话:0755-26975877 (前台)

    电子邮件:sales@longcore.com

    网址:http://www.longcore.com