缓解AI推理算力焦虑,高带宽GDDR6成杀手锏?
作者 | ZeR0编辑 | 漠影
芯东西5月22日报道,生成式AI的日益火爆,正对数据中心内存性能提出更加苛刻的要求。无论是云端AI训练还是向网络边缘转移的AI推理,都需要高带宽、低时延的内存。迈向高性能GDDR6内存接口已是大势所趋。
近日,推出业界领先24Gb/s GDDR6 PHY的美国半导体IP和芯片供应商Rambus,其两位高管与芯东西等媒体进行线上交流,分享了Rambus在GDDR6领域的技术创新及行业发展趋势。
Rambus成立于20世纪90年代,现拥有约750名全球员工、3000多项技术专利,在中国大陆和中国台湾都设有相应的分支机构,由本地化的团队专门服务于中国市场。2022年,Rambus的经营现金流达到2.3亿美元。
“ChatGPT等AIGC应用与我们公司的产品组合是非常契合的。”Rambus大中华区总经理苏雷说,Rambus China立足于中国市场,愿意更多、更紧密地支持中国公司在ChatGPT产业的发展,为他们保驾护航,“Rambus面对中国客户的需求,有最好的技术、最快的响应和最好的技术支持来服务中国市场。”
据Rambus IP核产品营销高级总监Frank Ferro分享,AI推理应用对带宽的需求通常在200到500Gb/s的范围之间波动,每一个GDDR6设备的带宽都可以达到96Gb/s,因此通过将4-5个GDDR6设备组合在一起,就能轻松满足500Gb/s及以下的带宽需求。
他谈道,如果用到一个HBM3设备,基本上会把这个带宽需求的数字翻倍,能够达到接近800Gb/s的带宽,而这超过了AI推理本身所需要的400到500Gb/s带宽,会使成本增加3~4倍。在这种条件下,HBM并非一个经济高效的选择,GDDR6则是一个更好的替代。
他建议按需选择HBM或是GDDR6内存,对于对高带宽和低延迟有很高要求的AI训练场景,HBM可能是更好的选择;对于需要更大容量、更高带宽的AI推理场景,GDDR6会是更合适的选择。
一、高性能内存和互连方案,支持下一代数据中心发展
Rambus大中华区总经理苏雷谈道,Rambus主要业务包含基础专利授权、芯片IP授权和内存接口芯片。其中芯片IP又主要分为接口IP和安全IP。其技术和产品面向数据密集型市场,包括数据中心、5G、物联网IoT、汽车等细分市场,后续还将推出CXL家族各产品组合芯片。
面向数据中心,Rambus非常注重产品和方案的易用性,通过一站式的解决方案以及完善的服务机制,使产品方案变得更易在客户端集成使用。Rambus陆续推出了各内存子系统、接口子系统,提供业界领先、可靠的数据传输。其GDDR6接口子系统率先实现高达24Gb/s的内存接口数据速率,并能为每个GDDR6内存设备提供最高达到96Gb/s的带宽。
Rambus的内存接口芯片产品不断提高数据中心内存模块的速度和容量,同时它拥有非常丰富而全面的安全IP产品线,对用于静态数据以及动态数据安全保护都有着专门安全的产品方案。
总体来说,Rambus通过领先的高性能内存和互联解决方案以及硬件级安全,支持下一代数据中心的发展。其产品应用领域聚焦于服务器主内存、人工智能和网络加速器、智能网卡、网络存储、网络交换机以及内存扩展和池化等。
二、内存是未来AI性能的关键
Rambus IP核产品营销高级总监Frank Ferro着重分享了迄今市场推动高性能需求的主要驱动力,以及未来如何更好满足AI性能需求。
数据需求依旧呈现上涨趋势。ChatGPT等AI相关应用快速发展,对内存带宽需求旺盛,因此市面上越来越多公司开始专注于开发自己个性化、定制化的处理器产品,以更好地满足神经网络以及专属应用的需求。
Frank Ferro强调说,尽管算力增长非常显著,但带宽的进步与之并不匹配,即现有高算力的基础之上,很多的GPU资源其实并没有得到充分的占用和利用,这造成了现在的困境。
AI训练环节需要录入大量数据进行分析,需要消耗大量算力。AI推理环节对算力的需求会大幅下降,但对成本和功耗更加敏感。Frank Ferro谈道,一个重要趋势是AI推理越来越多地向边缘设备上进行集成和转移。在这个变化过程中,拥有更高带宽、更低时延特性的GDDR6方案,能够帮助边缘端更好地处理数据。
对带宽需求进一步的增加,驱动了像Rambus这样的公司不断地在去打造更加新一代的产品,不断地提高内存带宽以及接口带宽的相关速度。
三、GDDR6能够提供AI推理所需的内存性能
Rambus有着丰富的接口IP产品组合,同时也提供像DDR、LPDDR以及HBM等产品,并非常关注SerDes产品的开发,主要聚焦于PCIe和CXL接口,会开发配套的PHY及控制器。Rambus的HBM产品拥有领先的市占率,同时其HBM3产品已经能够提供高达8.4Gbps/s的数据传输速率。
其全新GDDR6 PHY及控制器的配套产品已达到业界领先的24Gb/s的数据传输速率,可为AI推理等应用场景带来巨大性能优势和收益。此外,该产品在功耗管理方面优势明显,并实现了PHY以及控制器的完整集成,即客户收到产品后,可以直接对其子系统进行定制化应用。
如图是GDDR6内存接口系统,Rambus提供的是中间标蓝的两个重要环节,也就是完整的子系统。Rambus会根据客户具体应用场景和实际的诉求对子系统来进行优化,并将其作为完整的子系统来交付给客户。
clamshell模式指每个信道可支持两个GDDR6的设备。换句话说,在clamshell模式之下,整个容量是直接翻倍乘以2的。值得一提的是,GDDR6现已支持先进的FinFET工艺节点环境。
此外,Rambus也会针对PCB以及封装提供相关的参考设计,同时内部有信号完整度和边缘完整性方面的专家,来帮助客户完成整个设计工作。
市面上很多GPU加速器都已经用到GDDR6。由于在成本和性能之间达到不错的平衡,GDDR6成为在AI应用场景下比较合理的产品和选择。而Rambus拥有领先的SI/PI专业知识,可以进行早期的协同设计和开发,确保GDDR6产品的性能表现,也能更好地去缩短产品的上市时间。
结语:在带宽、成本、方案复杂性之间实现平衡
随着AI应用趋于盛行,苏雷谈道,下游厂商首先关注高带宽,并开始关注方案的成本和复杂性,“GDDR技术是在带宽、成本和方案复杂性的各因素之间提供了一个非常完美的折中技术方案。”他预计到2025年或2026年市场上会出现使用GDDR6 IP的芯片。
进入全新的GDDR6时代,相关产品已开始采用16位的双读写通道。双读写通道加起来是32位的数据宽度,而GDDR6内存有8个双读写通道,总共可实现256位的数据传输宽度,所以能够显著提高数据传输的速度和效率,系统层效率和功耗管理也能得到进一步的优化。
除了适用于AI推理场景外,Frank Ferro说,GDDR6也会在图形领域和一些网络应用场景中起到重要作用,能够大幅降低网络边缘设备对DDR数量的需求。