·在传统冯·诺伊曼架构下,计算和存储分离。而北极点芯片使存储单元在物理上尽可能接近计算单元中的计算元件。北极点芯片由256个计算单元组成,每个计算单元都有内存,通过消除片外内存,将计算与片上内存交织在一起。这些计算单元以一种网络连接在一起,设计灵感来自于人类大脑。
IBM研发的北极点(NorthPole)处理器芯片可避开访问外部存储器,提高计算能力,节约能源。
美国加利福尼亚州圣何塞的IBM研究人员开发了一种以大脑为灵感的计算机芯片,这款北极点处理器芯片消除了频繁访问外部存储器的需要,在图像识别任务中比现有架构更快,能源消耗更少。这表明计算和内存可以大规模集成。相关研究10月19日发表在《科学》杂志。
北极点芯片采用神经推理结构,由简单计算单元组成的多层阵列通过编程来识别数据中的模式。底层接收数据,例如图像中的像素;每一个连续的层检测日益复杂的模式,并将信息传递给下一层;顶层输出结果,例如可以表示图像含有猫、汽车或其他物体的可能性。
在传统冯·诺伊曼架构下,计算和存储分离。传统计算机芯片可以有效处理计算,但每次计算时仍然需要使用被称为RAM的外部存储器。因此不管处理器运行多快、性能多好,每次执行运算时都需要把数据从存储器搬到处理器中,数据处理完再搬回到存储器。在以数据为主的AI计算之下,冯·诺伊曼架构的“存储墙”和“功耗墙”挑战凸显。论文合著者、IBM计算机工程师达门德拉·莫达(Dharmendra Modha)表示,他曾估计在这种架构上模拟人类大脑可能需要12个核反应堆的能源输出。
而北极点芯片使存储单元在物理上尽可能接近计算单元中的计算元件。北极点芯片由256个计算单元组成,每个计算单元都有内存,通过消除片外内存,将计算与片上内存交织在一起。这些计算单元以一种网络连接在一起,这种网络的灵感来自于人类大脑皮层之间的白质连接。
在不使用最先进工艺的情况下,北极点芯片能耗是使用最先进技术的人工智能芯片的1/5。论文作者估计,如果北极点芯片设计采用最先进的制造工艺,其效率将是目前设计的25倍。论文提到,“在ResNet50基准图像分类网络上,相对于使用类似12纳米技术工艺的GPU, 北极点实现了每瓦FPS(每秒传输帧数)的能量度量高25倍,每个晶体管FPS的空间度量高5倍,延迟时间度量低22倍。”
不过,据《自然》杂志报道,即使是北极点芯片224兆内存对于大型语言模型来说也是不够的,比如聊天机器人ChatGPT这样的语言模型,即使在最精简的版本中也要占用几千兆的数据。而且该芯片只能运行预先编程的神经网络,这些神经网络需要在单独的机器上提前训练。但论文作者表示,北极点芯片架构可能在速度关键型应用中有用,比如自动驾驶汽车。