用“存算一体”底层创新,做高能效比国产化芯片|甲子光年
最高算力256TPOS,典型功耗35W。
作者|范文婧
编辑|栗子
2020年底的一天,吴强与几个同事加完班,一同去沙县小吃吃夜宵。馄饨的蒸汽氤氲,吴强问同事:“如果你们可以自己选一个领域做芯片,你希望用芯片做出解决什么问题的产品?”
几位同事纷纷说起自己的现状。有人每天要驾车横穿大半个城市去上班,希望自动驾驶能让自己在途中休息一下;有人希望用教育机器人帮自己教孩子;还有的人希望用机器人陪伴自己的父母。
同事的回答更坚定了吴强的创业决心:用底层的技术创新,做一款“更好的AI芯片”——一款可以帮助万物皆智能的AI芯片。
两年半之后的5月10日,吴强和后摩智能团队交上了第一块大算力AI芯片——鸿途H30。这款芯片专注于自动驾驶领域,最高物理算力256TOPS,典型功耗35W。
后摩智能鸿途H30的独特之处在于“存算一体”的新型架构设计。在吴强看来,鸿途H30证明了大算力存算一体技术的可用性,标志着存算一体芯片商业化元年的到来。同时,存算一体也让车企客户多了一个优质国产芯片的选择,并证明了不依赖先进工艺,依旧能做出算力、功耗都优秀的芯片。
借着新产品发布会,「甲子光年」采访了后摩智能创始人兼CEO吴强,以及投资后摩智能三轮的投资人、经纬创投投资董事童倜,聊聊这款大算力存算一体芯片是怎么做出来的。
1. 用“存算一体”来做自动驾驶芯片
2014年,已经发布了自动驾驶乘用车的特斯拉,宣布与Mobileye合作,在后续的产品中使用EYE Q3芯片。该款芯片在当时是算力王者,为0.256TOPS,也即每秒可计算0.256万亿次。短短两年之后的2016年,特斯拉抛弃Mobileye,换上英伟达8TOPS的芯片Drive PX 2。
2019年,特斯拉结束与英伟达的合作,发布了自研的芯片,目前特斯拉最高算力的芯片已经达到144TOPS,而英伟达去年11月发布的Thor芯片更是一路让算力飙升到了2000TOPS。
但算力之外,距离规模化普及应用,自动驾驶芯片还有一些鸿沟需要跨越——功耗与成本。
过往,芯片设计主要通过工艺制程的精进来提升能效比,但随着摩尔定律逐渐趋缓,通过工艺节点来优化功耗的效果收效甚微。同时,工艺节点的优化也会指数级地增加芯片生产的成本。算力、功耗和成本成了“不可能三角”。
但著名芯片设计师Jim Keller却说,“如果通过常规方法无法改良一款芯片,那就去做底层的架构创新”。也是受到这句话的鼓舞,一直想做一款高能效比且大算力计算芯片的吴强,下定决心要用更前沿的“存算一体”架构来重新设计芯片。
什么是存算一体?
从字面意思来理解,就是芯片内部的存储模块和计算模块融合在了一起,数据在存储模块中完成了部分或全部的计算。
如果把一块芯片的计算功能想象成厨师做菜,那计算模块就是厨房,而存储模块是仓库。过去,厨师需要根据指令,每次都去仓库拿出一件东西来到厨房,再接着读下一条指令拿另一件东西,或读完指令来餐厅进行一个步骤。这样不仅传输繁琐,也浪费了很多时间。
应用存算一体技术,也即直接把厨房移到仓库中,数据可以在存算模块内部完成大部分的计算,再传输出去进行进一步的运算。
视频加载中...
“存算一体”技术属于底层架构的创新,有一些显著的优势。由于计算不再需要每一步分别读写,所以整体的计算速度会变快,计算延时也更低。
存算一体的另一个优势是功耗显著降低。同样由于数据传输路径的优化,存算一体技术不仅节省了时间,还节省了数据传输的“内耗”,带来更好的能效比。
更重要的是,当芯片在保证算力的同时又能兼顾能效比,它也有机会用更成熟的工艺节点来制造。这不仅会带来成本上的优势,在国产化的趋势下,也更有可能保证供应链稳定,被客户优先选择。
在吴强看来,由于摩尔定律趋缓,需要更新的技术创新。而那些能够在不依赖先进工艺而实现瓶颈突破的底层技术创新,就是后摩尔时代的技术方向。
也正因此,团队一致同意给公司起名“后摩智能”。
2.存算一体芯片“最后七公里”
尽管存算一体在技术层面能够支撑芯片产业出现新机会,但要真正创业做新业务却没有那么容易。在吴强看来,存算一体还有“最后七公里”要走。
“学术上实现的是从无到有的过程,但要应用在商业,还需要先补齐技术的可实现性这两公里,再补上应用到具体场景的工程性问题这五公里。”
具体而言,在这款芯片的定义、设计过程中,也经过了不少讨论和取舍。
例如,存算一体技术依托的存储类型非常丰富,包括以SRAM、DRAM为代表的易失性存储器,以Flash为代表的非易失性存储器,还有以MRAM和RRAM为代表的新型非易失性存储器。后摩当前选择了制作工艺更为成熟的SRAM。
又如,从电路技术来看,存内计算有数字计算和模拟计算两种,后摩首先选择了运算精度更高、可靠性更好的数字存算。
但对吴强来说,这都是综合市场需求和技术可行性之后的更优选择,后摩当下战略聚焦于智能驾驶芯片,更大的有效算力、更高的可靠性都是为目标芯片服务的。
只不过,摸着石头过河,确实要面临比同行更多的挑战。
比如在电路的仿真验证中,一般用EDA软件进行在线的设计,而后用可编程的FPGA进行电路设计的验证。但是,后摩智能的芯片设计规模已经超过了市面上任何一个可以找到的FPGA,要怎么做芯片验证呢?
后摩智能想到把芯片的不同功能进行切割,在不同的FPGA上进行验证。关于如何把芯片做合理的剪裁以适应部分的验证,后摩团队反复讨论、多次尝试,最终找到了最恰当的方法。
最终,后摩智能交上了鸿途H30这份答卷,相比业界先进的7nm工艺,后摩采用了更成熟的12nm工艺,但功耗比前者减少了50%,性能有两倍以上的提升。
经纬创投投资董事童倜认为,除了存算一体技术上有巨大的优势之外,“后摩团队的优势还在于团队的人员构成非常完善,在很早就拥有了存算一体相关领域的学术专家、曾经量产过大算力AI芯片的人,和设计过车规芯片的人”。
在童倜看来,尤为难得的是,在创立之初,后摩团队就已经对所在的赛道、市场需求有了清醒的认知,也对整个芯片研发及企业经营中可能会遇到的问题有了一定的预期和规划。
这或许要归功于吴强及后摩团队过往在芯片行业丰富的从业经验,有十年以上芯片行业的工作经验的研发人员占比很高,经历过车规芯片量产和导入的初创企业奋斗全过程的员工也不在少数,他们能够深刻理解研发组织、客户沟通等的重要性。
3. “科学家”创业,挑战在技术之外
技术之外,创业更大的挑战正在等待着吴强——技术商业化。
纵观后摩创始团队的背景,技术出身占比更多,吴强在先前AI芯片公司做CTO的时候也主要是专注于技术领域。但他并不觉得这是一个难以跨越的挑战,“虽然这些我以前没有做过,但这都是身为CEO应该做的。创业本来就是快速学习、快速成长的过程,因为你不够快就会被淘汰”。
在后摩成立半年左右的2021年中,公司还在芯片定义阶段,吴强已经开始拜访客户。他认为,未来产品落地过程中必须要关注客户真实的场景和诉求,所以何不在最开始就让客户的诉求加入到“芯片定义”环节呢?
让吴强印象最深的是一次去一家传统车企,当时接待他的采购负责人毕业就在这里工作,已经有十多年。他和吴强解释他们高、中、低款车型对自动驾驶芯片不同的预算、功能诉求,又拉着吴强感叹“如果你们有芯片,我们现在就能上车测试”。
询问其中原因后才发现,中小车企其实“苦国外车规芯片久矣”。
一方面,由于自动驾驶芯片技术难度不低,很多车企只能成为大型芯片公司的客户。那些公司的芯片不仅价格高昂,而且总是先供应更头部的车厂,中小企业总是会被迟发、少发芯片。并且,这些公司售后技术团队在国内的员工较少,也很难保证每一家车企都提供完整的售后技术支持。
更重要的是,在地缘政治等全球不稳定的因素下,中国的中小车企也希望能够保证自己产线的供应链安全,而自动驾驶芯片作为核心零部件之一,国产化的趋势势不可挡。
于是,后摩团队第一款芯片在验证阶段就根据客户痛点规划了许多功能,并在去年完成了核心功能验证。
除了鸿途H30之外,本次发布会还一下子发布了智能驾驶计算使能平台Sailing平台、智能驾驶硬件平台力驭、软件开发工具链后摩大道。后摩智能联合创始人、产品副总裁信晓旭提到,后摩一家芯片公司这么早就投入人力物力来做软件平台,是因为团队成员里不少过去曾因为软件的事情吃过亏。
“我曾在一家知名芯片公司负责某标杆客户的项目落地。原本项目进展很顺利,但三个月之后,对方的负责人忽然打电话来终止了合作,原因是团队觉得软件平台太难用、学习成本太高。”信晓旭表示。
于是在后摩产品的设计之初,就把软件作为重要的产品线,与硬件设计同步推进。
目前,后摩团队正在做给客户送样前的最后测试,预计6月,客户就会收到样片进行测试。
4. 大模型时代,存算一体不止于自动驾驶
存算一体只能用在自动驾驶领域吗?
后摩智能联合创始人、芯片研发副总裁陈亮在发布会上的回答是“存算一体还有更广阔的应用场景”。
陈亮表示,鸿途H30 以存算一体创新架构实现了六大技术突破,即大算力、全精度、低功耗、车规级、可量产、通用性。
鸿途H30 基于 SRAM 存储介质,采用数字存算一体架构,拥有极低的访存功耗和超高的计算密度,在 Int8 数据精度条件下,其 AI 核心 IPU 能效比高达15Tops/W,是传统架构芯片的7倍以上。在实际性能测试中,鸿途H30 基于Resnet 50 模型的 Benchmark,在 Batch Size 等于1 和 8 的条件下分别达到了8700 帧/秒和10300 帧/秒的性能。
而为了充分发挥存算一体带来的高计算效率,后摩智能面向智能驾驶场景打造了专用 IPU(处理器架构)——天枢架构,采用多核、多硬件线程的方式扩展算力,实现了计算效率与算力灵活扩展的完美均衡,AI 计算可以在核内完成端到端处理,保证通用性。
天枢架构的设计理念源自于庭院式的中国传统住宅,以大布局设计保障计算资源利用效率的同时,再进一步结合现代住宅多层/高层的设计优势,以多核/多硬件线程的方式灵活扩展算力。
后摩智能的存算一体芯片在大算力、低功耗、通用性上的优势,为未来芯片应用在更多领域带来了可能。
不过,作为一个在“能效比”上更有优势的底层架构,后摩智能更希望未来的芯片专注于那些较大算力且对功耗较为敏感的场景。例如一些边缘侧的重点场景,如智慧工业中的数据分析+设备控制、拥有较多功能的服务机器人、用来探测和计算的商用无人机、更多功能性能更强的ARVR等。
吴强认为,能效比每提升1000倍都会延伸出一个新的计算形态。例如从小型机时代到PC时代,以及从PC时代到手机时代,都提升了接近1000倍。而后摩智能的未来的愿景,则是希望通过不断迭代,产生出千倍于手机时代的能效比,创造可能的新计算形态。
不过更近一点,后摩智能还是希望在未来1~3年里,聚焦智能驾驶场景,关注乘用车和商用车的使用情况,打通商业闭环,“做透”一个场景。
经纬创投投资董事童倜在评价投资后摩智能的时候曾这样对「甲子光年」说,“我们关注一项新技术,不会等到80%或90%的技术成熟度或要求有商业落地案例才投资,因为那时候已经太晚了”。而类似后摩智能这样的先行者,已经早早出发,成为新技术落地过程的核心推动者,并在技术爆发之后“坐看云起”。