GPU凶猛:芯片换主角?
《中国经济周刊》 记者 孙冰 | 北京报道
数字化浪潮,席卷着全世界的每一个角落。这一切变革的背后,都与小小的芯片息息相关。从手机、计算机到飞机、汽车、家用电器,从工厂的机械臂、切割机到医院的呼吸机、超声仪,小到手里的公交卡大到天上的卫星,芯片已经无处不在。
AI时代的加速到来,尤其是大模型的崛起,带来前所未有的算力需求,这对于芯片产业来说,既是挑战,也是机遇。
过去,芯片领域的主角无疑是CPU(中央处理器)。但由于GPU(图形处理器)更能够满足AI时代高性能计算的需求,近年来其热度飙升,不仅指标性公司的股价不断攀上新高,也有大量创业公司和资本在此寻找机会和追逐梦想。
GPU为何会逆袭崛起?芯片要换主角了?
GPU凶猛,英伟达万亿
今年年初,英伟达的股价在150美元附近,今年7月一度冲高到480美元,目前 (截至8月7日) 在450美元附近,总市值超过1.1万亿美元。这意味着,今年前7个月,英伟达的市值增长了恐怖的7600多亿美元,涨幅超过210%。目前,英伟达是第一家市值超过万亿美元的芯片公司,也是全球第六大市值公司。如果从上市开始计算,其股价涨幅超过了1100倍。
今年5月25日,英伟达发布了令人咋舌的一季度财报,财报中关于二季度的营收指引,更是“亮瞎华尔街的双眼”。于是,仅在一天内,英伟达的市值就暴涨超2000亿美元。而在这个星球上,市值超过2000亿美元的公司并不多。
GPU和CPU的河东与河西,通过“AI时代的芯片王者”英伟达和“PC时代的芯片王者”英特尔的市值对比,可以感受得更加直观。英特尔目前市值在1470亿美元左右,英伟达是其7倍还多。而“芯片三巨头”中的另外一家AMD,因为也吃到AI浪潮的红利,今年来股价上涨了超过35%,目前市值在1880亿美元左右,依旧是老二。
更惊人的是,目前英伟达的市盈率已经超过了200倍,风口浪尖上的特斯拉也不过60多倍的市盈率,微软和Meta不到40倍,谷歌不到30倍,阿里巴巴不到25倍,腾讯只有15倍……即使是“能卡住英伟达脖子”的台积电(英伟达芯片由台积电生产)也只是15倍左右。
能让资本市场如此激动主要是英伟达符合了投资人最喜欢的两大特征:风口行业+统治地位。根据近日Jon Peddie Research(JPR)发布的全球GPU市场数据报告显示,英伟达以84%的市场份额排名第一,排名第二的AMD为12%,第三位的英特尔为4%。
GPU不就是显卡吗?在英特尔时代,GPU甚至都没有“单独名分”,被封装在CPU内。从某种意义上可以说,是英伟达发明了GPU,使其单独存在。那GPU和英伟达为何会犹如坐上了火箭一般?答案其实在OpenAI和ChatGPT身上。
随着ChatGPT等大模型掀起AI狂潮,全世界都在为这个“人类历史上都不多见的技术革命”而兴奋不已。但为何是一个GPU公司成了最大赢家?
这是因为英伟达是AI大模型背后的“军火商”,美国银行的一份报告更是称其为“AI淘金时代的卖铲王”。因为不管你是“百模大战”还是“千模群舞”,统统都要跑在英伟达的GPU上。
英伟达相关人士告诉 《中国经济周刊》 记者,早在2016年,英伟达就向OpenAI交付了全球第一台DGX-1超级计算机。2022年底,OpenAI创建的ChatGPT在短短两个月内收获亿级用户,它的火爆证明了生成式AI和加速计算所带来的“AI的iPhone时刻”已经到来。
据该人士介绍,英伟达发明了GPU作为并行处理器,以模拟视频游戏和电影,使其逼真如现实世界。虽然GPU最初被设计用于处理3D图形的像素,但也非常擅长处理数据,这使其非常适合处理深度学习任务。
“早在10多年前,人工智能研究人员就开始使用GPU进行深度学习。2011年,研究人员发现12个英伟达GPU可以提供2000个CPU的深度学习性能。此外,英伟达还改进了GPU设计、系统架构和软件,并加快了训练速度,使GPU的性能每年提高一倍以上,比摩尔定律更快。”上述人士表示。
此外,该人士还表示,GPU还可以模拟人类智能,运行深度学习算法,并充当感知和理解世界的计算机、机器人和自动驾驶汽车的大脑。未来,英伟达也将致力于帮助客户利用加速计算实现生成式AI和大语言模型的突破性进展。
“CPU是通用处理单元,你可以理解为是一个‘大管家’,什么事都要管,CPU的全部模块中通常有25%用作运算单元 (ALU)、有25%作为控制单元 (Control)、50%用于缓存单元 (Cache);GPU则是单一的图形处理单元,有90%的模块用作计算单元,控制单元和缓存单元只占10%。再则GPU的计算模式是并行处理,即可以同时做很多事;而CPU是串行处理,即处理完一件事再处理另一件。因此,面对巨大的AI算力需求,计算能力更强、计算效率更高的GPU就成为主流选择。”资深芯片研究专家、《芯片简史》 作者汪波告诉 《中国经济周刊》记者,他拥有20多年芯片领域的科研和教学经验。
中金公司研究部科技硬件行业首席分析师彭虎向 《中国经济周刊》 记者分析,技术上,CPU采用冯·诺依曼构架,在并行处理大量数据的运算时效率受到限制。与传统CPU相比,GPU具有多线程、高核心数、更高的存储访问带宽和速度,以及浮点运算能力强等优势,逐步发展成为当下AI算力芯片的主流形态。
“当然,通用型GPU也日益面临着高效率和高功耗之间的矛盾平衡问题,专用型AI算力芯片 (如TPU、NPU、IPU等) 逐步借助自身高算力与低功耗的特点,成为某些互联网云服务商提供AI算力的芯片方案之一。”彭虎说。
如果以图灵测试为起点,人工智能的发展史已经超过70年,数度跌宕起伏中的退潮,大多是受限于算力,要么算力不足,要么成本太高。所以,很多人调侃ChatGPT是“大力出奇迹”,一是因为英伟达造出算力强悍的GPU,二是能堆起万颗昂贵芯片。随着算力的强大,AI的新浪潮也将随之到来。
2023年5月29日,英伟达创始人CEO黄仁勋在COMPUTEX大会上公布了一批与人工智能相关的新产品和服务。
GPU和英伟达的AI故事还远未到高潮?
虽然汹涌的AI浪潮给英伟达带来了惊人的增长,但其实在此之前,英伟达已经吃过一波史诗级的数字货币红利,因为计算能力更强的GPU也是“挖矿”首选。而且GPU和英伟达的“AI故事”还远未到高潮。
根据集邦咨询 (TrendForce)预计,2023年全球AI芯片出货量将增长46%。其中,英伟达GPU为AI服务器市场搭载主流,市场占有率约60%~70%。
瑞穗证券 (Mizuho Securities)发布的研究报告预计,英伟达今年的营收可能达到250亿至300亿美元。到2027年,其AI相关收入将达3000亿美元,届时英伟达在全球AI服务器芯片市场的市场占有率将在75%左右。
如此诱人的巨大市场,自然会面临越来越激烈的竞争。已经缠斗了数十年的“芯片三巨头”,英特尔(成立于1968年)、AMD(成立于1969年)和英伟达(成立于1968年)的鏖战注定要延续到AI时代。
今年6月,AMD推出了数据中心APU(加速处理器)Instinct MI300,大举进军AI市场。在刚刚结束的AMD二季度财报电话会上,AMD首席执行官苏姿丰透露,本季度AMD的AI数据中心芯片客户数量“增长了7倍以上”,预计该业务下半年业绩将有50%的增幅。
英特尔则在2019年就耗资20亿美元收购了以色列AI芯片公司Habana,后续又不断补齐AI业务的各个板块。今年英特尔推出的第二代深度学习芯片Habana Gaudi2,就是对标英伟达100系列,专为训练大语言模型而构建。英特尔还预计到2025年,将会完成Gaudi AI芯片和GPU两条产品线的整合,并推出更完整、更具竞争力的下一代GPU产品。
搞AI芯片,也成为全球主要科技公司的必选项,毕竟谁都不想自己的算力命脉攥在英伟达手里。虽然仅仅为了ChatGPT,微软就买下了上万颗英伟达芯片;呼吁暂停AI研发的马斯克也悄悄囤了1万张英伟达A100;微软、谷歌、Meta、特斯拉也都悉数下场,自研AI芯片。
汪波认为,在全球GPU市场上,目前英伟达确实可以说是一家独大。而且英伟达的护城河,不仅仅是芯片本身,还包括自己开发系统,即CUDA计算平台以及软硬件生态。“这有点类似苹果除了在iPhone等硬件上有优势,还有强大的iOS软件生态系统。”他说。
英伟达创始人、CEO黄仁勋曾在今年5月对外透露,CUDA在全球已经拥有超过400万开发者和超过3000个应用程序。CUDA下载量累计达到4000万次,仅去年一年就有2500万次。全球有40000家大型企业正在使用英伟达的产品进行加速计算,已有15000家初创公司建立在英伟达的平台上。
当一个你以为的硬件公司说自己是一家软件公司的时候,是要琢磨琢磨的。就像2007年第一代iPhone发布时,有人提问乔布斯:苹果如何避免iPhone被模仿并陷入价格竞争?乔布斯的回答是;“我们是一家软件公司。”
“如果其他公司推出新的GPU芯片,开发者就需要学习新的开发语言,这是很痛苦的,就像要改变一个人的语言乃至思维方式。因此,与硬件匹配的软件生态是头部芯片公司非常重要的竞争壁垒。”汪波表示。
黄仁勋提出过一个著名的“黄氏定律”,即GPU芯片每6个月性能就会提升1倍,速度是摩尔定律的3倍。这意味着GPU是一个需要狂奔的赛道,生死时速,赢者通吃,注定属于敢于冒险的大玩家,很容易变成尘埃,也很容易伟大。
当然,英伟达也并非能够躺赢。纵观芯片发展史,一家名不见经传的小公司,因为一个天才的芯片设计方案而迅速崛起已经发生过很多次,这其实也是英伟达曾经的“剧本”。
AI成就GPU,但GPU还不是AI的完美答案?
实际上,GPU并不是为AI所生的,它只是解决AI算力需求的一种方案,有没有更好的?答案是肯定的,只是还不知道究竟谁是颠覆GPU的下一个芯片主角。
一位国产GPU厂商的GPU产品设计负责人告诉《中国经济周刊》 ,芯片是算力的基本构成,核心的计算都运行在芯片上。整个硬件的逻辑是芯片以板卡或者其他算力卡的形态,部署在服务器中,服务器安置在机柜中,大量机柜组成数据中心。大模型的崛起,毫无疑问给芯片产业带来了一个巨大的潜在市场,也带来了很多技术要求,特别是对于芯片的单卡算力性能、互连能力等关键性能指标都提出更高的要求,因此需要市场开发更强的芯片产品。
这位负责人认为,GPU成为主流是因为AI发展的初期,能够获取的最适合的芯片架构就是GPU,因此有先发优势。但GPU的核心痛点在于芯片制造技术追不上算力需求的增加,也就是常说的摩尔定律走到了尽头。目前GPU芯片所用的最先进制程是4nm~5nm制程,已经非常逼近摩尔定律的物理极限了,未来几乎无法再通过制程的升级来提升芯片性能。
此外,该负责人表示,传统的GPU还保留了不少不需要的图形运算功能,使得整个芯片的计算效率并不是最高,这也是GPU的劣势。其他主流的AI芯片解决方案,也都还不完美,比如针对AI运算开发的专用芯片(ASIC)方案,虽然计算效率更高,但通用性较差。
“未来最有希望实现突破的还在于更新的封装技术 (比如3D封装)、更新的材料等方式,尝试突破摩尔定律。”该负责人说。
汪波从芯片架构原理的角度,做了进一步的解释。他表示,受制于其架构本身,用GPU解决AI算力并不完美,毕竟GPU最初并不是因AI而生的。此外,GPU的计算和存储是分开的,需要在计算和存储之间来来回回地调用数据,这种搬运数据消耗的能量是计算的10倍。而且GPU很多时候是在等待数据过来再进行计算,因此,GPU的计算效率并不高,而且功耗非常大,GPU的强大算力是要付出巨大成本的。
“在芯片设计中,一直在寻求PPA折中,即性能(Performance)、功耗(Power) 和面积 (Area)的平衡点,因为三者不能同时达到最优。性能和功耗一直是一对矛盾,而面积越大,芯片成本越高。”汪波说。
汪波还表示,实际上,学术界和科技公司的研究者们都在研究更适配人工智能的芯片,采用新的原理和新的材料。比如做存算一体的芯片,在存储器内部去完成计算,不用再搬运数据,这样就能实现功耗更低但算力更大。“目前,虽然还在探索阶段,但好消息是在这个领域,中国和世界同步的。”他说。
还有一个思路就是改变芯片的冯诺依曼式架构,模拟人脑数据处理方式的神经形态芯片。“神经形态芯片已经发展了几十年,虽然目前算力还没有办法跟GPU去PK,但如果其算力能达到GPU的一半,就可能凭借能耗和成本优势异军突起。”汪波说。
彭虎也分析称,GPU具有强大的并行计算能力和高效的浮点运算能力,且属于通用芯片,能够较好地满足各类AI算法要求,但也存在较高功耗和较低算力利用率的短板。除了GPU,AI芯片还包括FPGA和各类ASIC方案。FPGA属于具备可编程硬件结构的集成电路,其可编程性和灵活性可快速适应不同AI算法要求,但也存在高功耗的问题。ASIC属于专用芯片,通过算法固化实现更高的算法利用率和能耗比,但开发周期较长、灵活性较弱。
“我们认为,目前GPU仍是较好满足AI大模型、支持多模态的成熟的一站式解决方案,ASIC以其高性价比、高能耗比等优势将在未来AI市场中占据一席之地。”彭虎说。
实际上,能耗问题已经是算力发展乃至AI发展的重要瓶颈。北京智源人工智能研究院副院长兼总工程师林咏华告诉《中国经济周刊》 记者,一个百亿级别大模型仅仅训练消耗的电费每天都要在10万元以上。
“超过千亿级别的大模型,训练需要1000~2000张A100的卡,硬件成本约5000万美金,还需要投入人力、电力、网络支出等,一年至少5000万美金到1亿美金成本。”昆仑万维CEO方汉曾表示。
一家国内头部AI算力供应商的负责人告诉 《中国经济周刊》 记者,一个传统数据中心,电费要占运维总成本60%~70%。而每耗费一度电,却只有一半用在了正事 (计算)上,其他则浪费在散热上。因此,新型数据中心一般会采用液冷技术,这样可以比采用风冷节省30%以上的电费。
全球大型互联网公司都在想尽各种办法解决散热难题,为了降低能耗,他们把数据中心埋在山里(腾讯)、泡在湖里 (阿里)、扔进大海(微软)、拉到北极(Meta)……
芯片封锁加剧,中国“AI芯”怎么样?
2018年的中兴事件和2019年的华为事件之后,“芯片”不仅成为一个国民热词,也有大量的资本和创业公司进入芯片领域。但那时,AI芯片的方向还比较多,除了GPU,还有FPGA(现场可编程门阵列)和ASIC(专用集成电路)。但在英伟达的市场示范效应之下,在2020年掀起的第二波芯片创业热潮,则主要集中在GPU领域,尤其是GPGPU(通用图形处理器,可通过编程进行不同计算任务)。
2022年8月,美国政府禁止英伟达向中国出口最先进的高算力GPU A100和H100,英伟达随后专门面向中国市场推出了符合美国出口管制要求的A800和H800芯片 (限制了A100和H100部分性能)。
据媒体援引消息人士称,今年,中国的各大互联网公司都在疯狂囤货英伟达GPU,仅仅字节跳动就向英伟达订购了超过10亿美元的GPU,这个数字已经接近英伟达2022年在中国市场销售的商用GPU总和,而且字节跳动还收购了市面上几乎所有公开出售的A100芯片。
据英伟达官网,A100芯片标价为1万美元/块 (大批量采购统筹会有一定折扣),升级版H100 则为3.6万美元/块。但记者从代理商方面了解到,虽然中国版的A800和H800芯片官方售价略低,但实际上,由于供不应求等原因,其实际价格比高性能版反而要更高,A800的溢价已经到10万人民币以上。
面对巨大的市场需求和极其不确定的国外方案,中国AI企业当然希望能有“新选择”,也有很多中国芯片企业希望能成为“新选择”。
“从历史上看,一家新的芯片公司要想崛起,去挑战现有头部大公司,都是要先从中低端芯片开始做起,通过占领中低端,逐步培养用户习惯和开发者规模,再慢慢向高端发展。如果直接就开发英伟达A100这样的高端芯片,需要投入非常大的人力和资金,还要面临软件和生态的护城河,这是很难的。”汪波说。
汪波认为,中国企业也可以采取类似的路径:一是先从中低端做起,逐步迈向高端;二是先占领一些垂直行业,先做到专门特定领域的引领地位,如医疗、工业、交通等领域。
“其实现在可以看到,中国的一些大型科技公司已经在采用这种策略,例如华为、阿里和腾讯等都是选择在特定领域发力。还有壁仞、摩尔线程、寒武纪等专门的GPU公司也都做得不错。预计5年内,中端是可能有所突破的,但要突破高端还是需要一步步努力。”他说。
但汪波强调,目前国内GPU市场是高端芯片被限制了,但中低端芯片反而没有限制。“很多人会认为,中低端芯片没限制还能用不错,但从长远来看,我觉得这种策略对国内芯片公司的发展并不是一件好事,长期看会加大封锁的破坏力。”他说。
汪波认为,这一方面会让国外企业大规模占领中国市场,给他们带来巨额的商业回报,可以继续维持研发,做出更领先的产品;另一方面,国内的用户和开发者会习惯于国外系统,这就意味着即使有国内公司研发出性能好的芯片,也开发出软件系统,但会面临切换系统的难题。
“这两方面都会让国外品牌的护城河更高。如果未来真的遭遇全面限制,在缺芯的危机之下,会加快本土芯片企业的成长,推动市场更多使用中国本土芯片。”汪波说。
在彭虎看来,目前,海外GPU公司占据全球AI芯片的主要份额,国产厂商正在快速追赶中。从需求来看,国内AI行业的发展在应用落地侧具备较成熟的经验,带动国内各类AI芯片设计公司的快速兴起。从供给来看,相比于海外通用GPU,国内AI芯片设计公司普遍采用ASIC方案,较好地匹配了国内AI市场需求。展望未来,如果国内在芯片先进制造领域提升工艺水平并掌握一定产能,相信国内AI芯片将获得更大的成长发展空间。
AI算力突围的“中国方案”
尽管难度不小,但AI芯片和AI算力都是“未来之局”,中国一定要有自己的“中国方案”。汪波表示,他对未来还是非常有信心的。“芯片设计本身主要依靠好的idea,从芯片发展史来看,创新往往都来自一个叛逆的想法。之前我们连3G芯片都设计不了,但在5G芯片上,我们做到了领先全球。”他说。
今年6月,中国科学院对外发布了“香山”开源高性能RISC-V处理器核和“傲来”RISC-V原生操作系统。汪波认为,这一布局意义重大。“国外的芯片和软件虽好,但如果不开源,高昂的价格就是最大的短板。因此,我们如果发展开源生态,就可能成为自主破局的突破口。”他说。
中国科学院计算技术研究所副所长包云岗也表示:“过去我国发展处理器芯片有两种模式,即高铁模式和北斗模式。前者是在现有生态下引进、消化、吸收、再创新,后者是完全自主构建技术体系。有了RISC-V后,我们可以走第三种模式——5G模式。国内企业应加速参与到开放标准的制定中,同时自主研发一批关键核心技术,面向国际市场,兼容国际生态,抓住第三次芯片浪潮的时代机遇。”
当然,中国方案已经在加速成长。由于不能使用国外的技术架构,华为是国内较早就开始走自研之路的企业。
“当前中国大模型中有一半是由华为昇腾AI来支撑的。”今年7月,华为轮值董事长胡厚崑对外透露。华为昇腾计算业务总裁张迪煊也透露,截至目前,昇腾已认证了30多家硬件伙伴、1200多家软件伙伴,联合孵化了2500多个AI场景方案。在中国,每2家AI企业就有1家选择昇腾。
华为相关负责人告诉 《中国经济周刊》 记者,华为预测是到2030年,人类将进入YB(1亿亿亿字节)数据时代,全球通用算力将增长10倍,人工智能算力将增长500倍。
该负责人强调,影响算力的因素不仅仅是芯片,需要系统架构的创新、硬件和基础软件的协同创新。目前,算力需求的爆炸式增速已远超摩尔定律,单纯依靠芯片工艺进步带来的算力提升,已不能满足算力增长需求,必须进行计算体系的架构创新,包括从通用计算走向通用计算加异构计算的多样性算力创新,以及从硬件到基础软件、到应用使能的协同创新。
“万物互联的智能时代,非结构化数据占比越来越大,如文本、图片、语音、视频等这类数据的加工、处理、传输,需要多样性的计算来匹配。举例来说,CPU处理大数据、Web等场景是非常匹配的,但是对于图形、图像的处理,就需要GPU来匹配;而日常生活中的图形图像识别、智能搜索推荐等,就可以用基于AI计算的NPU(网络处理器/嵌入式神经网络处理器)来处理了。”该负责人表示。
据该负责人透露,华为是通过架构的创新,提升计算的效率。“比如在计算节点层面,华为推出对等平构架构,突破传统的以CPU为中心的异构计算带来的性能瓶颈,使得节点性能得到30%的提升;在数据中心层面,华为发挥云、计算、存储、网络、能源的综合优势,相当于把AI数据中心当成一台超级计算机来设计,使得昇腾AI集群性能更高,并且更可靠。”
(本刊记者谢玮对本文亦有贡献)
(本文刊发于《中国经济周刊》2023年第15期)
2023年第15期《中国经济周刊》封面