图片来源@视觉中国
5月30日注定是要被历史铭记的一天,在这一天突破万亿美元市值屹立世界之巅。
方面表示,目前订单都已经多到做不过来,接下来半年订单都会大超市场预期。该公司股价近期出现的飙升,这得益于AI处理器需求的推动。
5月25日,发布一季度财报,AI芯片所在数据中心业务的营收创历史新高,保持10%以上同比增速。就在业绩电话会期间,股价已经迅速上行,涨至390美元上方的历史最高水平,盘后涨幅超过28%。
摩根大通近日发布的一份报告就指出,今年将在整个AI产品市场占据60% 的份额。排在第二位的是博通,其专用集成电路(ASIC)预计将占到 13% 的收入份额。台积电排在第 17 位,其收入占比为 3%。英特尔和 AMD 则都低于 1%。
以ChatGPT为例,其训练和推理过程用到了超过1万枚A100 GPU芯片的AI计算集群。花旗集团分析师Atif Malik预估,ChatGPT可以为在一年内带来30亿美元至110亿美元的销售额。
对于国内蓬勃发展的大模型业务来说,由于美国方面的出口管制禁令存在,只能向中国客户提供A100 GPU芯片、H100 GPU芯片的平替版本,很难直接运用到最为先进的算力。
这意味着,国内大模型将很难直接参与到这场由掀起的技术与资本的盛宴。
与此同时,国产大模型算力落后,很有可能就此被拉开距离。时间,已经不多了。
底层算力的落后
对于国产大模型而言,版本落后已然成为现实。
5月29日,英伟达CEO黄仁勋在COMPUTEX大会上宣布,搭载了256颗GH200 Grace Hopper超级芯片的新型DGX GH200人工智能超级计算机现已投入量产。
黄仁勋在演讲中说道,“我们已到达生成式AI引爆点。从此,全世界的每个角落,都会有算力需求。”而这一台被黄仁勋描述为世界上第一个具有巨大内存的加速计算处理器,也将成为AI时代的“算力杀器”。
类似ChatGPT的语言大模型,必不可少的三件套是算力、算法和参数。算法、参数主要取决于一家公司的技术水平和投入,算力往往取决于你手上有多少芯片。
用前不久也入局大模型的人工智能公司“出门问问”CE0李志飞的说法就是,做大模型的门槛至少需要5000万美元,其中的2000万美元都得用来购买算力。
令人遗憾的是,国产大模型现阶段难以染指。发布会上黄仁勋指出,谷歌云、Meta和微软将会是首批获得DGX GH200访问权的客户。
要想大模型变得更“聪明”,就必须适配最先进的GPU芯片。失去了的最新芯片,在大模型的底层架构上已经落后版本。
目前最主流的GPU芯片,是2020年5月公布的A100,按照当时黄仁勋在发布会上的说法,A100是“迄今为止人类制造出的最大 7nm制程芯片,集AI训练和推理于一身,并且其性能相比于前代产品提升了高达20倍。”
没想到的是仅仅两年后,就已经推出了性能全面升级的H100——晶体管数量接近翻倍,部分性能是A100的六倍,黄仁勋称其为“全球首个为生成式 AI 专门设计的计算机芯片”。
由于去年8月底,美国对生产的A100 GPU芯片、H100 GPU芯片实施了出口管制,而GH200 Grace Hopper超级芯片正是由H100 GPU芯片与其它产品组合而成,国产大模型在短期内用上这个“算力杀器”几乎无望。
国产大模型,退而求其次
在应对“芯片荒”的问题上,出于商业层面的考量,基本上与中国企业站在同一战线上。
毕竟去年8月的芯片禁令出台之初,就曾发布财报预警,将可能会失去到中国市场2022年第三季度约4亿美元的潜在销售。受此消息影响的股价连续暴跌,一度跌到139.37美元,对比历史高点下跌约 57.5%。
若非ChatGPT在今年年初直接引爆科技圈,很难通过硬核科技能力破局,黄仁勋表示:“我们看到了业界对NVIDIA计算平台的强大需求。”
面对政策方面的“卡脖子”,先是争取到了一个缓冲时间,可以在2023年3月前继续向美国客户出口(到中国)的产品提供A100,可以在2023年9月前继续履行A100和H100的订单。
在缓冲期内,黄仁勋着手准备“平替版本”来应对管制条款,仅仅一个多月后,就已经宣布,将向中国企业出口符合出口管制的A800 GPU——单卡大部分性能与A100GPU几乎相同,仅互联带宽从600GB/s降低到400GB/s,意味着同样数量GPU组成的集群算力下降。
今年3月,最新一代的H100芯片的“最佳替代产品”H800也投产发售,确认,阿里巴巴、腾讯和百度等中国厂商已经在用了。
黄仁勋已经铺好了路,国内研发大模型的企业们也就不约而同地开始了囤货。
网络流传的一份“阿里AI专家交流纪要”显示:阿里云上至少有上万片的A100,今年芯片采购量在1万枚左右,其中6000枚是H800;百度则在年初紧急下单了3000台由8张A800组成的服务器,共2.4万张卡,预计全年百度会有A800和H800共5万枚的需求。
腾讯云4月发布的新一代HCC高性能计算集群,则是明确搭载了英伟达的H800芯片,而且是国内首发。不过腾讯云并未透露具体使用了多少H800。
在国内企业疯狂下单的加持下,无论是原本的A100芯片还是专供版的A800、H800,出货周期都在大幅上升。据业内人士透露,目前的拿货周期已经从原本的一个月左右延长到了三个月或更长,部分新订单甚至“可能要到12月才能交付”。
供不应求的另一个结果,则是芯片价格的上升。
原本定价1万美元的A100,从去年12月开始上涨,截至今年4月上半月,其5个月价格累计涨幅达到37.5%。如今在国内的价格已经涨到了10万人民币以上一枚。专供中国的A800芯片,京东上标价是88999元,甚至已经高出了原版A100的定价。至于最新版的H800芯片,目前还没有大范围进入市场,对比H100的价格大约是25万元,估计售价也至少在20万以上。
按照训练一个ChatGPT用1万枚A100来算,恐怕算力就得花10亿元。
留给国产大模型的时间不多了
为了不被美国方面的政策原因“卡脖子”,不少国内科技巨头都在尝试自研芯片。
今年3月发布国内第一个大模型“文心一言”的百度,旗下就有自研的“昆仑芯”。2021年的时候,独立拆分并完成融资的昆仑芯,估值已经达到130亿元。先后在2018年、2021年推出了两代芯片,目前百度昆仑芯前两代的产品已有数万片的部署,第三代会在明年的年初上市。
根据百度CEO李彦宏的说法,昆仑芯片目前则在大模型的推理侧已经有了应用——“昆仑芯片现在适合做大模型推理,将来适合做训练,这件事百度做了10年以上,而之所以它能够用在大模型的推理上,是因为有反馈、有应用,当时做搜索时买别人芯片太贵,1万美元一片,我们自己做,2万元人民币就做下来了,所以逼着自己做出了芯片。”
阿里2018年成立的平头哥,则是在2019年的云栖大会上,推出了自研AI推理芯片含光800,当时号称部份性能比业界最好的AI芯片性能高4倍。不过该芯片目前应用在阿里云上,并未单独对外公开发售。
阿里云4月推出的大模型“通义千问”,就使用了自主研发的含光800芯片。“通义千问”自己的回答是,“在实际训练中,我使用了阿里巴巴达摩院自主研发的大规模分布式计算平台,包括含光800、云计算平台等。在硬件设备方面,我使用了自主研发的高性能计算芯片“含光800”,这款芯片能够满足我的训练需求。”
巨头之外,国产AI芯片企业也试图分一杯羹。
目前,国内的AI芯片企业包括海光信息、寒武纪、平头哥、华为昇腾、天数智芯、燧原科技、摩尔线程、壁仞科技、沐曦等公司。
但国产芯片离英伟达还有一大段距离。
目前大模型对算力的需求主要体现在训练和推理。简单打个比方,训练就是培养一个ChatGPT,推理就是让ChatGPT帮你生成图片、做ppt。
现阶段来看,国产AI芯片基本都还未拥有独立支撑起大模型训练所需的能力。如壁仞科技(通用GPU芯片BR100)、天数智芯(“智铠100”)、寒武纪(云端推理思元270),基本只能支持多媒体和图形处理的单精度浮点计算(FP32)。
作为高算力计算的硬性指标——双精度浮点计算能力(FP64),大多都并不具备。国内唯一支持FP64双精度浮点运算的海光DCU(协处理器),性能也只有A100的60%左右。
如果美国对的出口管制仍将继续存在,而国产AI芯片又难以突破的话,用于训练国产大模型的GPU芯片,最好的也不过是2022年推出产品的平替版本。
可以说,留给国产大模型的时间已经不多了。
参考资料: