本文转载自微信公众号:中信建投证券研究
图片
|黄文涛 阎贵成 程似骐 崔世峰 贺菊颖 黎韬扬 刘双锋 刘永旭 庞佳军 陶亦然 王在存 许琳 许光坦 杨艾莉 叶乐 应瑛 于芳博 袁清慧 赵然 朱玥
中信建投证券研究发展部重磅推出《AI新纪元:砥砺开疆・智火燎原》500页深度报告,40万字深度解析,以全球化视野系统解码全球人工智能产业最新发展脉络。本文是报告第二章:人工智能算力基础设施发展趋势及展望。
图片
2.1 人工智能需要庞大的算力支撑
人工智能的浪潮正席卷全球,其核心驱动力——大语言模型正以惊人的速度迭代进化。然而,这场智能革命的背后,是一场围绕算力展开的军备竞赛。大模型对计算能力的需求呈指数级增长,重塑并催生了一条庞大且精密的产业链。
大语言模型在实际应用中包括两个环节:训练(Training)和推理(Inference)。训练是指通过大数据训练出一个复杂的神经网络模型,使其能够适应特定的功能。训练需要较高的计算性能、能够处理海量数据以及具有一定的通用性。推理是指利用训练好的神经网络模型进行运算,利用输入的新数据来获得正确结论的过程。
图片
根据所承担任务的不同,AI芯片可以分为训练芯片和推理芯片:(1)训练芯片:用于构建神经网络模型,需要高算力和一定的通用性。(2)推理芯片:利用神经网络模型进行推理预测,注重综合指标,单位能耗算力、时延、成本等都要考虑。
根据AI芯片部署的位置,可以分为云端芯片和边缘端芯片:(1)云端芯片:即数据中心,关注算力、扩展能力、兼容性。云端部署的AI芯片包括训练芯片和推理芯片。(2)边缘端芯片:即手机、安防摄像头等领域,关注综合性能,要求低功耗、低延时、低成本。边缘端部署的AI芯片以实现推理功能为主。
每Token训练成本与模型参数量的关系:衡量大模型算力消耗的核心指标是浮点运算次数(FLOPS)。参考OpenAI发布的论文《Scaling Laws for Neural Language Models》中的分析,每个token的训练成本通常约为6N,其中N是LLM的参数数量,我们在测算中遵循这一关系。具体原理如下,神经网络的训练过程包括前向传播和反向传播两个过程,其中大致包括四个步骤:
1、做一个单次的推理操作,得到输出y,例如输入猫的图片得到输出0.986。
2、计算输出y与真实的目标输出Y(假定设置的目标输出Y=1)之间的差值σ,例如得到输出与目标真实值的差值为0.014。
3、将输出差值回溯,计算差值关于每个参数的梯度关系。
4、根据输出差值和梯度修正每个神经元的参数,实现神经网络的参数更新,促使输出结果逼近目标真实值。
因而在一个参数量为N的神经网络中,一次输入对应训练过程的整体运算量大致为6N,其中2N为前向传播过程,4N为反向传播过程。
图片
训练一个大模型所需的算力,大致遵循一个简单的经验法则:对于目前主流的Transformer架构模型,每训练一个数据单元(token),每个模型参数大约需要6个浮点运算,而推理(即模型生成内容)的成本相对较低,大约为每个token每个参数2个浮点运算。
模型参数量和训练数据量的任何增长,都会直接导致所需计算量的急剧膨胀。以拥有1750亿参数的GPT-3为例,其训练总计算量高达约3.14×10^23 FLOPS。这意味着即便使用2000张英伟达H100顶级芯片进行不间断的并行计算也需要数月时间。随着模型参数规模迈向万亿级别,对算力的需求达到了前所未有的高度。这不仅意味着巨大的前期训练成本,也对模型部署后的推理能力提出了严峻挑战,从而推动了整个算力产业链的高速发展。
图片
从长周期看,自2010年以来,人工智能模型的训练计算量每年以4.7倍的速度增长,目前仍在进一步加速。从短期技术变革来看,强化学习成为大模型训练算力提升的重要驱动。以Grok为例,从Grok 2到Grok 4,采用的技术范式不同,强化学习的占比不断提升。Grok 2到Grok 3预训练阶段的计算量提升了10倍,Grok 3 reasoning首次引入了RL微调,带来深度推理能力。Grok 4 reasoning的强化学习再度提升10倍的计算量,推理能力大幅提升,当前强化学习训练算力已经可以匹敌预训练算力,整体模型训练算力大幅提升。
图片
大模型的流量主要分为三个部分:内部产品调用、网页直接对话、及API调用。以谷歌为例,绝对主体(塔基):内部产品调用,是Gemini消耗量最大、最具战略护城河的渠道,其规模建立在谷歌旗下七大拥有“20亿级用户”的产品生态之上,体量远超其他渠道之和。重要入口(塔身):网页直接对话。以Gemini App为代表,拥有“数亿”级别的活跃用户,是谷歌建立AI品牌、教育市场、探索直接付费模式(订阅)的核心阵地。商业引擎(塔尖):API调用。“数百万”级别的开发者和企业用户群体,是Gemini技术生态扩张和商业变现(按量付费、云服务绑定)的关键引擎,增长最为迅猛。
图片
Token调用量呈现迅猛增势。Google的Token月均调用量从2024年4月的9.7万亿增长至2025年4月的480万亿,增长50倍。根据微软FY25Q3电话会,Azure AI基础设施在2025年一季度处理了超100万亿Token,较去年同期增长5倍,其中3月份单月Token调用量达50万亿。从国内互联网大厂来看,2025年5月字节火山引擎Token日均调用量为16.4万亿(月均508T),是2024年5月的137倍。在2025世界移动通信大会(MWC 2025)上,华为董事杨超斌透露,过去8个月,中国市场AI生成的Token带来的流量增长了33倍,其中15倍来自于付费Token。
未来推理算力需求增长以及主权AI需求将持续推动算力的高速增长:
1)AI算力消耗开始从训练走向推理,并且带来显著的算力增量,探究背后增量需求主要来自三方面:
一是各家互联网大厂纷纷加速AI与原有业务结合,如谷歌搜索在今年5月21日正式迎来AI模式,并逐步在美国市场推出,考虑到谷歌搜索全球范围内年搜索量超5万亿次,假设单次回答平均为2000 token,则该功能都将带来日均27万亿token消耗(超过其Gemini模型目前日均16万亿token消耗),类似案例如抖音搜索、微博AI智搜,搜索功能开始从普通服务器迁移到AI服务器并重塑搜索体验,类似的视频编辑、剪辑功能也被AI重塑;
二是Agent和深度思考推理的结合,通过两者结合,Agent执行任务准确率大幅提高,Agent执行一次任务平均消耗token达到十万量级,大幅超过AI搜索单次问答token消耗,并且能延伸到更多开放式场景,同时多Agent协作的群体智能也已开始逐步商用化,过去复杂、多步骤的任务可通过Agent实现,Agent的普及将带来推理算力需求的大幅增长;
三是多模态,随着多模态生成的图片及视频质量今年均显著提升,今年AI营销内容占比提升十分明显,《2025中国广告主营销趋势调查报告》显示“超过50%的广告主,已经在生成创意内容时使用AIGC,并且AI营销内容占比超过10%”,而一分钟视频的生成token消耗基本在10万量级,目前多模态模型开始步入快速商业化阶段,如快手可灵四五月连续两月付费金额超过1亿元,多模态的加速渗透带来明显的算力需求提升。
2)主权AI以政府为主导,超前投资为推动力,尝试通往AGI之路,科研和军事领域是关键,随之扩展到其他各行业的效率提升,典型代表为美国重点推进“星际之门”计划。与之而来的是各国政府纷纷开启主权AI的投资计划,尤其以欧洲、中东、日本等国为代表,投资体量超过3000亿美金。
图片
2.2 算力涉及从芯片到数据中心的全产业链条
算力产业链涉及到诸多环节。如先进制程制造、以Chiplet为代表的2.5D/3D封装、HBM、AI芯片、板卡组装、交换机、光模块、液冷、AI服务器、IDC出租运维。
图片
先进制程制造是算力的基石。制程越先进,意味着晶体管密度越高,单个芯片能提供的算力就越强,能效也越高。AI芯片的性能直接取决于所采用的半导体制造工艺,为了在有限的芯片面积上集成更多的计算单元并控制功耗,业界正不断追求更先进的制程节点。目前,7nm及以下的先进制程已成为高端AI芯片的标配。台积电的5nm、3nm,以及英特尔的Intel 4、18A等先进节点,都是这场算力竞赛的战略制高点。
Chiplet与2.5D/3D封装助力突破单片芯片的物理极限。随着摩尔定律放缓,单纯依靠缩小晶体管尺寸来提升性能变得愈发困难。Chiplet(芯粒)技术应运而生,它将一个大型芯片的功能分解成多个独立的、可灵活组合的“小芯片”,然后通过先进的封装技术将它们集成在一起。这种“化整为零,再聚零为整”的模式,带来了多重优势:可以混合搭配不同制程的芯粒,优化成本与性能;提高了良率;并且能够突破单片芯片的尺寸限制,实现性能的横向扩展。为了将这些芯粒高速互联,2.5D/3D封装技术至关重要。2.5D封装(如台积电的CoWoS)通过一个硅中介层(Interposer)连接各个芯粒,而3D封装则直接将芯粒垂直堆叠,进一步缩短了数据传输距离,提供了更高的带宽和更低的延迟。
HBM为AI芯片输送“数据弹药”。AI计算是典型的数据密集型任务,海量数据需要在计算核心和内存之间频繁交换。如果内存带宽不足,即使AI芯片的计算能力再强,也会因为数据供应不上而达不到较高的利用率。HBM正是为解决这一瓶颈而设计。HBM通过3D堆叠技术,将多个DRAM芯片垂直整合,并与AI芯片一同封装在基板上,实现了极高的数据传输带宽和更低的功耗。从HBM2E到HBM3,再到最新的HBM3E,其带宽和容量不断翻倍。
AI芯片是算力产业中的核心。AI芯片是整个算力产业链的核心,目前市场由英伟达的GPU主导,其CUDA生态系统构筑了强大的护城河。除了GPU,还涌现出众多针对AI特定任务进行优化的ASIC和FPGA等。
板卡组装是从芯片到产品的关键一环。设计精良的AI芯片需要被集成到板卡上才能发挥作用。这个环节主要由ODM厂商,如富士康、纬创等巨头主导。它们负责将AI芯片、HBM、供电模块、散热器等数百个元器件精密地组装在一块PCB上,这一过程对制造工艺和质量控制有着较高的要求。
交换机与光模块对于构建大型计算网络至关重要。单个AI服务器的算力有限,训练大模型需要将成千上万台服务器连接成一个庞大的计算集群。在这个集群中,高速交换机和光模块扮演着“神经网络”的角色,负责在服务器之间高速传输数据。随着AI集群规模的扩大,对网络带宽和延迟的要求也水涨船高,推动着交换机端口速率从400G向800G,甚至1.6T演进,光模块需求也随之激增。
AI服务器的功率密度极高,一张高端AI加速卡的功耗就可达1200瓦甚至更高。传统的风冷散热方式已捉襟见肘,液冷技术因此成为必然选择。直接到芯片的液冷通过在发热量最大的芯片上安装冷板,利用液体循环带走热量。液冷不仅散热效率远高于风冷,还能显著降低数据中心的能耗(PUE),节省空间,随着新一代AI芯片的功耗快速提升,液冷正迅速成为新建AI数据中心的主流散热方案。
所有上述部件最终汇聚成AI服务器。这些服务器由戴尔、超微电脑等品牌厂商或广达、纬颖等ODM厂商制造,它们针对AI工作负载进行深度优化,能够容纳多个AI加速器并提供强大的数据处理能力。这些AI服务器被部署在IDC中,由专业的IDC服务商或云服务巨头进行出租和运维。它们提供稳定可靠的电力、制冷、网络和物理安全保障,将算力以MaaS、SaaS、PaaS、IaaS形式交付给大模型的开发者和使用者。
2.3 人工智能芯片发展趋势及展望
从广义上讲,能运行AI算法的芯片都叫AI芯片。CPU、GPU、FPGA、NPU、ASIC都能执行AI算法,但在执行效率层面上有巨大的差异。CPU可以快速执行复杂的数学计算,但同时执行多项任务时,其性能开始下降,目前行业内基本公认CPU不适用于AI计算。
CPU+XPU的异构方案成为大算力场景标配,GPU为应用最广泛的AI芯片。目前业内广泛认同的AI芯片类型包括GPU、FPGA、NPU等。由于CPU负责对计算机的硬件资源进行控制调配,也要负责操作系统的运行,在现代计算系统中仍不可或缺。GPU、FPGA等芯片都是作为CPU的加速器而存在,因此目前主流的AI计算系统均为CPU+XPU的异构并行。CPU+GPU是目前最流行的异构计算系统,在HPC、图形图像处理以及AI训练/推理等场景为主流选择。根据中国信通院《先进计算蓝皮书》,2024年,搭载GPU的AI服务器占比约为71%,其中英伟达的市场占有率接近90%,AMD约为8%;随着全球领先的云服务商不断加大对自研芯片的应用力度,非GPU的AI芯片市场规模显著增长,其中ASIC芯片在AI服务器中的占比已攀升至26%。
图片
2.3.1 GPU性能、功能经历长期迭代升级,成为AI芯片中应用最广泛的选择
GPU能够进行并行计算,设计初衷是加速图形渲染。NVIDIA在1999年发布GeForce 256图形处理芯片时首先提出GPU(Graphics Processing Unit)的概念,并将其定义为“具有集成转换、照明、三角形设置/裁剪和渲染引擎的单芯片处理器,每秒能够处理至少1000万个多边形”。从计算资源占比角度看,CPU包含大量的控制单元和缓存单元,实际运算单元占比较小。GPU则使用大量的运算单元,少量的控制单元和缓存单元。GPU的架构使其能够进行规模化并行计算,尤其适合逻辑简单,运算量大的任务。GPU通过从CPU承担一些计算密集型功能(例如渲染)来提高计算机性能,加快应用程序的处理速度,这也是GPU早期的功能定位。
图片
CUDA将GPU的计算能力扩展至图形处理之外,成为更通用的计算设备。在GPU问世以后,NVIDIA及其竞争对手ATI(被AMD收购)一直在为他们的显卡包装更多的功能。2006年NVIDIA发布了CUDA开发环境,这是最早被广泛应用的GPU计算编程模型。CUDA将GPU的能力向科学计算等领域开放,标志着GPU成为一种更通用的计算设备GPGPU(General Purpose GPU)。NVIDIA也在之后推出了面向数据中心的GPU产品线。
图片
GPU性能提升与功能丰富逐步满足AI运算需要。2010年NVIDIA提出的Fermi架构是首个完整的GPU计算架构,其中提出的许多新概念沿用至今。Kepler架构在硬件上拥有了双精度计算单元(FP64),并提出GPU Direct技术,绕过CPU/System Memory,与其他GPU直接进行数据交互。Pascal架构应用了第一代NVLink。Volta架构开始应用Tensor Core(张量核心),对AI计算加速具有重要意义。回顾NVIDIA GPU硬件变革历程,工艺、计算核心数增加等基础特性的升级持续推动性能提升,同时每一代架构所包含的功能特性也在不断丰富,逐渐更好地适配AI运算的需要。
图片
AI的数据来源广泛,GPU逐渐实现对各类数据类型的支持。AI应用处理的数据包括文字、图片或视频,数据精度类型差异大。对于数据表征来讲,精度越高,准确性越高;但降低精度可以节省运算时间,减少成本。近年来,AI推理正加速向低精度演进,尤其在大模型部署环节,为压缩模型规模、提升吞吐量,INT8和FP8等低精度类型被广泛采用。其中,FP8由NVIDIA Hopper架构引入,兼顾表示范围与动态精度,适用于大模型训练与推理阶段;而FP4则首次由NVIDIA Blackwell架构支持,进一步降低数据位宽至4位,用于推理过程中极致压缩模型与加速执行,代表AI计算精度向更低维度延伸的方向。整体来看,未来AI硬件的发展趋势将是,训练阶段采用如FP8等具备精度与动态范围平衡的新型低精度格式,在推理阶段则尝试FP4等极限精度形式,并结合精度混合自适应精度切换等机制,在保证模型准确率的前提下最大化能效比。
图片
图片
均衡分配资源的前提下,处理低精度的硬件单元数量更多,意味着更高的算力性能。GPU作为加速器得到广泛应用一定程度上得益于它的通用性,为了在不同精度的数据类型上具有良好的性能,以兼顾AI、科学计算等不同场景的需要,英伟达在分配处理不同数据类型的硬件单元时大体上保持均衡。因为低精度数据类型的计算占用更少的硬件资源,同一款GPU中的处理低精度数据类型的硬件单元的数量较多,对应计算能力也较强。以V100为例,每个SM中FP32单元的数量都为FP64单元的两倍,最终V100的FP32算力(15.7 TFLOPS)也近似为FP64(7.8 TFLOPS)的两倍,类似的规律也可以在各代架构旗舰A100、H100和B200中看到。
图片
GPU引入特殊硬件单元加速AI的核心运算环节。矩阵-矩阵乘法(GEMM)运算是神经网络训练和推理的核心,本质是在网络互连层中将大矩阵输入数据和权重相乘。矩阵乘积的求解过程需要大量的乘积累加操作,而FMA(Fused Multiply–Accumulate operation,融合乘加)可以消耗更少的时钟周期来完成这一过程。传统CUDA Core执行FMA指令,硬件层面需要将数据按寄存器->ALU->寄存器->ALU->寄存器的方式来回搬运。2017年发布的Volta架构首度引入了Tensor Core(张量核心),即NVIDIA研发的新型处理核心。根据NVIDIA数据,Volta Tensor Core可以在一个GPU时钟周期内执行4×4×4=64次FMA操作,吞吐量是Pascal架构下CUDA Core的12倍。
图片
Tensor Core持续迭代提升其加速能力。Volta架构引入Tensor Core的改动使GPU的AI算力有了明显提升,后续在每一代的架构升级中,Tensor Core都有比较大的改进,核心的大小和数量都在增加,支持的数据类型也逐渐增多。Blackwell架构的Tensor Core已迭代至5.0,支持新的数据类型FP4,Blackwell FP4 Tensor Core的吞吐量是Ada FP8 Tensor Core的2倍。
图片
Tensor Core加速下,低精度比特位宽的算力爆发式增长,契合AI计算需要。Tensor Core的应用使算力快速、高效增长,通过选取Pascal至Hopper架构时期每一代的旗舰数据中心显卡,对比经Tensor Core加速前后的FP16算力指标可以得到:(1)经Tensor Core加速的FP16算力明显高于加速之前。(2)每单位Tensor core支持的算力明显高于每单位Cuda Core支持的算力。同时,Tensor Core从2017年推出以来首先完善了对低精度数据类型的支持,顺应了AI发展的需要。
图片
数据访问支配着计算能力利用率。AI运算涉及到大量数据的存储与处理,根据Cadence数据,与一般工作负载相比,每台AI训练服务器需要6倍的内存容量。而在过去几十年中,处理器的运行速度随着摩尔定律高速提升,而DRAM的性能提升速度远远慢于处理器速度。目前DRAM的性能已成为整体计算机性能的一个重要瓶颈,即所谓阻碍性能提升的“内存墙”。除了性能之外,内存对于能效比的限制也成为一个瓶颈,Cadence数据显示,在自然语言类AI负载中,存储消耗的能量占比达到82%。
图片
GPU采用高带宽HBM以降低“内存墙”影响。为防止占用系统内存并提供较高的带宽和较低的延时,GPU均配备有独立的内存。常规的GDDR焊接在GPU芯片周边的PCB板上,与处理器之间的数据传输速率慢,并且存储容量小,成为运算速度提升的瓶颈。HBM裸片通过TSV进行堆叠,然后HBM整体与GPU核心通过中介层互连,因此HBM获得了极高的带宽,并节省了PCB面积。目前,GDDR显存仍是消费级GPU的行业标准,HBM则成为数据中心GPU的主流选择。
图片
硬件单元的改进与显存升级增强了单张GPU算力的释放。然而,随着Transformer模型的大规模发展和应用,模型参数量呈爆炸式增长,GPT-3参数量达到了1750亿,相比GPT增长了近1500倍,预训练数据量更是从5GB提升到了45TB。大模型参数量的指数级增长带来的诸多问题使GPU集群化运算成为必须:
(1)即使最先进的GPU,也不再可能将模型参数拟合到主内存中。
(2)即使模型可以安装在单个GPU中(例如,通过在主机和设备内存之间交换参数),所需的大量计算操作也可能导致在没有并行化的情况下不切实际地延长训练时间。根据NVIDIA数据,在8个V100 GPU上训练一个具有1750亿个参数的GPT-3模型需要36年,而在512个V100 GPU上训练需要7个月。
图片
NVIDIA开发NVLink技术解决GPU集群通信。在硬件端,GPU之间稳定、高速的通信是实现集群运算所必须的条件。传统x86服务器的互连通道PCIe的互连带宽由其代际与结构决定,例如x16 PCIe 4.0双向带宽仅为64GB/s。除此之外,GPU之间通过PCIe交互还会与总线上的CPU操作竞争,甚至进一步占用可用带宽。NVIDIA为突破PCIe互连的带宽限制,在P100上搭载了首项高速GPU互连技术NVLink(一种总线及通讯协议),GPU之间无需再通过PCIe进行交互。
图片
NVLink继续与NVIDIA GPU架构同步发展,每一种新架构都伴随着新一代NVLink。第五代NVLink为每个GPU提供1.8 TB/s的双向带宽,是上一代的2倍,约为第一代NVLink的11倍。
图片
NVIDIA开发基于NVLink的芯片NVSwitch,作为GPU集群数据通信的“枢纽”。NVLink 1.0技术使用时,一台服务器中的8个GPU无法全部实现直接互连。同时,当GPU数量增加时,仅依靠NVLink技术,需要众多数量的总线。为解决上述问题,NVIDIA在NVLink 2.0时期发布了NVSwitch,实现了NVLink的全连接。NVSwitch是一款GPU桥接芯片,可提供所需的NVLink交叉网络,在GPU之间的通信中发挥“枢纽”作用。借助于NVswitch,每颗GPU都能以相同的延迟和速度访问其它的GPU。
图片
通过添加更多NVSwitch来支持更多GPU,集群分布式运算得以实现。当训练大型语言模型时,NVLink网络也可以提供显著的提升。NVSwitch已成为高性能计算(HPC)和AI训练应用中不可或缺的一部分。
图片
NVIDIA最新AI芯片Rubin各项指标全面升级,将于2026年上市。NVIDIA下一代平台Rubin于2024年6月Computex大会上亮相,该平台具有新的GPU架构、新的ARM架构CPU Vera、新的HBM4存储颗粒、覆盖12颗HBM4的更大尺寸CoWoS封装,以及NVLink6、CX9 SuperNIC网卡和新一代融合IB网络与以太网的新型交换机X1600。
图片
2.3.2 ASIC通过特殊架构设计对AI运算起到加速作用
NPU存算一体,带来了更高的人工智能算法运行效率。ASIC为了适应某个特定领域中的常见的应用和算法而设计,NPU(神经网络处理器)属于其中一种,常被设计用于神经网络运算的加速。NPU的核心是人工神经网络,即一套由若干人工神经元结点通过突触两两连接、模仿生物神经网络构建而成的算法总和;在人工神经网络中,突触负责记录神经元间联结的强弱(即权重)、神经元则可以近似为一个输入值由与其相连的神经元的输出值和突触权重共同决定的激励函数。通过调整网络拓扑结构、突触权重和神经元阈值,可以实现对特定知识的表达,该过程即为神经网络的“学习”过程。
图片
较传统冯·诺依曼结构下的CPU/GPU,NPU具备“存算一体”优势。在传统的冯·诺依曼结构下,数据存储和数据计算分别独立由存储器和计算器来完成,分离式结构制约了数据交换效率,而在人工神经网络中,数据存储和计算都由调整突触的权重来呈现。神经网络训练完毕后,激励函数和权重暂时固化,直到下一次调用时可以直接计算出当前输入对应的输出结果。人工神经网络发展至今,NPU采用过MLP、CNN、RNN、GNN、Transformer、Autoencoder等多种典型结构。
图片
目前已量产的NPU或搭载NPU模块的ASIC众多,知名的芯片包括谷歌TPU(Tensor Processing Unit)、华为昇腾、特斯拉FSD、特斯拉Dojo等。各家厂商在计算核心的设计上有其差异,例如谷歌TPU的脉动阵列,华为昇腾的达芬奇架构。
以谷歌TPU及计算核心结构脉动阵列为例,对比其相较于CPU、GPU的区别:
CPU和GPU均具有通用性,但以频繁的内存访问导致资源消耗为代价。CPU和GPU都是通用处理器,可以支持数百万种不同的应用程序和软件。对于ALU中的每一次计算,CPU、GPU都需要访问寄存器或缓存来读取和存储中间计算结果。由于数据存取的速度往往大大低于数据处理的速度,频繁的内存访问,限制了总吞吐量并消耗大量能源。
谷歌TPU并非通用处理器,而是将其设计为专门用于神经网络工作负载的矩阵处理器。TPU不能运行文字处理器、控制火箭引擎、执行银行交易,但它们可以处理神经网络的大量乘法和加法,速度极快,同时消耗更少的能量,占用更小的物理空间。TPU内部设计了由乘法器和加法器构成的脉动阵列。在计算时,TPU将内存中的参数加载到乘法器和加法器矩阵中,每次乘法执行时,结果将传递给下一个乘法器,同时进行求和。所以输出将是数据和参数之间所有乘法结果的总和。在整个海量计算和数据传递过程中,完全不需要访问内存。这就是为什么TPU可以在神经网络计算上以低得多的功耗和更小的占用空间实现高计算吞吐量。
图片
脉动阵列本质上是在硬件层面多次重用输入数据,在消耗较小的内存带宽的情况下实现较高的运算吞吐率。脉动阵列结构简单,实现成本低,但它灵活性较差,只适合特定运算。然而,AI神经网络需要大量卷积运算,卷积运算又通过矩阵乘加实现,正是脉动阵列所适合的特定运算类型。脉动阵列理论最早在1982年提出,自谷歌2017年首次将其应用于AI芯片TPU中,这项沉寂多年的技术重回大众视野,多家公司也加入了脉动阵列行列,在自家加速硬件中集成了脉动阵列单元。
图片
AI服务器需求推动芯片自研节奏加快。AI服务器需求正带动北美四大CSP加速自研ASIC芯片,平均1-2年就会推出升级版本,以降低对英伟达、AMD GPU的依赖,并控制成本,改善营运成本支出。
谷歌自研的TPU芯片作为其AI加速基础设施的核心,十年时间内持续迭代演进至第7代。谷歌TPU自2015年推出以来,广泛部署于谷歌数据中心,用于支持搜索引擎、语音识别、图像识别、推荐系统等核心业务。谷歌通过TPU Pod实现数千颗TPU的集群化互联,形成AI超级计算平台,支撑包括PaLM、Gemini等在内的大模型训练,成为其AI基础设施的重要一环。在Google Cloud Next 25大会上,谷歌推出了第7代TPU v7p,其每瓦性能是第六代TPU v6e的两倍,单颗芯片的HBM容量是第6代的6倍,芯片间互连双向带宽提升至第6代的1.5倍,可以扩展至高达9216颗芯片。
图片
AWS围绕推理与训练两大核心场景,分别推出了Inferentia和Trainium两大系列。AWS自2018年起布局自研芯片,推出推理专用芯片Inferentia,以及用于大规模训练的Trainium,广泛部署于Amazon EC2实例中,支撑从语音识别、机器翻译到生成式AI的多种场景应用。结合Amazon Neuron SDK软件栈,AWS芯片实现对PyTorch、TensorFlow等主流框架的兼容,支持大模型推理与训练的高效部署,成为AWS云服务AI算力体系的重要组成部分。2024年底AWS发布了第三代AI训练芯片Trainium3。这款芯片是AWS首款采用3nm工艺制造的AI芯片,相较前代产品,性能提升高达2倍,能效提升40%。Trainium3支持高达144GB的HBM3e,搭载Trainium3的UltraServer性能预计是Trn2 UltraServer的4倍,预计将于2025年底上线。
图片
Meta自研AI加速芯片为推荐算法和推理任务设计。Meta自研的AI加速芯片MTIA(Meta Training and Inference Accelerator)是其构建高效AI基础设施的关键组成部分,专为大规模推荐系统和推理任务设计,旨在降低对通用GPU的依赖,提升能效比和系统可控性。截至2024年,Meta已推出第二代MTIA芯片,并在全球16个数据中心部署,广泛应用于Facebook、Instagram等平台的广告排序和内容推荐模型中。第二代MTIA芯片采用台积电5nm工艺制造,运行频率为1.35GHz,热设计功耗为90W。与前代相比,MTIA v2在密集计算性能上提升了3.5倍,稀疏计算性能提升了7倍,片上内存容量翻倍至256MB,带宽提升至2.7TB/s。
图片
微软自研ASIC支持8bit以下的数据类型。微软于2023年11月发布首款AI芯片Maia 100,采用台积电5nm制程和CoWoS-S封装,并支持8-bit以下的数据类型,即MX数据类型,这一特性能够促进软硬件协同设计,显著加快模型训练和推理的速度,其设计目的是为微软Copilot或Azure OpenAI Service等服务提供支持。据The Information报道,微软原计划于2025年推出的下一代自研AI芯片Maia 200可能延期至2026年。
图片
2.4 人工智能芯片制造及封装发展趋势及展望
大算力芯片要求性能持续提升,后摩尔时代急需高性价比解决方案。随着参数增加,AI大模型对于算力需求大幅提升,GPU等大算力芯片的性能提升遭遇两大瓶颈:一方面,进入28nm制程节点后,摩尔定律逐渐失效,先进制程的成本快速提升。根据IBS统计,在达到28nm制程节点以后,如果继续缩小制程节点,每百万门晶体管的制造成本不降反升,摩尔定律开始失效。而且应用先进制程的芯片研发费用大幅增长,5nm制程的芯片研发费用增至5.42亿美元,几乎是28nm芯片研发费用的10.6倍,高额的研发门槛进一步减少了先进制程的应用范围。另一方面,内存带宽增长缓慢,限制处理器性能。在传统PCB封装中,走线密度和信号传输速率难以提升,因而内存带宽缓慢增长,导致来自存储带宽的开发速度远远低于处理器逻辑电路的速度,带来“内存墙”的问题。
图片
Chiplet设计+异构先进封装提供了性能与成本平衡的最佳方案。Chiplet即“小芯片”,是指预先制造好、具有特定功能、可组合集成的晶片(Die)。Chiplet技术背景下,可以将大型单片芯片划分为多个相同或者不同的小芯片,这些小芯片可以使用相同或者不同的工艺节点制造,再通过跨芯片互连和先进封装技术进行封装级集成,主要优势包括:1)可以突破光罩尺寸对单芯片面积的限制;2)可以充分发挥旧工艺节点的性价比优势,有效提升产品的良率,降低成本;3)通过集成不同工艺的芯粒,可以形成更加灵活的产品策略;4)先进封装的走线密度高,信号传输速率有很大的提升空间,同时能大大提高互连密度,成为解决内存墙问题的主要方法之一。
图片
为实现异构集成的Chiplet封装,需要借助到2D/2.1D/2.3D/2.5D/3D等一系列先进封装工艺。先进封装的不同层次主要依据多颗芯片堆叠的物理结构和电气连接方式划分,例如2D封装中的芯片直接连接到基板,其他封装则以不同形式的中介层完成互联。其中,2.5D封装常用于计算核心与HBM的封装互连,3D封装常用于HBM显存的多层堆叠,并有望用于不同IC的异构集成。
图片
先进封装市场快速成长,相对高阶的封装形式将呈现更快增速。根据Yole数据,2022年全球封装市场中,先进封装占比已达到47%。预计到2028年,先进封装市场占比将增至58%,规模约为786亿美元,2022年-2028年CAGR约为10.0%,明显高于传统封装市场的2.1%和市场整体的6.2%。
图片
CoWoS:2.5D封装重要解决方案,实现计算核心与HBM封装互连。计算核心与HBM通过2.5D封装互连,台积电开发的CoWoS封装技术为广泛使用的解决方案。台积电早在2011年推出CoWoS技术,并在2012年首先应用于Xilinx的FPGA上。此后,华为海思、英伟达、谷歌等厂商的芯片均采用了CoWoS,例如GP100(P100显卡核心),TPU 2.0。如今CoWoS已成为HPC和AI计算领域广泛应用的2.5D封装技术,绝大多数使用HBM的高性能芯片,包括大部分创企的AI训练芯片都应用了CoWoS技术。
图片
图片
图片
CoWoS帮助台积电取得英伟达、AMD等高性能计算芯片订单。英伟达A100、H100等高端GPU,均采用台积电CoWoS-S封装,分别配备80GB HBM2E、80GB HBM3。全新的Blackwell架构GPU B200则采用了CoWoS-L封装,配备192GB HBM3E,带宽高达8TB/s。根据DIGITIMES报道,AMD MI200原本由日月光集团与旗下矽品提供FO-EB先进封装(扇出嵌入式桥接),而新的MI系列数据中心芯片重新采用台积电先进封装CoWoS。2025年发布的MI350系列GPU基于CoWoS-S,实现了288GB HBM3E,8TB/s内存带宽的超高性能配置。
CoPoS化圆为方,是CoWoS先进封装技术新变革。为了满足更多空间的需求,台积电公布了CoPoS(Chips on Panel on Substrate)技术。CoPoS技术将从圆形晶圆转化为矩形面板,CoPoS可提供5倍以上的可用面积,使得单个封装中集成更多的HBM、多颗I/O芯片和计算芯片成为可能。台积电将于2026年建立一条CoPoS试验线,量产预计将于2028年底至2029年初在先进封装工厂AP7进行。
图片
台积电SoIC是3D异构集成的技术平台,采用wafer-on-wafer键合技术。SoIC技术采用TSV技术,可以实现非凸点键合结构,将许多不同性质的相邻芯片集成在一起。SoIC技术将同构和异构小芯片集成到单个类似SoC的芯片中,该芯片具有更小的占用空间和更薄的外形,可以整体集成到CoWoS和InFO中。从外观上看,新集成的芯片就像一个普通的SoC芯片,但嵌入了所需的异构集成功能。
SoIC主要分为SoIC_CoW(Chip on Wafer)和SoIC_WoW(Wafer on Wafer)。1)SoIC_CoW技术将不同尺寸、功能、节点的晶粒进行异质整合。2)SoIC_WoW技术通过晶圆堆叠工艺实现异构和同质3D硅集成。紧密的键合间距和薄的TSV可实现最小的寄生以实现更好的性能、更低的功耗和延迟以及更小的外形尺寸。WoW适用于高良率节点和相同裸片尺寸的应用或设计,甚至支持与第3方晶圆的集成。台积电在CoW方面正在开发N7-on-N7和N5-on-N5等;WoW方面,台积电则在开发Logic-on-DTC(Deep Trench Capacitor)。
图片
基于微凸块的3D封装借助微凸点连接芯片,在连接密度、性能等方面受限。传统3D封装在后端工艺中借助微凸点(Bump)连接堆叠的芯片,但微凸点的尺寸很难缩小到10μm以下,限制了堆叠芯片的I/O引脚数量。此外,按比例排列的微凸点增加了寄生电容、电阻和电感,降低了其性能和功率。
台积电SoIC 3D封装技术使芯片连接紧密,并在互联带宽和散热上表现优异。台积电SoIC的键合技术在前端工艺完成,接合间距更小,使芯片更紧密地连接在一起,提供超过10K/mm2的垂直互连密度,用于实现超高带宽互连。在热性能方面,台积电SoIC键合的热阻比微凸点下降低35%。
图片
台积电公布了其SoIC研发进度,CoW和WoW的研发进度基本一致,为N7/N6工艺,已于2023年实现基于N5工艺,并预计将于2035年前实现1μm以内的SoIC互连。3D IC未来有望迎来快速发展和商用化进程。
图片
2.5 HBM及存储芯片发展趋势及展望
HBM采用3D封装,通过TSV将多个DRAM Die垂直堆叠。在后摩尔时代,存储带宽制约了计算系统的有效带宽,导致芯片算力性能提升受到限制,HBM应运而生,与传统DRAM不同,HBM是3D结构,它使用TSV技术将数个DRAM裸片堆叠起来,形成立方体结构,即DRAM芯片上搭上数千个细微孔并通过垂直贯通的电极连接上下芯片;底层则是DRAM逻辑控制单元,负责整体时序与控制。从技术角度看,HBM促使DRAM从传统2D加速走向立体3D,充分利用空间、缩小面积,契合半导体行业小型化、集成化的发展趋势。HBM和硅互联技术突破了内存容量与带宽瓶颈,被视为新一代DRAM解决方案。而相较传统封装方式,TSV技术能够缩减30%体积,并降低50%能耗。
图片
HBM相对传统内存数据传输线路的数量大幅提升。存储器带宽指单位时间内可以传输的数据量,要想增加带宽,最简单的方法是增加数据传输线路的数量。在典型的DRAM中,每个芯片有八个DQ引脚,也就是数据输入/输出引脚。在组成DIMM模块单元之后,共有64个DQ引脚。然而,随着系统对DRAM和处理速度等方面的要求有所提高,数据传输量也在增加。因此,DQ引脚的数量(D站的出入口数量)已无法保证数据能够顺利通过。HBM由于采用了系统级封装(SIP)和硅通孔(TSV)技术,拥有高达1024个DQ引脚,但其外形尺寸(指物理面积)却比标准DRAM小10倍以上。由于传统DRAM需要大量空间与CPU和GPU等处理器通信,而且它们需要通过引线键合或PCB迹线进行连接,因此DRAM不可能对海量数据进行并行处理。相比之下,HBM产品可以在极短距离内进行通信,增加了DQ路径,显著加快了信号在堆叠DRAM之间的传输速度,实现了低功耗、高速的数据传输。
图片
目前HBM产品带宽增加了七倍,已接近1TB/秒的里程碑节点。显存带宽=显存等效频率×显存位宽/8,因此频率和带宽决定显存性能。HBM显存可以提供1024bit起跳的显存位宽,4颗粒堆叠式的显存可达到128GB/s的带宽。HBM能大幅提高数据处理速度,每瓦带宽比GDDR5高出3倍多,且HBM2比GDDR5节省了94%的表面积,减少20%+的功耗。2021年,SK海力士和Rambus先后发布最高数据传输速率6.4Gbps和8.4Gbps的HBM3产品,每个堆栈将提供超过819GB/s和1075GB/s的传输速率,支持16-Hi堆栈,堆栈容量达到24GB。HBM3带宽达819GB/s,相对初代增加了7倍,是LPDDR5的近100倍,较DDR5、GDDR6高出10倍以上。与传统内存相比,HBM的存储密度更大、功耗更低、带宽更高,多用于与数据中心GPGPU配合工作,可以取代传统的GDDR,HBM优势在于高位宽,但是频率相对偏低。
图片
HBM正在成为AI服务器GPU的标配。AI服务器需要在短时间内处理大量数据,对带宽提出了更高的要求,HBM成为了重要的解决方案。AI服务器GPU市场以NVIDIA H100、A100、A800以及AMD MI250、MI250X系列为主,基本都配备了HBM。HBM方案目前已演进为较为主流的高性能计算领域扩展高带宽的方案。以英伟达为例,2022-2023年英伟达GPU搭载的HBM主要是HBM2/2E,2023年则逐步开始搭载HBM3,2024年则主要是HBM3和HBM3E;当前,英伟达最新一代的GB200,Blackwell GPU搭载的是8层堆叠单颗16GB的HBM3E,2025年下半年量产的GB300,Blackwell GPU搭载的是12层堆叠单颗24GB的HBM3E,并且Rubin系列将搭载HBM4/4e,配置规格不断提升。
图片
SK海力士是HBM开发的先行者,并在技术开发和市场份额上占据领先地位。2014年,SK海力士与AMD联合开发了全球首款HBM产品。SK海力士的HBM3发布7个月后实现了量产,将搭载于NVIDIA H100之上。根据BussinessKorea的报道,SK海力士在HBM市场已获得60%-70%的市场份额。SK海力士之后,三星、美光推出了各自的HBM产品,迭代至HBM3e-12Hi。晶圆代工厂商包括如台积电、格芯等也在发力HBM相关的封装技术。
随着HBM的性能提升,未来市场空间广阔。以位元计算,目前HBM占整个DRAM市场比重仅约1.5%,渗透率提升空间较大。在将GPU等AI芯片推向高峰的同时,也极大带动了市场对新一代内存芯片HBM(高带宽内存)的需求,据悉,2023年开年以来,三星、SK海力士的HBM订单就快速增加,价格也水涨船高。2023年HBM市场规模为40亿美元,预计2024年增长至150亿美元,2026年增长至350亿美元。
HBM快速迭代,HBM4即将进入量产。结构上,2025年HBM3E将占据主导,根据SK海力士,2024年其HBM3E收入将占HBM收入一半以上,2025年12层HBM3E供给量将超过8层产品,12层HBM4计划于25H2发货。(1)HBM3E:三大原厂相继推出12Hi产品,这些12Hi的HBM预计用在英伟达的B300A(B200A Ultra)和B300上。(2)HBM4:三星、海力士计划24Q4开始HBM4的流片,预计2026年用在英伟达下一代的Rubin芯片上。
图片
3D IC:多芯片垂直堆叠增强互联带宽,未来发展潜力巨大。3D IC是指使用FAB工艺在单个芯片上堆叠多个器件层,包括多Logic芯片间的堆叠。与2.5D封装相比,3D IC封装互连方式有所不同。2.5D封装是通过TSV转换板连接芯片,而3D IC封装是将多个芯片垂直堆叠在一起,并通过直接键合技术实现芯片间的互连。在2.5D结构中,两个或多个有源半导体芯片并排放置在硅中介层上,以实现极高的芯片到芯片互连密度。在3D结构中,有源芯片通过芯片堆叠集成,以实现最短的互连和最小的封装尺寸。另一方面,2.5D封装和3D IC封装的制造工艺也有所不同,2.5D封装需要制造硅基中介层,并且需要进行微影技术等复杂的工艺步骤;而3D IC封装需要进行直接键合技术等高难度的制造工艺步骤。当前3D IC封装主流产品包括台积电SoIC技术、英特尔Foveros技术和三星X-Cube技术。
图片
2.6 国产人工智能芯片发展趋势及展望
海外龙头占据垄断地位,AI加速芯片市场呈现“一超多强”态势。数据中心CPU市场上,英特尔份额有所下降但仍保持较大领先优势,AMD持续抢占份额势头正盛。AI加速计算芯片市场上,英伟达凭借硬件优势和软件生态一家独大,在训练、推理端均占据领先地位。根据IDC数据,2024年国内AI加速计算芯片市场中,英伟达出货份额达70%,华为昇腾出货份额23%,其余厂商合计占比7%。国内厂商起步较晚,正逐步发力,部分加速芯片领域已经涌现出一批破局企业,虽然在高端AI加速计算芯片领域与海外厂商存在较大差距,但在国内市场上已经开始取得部分份额,根据IDC数据,2024年国内AI芯片市场中,华为昇腾出货64万片,寒武纪出货2.6万片,燧原出货1.3万片。未来,随着美国持续加大对中国高端芯片的出口限制,AI芯片国产化进程有望继续加快。
图片
GPU市场方面,海外龙头占据垄断地位,国产厂商加速追赶。当前英伟达、AMD、英特尔三巨头占据全球GPU芯片市场的主导地位。集成GPU芯片一般在台式机和笔记本电脑中使用,性能和功耗较低,主要厂商包括英特尔和AMD。独立显卡常用于服务器中,性能更高、功耗更大,主要厂商包括英伟达和AMD。分应用场景来看,应用在人工智能、科学计算、视频编解码等场景的服务器GPU市场中,英伟达和AMD占据主要份额。根据JPR预测,2025年Q1英伟达的独立显卡(包括AIB 合作伙伴显卡)的市场份额达92%, AMD和英特尔则分别占比8%、0%。
图片
图形渲染GPU:英伟达引领行业数十年,持续技术迭代和生态构建实现长期领先。2006年起,英伟达GPU架构保持约每两年更新一次的节奏,各代际产品性能提升显著,生态构建完整,GeForce系列产品市占率长期保持市场首位,最新代际GeForce RTX 40系列代表了目前显卡的性能巅峰,采用全新的Ada Lovelace架构,台积电5nm级别工艺,拥有760亿晶体管和18000个CUDA核心,与Ampere相比架构核心数量增加约70%,能耗比提升近两倍,可驱动DLSS 3.0技术。性能远超上代产品。AMD独立GPU在RDNA架构迭代路径清晰,RDNA 3架构采用5nm工艺和Chiplet设计,比RDNA 2架构有54%每瓦性能提升。目前国内厂商在图形渲染GPU方面与国外龙头厂商差距不断缩小。芯动科技的“风华2号”GPU像素填充率48GPixel/s,FP32单精度浮点性能1.5TFLOPS,AI运算(INT8)性能12.5TOPS,实测功耗4~15W,支持OpenGL4.3、DX11、Vulkan等API,实现国产图形渲染GPU突破。景嘉微在工艺制程、核心频率、浮点性能等方面虽落后于英伟达同代产品,但差距正逐渐缩小。2023年顺利发布JM9系列图形处理芯片,支持OpenGL 4.0、HDMI 2.0等接口,以及H.265/4K 60-fps视频解码,核心频率至少为1.5GHz,配备8GB显存,浮点性能约1.5TFlops,与英伟达GeForce GTX1050性能相近,有望对标GeForce GTX1080。
图片
GPGPU:英伟达和AMD是目前全球GPGPU的领军企业。英伟达的通用计算芯片具备优秀的硬件设计,通过CUDA架构等全栈式软件布局,实现了GPU并行计算的通用化,深度挖掘芯片硬件的性能极限,在各类下游应用领域中,均推出了高性能的软硬件组合,逐步成为全球AI芯片领域的主导者。AMD于2018年发布用于数据中心的Radeon Instinct GPU加速芯片,Instinct系列基于CDNA架构,如MI250X采用CDNA2架构,在通用计算领域实现计算能力和互联能力的显著提升,此外还推出了对标英伟达CUDA生态的AMD ROCm开源软件开发平台。
国内GPGPU厂商正逐步缩小与英伟达、AMD的差距。英伟达凭借其硬件产品性能的先进性和生态构建的完善性处于市场领导地位,国内厂商虽然在硬件产品性能和产业链生态架构方面与前者有所差距,但正在逐步完善产品布局和生态构建,不断缩小与行业龙头厂商的差距。
ASIC市场方面,由于其一定的定制化属性,市场格局较为分散。在人工智能领域,ASIC也占据一席之地。其中谷歌处于相对前沿的技术地位,自2016年以来,就推出了专为机器学习定制的ASIC,即张量处理器(Tensor Processing Unit,TPU)。2025年谷歌推出了第七代张量处理单元(TPU)Ironwood,可扩展至9216个液冷芯片,并通过突破性的芯片间互联,功率接近10兆瓦。据nextplatform介绍,TPU v7p芯片是谷歌首款在其张量核心和矩阵数学单元中支持FP8计算的TPU。之前的TPU支持INT8格式和推理处理,以及BF16格式和训练处理。Ironwood芯片还配备了第三代SparseCore加速器,该加速器首次亮相于TPU v5p,并在去年的Trillium芯片中得到了增强。
国产厂商快速发展,寒武纪等异军突起。通过产品对比发现,目前寒武纪、海思昇腾、遂原科技等国产厂商正通过技术创新和设计优化,持续提升产品的性能、能效和易用性,推动产品竞争力不断提升,未来国产厂商有望在ASIC领域持续发力,突破国外厂商在AI芯片的垄断格局。
生态体系决定用户体验,是算力芯片厂商最深的护城河。虽然英伟达GPU本身硬件平台的算力卓越,但其强大的CUDA软件生态才是推升其GPU计算生态普及的关键力量。从技术角度来讲,GPU硬件的性能门槛并不高,通过产品迭代可以接近龙头领先水平,但下游客户更在意能不能用、好不好用的生态问题。CUDA推出之前GPU编程需要用机器码深入到显卡内核才能完成任务,而推出之后相当于把复杂的显卡编程包装成为一个简单的接口,造福开发人员,迄今为止已成为最发达、最广泛的生态系统,是目前最适合深度学习、AI训练的GPU架构。英伟达在2007年推出后不断改善更新,衍生出各种工具包、软件环境,构筑了完整的生态,并与众多客户合作构建细分领域加速库与AI训练模型,已经积累300个加速库和400个AI模型。尤其在深度学习成为主流之后,英伟达通过有针对性地优化来实现最佳的效率提升性能,例如支持混合精度训练和推理,在GPU中加入Tensor Core来提升卷积计算能力,以及最新的在H100 GPU中加入Transformer Engine来提升相关模型的性能。这些投入包括了软件和芯片架构上的协同设计,使得英伟达能使用最小的代价来保持性能的领先。而即便是英伟达最大的竞争对手AMD的ROCm平台在用户生态和性能优化上还存在差距。CUDA作为完整的GPU解决方案,提供了硬件的直接访问接口,开发门槛大幅降低,而这套易用且能充分调动芯片架构潜力的软件生态让英伟达在大模型社区拥有巨大的影响力。正因CUDA拥有成熟且性能良好的底层软件架构,几乎所有的深度学习训练和推理框架都把对于英伟达GPU的支持和优化作为必备的目标,帮助英伟达持续处于领先地位。
图片
美国对华供应AI芯片管制强度持续升级,H20被纳入管制范围。2022年,美国BIS实施出口管制,英伟达和AMD的高端GPU产品出口受到限制。为满足合规要求,英伟达随后推出了面向中国市场的H800与A800,互联带宽被下调。2023年,BIS公布的先进计算芯片出口管制新规进一步扩大限制范围,以“性能密度”与“总处理性能(TPP)”成为新的标准,使得A100、A800、H100、H800、L40、L40S等多款产品遭到限制。虽然英伟达又推出了性能大幅下调,符合新规的H20,但H20也在今年4月被美国纳入出口管制。
国产算力芯片迎来国产替代窗口期。考虑到英伟达新品迎来大幅性能升级,并面向中国市场禁售,国产算力芯片发展刻不容缓。当前已经涌现出一大批国产算力芯片厂商,昇腾、寒武纪相继推出自研AI芯片,海光信息的DCU也逐渐打出知名度,其他配套环节的国产化进程也正在加速推进。
2.7 服务器及机柜设计发展趋势及展望
参数量越大的模型,高速互联域芯片数量越多,模型训练效果越好。对于NVLink互联的Scale Up网络,一个NVLink组成的高速互联域规模对集群整体性能至关重要,对NVLink域内的卡的数目K进行研究。针对GPT-1T的模型来看,K=36以上时对性能提升相对于K=8还是很明显的,而对于K>72到K=576时的边际收益相对于系统的复杂性而言是得不偿失的,另一方面,当Scale Up的NVLINK网络规模增大时,实际上HBD之间互联的RDMA带宽带来的性能收益在减小,最终的一个平衡就是通过NVL72并用RDMA Scale Out来构建一个32000卡的集群。
图片
大模型训练过程中包括多种并行计算方式,例如TP(张量并行)、EP(专家并行)、PP(流水线并行)和DP(数据并行)。通常来说张量并行和专家并行需要较大的通信量,对大规模GPU集群的通信能力提出较高要求。GPU集群的组网通常分为Scale Up和Scale Out两种拓展方式,Scale Up向上扩展,也叫纵向扩展,增加单节点的资源数量。Scale Out向外扩展,也叫横向扩展,增加节点的数量。Scale Out网络提供Tbps级别的带宽,Scale Up网络提供10Tbps带宽级别的互联,Scale Up凭借通信速度更快、成本更低、方便运维成为发展重点,搭建超大带宽互联16卡以上GPU-GPU的Scale Up系统成为一个重要趋势,这样的Scale Up系统通常被称为超节点。
图片
超节点作为重要的产业趋势已经被国内外众多服务器选为下一代方案,同时大部分的超节点方案都会采用铜连接作为主要承载载体。通信网络中常见的连接方案包括光通信和高速电通信,无源DAC作为电通信的主要解决方案,不包含光电转换器模块,具有很高的成本效益和运营可靠性,成为实现短距离传输的优秀解决方案。目前的铜缆已经实现224G以太网SerDes高速通信技术升级,短距离传输性价比突出,在AI服务器高集成度的趋势下,铜连接呈现一定的趋势放量。
业界主流的超节点方案主要包括私有协议方案和开放组织方案两种,私有协议主要包括英伟达、Trainium方案、华为方案等。在英伟达方案中,GB200 NVL72服务器采用大量的铜连接作为机柜内部通讯方式,GB200 NVL72机柜中不同的计算托盘间采用电缆进行互联,内部使用电缆长度累计接近2英里,共有5000多条独立电缆。计算托盘内同样采用大量铜连接作为服务器内的GPU芯片互联。
在开放协议中,目前的开放标准不止一个,基本上都是以以太网技术(ETH)为基础,以太网技术最成熟、最开放,也拥有最多的参与企业。在超节点开放标准中比较有代表性的,是由开放数据中心委员会(ODCC)主导、中国信通院与腾讯牵头设计的ETH-X开放超节点项目。在ETH-X的架构中,分为Scale Up 和Scale Out两个主要组网部分,其中Scale Up网络负责HBD内部GPU之间的互联,HBD可以由一个或者多个高功率Rack组成,通过Scale Up进行扩展;多个HBD通过Scale Out的扩展方式组成更大的GPU集群。国内字节、阿里、腾讯新一代服务器分别采用超节点设计,预期将进一步带动铜连接整体市场空间。
图片
PCB、电源、液冷全栈升级,产业价值放大。通信层面,过去8卡之间通过PCB在switch芯片上实现彼此互联,当72张卡需要互联在一起,目前PCB支撑这么高的数据传输仍有较大困难(目前产业在做PTFE、M9等方案去尝试72卡在一张PCB上互联),因此当switch芯片和GPU有了较远的距离,铜连接实际上起到了一个短距传输的作用。功耗层面,伴随单机柜内卡数快速提升,机柜功率密度快速上行,并通过电流的大幅抬升(功耗=电压*电流)直接带动整机发热平方级上行(发热=电流的平方*电阻)。功耗的快速上升一方面促使散热方案从风冷转向更高效率的冷板散热,并在后续存在向浸没式液冷转变的可能,另一方面基于电源空间的有限带来电源功率密度大幅提升,并直接催生5.5KW电源的应用与Powershelf形态的出现。上述产品结构升级均带来价值量提升趋势,并促使对应产业极高速成长。
图片
在2025年英伟达GTC大会上,英伟达正式公布下一代数据中心GPU架构 ——Rubin,以发现暗物质的天文学家 Vera Rubin 命名,标志着AI算力竞赛进入全新维度。根据规划,Rubin 架构的首款产品Vera Rubin NVL144将于2026年下半年量产,其推理性能达50 petaflops,较Blackwell架构翻倍,搭载HBM4高带宽内存(288GB)与NVLink 6技术(带宽260TB/s),为大模型推理与智能体AI时代奠定硬件基石。考虑到英伟达将战略重心逐渐转向推理优化——Blackwell架构已实现推理性能较Hopper的40倍提升,而Rubin架构通过Olympus核心设计与分离式推理框架Dynamo,进一步将单用户token处理效率提升至极致。考虑到Rubin架构芯片对应的机柜再一次呈现出功耗跃迁趋势,配置升级或将带来全新产业趋势。
图片
2.8 柜内高速互联发展趋势及方向:铜连接
GB200NVL72服务器中包含三种铜缆:三种柜内线(NVL72机柜以内的定义为柜内线)以及柜外线(机柜间的互联定义为柜外线)。
图片
计算托盘间的铜缆连接:单张B200对应1条NVLink5.0连接,每条传输双向1.8TB/s带宽,Serdes对应的规格为224Gbps通信协议,铜缆也采用难度更高的224Gbps产品,即单张B200上面通常连接72个差分对(72根线)即可以达到可支持的1.8TB/s的带宽。NVL72单个Rack中共有72张B200,可以得出需要5184根线(72*72),平均长度约0.6米,合计5184*0.6=3110米,考虑背板线主要采用高端的26AWG型号的线,单价按照7元/米计算,则单个NVL72机柜中背板线高速铜线价值量为21773元/台。
图片
交换机内部互联:NVSwitch芯片全部通信带宽连接背板连接器,总共需要5760根OverPass线,每根0.3米,9个交换托盘合计1728米,单价按照7元/米计算,则合计12096元/台。在NVL36解决方案中,NVSwitch芯片一方面连接背板连接器,一方面连前端I/O端口,其中连接背板连接器的OverPass1线共2880根,每根0.3米;连接前端I/O端口的OverPass2线目前为1440根,每根0.5米,9个交换托盘合计也为1584米,单价按照7元/米计算,则合计11088元/台。
计算托盘内部:由PCIE线实现CPU与I/O端口之间的互联,单个tray预计0.4*16*8*4=205米,NVL72合计18个tray盘,则合计为205*18=3690米。单价按照2.5元/米计算,则价值量为9216元。
X800交换机内部:内部高速线总数为1152根,长度0.5米,单价按照7元/米计算,则价值量为4032元。
图片
英伟达服务器市场规模测算:考虑到2025年NVL36、NVL72机柜整体出货量(NVL72预计3万台以及NVL36 1.5万台),铜缆高速线市场就达到34亿+。考虑到2026年NVL36、NVL72机柜整体出货量(NVL72预计9万台),铜缆高速线市场就达到60亿+,保持高速增长。
在AWS的Trainium2中,Scale Up同样采用铜连接方案。每台服务器单元包括64个Trainium2芯片(跨两个机架)连接在一起,形成一个4x4x4三维环面的单一扩展世界大小,称为Trainium2-ultra,同样采用DAC和AEC方案。
图片
2.9 柜外高速互联发展趋势及方向:光通信
光模块(Optical transceiver):光纤通信系统的重要器件之一,主要由光电子器件、功能电路和光接口等组成。光模块的作用是“光电转换”,发送端将电信号转换成光信号,然后通过光纤传送后,接收端再把光信号转换成电信号。
图片
光有源器件是核心器件。光学器件种类繁多,按照不同的分类方式,可以分为多种产品。按照是否有外接能源分为有源光器件和无源光器件;按照功能分类,包括光收发器件、波分复用器件、放大器件和开关器件等;按照产品形态分类,包括光纤类器件和自由空间类器件等。有源光器件是各项光学技术应用的核心驱动部分,其门槛也相对较高。例如,在光通信中激光器和探测器负责光电信号的转换,调制器负责信号调制;在激光雷达中激光器负责产生发射光信号,探测器负责接收反射回来的光信号以实现测距等功能;在光纤激光器中产生高功率的激光,实现焊接、打标和切割等目的。
图片
激光器是光模块的核心,主要包含FP、DFB和EML以及VCSEL激光器。半导体激光器LD按照发射光所在位置分为EEL(边发射激光器)和SEL(面发射激光器)。EEL激光器包括常见的FP、DFB和EML激光器,SEL主要以VCSEL为主。FP腔激光器存在多个纵模,因此无法实现高速调制,一般用于2.5G以下的传输速率。DFB和EML成本较高,一般用于中距离的高速率的单模光模块中,例如DR、FR光模块等,其中EML为电吸收调制激光器,可用于200G、400G和800G以上的高速光模块中,EML中前面的DFB部分负责发射稳定功率的光,由EA负责对信号进行调制,能够有效减少DML激光器在直接调制过程中产生的高故障率。FP、DFB和EML的波长一般以C波段(代表波长为1550nm)和O波段(代表波长为1310nm)为主,其中DFB和EML的单模性能更好,研发及工艺门槛更高;VCSEL一般用于短距离传输的光模块中,例如AOC、SR等光模块,波长为850nm波段,一般为多模激光器。
图片
展望2026年,预计800G光模块需求仍然强劲,1.6T光模块有望快速放量。在AI数据中心中,越来越多的客户倾向于选择更大带宽的网络硬件。带宽越大,单位bit传输的成本更低、功耗更低及尺寸更小。800G光模块的高增速已经能够反映出AI对于带宽迫切的需求,其在2022年底开始小批量,2023年和2024年的出货量都大幅增长。而AI对于带宽的需求是没有极限的,得益于网络较高的性价比,1.6T光模块有望加速应用。
图片
目前1.6T光模块的MSA标准包括4x400G和OSFP。4x400G MSA成立于2021年12月,主要成员包括Arista、博通、英特尔和Molex等厂商。4x400G MSA成立之初,旨在提供单通道100G的解决方案,可利用现有的硬件,快速实现量产。但是若200G单通道的硬件逐步成熟,4x400G的方案将会受到比较大的挑战。而OSFP MSA成立于2016年11月,面向400G及更高速率的光模块,主要成员已有100多家,包括谷歌、Arista、Coherent、中际旭创、思科和安费诺等厂商。OSFP MSA对于1.6T光模块提供了OSFP1600和OSFP XD等两种封装方式。
图片
目前OSFP-XD封装方案为1.6T光模块主流的选择。OSFP-XD,即为Octal Small Form Factor eXtra Dense Pluggable Module,是超高密度封装方式的可插拔光模块。在2023年OFC会议上,各家厂商展出的1.6T光模块基本均为OSFP-XD封装的。其中,中际旭创演示了1.6T OSFP-XD DR8+光模块,单通道200G,温度范围0-70℃,功耗低于23W,传输距离可以达到2km;新易盛展示了基于OSFP-XD的1.6T 4xFR2光模块,采用4xSN接口,电口16个100G通道,光口4x400G FR2,采用1291nm和1311nm两个波长,同时公司的官网上还有DR8和2xFR4两款产品;Coherent则展示了基于单通道200G的光模块,该技术将成为800G Gen2和1.6T光模块的核心,有望加速未来1.6T的发展。此外,华工科技、光迅科技和剑桥科技等也在积极布局1.6T的研发。
图片
1.6T光模块按照传输距离、通道数和波长可以分为多种产品,下游客户可以根据实际需求定制化相关产品。目前电口的速率为100Gbps,而光口将逐步从100G升级到200G。以IM-DD的调制方式,若光口单通道速率为100G,则需要有16个光通道,包括DR16(采用一个波长),4FR4(采用四个波长),2FR8(采用八个波长);若光口单通道为200G,则需要8个光通道,包括DR8(采用一个波长),4FR2(采用两个波长),2FR4(采用4个波长),FR8(采用八个波长)。以相干的调制方式,若单通道速率为800G,包括ZR2(采用两个波长)。我们认为,光口单通道200G预计是1.6T光模块未来的主流选择。
图片
从上游的光芯片来看,200G PAM4 EML进展加速。1.6T光模块的发展,核心元件是芯片,包括光芯片和电芯片。其中100G Baud EML,或叫200G PAM4 EML,目前有多家厂商正在加速研发。三菱在2023年3月发布了200G PAM4 EML产品,可用于CWDM的光模块中,800G采用四个,1.6T采用八个;Lumentum的200G PAM4 EML荣获Lightwave 2023创新奖,该产品最大限度地降低了输入电压的波动,从而降低驱动芯片的功耗,不仅可以用于PAM4调制,同时在PAM6和PAM8调制上也有应用的潜力。博通的200G EML也在加速研发中,2022年公司已经可以提供相关的解决方案,同时公司可以提供创新的无制冷的200G EML激光器方案。
图片
从上游的电芯片来看,1.6T DSP有望迅速取得突破。2023年3月,Marvell发布了新一代Nova系列PAM4 DSP芯片,采用5nm先进制程。Nova系列的DSP中包含Gearbox,将电口16个100G的通道与光口8个200G的通道进行适配,能够应用于1.6T的DR8/DR4.2/2xFR4/LR8光模块中。同时,该DSP加入了SNR的性能监控、FFE-taps、PRBS发生器等功能。2023年OFC期间,博通和Semtech联合演示了200G单通道电光链路,其中采用了博通最新的112GBd PAM4的DSP产品,为未来1.6T网络奠定了基础。
图片
关注光模块技术趋势演进:硅光与CPO。
技术趋势一:硅光模块渗透率提升,布局硅光子技术的海外巨头较多,有望在AI浪潮下实现快速发展。硅光子技术是以硅或者硅基材料(Si,SiO2,SiGe)作为衬底材料,利用与集成电路兼容的CMOS工艺制造对应的光子器件和光电器件,以实现对光的激发,调制,响应等功能,广泛应用于设备互连、光计算等下游多个领域。硅基材料具备兼容CMOS工艺、低成本和低功耗等优势。随着AI的快速发展,硅光子技术从通信逐步拓展到算力基础设施及下游应用领域,包括板间芯片光互连、芯片内Chiplet光互连、光计算和激光雷达等领域。海外巨头厂商纷纷布局硅光子技术,有望实现快速发展。
图片
硅光子技术下游需求旺盛,上游设计方案百花齐放,代工厂积极布局。硅光子技术产业链的上游包括光芯片设计、SOI衬底、外延片和代工厂,中游为光模块厂商,下游分为数通领域和电信领域。一体化布局的厂商优势比较明显。英特尔、旭创、Coherent、思科和Marvell等厂商同时具备PIC设计和模块集成能力,且与下游云厂商和AI等巨头客户保持紧密合作,优势显著,在供应链中的引领作用较为明显。
图片
技术趋势二:CPO商用进程提速,共封装光学(CPO)是业界公认的未来更高速率光通信的主流产品形态之一,可显著降低交换机的功耗和成本。CPO是将光芯片/器件与电芯片/器件合封技术。CPO的封装一般指两方面:一是光引擎(OE)中PIC和EIC的封装,二是光引擎和ASIC/XPU/GPU的系统级封装。共封装光学技术的优点包括降低功耗、降低成本和减小尺寸。降低功耗:信号传输的电路距离显著缩短,电信号损耗降低,简化后的SerDes去掉CDR、DFE、FFE和CTLE之后功耗降低,可节省30%+的功耗;降低成本:封装工艺成本更低,高集成度的光引擎成本更低,同时省去部分电学芯片成本,可降低25%+的成本;减小尺寸:借助硅光技术和CMOS工艺,共封装显著减小光电引擎各自独立封装方式的尺寸,同时实现更高密度的I/O集成。
图片
CPO技术能够有效降低Serdes的功耗。随着交换机带宽从最初的640G升级到51.2T,Serdes速率不断升级叠加数量的持续增加,交换机总功耗大幅提升约22倍,而CPO技术能够有效降低Serdes的功耗,因此在51.2T及以上带宽交换机时代,CPO有望实现突破。硅光芯片是CPO交换机中光引擎的最佳产品形态,有望在未来得到广泛应用。目前英伟达、博通和TSMC等海外巨头厂商在CPO具有布局。
图片
随着AI的快速发展,多模态大模型的参数量大幅提升使带宽容量也快速扩张,其中也包括服务器或机柜内部的带宽容量。随着带宽的加速增长,电信号传输距离越来越短,芯片互连领域“光进铜退”目前看来也是势在必行的行业趋势。英伟达与Ayar Labs、台积电等多家公司合作硅光子集成项目。在传统的DGX服务器中,服务器内部GPU与NVSwitch之间用电信号连接,硅光子方案中将GPU和NVSwitch都接入硅光I/O,每个GPU对应2个光引擎,每个NVSwitch对应6个光引擎,双向带宽达到25.6Tbps。数据收发过程单位bit消耗3.5pJ能量,英伟达仍在努力降低功耗,从而提升该方案的性价比。此外,博通和英特尔都推出了OIO产品,有望取得突破。
图片
CPO渗透率提升将带来数通光通信领域市场规模的大幅增长。CPO技术应用的重点并不仅仅在交换机侧实现功耗和成本的降低,更多的是在IO领域突破电信号传输的速率瓶颈。市场对GPU:光模块=1:2.5的换算比例认识较为清晰,但如果在Scale Up应用CPO,那么GPU:光引擎=1:11.5将成为现实。除了GPU之外,CPU、FPGA、ASIC,甚至三星开始研发的HBM中也会用到。在未来的CPO时代,光模块行业预计将演进为光引擎行业,市场规模有望实现大幅增长,同时在此过程中对于光芯片、封装和设备领域将带来明显的需求拉动和产业格局重塑。
图片
CPO技术是系统性工程,涉及到材料、器件、EDA、模块、设备等,对设计、封装和测试的要求非常高,因此目前产业中的现状主要是科技巨头在主导,产业链中的供应商配合。CPO/OIO中主要组成部分是CPO光引擎,采用的主要是硅光技术,因此两者的供应链也高度重合。参与到CPO/OIO研发的厂商主要是FAU、MPO、CW laser、光引擎、封装、流片厂、PCB厂商等,我们认为在各个细分领域具备较强优势的厂商,同样在CPO/OIO领域有望延续该领先优势。光引擎是核心产品,虽然目前主要是英伟达和博通等公司在主导,但是考虑到光引擎与光模块的设计、制造和测试环节高度相似,我们认为光模块公司仍然具备较大的优势。FAU、MPO和Fiber Shuffle等光纤连接器产品,在CPO/OIO产品上的价值量有望显著提升。CW DFB laser是重要的光源产品,在FR等波分复用的方案中,边缘波长的激光器难度较大,价值量也较高。
图片
2.10 交换机发展趋势及展望
交换机为组网关键设备,作用于数据链路层与网络层。当网络内计算机数目不多时,可以通过两两用线互联的方式实现互相通信;后来随着网络中计算机数目增加,集线器HUB诞生,但集线器会把所有接收到的数据包广播到所有端口,容易导致大量的网络冲突和带宽浪费;为了解决这一问题,交换机连接模式应运而生,通过为每台设备分配一个MAC地址,交换机可将信息发往指定MAC地址的设备,提升了传输效率。
图片
从OSI网络模型来看,早期的集线器工作在物理层,通过广播的方式进行数据转发;传统交换机工作在数据链路层,根据MAC地址进行转发(二层转发);随着交换技术的演进,交换机逐步具备路由功能(根据IP转发,三层转发),三层交换机能够简化网络架构,减少网络设备的数量和管理复杂度。
图片
交换机中的元器件包括交换芯片、CPU、PCB、存储、光模块、电源等器件。交换芯片:交换机中的核心设备,用于交换处理大量数据及报文转发的专用芯片,根据数据包的目的地址将数据包从输入端口转发到输出端口,还可以根据端口状态和负载情况,自动调整数据包的传输速率,确保网络质量和稳定性。CPU:负责执行控制平面的任务,如路由协议处理、网络管理、策略执行等。通常基于通用处理器架构,如x86架构,具有较高的灵活性和可编程性,适用于需要复杂处理和决策的场景,如网络安全策略、路由选择等。存储:临时存储和快速访问数据,用于保存缓冲区、页表等关键数据,并支持快速的读写操作。存储器的大小和类型直接影响着交换机对大容量数据包的处理以及对多个并行流量的支持。光模块:由光电子器件(光发射器、光接收器)、功能电路和光接口等部分组成,实现光纤通信中的光电转换功能。
图片
从交换机硬件BOM成本来看,占比最高为芯片(交换芯片+CPU),价值量约为40%-50%,一般来说速率越高的交换机芯片价值量占比越高。
图片
低时延、大带宽、无阻塞的网络对提升模型训练效率至关重要。单卡算力相对有限,为了缩短训练时间,通常采用分布式训练技术,通过多台节点构建出一个计算能力和显存能力超大的集群。联接这个超级集群的高性能网络直接决定了智算节点间的通信效率。要让整个智算集群获得高的吞吐量,高性能网络需要具备低时延、大带宽、高稳定性、可扩展性和易运维等关键因素。低时延:集群整体算力并不随着智算节点的增加而线性增长,单次的计算时间包含了单卡的计算时间加卡间通信时间,降低卡间通信时间是提升训练效率关键。大带宽:智算集群内部的计算节点需要将计算结果快速地同步给其他节点,以便进行下一轮计算。在结果同步完成前,计算任务处于等待状态,不会进入下一轮计算。如果带宽不够大,梯度传输就会变慢,影响训练效率。
从叶脊架构到胖树架构,交换机端口数需求量增加。云计算时代,随着超大型数据中心建立,数据中心内部流量增加,架构逐步向叶脊架构演进。考虑到并非所有服务器都会同时对外产生流量,为了控制网络建设成本,Leaf交换机的下联带宽和上联带宽并非按照1:1设计,而是存在收敛比。AI时代,提升GPU之间的通信效率成为网络设计的关键,通常采用无阻塞的网络设计,即 Fat-Tree(胖树)网络架构,交换机下联和上联带宽采用1:1无收敛设计,且每张GPU均配有一张网卡,这带来交换机用量的大幅提升。
图片
图片
交换机作为AI组网的关键设备,随着CSP厂商资本开支的增加,高速交换机出货量迅速提升。根据IDC数据,2024年全球以太网交换机市场规模为498.58亿美金,同比下降5.6%,受AI拉动,高带宽、低延迟的以太网交换机需求较好,但企业园区和分支机构部署的非数据中心细分市场,由于企业办公模式变化、业务调整等因素影响,需求下滑。展望未来,随着以太网技术在AI组网中占比提升,(初期英伟达主导的IB网络在训练中占比较高),我们预计未来三年全球交换机市场规模有望保持5%-10%的复合增速。
图片
2024年,中国的交换机市场规模为60.03亿美元,同比增长3.8%,主要由于2024年国内CSP厂商在AI方面的资本开支加大,对于GPU、网络设备的采购起量,互联网市场呈现高速增长。预计未来三年,国内交换机市场在AI的带动下有望保持高个位数增速,如果企业、园区市场同步恢复,市场增速则可能更快。
图片
Cisco占全球市场份额约四成,国内华为、新华三合计份额占比约70%。Cisco作为全球交换机市场龙头,占全球市场份额一度超过50%,随着Arista在北美数通市场的崛起,2024年Cisco市场份额为34.36%,较2017年下降16.9pct。2024 Cisco、华为、Arista市场份额分别为34.36%、10.06%、13.05%。华为与新华三合计约占七成国内市场份额,受益于互联网厂商白牌化推进,锐捷网络市场份额快速提升。2024年,华为、新华三、锐捷网络市场份额分别为38.84%、30.54%、14.34%。近期华为市场占有率持续提升,预计与华为在智算解决方案销售中采取整体打包销售形式有关(即将GPU、交换机、路由器、安全等产品一并出售)。
图片
此外,2020年以来,200G/400G交换机出货占比提升,预计高速交换机比例有望持续提升。2023年中国200G/400G交换机出货占比为8.0%,2024年占比提升至17.7%。随着2024年来博通TH5交换芯片的规模出货,预计后续400G/800G交换机出货占比将进一步提升。
图片
2025年GTC大会上,NVIDIA推出了Quantum-X硅光共封芯片、Spectrum-X硅光共封芯片以及衍生出来的交换机产品。NVIDIA的CPO创新技术将插拔式的光模块替换为与ASIC一体化封装的硅光器件,与传统网络相比,可将现有能效提高3.5倍,网络可靠性提高10倍,部署时间缩短1.3倍。NVIDIA Quantum-X800平台正在扩展至基于CPO技术的新型交换机。代表产品如Q3450-LD,拥有144个800千兆/秒(Gb/s)InfiniBand端口。这种突破性的交换机采用液冷设计,可对板载硅光器件进行高效散热。NVIDIA Quantum-X Photonics InfiniBand交换机支持新的网络创新技术,可扩展至更大的规模,在无阻塞两层胖树拓扑下以800Gb/s的速度连接至10,000多个GPU。
图片
2.11 PCB发展趋势及展望
服务器平台持续升级带来CCL材料等级提升及PCB层数增加。根据Prismark数据,PCIe3.0总线标准下,信号传输速率为8Gbps,服务器主板PCB为8-12层,相对应的CCL材料Df值在0.014-0.02之间,属于中损耗等级;PCIe4.0总线16Gbps的传输速率,PCB层数需要提高到12-16层,CCL材料Df值在0.008-0.014之间,属于低损耗等级;当总线标准提升至PCIe5.0,数据传输速率达到36Gbps,PCB层数需要达到16层以上,CCL材料Df值降至0.004-0.008区间,属于超低损耗材等级。2024年BrichStream平台开始逐渐渗透,尽管PCIe标准认为5.0(AMD平台对应Zen5),但CCL材料等级已经逐渐向UltraLowLoss升级,PCB板层数提升至18-22层。
图片
AI服务器PCB层数及CCL等级显著高于传统服务器,且新增GPU板组。由于AI服务器架构相对更复杂、性能要求更高,单台服务器中PCB价值量较传统普通服务器会有明显的提升。PCB价值量增加点来自于:
(1)新增UBB母板。AI服务器最大的差异在于在传统CPU的基础上增加GPU模块来支持计算功能,因此从过往的1块主板(CPU母板)为主变为2块主板(CPU母和GPU母版)。UBB主板是搭载GPU加速卡的平台,与GPU加速模块(SXM/OAM模块)直接相连,为GPU加速模块提供高效的数据传输与交换通道,同时具备一定的数据管理功能,通常具有高性能、高稳定性和高可拓展性等特点。
(2)OAM加速卡增加HDI需求。在AI服务器中,为了增加GPU互连的通道数和传输速率,其硬件方案集成度都相对以往CPU更高,对应的PCB转向HDI。英伟达A100、H100、GH200、B100产品的加速卡均采用HDI工艺制造,在NVL72的机架架构中,Switch Tray也有可能采取HDI工艺。
图片
北美PCB账面与账单比率连续8个季度维持在1以上。账面与账单比率是通过将过去三个月预订的订单价值除以调查样本中同期公司的销售额计算得到的,账面与账单比率超过1.00的比率表明当前的需求领先于供应,这是未来3-12个月销售增长的积极指标,2024年9月至2025年4月,北美PCB在账面与账单比例分别为1.08、1.25、1.15、1.19、1.24、1.33、1.24、1.21,目前已连续8个月维持在1以上。
图片
GB200 PCB设计材料全面升级。GB200 NVL72核心是采用superchip设计的Bianca主板,一个系统内共18个Compute Tray、9个Switch Tray和36个superchip。单个Compute Tray内有两个superchip,每片superchip有1颗CPU和2颗GPU,取消了UBB板和单独CPU主板。相比H100,NVL72的CPU和GPU都在同一块superchip板上,因此不再需要用以承载单颗GPU的OAM加速卡和CPU主板。Switchtray承担GPU的互联功能,因此不再需要UBB板。即NVL72取消原来的UBB,使用Switchtray进行GPU互联。
PCB材料方面:相比H100的CPU主板、OAM和UBB所用到的M6/M7级CCL,GB200 NVL72的superchip材料将升级为更高等级(M7+)的CCL,损耗降低,同时信号传输速率更高、布线密度更大、散热效果更好的HDI,以满足GPU大幅度提升的AI计算性能要求。
图片
Blackwell Ultra(B300)芯片算力性能再度升级。GTC 2025上,基于Blackwell架构的新一代AI计算平台Blackwell Ultra(B300)正式发布,专为大规模推理和复杂任务设计,针对实时推理和Agentic AI进行专门优化。核心规格方面,Blackwell Ultra(B300)首次采用HBM3E-12Hi内存堆栈(B200为8Hi),单芯片显存提升为288GB。基于台积电4nm工艺集成2080亿晶体管,单卡功耗达1.4kW,支持液冷设计。采用NVLink5.0技术,实现1.8TB/s GPU间互联带宽。算力性能方面,Blackwell Ultra搭载新一代Blackwell Tensor Core,FP4算力较前代B200提升50%,达15PetaFLOPS,针对推理场景有特别优化。并在芯片架构、通信速度、能效表现、安全性等方面有更出色的表现。
图片
覆铜板(CCL)是PCB的基础材料,也是决定PCB性能的关键。覆铜板主要由铜箔、增强材料(玻纤布)、树脂等组成,覆铜板是将增强材料浸以树脂粘结剂,在一面或双面覆以铜箔,最后经热压而成板状材料。覆铜板的性能指标大致可以从物理性能、化学性能、电性能、环境性能等进行区分。覆铜板材料本身在电场作用下存在一定的能量耗散,会造成信息传输过程中的信号损失,不利于信息的高速传输。其中,最为关心的是电性能中的Dk与Df(介电常数和介质损耗因子)。
图片
展望未来,PCB将聚焦于高频高速化、高密度化、集成化方向发展。高频高速化:随着数据速率从112Gbps向224Gbps甚至更高迈进,对PCB材料的介电性能、铜箔的粗糙度以及电路设计的精准度提出了严苛挑战;高频高速化:电子产品的小型化、多功能化趋势,推动PCB向更细的线宽线距、更小的孔径和更高的层数发展。任意层互连(Anylayer HDI)、埋入式无源/有源元件等技术将更加普及;集成化:先进的封装技术如系统级封装(SiP)、扇出型晶圆级封装(FOWLP)等,需要更高精度的类IC基板,对PCB集成化提出更高要求。PCB覆铜板按照PCB技术进步而不断演化,以松下Megtron系列为行业参照,当前CCL已经从M4/M6进展到M8系列,未来将进一步演进到M9系列。
图片
为满足覆铜板的升级对Dk/Df的要求,覆铜板主要原材料树脂、玻纤布、铜箔等也同步进行提升。树脂体系从传统的环氧树脂/FR-4体系走向PPO/OPE,以及未来的碳氢树脂;玻璃布从传统E-glass玻纤布升级成使用具有更低介电常数和损耗的玻璃纱;铜箔已经从标准反转处理箔(RTF)发展到低轮廓(LP)、极低轮廓(VLP)和超低轮廓(HVLP)铜箔,铜箔的表面粗糙度(Rz)已从几微米降低到1微米以下。
图片
1)树脂:高速覆铜板对电性能要求更严苛,PPO、碳氢等树脂材料受到关注。随着AI服务器、CPU服务器PCIe、交换机、光模块持续升级,对上游CCL及其树脂材料要求也相应升级。从Df介电损耗指标出发:在M6、M7、M7N级CCL领域,PPO、PI等树脂、改性BMI的Df值满足要求;在M8级CCL领域,PPO等树脂的Df值满足要求;在M9级及以上CCL领域,Df值要求在0.001以内,树脂材料或向碳氢、PTFE体系迭代。但另一方面,碳氢树脂、PTFE树脂面临粘结性差、加工难度大等问题,运用在覆铜板领域有局限性,有待工艺进一步优化。
图片
PPO电化学性能优异,改性后成为高速CCL理想材料。聚苯醚简称PPO,是一种耐高温的热塑性树脂;由2,6-二甲基苯酚聚合得到,相对分子量为2.5~3万,并于1965年实现了工业化生产。改性前的聚苯醚优点是:具备突出的耐热、力学性能、电气绝缘性能等。缺点是熔融温度高,熔融粘度大,加工困难,浸透性差,不耐某些有机溶剂,不能满足覆铜板的要求。因此为了将PPO提升加工性等性能以用于覆铜板领域,必须将其改性为热固性树脂。
图片
高端电子树脂格局集中,国产替代势在必行。覆铜板生产以大陆为主,国产上游材料供应链迎来机遇:2020年中国大陆地区覆铜板产量(含台资、日资)已占全球的76.9%,在高速CCL需求快速增长下,国产PPO供应链迎来战略性机遇。行业格局集中:尽管有部分厂商布局低分子量PPO,但实际批量出货的厂商仅有少数几家,其中以SABIC、圣泉集团为代表。另外圣泉集团、东材科技、世名科技等国产厂商也在加速布局下一代碳氢树脂。
2)玻纤布:电子布在CCL中起增强作用,由电子级玻璃纤维织造而成。电子纱是玻璃纤维中的高端产品,被广泛应用于各类电子产品。玻璃纤维具有耐腐蚀、耐高温、吸湿性小、强度高、质量轻、电绝缘和阻燃等优良性能,被广泛运用于消费电子、工业、通信、航天航空等领域,电子级玻璃纤维纱,业界通称“电子纱”,是玻璃纤维纱中的高端产品,单丝直径不超过9微米,具备优异的耐热性、耐化学性、电气及力学性能。电子纱是制造电子级玻璃纤维布的主要原材料,被广泛用于各类电子产品中。
电子布由电子纱制造而成,在CCL中起增强作用。电子级玻璃纤维布由电子级玻璃纤维纱织造而成,可提供双向(或多向)增强效果,属于重要的基础性材料,业界通称“电子布”。电子布具有高强度、高耐热性、耐化性佳、耐燃性佳、电气特性佳及尺寸安定性佳等优点,起绝缘、增强、抗胀缩、支撑等作用,使印刷电路板具备优异的电气特性及机械强度等性能。电子布作为基材在覆铜板行业的大规模应用,解决了PCB容易短路、断路等问题,目前70%以上的CCL采用电子布作为基材。
图片
高频PCB需要LowDk玻纤布,提高SiO2或B2O3质量分数为有效制备手段。AI等行业发展牵引高频PCB需求,降低玻纤布的Dk值能有效满足前述需求。人工智能等行业的迅速发展对电子级玻璃纤维提出了更高的要求,为了减少信号传输的滞后和强度的衰减,要求电子级玻璃纤维在高频下具有更低的介电常数(5左右)和介电损耗(<10-3)。目前应用最广泛的传统E-玻纤的Dk值一般在6.6左右,明显高于一般树脂基材(2.0-4.0左右),无法满足高频PCB的要求,所以降低玻纤的介电常数尤为重要。为了满足高频PCB对玻纤低介电常数的需求,玻纤企业开发了低介电(LowDk)玻璃纤维。
提高SiO2或B2O3的质量分数是制备LowDk玻纤的有效手段,但会降低加工性能并提高生产成本。在现有的技术条件下,LowDk的玻璃纤维一般具备高质量分数的SiO2或高质量分数的B2O3,亦或者是同时具备,如日本旭硝子株式会社开发的D-玻纤,其Dk仅为4.1,相比E-玻纤降低了38%。但碱金属和碱土金属氧化物含量的降低会导致成纤温度升高,加工性能变差,且因为B2O3价格昂贵,生产成本会显著提高。
图片
日本技术实力领先,中国企业市场份额有望快速提升。日本的LowDk玻纤发展较早,技术领先,此外美国、中国台湾、中国大陆的相关企业也占据一定市场份额。据QYR(恒州博智)统计,全球低介电玻璃纤维核心厂商有日东纺、AGY、台玻、富乔和泰山玻纤等,前五大厂商占有全球大约93%的份额。目前市场上成熟的LowDk玻纤主要有日本东纺的NE低介电玻璃纤维、AGY的L-glass低介电玻璃纤维、泰山玻璃纤维有限公司的TLD-glass低介电玻璃纤维和重庆国际复合材料有限公司的HL低介电玻璃纤维等。
图片
3)PCB刀具:PCB刀具是用于PCB电路板的特殊切削工具。PCB刀具通常由硬质合金制成,具有高硬度和耐磨性,可以在PCB板上进行精确、高效的切割、开槽、铣削和钻孔等操作。常见的PCB刀具包括钻头、铣刀、V槽刀及其他PCB专用特种刀具。
PCB刀具具有高效性、精确性、耐磨性、多适用性的优点。高效性方面,PCB刀具能够高效地削除电路板上的材料,提高生产效率;精确性方面,能够精确地切割、孔加工和铣削PCB,保证电路板的质量;耐磨性方面,PCB刀具通常采用高硬度和耐磨性材料制成,具有较长的使用寿命;适用性方面,能够处理不同种类的基板材料,如FR-4、金属基板等。以钻针为例,其主要用于PCB制程中的钻孔工序,包括钻出通孔、盲孔等,或对已有的孔进行扩孔。
图片
常见的PCB刀具有钻头、铣刀、v槽刀和清洁刀等。钻头用于在PCB板上钻孔,通常使用微细的钻尖,可以实现高精度的孔径和孔位。铣刀用于去除PCB板表面的材料,通常通过旋转刀具和移动PCB来削减材料,以实现平整的表面或特定形状的切割。V槽刀用于在PCB板表面开槽,通常采用V形的刀口设计,可用于切割出直角边界、倒角或者打入标记。切割刀则用于将整个PCB板分割成所需的尺寸,通常使用圆盘形或环形刀片,可以快速而准确地切割PCB板。清洁刀用以去除PCB表面的毛刺和残留物,以确保板子的表面平整、干净,并提供更好的电气连接性。
图片
涂层技术能提升PCB刀具性能与寿命。涂层是刀具非常常见的一项工艺,在刀具形成后,外发涂层会让刀具的整体质量更加优秀,在润滑、抗耐磨、排屑等方面实现较大提升,涂层其实也分为很多不同的样式,常见的钻头涂层有黄钛TIN,紫钛高铝钛等。一般涂层刀具的切削力比未涂层刀具平均降低15%-20%左右,与之对应的则是涂层刀具寿命的提升。ta-C是一种无氢DLC涂层,其sp³与sp²键比值高,具有极高硬度和强润滑性,ta-C涂层显著提升了孔位精度和加工品质,在有效降低断针发生几率、防止涂层钻针粘着,改善排尘等方面发挥重要作用。薄而光滑和高硬度等特点充分保证了刃口锋利,可应用于加工有色金属复合材料、中高TG、无卤素高速板、软板、铝基板、封装板等。
图片
4)电解铜箔:PCB 铜箔是印制电路板(PCB)的核心导电材料,具有导电性强、厚度均匀性好、与基材结合力优异等特点,直接影响 PCB 的信号传输效率、散热性能和机械强度,是连接 PCB 各层电路的“神经中枢”。
从技术属性看,电解铜箔与压延铜箔是PCB用铜箔的两大品类,其中电解铜箔因生产效率高、厚度可控性强(可至1μm以下)、成本相对较低,是中高端PCB的主流选择。根据应用领域电解铜箔可分为锂电铜箔和标准铜箔;根据铜箔厚度不同,可以分为极薄铜箔(≤6μm)、超薄铜箔(6-12μm)、薄铜箔(12-18μm)、常规铜箔(18-70μm) 和厚铜箔(>70μm);根据表面状况不同可以分为双面光铜箔、双面毛铜箔、双面粗 铜箔、单面毛铜箔和低轮廓铜箔(RTF 铜箔、VLP 铜箔、HVLP 铜箔)等。
图片
一般铜箔指不考虑电性的铜箔,品质好坏主要决定因素是铜箔在CCL的抗剥离力,只要将铜箔表面粗糙度变大即可,铜箔表面粗糙度愈大,铜箔在CCL的抗剥离力愈大;在高频讯号传输时电子受到趋肤效应影响,电子会走铜的表面,面粗糙度愈小,SI愈好。高速铜箔的核心技术点在于讯号完整性(SI),在高速铜箔领域,铜箔的表面粗糙度作为最直接影响信号完整性的因素,被当做是衡量铜箔传输性能的重要指标。
不同铜箔的有着不同的接触粗糙度与光学粗糙度。铜箔接触粗糙度是指用金刚石探针在铜箔表面直接扫描得到的微观峰谷高度指标(常用Ra、Rz 表示),它量化了铜箔与基材或信号电流之间的“物理接触面”起伏程度,数值越小,铜面越平滑,趋肤损耗越低;光学粗糙度是指利用白光干涉或激光共聚焦等无接触光学手段,扫描铜箔表面后获得的微观三维形貌参数(常用 Ra、Rz、Sdr 表示),它反映铜面真实峰谷与比表面积,数值越小表明表面越“镜面”,与接触粗糙度差异随平滑度提升而缩小。
图片
随着PCB板信号速率变高,对SI的要求愈高,即对铜箔表面粗糙度有更高要求。例如,PCIe-6.0与224GPAM4的信号Nyquist频点高达56GHz,趋肤深度仅0.28µm;HVLP4(Rz≈1µm)已无法保证信号完整性,HVLP5(Rz ≤0.8 µm)成为“硬门槛”。
HVLP5是目前商用领域信号损耗最低的铜箔之一。HVLP5的表面粗糙度(Rz)进一步降低至0.8µm以下,部分产品甚至可以做到更低。这种极致平滑的表面最大程度地减少了趋肤效应带来的信号衰减,成为当前高速覆铜板优选铜箔。
图片
2.12 云计算发展趋势及展望
2.12.1 云计算是AI产业发展的核心底座
北美四家云厂商2025Q1财报披露完毕,北美四家云厂商的资本开支总计为773亿美元,同比增长59%,2024年全年达2504亿美元,同比增长62%。各公司对25年资本开支指引乐观,分厂商看:亚马逊:250亿美元,同比增长67.63%,其中大部分支出用于支持日益增长的与AWS相关的技术基础设施需求。25Q1财报电话会亚马逊并未对资本开支做出指引,但在2024年财报电话会上,公司计划在2025年将资本支出提升至1000亿美元。微软:214亿美元,同比增长52.86%,FY26将继续根据强劲的需求信号进行投资,以满足微软云的需求,但资本支出增长率较FY25会有所放缓(微软CAPEX投入最早,因此也最早进入到供需平衡阶段),且将开始向与收入增长更相关的短期资产转移。微软在官方博客表示,2025 财年计划投资约 800 亿美元建设AI数据中心。谷歌:172亿美元,同比增长43.2%,主要是技术基础设施投资,其中最大的是服务器、其次是数据中心;将增加对技术基础设施的投资,预计2025年资本支出约750亿美元,超出市场预期的588亿美元。Meta:137亿美元,同比增长103.9%(含融资租赁为136.9亿美元);预计2025年资本支出(包括融资租赁本金支付)在640-720亿美元之间,较之前的600-650亿美元的预期增加了超过7%,反映公司对AI计划的数据中心投资增加,主要由支持生成式AI和核心业务的投资驱动。
图片
国内大厂维度来看,阿里巴巴:2025Q1公司资本开支为240亿元,同比增长135.8%,环比则有所下滑(24Q4资本开支为313亿),主要是基于H20相关芯片采购限制导致。目前看,三年3800亿资本开支预期总额依旧保持不变,但芯片采购节奏的变化可能会导致25年CAPEX预期(1100亿人民币)边际收缩,而26/27年预期则伴随着国产芯片放量迎来更大幅度增长。腾讯:2025Q1资本开支达到275亿元,同比增长91%,环比有所下降(24Q4资本开支365.8亿元),其CAPEX季度性波动同样是受到H20芯片采购节奏影响(腾讯24Q4芯片采购量极大);考虑到腾讯云本身已经连续4个季度实现营收增速与利润率上行,伴随混元大模型能力持续迭代,对后续进展保持持续乐观态势。
图片
云计算是AI产业发展的核心底座。云计算本质上是算力的共享化与弹性化,从过往的分散式单点服务器到当前的集群式数据中心,其核心是实现了算力发展的规模效应。伴随云计算产业规模逐步扩大,规模效应促使算力获取成本持续降低,并促使算力应用加速渗透(如SaaS和AI),而应用规模的快速扩大与经常性收入的日益增长,将促使算力产业更进一步发展,并带来算力成本进一步降低,以形成正向催化循环,直至应用渗透率提升至一定规模,成本下降刺激效应极大减弱为止。
图片
云计算IaaS更偏重资产运营模式,SaaS则是典型轻资产赛道,MaaS收费模式兼具IaaS与SaaS特性,但与IaaS厂绑定更加紧密。IaaS作为算力资源基座,需要较大资金成本用于服务器、交换机等采购,以及数据中心租赁与建设,再通过算力资源池的租赁获取持续性收入。其业务可分为公有云、私有云、混合云等条线,亦可按照网络、计算、存储等需求做划分,核心指标关注单项目IRR与整体EBITDA利润率,SaaS则更多是以标准化软件的形式提供订阅服务并收取订阅费用,ARR与留存率等是核心关注指标。从收费模式上看MaaS兼具IaaS与SaaS业务特性,既可以根据Token消耗收费,也可以采用会员订阅制,但整体看以Token消耗量收费为主,并且由于生态建设原因,目前大部分MaaS市场由IaaS大厂占据。
图片
下游客户群体转变,云厂市占率重新向互联网大厂集中。国内云计算市场的高速增长起源于2010年,主要的云服务供应商则在2009-2013年左右出现(阿里云2009年,百度云2012年,腾讯云2013年),其后2015年起伴随信息化基础设施建设逐步完备,云原生架构开始对传统软件架构进行替换,公有云市场随之快速增长。2021年以后,一方面互联网整体业务进入收缩周期,另一方面政务云(如一网通等)则进入加速建设阶段,此消彼长之下,运营商市场份额进入上行通道。24Q2开始,AI驱动下阿里云营收增速由负转正,以火山、阿里云为代表的大厂。
图片
2.12.2 推理成本快速下降,Token消耗增长拉动云端需求
云计算产业作为模型训练/推理需求快速扩大下的直接受益方,进入了持续高景气周期。自从23年Chatgpt出现以来,基于AI业务token消耗的快速提升,海外大厂开启CAPEX高额投入周期,持续在模型训练和推理端加大算力投入,模型性能得到快速迭代。与此同时,伴随24年12月以来DeepSeek V3和R1的逐渐发布,其首次实现了国产模型在推理任务上与 OpenAI-o1的基本相当,并引发了访问流量的快速扩大(Web端,2024年10月至2024年12月DeepSeek访问量分别为245/422/1101万,其中11月和12月分别同比增长72.24%/160.90%)。伴随Deepseek带来的降本范式(FP8 混合精度训练框架与大规模EP并行等)持续演化,模型输入/输出成本得到快速下降,AI应用大范围推广成为可能。
图片
24年以来,推理成本优化成为技术突破核心重点。2024年是应用推理主导之年,一方面基模能力方面,原生多模态与推理模型等持续得到突破,另一方面,工程学降本能力得到极大提升,模型推理成本实现十倍以上降低。总体看,模型架构层面,多头潜在注意力机制与稀疏结构等陆续被应用于主流模型当中,通过降低模型实际参数量的方式实现推理成本缩减;芯片运算层面,通过并行策略优化(张量并行/数据并行/专家并行)与异步操作、算子融合等方式,尽量减少芯片的通信/读写时长占比,提升计算效率;模型规模方面,通过低精度量化、蒸馏、剪枝等方式在不影响模型性能的背景下以更小的模型实现同等效果。
图片
当推理成本突破临界点后,AI+传统应用成为Token消耗快速扩大的核心根源。以Google AI Overview为例,自从2024年5月谷歌推出AI Overview之后,通过语义理解带来的精准情景识别,谷歌广告业务收入保持持续上行态势,2025Q1依旧有10%营收增速。当前全球每月有15亿用户在消费AI Overviews生成的内容,并直接驱动美国和印度地区的搜索量增长超过 10%。在此基础上,2025年谷歌大会上,AI Mode作为Agent模块,被搭载在浏览器中正式推出,其本身除了增强搜索外,同时也具备交互能力,可以根据用户要求直接完成对应功能(如商旅购票等)。总体而言,伴随推理成本的快速下滑,AI开始与传统应用入口进入到深度融合阶段,AI功能使用量快速上行,并直接带来Token消耗的快速增长。
图片
长文本+低时延依旧是推理侧的优化主流,并直接决定新应用场景开辟进度。一方面,伴随推理能力持续增强,Agent成为产业必然趋势,而Agent本身是一个拆分任务与多轮执行的过程,会先将任务拆分成若干子步骤,然后依次生成并执行每个步骤,最后再对执行结果进行校验。每一步都要调用一次LLM来生成文本,再调用一次LLM来检查可行性,这样下来仅一个小任务就可能需要数次到十余次的推理调用。多次调用导致的必然结果就是Token输入/输出累积量的快速扩大,从而对模型输入长度上限提出极高要求。后续长文本的优化(本质上是计算力消耗线性化的过程)将带来推理成本的进一步下降,同时也将对视频生成/理解功能应用场景的开辟起到极大帮助;另一方面,通过并行等方式进一步降低时延(提升吞吐率)依旧是核心重点,2024年12月发布的DeepSeek-V3,其大EP集群推理方案可以大幅降低推理时延,推理TPOT可以达到10ms级别,相比2024年LLM推理普遍要求的100ms标准提升了10倍。目前,主流推理框架开销已经可以做到个位数ms级别,后续主要优化点在提升HBM带宽的利用率,更大规模的算子融合或许是未来的发展方向。
图片
2.12.3 通过现象看本质,云业务经营业绩本身是CAPEX的前瞻指标
站在当前时点,云厂云业务营收增速与营业利润率(或EBITA利润率)是CAPEX投入的前瞻指引。2023年以来,伴随着Transform架构下Scaling law的持续生效,各家大厂均对模型训练做出大量投入。考虑到此时海外厂商并不以投入产出比来做出CAPEX投入的衡量,且模型能力边界本身尚不清晰,因此25年以前,更多以CAPEX本身作为实际算力需求的前瞻指引。但25年以来伴随Pre-train层面能力边界逐步逼近上限,模型训练需求相对增速放缓,推理开始成为核心需求来源,CAPEX投入产出比逐步进入可测算阶段。在此基础上,云业务增速与营业利润率趋势成为算力需求的直观体现,也是后续CAPEX投入力度的核心决定因素。
图片
以阿里云为例,24Q2是阿里云算力投入决策的核心拐点。2022年以来,由于互联网大厂业务的快速收缩,阿里云营收增速快速下滑,同时伴随着云资源池利用率的降低,营业利润率随之下降。23年以来,通过提升公有云业务占比以提升利润率与发展AI以实现营收提速成为阿里云的核心战略。伴随24Q2阿里云营收增速首次由负转正(AI业务贡献较大增量),GPU实例业务的需求和盈利性首次得到论证,因此从24Q3开始,阿里云CAPEX投入力度快速加大,并在24Q4的业绩交流会上宣布三年3800亿资本开支计划。
图片
当前国内云厂仍处于资本开支投入第一阶段,短期投入力度具备保障。参考海外厂商,云业务的发展往往有三个阶段,而目前我国云计算业务还在第一阶段。以微软为例,23Q1开始其率先进行大额CAPEX投入,以配合OpenAI模型的快速发展,受益于更高利润率的AI业务快速发展,23Q1-23Q3公司Azure营业利润率进入快速上行阶段;随后,从23Q4开始高额资本开支开始逐渐对折旧端产生压力,相对应的微软也做了员工数量削减,希望通过费用的控制来维持营业利润率的持续上行;后续,伴随折旧压力更加放大,资本开支进入平稳周期。
图片
目前阿里云的营收分为对内关联交易和对外商务,对内AI部分主要支持夸克,钉钉,高德等调用通义/DeepSeek模型,对外创收中的AI业务主要包含GPU租赁、MaaS服务、模型服务(百炼与PAI平台)三类。由于近年来模型侧价值量逐渐被云端内化(MaaS的价值量被带入到了IaaS中),导致GPU租赁成为了公有云业务中毛利率更高的部分,大幅资本开支本质是为了让高毛利率GPU租赁业务占比快速扩大,以此拉动AI业务规模快速增长。在此思路下,从24Q2开始,AI业务成为支撑公有云增长核心动力,24Q2一半以上营收增速来自AI贡献,且在后续持续保持100%以上同比增长。
图片
图片
相比传统CPU实例,中期看GPU实例将具备更高投入产出效率。一方面,传统公有云商业模式下,云厂主要提供计算、网络、存储等同质化服务,难以在客户体验上产生本质性不同,更多是依托规模效应。而GPU租赁时代,客户需求主要聚焦于模型训练与推理,智算平台的运维能力和自动化、容错率是竞争优势的核心区分,“有效训练时长”是各家智算业务中的一项关键性能指标,如阿里云今年四月就强调,其“万卡级超大规模训练中,一个月内灵骏GPU集群有效训练时长占比能超过93%”,相对而言,大厂云平台具有更强稳定性;另一方面,在提供GPU实例租赁的服务同时,大厂同时也会提供模型训练/推理加速服务,通过算力与通信的调度实现训练效率数倍式提升。双重优势下,大厂GPU实例租赁具备一定溢价能力,相对传统CPU实例更具备投入产出比。
图片
长期看,通过超卖率的提升,GPU实例将持续保持较高的盈利能力。过去十年以来,公有云价格进行了数次降低,其降价能力一方面来源于规模效应对运营成本的分摊(以及关键技术自有化),但另一方面也来源于CPU超卖能力的不断增强,使单CPU实例实际收费能力大幅上升,因此得以在不断降价的背景下实现利润率稳定;目前阿里云GPU租赁业务仍以模型微调需求为主,而TensorFlow、Pytorch等智能化应用框架开发的应用往往会独占一张GPU整卡,无法做超额出售,但伴随后续推理需求大幅提升,则GPU虚拟化是必然趋势。GPU实例超卖率的提升将进一步拉高GPU租赁业务的EBITA利润率,并为后续降价获客提供空间。
图片
中期维度看,云厂依旧具有较大CAPEX投入潜力。以阿里为例,其企业实际可用的现金流大致等于“经营活动现金流量净额-资本开支-分红/回购支出”。从未来三年看,假设年化15%+现金流入增量,扣除资本开支与分红回购之后(阿里有三年回购计划),阿里的现金流入还有近2000亿元余量,足以支撑后续资本开支金额追加。2024自然年维度阿里资本开支占经营活动现金净流入占比仅40%+(对比海外厂商普遍占比超过50%),考虑到其同时还具有5000亿以上账面存量资金,高算力需求下,后续存在进一步加大资本开支可能性。
2.13 AIDC海内外建设发展趋势及展望
AI带动算力需求增长,作为算力的关键承载底座,数据中心需要为算法研发提供大规模数据处理能力、为产业应用提供足够的算力资源,加速向具备智能性、融合性、安全性、绿色性的智算中心演进。
大模型时代AI训练算力需求快速增长。据EPOCH AI,深度学习出现之前(1950年-2010年),用于标志性机器学习模型训练的算力约每20个月翻一倍,基本符合摩尔定律,进入大模型时代后,随着模型参数量的增长、训练数据集规模的扩大,用于标志性AI模型训练的算力约每5个月翻一倍(每年增长约4.6倍),远远超越摩尔定律。
图片
AI推理成本大幅下降,AI应用消耗Tokens数量激增。AI推理成本随时间推移快速下降,单位美元可获取的AI性能大幅提高。在MMLU测试中达到 GPT-3.5 水平(64.8分)的模型,其推理成本从2022年11月的每百万Tokens 20美元降至2024年10月的0.07美元(Gemini-1.5-Flash-8B),约1.5年内下降超 280 倍。在GPQA上得分超过50%的模型的成本也呈现出类似的趋势,推理成本从2024年5月的每百万Tokens 15美元降至同年12月的0.12美元(Phi 4)。据Epoch AI,根据任务不同,大语言模型的推理成本正以每年9至900倍的速度下降。
图片
大模型Token使用量激增。以豆包为例,去年12月中旬,豆包日均Tokens使用量已超过4万亿,较七个月前首次发布时增长了33倍;截至2025年3月底,豆包大模型日均Tokens调用量已超过12.7万亿,是2024年12月的3倍,是一年前刚发布时的106倍;截至2025年5月底,其日均tokens使用量超过16.4万亿,同比增长137倍。2025年5月Google I/O开发者大会上,谷歌表示目前系统每月处理的token数量激增,从去年的9.7万亿增加到现在的480万亿,增长将近50倍。
图片
国家高度重视数据中心行业发展,密集出台相关政策。数据中心作为信息基础设施中的算力基础设施,是“新基建”的重要组成部分。2020年至今,工信部、发改委等部门针对数据中心提出多项政策支持,例如《新型数据中心发展三年行动计划》、《算力基础设施高质量发展行动计划》等,从算力规模、区域部署、绿色节能等多个维度对我国数据中心行业提出发展要求。2025年4月,多地下发关于开展算力摸底有关工作的通知,以广州市为例,据广州市政务服务和数据管理局官网,根据全省算力基础设施调查摸底工作安排,广州市政务和数据局开展全市算力基础设施普查,收集汇总已建、在建、拟建算力基础设施的基本信息、用电及能耗情况,梳理算力资源底数,并主动对接企业需求,组织智算中心开展“窗口指导”申报工作。我们认为,此举有望避免各地盲目重复建设,加深全国算力一体化布局,行业未来发展更加有序。
图片
“东数西算”工程加速全国算力网络统筹建设。2021年5月,发改委、网信办、工信部、能源局联合印发了《全国一体化大数据中心协同创新体系算力枢纽实施方案》,明确提出布局全国算力网络国家枢纽节点,启动实施“东数西算”工程,构建国家算力网络体系。22年2月,发改委等四部门联合印发通知,全国一体化大数据中心体系完成总体布局设计,“东数西算”工程正式全面启动,在“双碳”战略、推动数字经济健康发展背景下,针对数据中心行业进行供给侧改革。截至2023年底,我国算力总规模达到230EFLOPS,其中智能算力规模达到70EFLOPS。我们认为,“东数西算”工程是对我国数据中心行业进行了一次重要的供给侧改革,实现了数据中心行业的“高效、有序、绿色”发展。
图片
海外已经开始为人工智能发展而大规模新建数据中心机房。2025年1月,美国公布“星际之门”计划,打算在未来四年内投资5000亿美元,为 OpenAI 在美国建设新一代人工智能基础设施。2025年2月,法国宣布计划建设1GW规模的人工智能专用数据中心。2025年7月,Meta首席执行官扎克伯格宣布,公司将投入数千亿美元建设多个巨型人工智能数据中心,以加速实现“超级智能”目标,首个命名为Prometheus的千兆瓦级数据中心预计2026年投运;另一座Hyperion超算中心未来数年将逐步扩容至5GW。
图片
全球超大规模数据中心数量快速增长,预计2030年全球在运营超大规模数据中心总容量将增长近三倍。据Synergy,2024年底,全球在运营超大规模数据中心1136个,在过去五年中增长1倍,随着新建数据中心平均容量的持续增长,全球在运营超大规模数据中心容量在过去不到4年的时间翻倍。Synergy预测,到2030年,全球在运营超大规模数据中心的总容量将增长近三倍。
图片
我国智算中心共计规模不断攀升。据科智咨询,截至2024年底,中国智算中心在运营、在建及规划项目超过500个,其中已投产项目超过100个,建设规模不断扩大。2020年-2024年,中国智算中心资源供给规模持续攀升,截至2024年底,中国智算中心供给规模达2485MW。预计未来3年,中国智算中心供给将提速,至2027年,中国智算中心总供给规模将达到10670MW。
图片
智算中心建设推动硬件设施升级。与普通数据中心相比,智算中心支撑的GPU服务器功率密度增大,为传统云计算准备的机柜功率无法很好的满足GPU算力的部署需求,同时随着GPU单卡功耗的不断提升,对于机柜功率密度的要求也在随之增加,存在大量新建高功率机柜的增量需求。同时,AIDC的负载波动更大,对智算中心的供配电系统和制冷系统也带来了更高的要求。
图片
重视IDC产业机会,IDC运营商、IDC建设相关链条厂商等有望获益。建议重点关注存量机房上架率高、新业务聚焦GPU算力相关的IDC企业。而在建设环节,IDC单千瓦建设成本中,制冷、柴发、UPS等价值量较大,建议关注相关厂商业务弹性。
2.14 AIDC海内外电力系统建设趋势及展望
2.14.1 机架外部:降压和配电环节
图片
核心设备:“数据中心供配电系统”是从电源线路进用户起经过高/低压供配电设备到负载止的整个电路系统,主要包括:高压变配电系统、柴油发电机系统、自动转换开关系统(ATSE,Automatic Transfer Switching Equipment)、输入低压配电系统、不间断电源系统(UPS,Uninterruptible Power System)系统、UPS列头配电系统和机架配电系统、电气照明、防雷及接地系统等。
图片
中压配电系统:数据中心中压外市电通常是由变电站引入两路10kV市电,输入到大楼中压配电系统,通过10kV开关柜,其柜体内设计不同的单元隔室,集成负荷开关、真空断路器、接触器、高压熔断器、接地开关、隔离开关、电压电流互感器,对中压系统进行电能的分配和保护,保障设备的用电安全。
变压器系统:经过中压电能分配后,输入到10kV/0.4kV变压器,将电压从10kV降压至400V,满足数据中心内IT和动力等负载设备用电电压制式。变压器一般采用干式变压器,变压器容量最大至3150kVA,目前常用的容量在2500kVA及以下。
图片
自动转换开关系统(ATSE):主要应用于紧急供电系统,自动完成市电与市电或者市电与柴油发电机之间的备用切换。ATSE由一个或几个转换开关电器和其他必需的电器组成,用于监测电源电路,并将一个或几个负载电路从一路电源自动转换到另一个电源的电器。如市电与发电机的转换,两路市电的转换;主要适用于低压供电系统,在转换电源期间中断向负载供电。
图片
柴油发电机:作为数据中心标配,柴油发电机组与市电、UPS共同构成三级供电体系。柴油发电机组是由柴油发动机、同步发电机、控制系统及辅助装置构成的独立供电系统,通过柴油燃烧驱动曲轴旋转并带动发电机转子切割磁感线产生电能。柴油发电机广泛应用于汽车、工程机械、农业机械、船舶、发电、航空等领域,柴油发电机组在应急电源、偏远地区供电等方面发挥重要作用,可靠性高。
在应用领域方面,该设备主要服务于四大场景:1) 工业制造领域保障生产线连续运转;2)基础设施建设支撑工程机械供电;3)医疗系统维持生命支持设备运行;4)通信网络确保基站信号传输稳定‌。
作为数据中心标配,柴油发电机组与市电、UPS共同构成三级供电体系。当市电中断时,可快速进行负载切换,进行持续供电。柴油发电机单机功率通常覆盖1.6-3MW,并联技术扩展至20MW总容量。
图片
数据中心断电后的供电流程为:UPS先供电,柴油发电机随后接替供电‌,两者为分阶段配合模式。市电中断瞬间‌UPS(不间断电源)立即启动,通过蓄电池或飞轮储能系统为负载提供瞬时电力支持,避免设备宕机‌;市电中断后,柴油发电机需经过‌启动检测→点火→转速稳定→输出电压稳定‌的过程,通常耗时‌10-30秒‌(具体时间取决于设备性能)。在此期间,UPS持续供电以填补电力空缺‌,当柴油发电机输出电压稳定后,通过ATS(自动切换开关)将负载从UPS切换至柴油发电机供电。此时,UPS停止放电并转为待机状态,或仅承担短时滤波、稳压等辅助功能‌。
目前数据中心柴油发电机多按N +1冗余度设计。‌N+1冗余设计‌指在满足基础供电需求(N台发电机)基础上,额外配置1台备用机组,形成“主用机组数量+备用机组”的组合模式。当任意主用机组故障或停机维护时,备用机组可立即接管负载,避免因单点故障导致供电中断‌。
案例介绍:“特发信息港数据中心”由深圳市特发数据科技建设,信昌机器与深圳市特发信息港数据中心达成合作,为其提供12台3516B(连续功率1600KW)发电机组。
项目电力设计方面,市电电力系统按传统2N架构设计,备用电力系统则采用12台(N+1)COP 1600KW卡特3516B柴油发电机组,当两路市电停电,11台柴发能带起全部负荷,储油时间符合A级数据中心标准。
图片
燃气轮机:在电网薄弱地区作为主电源、在市电中断时快速切换为备用电源。燃气轮机是由压气机、燃烧室、燃气涡轮组成的旋转叶轮式热力发动机,空气经压缩后与燃料混合燃烧生成高温燃气,推动涡轮带动压气机和外负荷转子高速旋转,输出电功。燃气轮机广泛应用于工业发电、    机械驱动、油气生产、航空航天、军事装备等领域,燃气轮机具备快速启动、电力输出稳定、运输安装便捷等优势,燃气轮机能够使用混合燃料单独组网运行,在电网基础设施薄弱或电力供应不稳定的地区作为主要电源,也可作为备用电源应急供电。
燃气轮机发电组在AIDC领域主要服务于两大场景:(1)在电网薄弱地区作为主电源;(2)在市电中断时快速切换为备用电源。
(1)在电网薄弱地区作为主电源
随着AI的迅猛发展,AIDC对电力的需求呈现指数级增长,部分新增AI数据中心开始使用大型燃气轮机做主力电源以填补电力缺口。其供电系统通常配置两台燃气轮机各自承担约70%的电容量需求,确保电力供应的稳定性和冗余,并配备10%到20%电力需求容量的柴油发电机作为应急备用电源,同时利用燃气轮机的尖峰负荷能力以及UPS电源的短期供电能力,确保电力供应的连续性。
案例介绍:为满足北美数据中心快速增长的电力需求,美国工业燃气轮机集成商TURBINE-X Energy Inc与全球能源科技巨头贝克休斯(Baker Hughes)于2025年3月3日达成合作协议,贝克休斯将向TURBINE-X Energy Inc提供其NovaLT™燃气轮机技术及相关设备,包括齿轮系统和发电机技术,用于北美的数据中心项目。NovaLT™燃气轮机系统支持天然气、天然气与氢气混合燃料(最高50%氢掺混)及100%纯氢燃料运行,可实现毫秒级快速启动与负荷响应,保障关键业务供电。
(2)在市电中断时快速切换为备用电源
移动燃气轮机发电单元可在1-5分钟内启动并达到满负荷运行状态,孤网运行的特点叠加模块化设计可使其迅速运输和部署到紧急区域及偏远地区,配备拖车作为必要辅助支撑,运输过程无需混凝土安装,减少对混凝土基础的依赖的同时压缩安装时间,可在紧急情况及偏远区域提供可靠的电力支持。
图片
当前数据中心机房的主流供电方法是通过10KV/0.4KV的低压供配电系统,将10KV市电转换为400V低压电力,再通过二级、三级配电完成整个系统的供电。由于该过程中使用了大量如UPS、变频器、整流器的非线性负载,在工作过程中会产生大量谐波电流,将导致配电系统的严重谐波污染,加速零件老化,危害设备安全。同时,数据中心中存在大量的容性负载和感性负载,运行时会发出容性无功功率返送给高压系统,造成无功损耗,使得发电机运行不稳,容易导致并机及崩溃。运行过程中的谐波污染、无功损耗以及三相不平衡,是数据中心电能质量的三大核心问题。
图片
电能质量治理设备通常布置在UPS/HVDC等机架供电设备之前,中压变压器之后,接入0.4kV母线上,用于吸收UPS/HVDC及之后的各种电力电子变换设备所产生的谐波。在电能质量问题的治理方案中,目前最为成熟的解决方式是有源电力滤波器APF和静止无功发生器SVG相结合。有源滤波装置APF采用先进的电力电子技术,实时检测电网中的谐波,通过变流器产生反相的补偿电流,动态滤除电网中的谐波。静止无功发生器能够实时动态补偿,可以补偿感性无功和容性无功,且不会发生过补,欠补,可以稳定系统电压。二者组合使用可以同时解决谐波、无功损耗和三相不平衡三大问题。
图片
普华有策《中国电能质量设备行业市场调研及“十四五”发展趋势研究报告》指出,电能质量设备行业是一个充分竞争,市场化程度较高的行业。目前能生产销售APF和SVG的厂家国内共100余家,具备自主研发、对电能质量全系列产品能够更新换代的厂家国内约有20家。盛弘股份是国内最早涉足电能质量领域的国产厂商,作为行业龙头,盛弘深耕行业接近20年,技术护城河深厚,规模效应明显,稳居第一梯队。
2.14.2 机架供电:UPS、HVDC等
UPS:传统供电设备,仍是市场主流方案,正在向大功率不断演进。UPS系统即不间断电源,是一种能够为关键设备提供稳定、不间断电力供应的电力保障设备,主要由整流器、逆变器、电池组、STS开关等组成。铅蓄电池常作为电池组部件,在UPS系统中充当着能量储备库的功能,当市电正常时,铅蓄电池处于充电状态,可将电能转化为化学能储存,当市电中断或出现异常时,铅蓄电池立即向逆变器放电,提供直流电源,逆变器再经过DC/AC整流变换,可以继续向负载提供稳定的交流电,保证负载设备的正常运行。
图片
数据中心备电系统通常采用2N配置。2N配置指一座数据中心采用两个独立的供电系统,双系统同时运行,互为备用,各自承担50%的电能负载,当一个供电系统出现故障时,另一个系统向负载提供100%电能,保障数据中心供电的稳定与持续。每套供电系统下设两个变压器,各自连接一个UPS模块,一套完整的2N架构共需要使用4套UPS系统。
目前通算中心(传统数据中心)主流UPS容量为400kVA/500kVA/600kVA,智算中心向MW级,超高效及高密化演进。UPS单机容量由600kVA提升至1MVA及1.2MVA,减少并机台数,同时可进一步节省系统占地及后期运维成本,成为演进的趋势。同时,UPS需要持续提升功率密度,减小设备占地,以改善供配电设备辅助占比。以600kVA UPS为例,业界常规占地宽度一边为1200mm,但业界已有头部厂商通过架构及器件创新,将宽度缩减至600mm,功率密度提升100%,占地面积下降50%。
图片
采用SiC等新型功率器件推动UPS能效提升。通过采用SiC等新型功率器件,UPS能效不断提升,减小发热量来应对UPS高密化带来的发热挑战,随着大功率SIC器件的不断成熟及成本下降,运行效率可提升至97.5%以上,相对于传统96%效率UPS,UPS单台主机发热量可降低37.5%以上。
图片
N+1方案可以提高设备利用率、减少资本开支:超大规模企业通常使用 4N3R(四套设备可用,而正常运行时需要三套)或N+2C(也称为“Catcher”)等方案来提高UPS负载利用率。包含多个较小的UPS(3*1MW)和一个冗余单元。静态转换开关 (STS) 在发生故障时立即将负载从一个 UPS 切换到另一个UPS(STS动作远快于ATS)。在4N3R中,四个独立的电力系统,其中只需要三个即可运行。
图片
HVDC:未来有望成为智算中心主流,800V新品已推出。机架供电电源选择中,常见两种方案:AC400V不间断电源(UPS)和DC240V高压直流(HVDC)。这两项技术经过多年的市场考验,已证明其技术可行性,市场接受度较高,产业链较为成熟。对于功率密度更高的AIDC而言,更高的电压等级能够节省导线横截面,有助于减少造价,提高功率密度。再考虑到AIDC中直流设备(光伏、储能、电池、IT服务器、直流充电桩、直流照明和空调设备等)的比重将越来越大,全直流供电架构成为迫在眉睫的技术。
图片
未来可能会向10kV交流转低压直流的全直流供电模式演进。这种供电架构将10kV交流输入转换为750V、400V、240V直流,750V直流用于接入分布式电源和储能以及直流空调室外机组用电,400V直流为空调室内机组等直流设备供电,240V直流为照明、IT服务器等直流负载供电,实现全直流供电架构。这种全直流供电模式可以很好地适配新能源供电,光伏、储能、充电桩等可以快速接入全直流系统,减少交直流变换的环节,提升供电效率。
HVDC较UPS效率更高。目前数据中心采用直流供电的比例约10%,与UPS不同的地方在于,HVDC交流输入,直流输出,原理上即为整流器,输入400V三相交流电,输出240/336V直流,目前国内多采用电信系统通用的240V直流电压。输入到服务器内部后,每个服务器内部的PSU通过DCDC变换,以及VRM芯片调节电压后,输出到芯片层级。HVDC突出优点在效率较UPS更高,由于HVDC没有DC-AC的逆变环节,因此效率较UPS更高,通常高1%以上。
图片
数据中心需求推动HVDC持续升级。目前,随着数据中心功率密度的不断提高,HVDC电压等级已经提升到800V,单机功率从72kW到MW级不等,产品形态从厚度仅1U的Power Shelf到机柜级的Sidecar不等。台达、麦格米特等头部电力电子厂商纷纷推出了自己的HVDC产品。目前,800V HVDC还在测试阶段,预计今年下半年将进入量产。
图片
SST:下一步供电设备发展方向。固态变压器(SST)也称为“能源路由器”,在基于直流电网区域架构中,适用于微电网的直流用电场景。固态变压器(SST)省去了中压10kV交流电降至220V/400V交流电的环节,通过高频电力电子变压器和ACDC环节,可实现10kV交流电输入直接转换至800V直流电输出。还具有电能管理、能源管理以及故障管理的能力,支持不同直流发电单元、储能系统、光伏电站,以及不同用电单元的交互。
图片
固态变压器(SST)由于存在电压制式及拓扑器件成熟度问题,在可靠性,可维护性及使用规范方面面临着挑战。现在仍以试点为主,需要业界产品生态的进一步完善。国内,西安西电电力电子公司曾交付SST的试点产品,具备10kV交流输入直接输出240/336V直流的能力,额定容量达到2.4MW。预计SST今年将陆续进行前期的供货的试验工作。
图片
供电设备集成化:巴拿马电源、T-Block等类似产品。由于AIDC建设越来越专业化,各家互联网云厂商、头部IDC设备供应商开始联合变压器设备商等开发模块化供电设备。采用模块化集成化设备之后,AIDC的交付周期可以缩短到3-9个月甚至更短,而传统的通算中心建设周期高达12-15个月。
传统数据中心普遍采用传统分散式供配电结构。电力室分为高压室、变配电室、低压室、不间断电源UPS、高压直流(HVDC)室等,类型多且布局分散,占用面积大。电源设备由不同的厂家生产,高压柜、低压柜、交/直流不间断电源系统分散部署在不同的机房。供配电系统的一次和二次线缆都需要现场连接,线缆线路长、损耗大,后续的线缆检修和系统扩容难度高。
图片
预制化供配电电力模组将中压柜、变压器、UPS、高压直流(HVDC)、制冷、馈电等预制集成交付,减少电力室面积高达30%,交付周期可缩短50%,实现更高的利用率、可扩展性和更快的部署。目前,已进入工程化实际运用的集成化供配电模组包括阿里主导的巴拿马电源等,巴拿马电源柔性集成了10kVac的配电,隔离变压,模块化整流器和输出配电等环节,采用移相变压器取代工频变压器,并从10kVac到240V dc整个供电链路做到了优化集成。相比传统数据中心的供电方案,占地面积减少50%,其设备和工程施工量可节省40%,其功率模块的效率高达98.5%,架构简洁可靠性高。
图片
不仅巴拿马电源,各家也纷纷推出集成化供配电模组产品,如腾讯的T-block,维谛的power-train等。
图片
电池:目前国内仍以铅酸为主,未来可能逐步向锂电演进。目前国内数据中心备电主要仍使用铅酸电池,份额在95%以上。相较于锂电池,铅酸电池化学性质稳定,在正常使用情况下,不易发生热失控、起火、爆炸等安全事故。此外,铅酸电池的回收利用已经形成了较为完善的体系,回售渠道广泛、回收率高,原料成本也更低,在大规模应用时,其成本优势更加明显。
图片
2023年12月,中国建筑节能协会正式发布《数据中心锂离子电池室设计标准》,为锂电池在数据中心行业的规范化和规模化应用奠定基础。锂电池作为一种节能环保的电池技术,凭借占地面积小、能量密度高、承重要求低、循环寿命长、维护成本低等显著优势,有望将逐步取代铅酸电池,成为智算中心的首选。行业内UPS头部厂商已全面兼容锂电池储能技术。
图片
母线槽:替代PDU和柔性电缆,成为AIDC趋势。传统数据中心倾向于使用柔性电缆和PDU,但在处理大量电力和高密度时,母线槽通常是首选解决方案,多年来已被超大规模数据中心广泛采用。为了实现冗余,母线槽成对使用,由独立的UPS系统供电,并且每个机架通常有两个母线分接单元。
图片
传统的列头柜方式需要占用一个IT机柜的位置,而智能母线系统采用沿机柜排布,不占用机柜面积,可显著提升空间利用率。同时,其模块化结构和即插即用的特性可简化安装和维护流程,降低长期运维成本,并且智能母线的铜排使用寿命要高于导线寿命。智能母线这种方案具有高弹性、节省占地、快速部署、高可靠性及易维护等优点,特别适用于智算中心高密度、需求不明确的场景。
2.14.3 服务器供电:高功率带动单W价值提升
PDU:担负向机架内IT设备供电的职能。服务器PDU(电源分配单元)是数据中心和服务器机柜中用于电力管理与分配的核心设备,可以将从UPS输入的电源分配到多个输出端口,支持多台服务器、网络设备等同时接入;还能实时监测电流、电压、功率等参数,并提供过载保护、短路保护、防雷击等多重安全功能。
图片
PDU在机架两侧也呈2N配置,以实现2N分布冗余,从而避免单点故障。AIDC对末端配电需求的不断提升,传统单相rPDU已难以胜任更高功率的应用场景,三相rPDU可提供更高的功率支持,监控型三相rPDU通过实时监控电流、电压等关键参数,优化电源分配,确保三相负载平衡,从而提升供电的稳定性和安全性。
PSU:服务器电源核心,单W价格随功率密度提升而提高。PSU通常指服务器机架上的AC/DC电源,AC/DC是镶嵌在服务器机架上的电源,其同时具备降压和整流作用。因为其体积层面受到机架限制较大,伴随服务器整体功耗快速提升,其功率密度也需要快速提升。当前AI服务器主要采用三种规格的AC/DC电源:CRPS185、CRPS265、OCP。三种电源长宽高尺寸分别为:185mm*73.5mm*40mm、265mm*73.5mm*40mm、700mm*73.5mm*40mm,即仅在长度层面存在差异,采用行业性的共同标准有助于服务器产品快速升级。
图片
伴随服务器(尤其是AI服务器)功耗总额的快速提升,在OCP ORV3标准限制下服务器电源必须通过提升功率密度并维持高能源转化率(钛金96%以上)以满足服务器运转需要。更好的材料、更优的拓扑、更多的集成是功率密度提升的主要途径,而较为集中市场格局与稳健的毛利率上升则确保了从成本到价格的路径传导,并直接带来电源在服务器整机中的价值量提升。
对于AC/DC电源而言,电源价格由总功耗数与单瓦特价格共同决定,并逐渐在服务器整机中逐渐占据更大的价值量比重。单瓦特价格跟随功率密度快速提升。以京东上显示的长城电源为例,GW-CRPS1600W对应功率密度为48W/in3,售价1300元,单瓦特价格为0.8元/W,能源转化率94%。而GW-CRPS2700W对应功率密度为81W/in3,售价2700元,单瓦特价格为1元/W,能源转化率94%,相较1600W产品在价格上有一定提升。
图片
BBU、超级电容(CBU):解决AI服务器备电、电能质量的优选方案。BBU的主要作用是在供电不稳定时向服务器供电,以免停电带来的数据损失。相比UPS,BBU可以安装在服务器内部,但只能提供数秒至几分钟的紧急供电,主要由高倍率的锂电池组供电,不需要额外占用机房空间。
图片
BBU内部由锂电池提供电源,布置在机架的内部,可以在停电时立即响应,确保AI服务器数据不遗失。同时,为了在AI服务器负荷突变时维持母线电压稳定,需要进一步使用超级电容,利用电容的电压稳定性,保证设备工作在正常电压下。
图片
目前微软已在其NVL72服务器上批量应用BBU。而英伟达的GB300有望将BBU和CBU(超级电容)列为标配。
2.15 AIDC海内外散热系统发展趋势及展望
高算力需求推动算力中心单机功率密度提升。风冷系统通过让冷源更靠近热源,或者密封冷通道/热通道的方案,来适应更高的热密度散热需求。随着机架密度升至20kW以上,多种液冷技术应运而生,从而满足高热密度机柜的散热需求。算力中心绿色低碳发展持续深化的需要。PUE(Power Usage Effectiveness,数据中心总能耗/IT设备实际能耗)是算力中心最常见的评价性能指标,也是行业评价算力中心绿色性能的主要衡量指标,PUE值越接近于1,代表算力中心的绿色化程度越高。液冷技术主要分为冷板式、浸没式和喷淋式液冷技术等技术类型,其中冷板式液冷技术作为成熟度最高、应用最广泛的液冷散热方案。
图片
单机柜功率密度逐渐超过30kW。Colocation America数据显示,2023年全球数据中心单机柜平均功率达到20.5kW,单机柜功率超30kW占比不断提升。一般认为30kW是风冷散热的上限,随着30kW+功率机柜的快速增加,冷却方式应逐渐从风冷过渡到液冷。
图片
液冷服务器市场规模不断提升,冷板式液冷仍占主力。从市场规模来看,观研天下数据显示,2024年中国液冷服务器市场规模将达201亿元,同比增长84.4%,预计2025年市场规模增速为46.3%,达294亿元。从市场结构来看,2024年冷板式液冷市场占比约65%;浸没式液冷市场占比约34%,喷淋式液冷市场占比约1%。
图片
风冷散热:该方案实现方式为将风冷组件(包含热界面材料(TIM)、集成散热器(IHS)、3DVC和风扇)安置在计算平台的前端。DGX H100风冷方案(含8片H100 GPU):计算平台最前端装有3行*4列风扇用于8卡H100的散热;DGX B200风冷方案(含8片B200 GPU):计算平台最前端装有4行*5列风扇用于8卡B200的散热。
图片
风冷散热所需要的元件:热界面材料TIM(直接覆盖在GPU之上)、集成散热器IHS(与TIM相连)、多维两相均温元件3DVC(由热管和散热片组成,安置在IHS之上)、风扇(安置在服务器最前面或者最后)。3DVC的得名来自于1维的热管、2维的散热片、3维的热管与散热片腔体互通;VC(蒸汽室)来自于液体蒸发冷凝的过程。
风冷散热的原理:芯片的热量通过TIM传导至IHS之上,热量进入3DVC中将3DVC中的液体蒸发为蒸汽,蒸汽通过热管向上传导至上方多层散热片中。由服务器前端和后端的风扇和数据中心的空调将腔体内的蒸汽冷凝为液体,过程循环往复。因此,风冷散热有两部分组成:每个芯片上方的多维两相均温元件与服务整个服务器散热的风扇和数据中心的空调。
图片
热设计功率越高,风冷散热组件所需高度越高。风冷设计的HGX H100与HGX B200基本由三部分组成:电源托盘,母板(CPU)托盘,与GPU计算托盘。GPU计算托盘高度则占到服务器高度的三分之二。芯片本身的高度近乎为0,主要高度来自于风冷散热元件:芯片热功率越高,充分散热需要的散热片高度越高。从HGX H100到HGX B200,风冷散热元件的高度增加了50%。大量的机柜内部空间被用于风冷散热而不是实际有效的集群计算。
图片
液冷能有效解决风冷散热的痛点问题。大幅增加了机柜散热功率。水的热容量为空气的4000倍,热导率是空气的25倍。在相同温度变化中,水能存储更多的热量且热量的传递速度远超空气。GB200的水冷计算托盘设计利用冷板与冷却液的高效热交换机制,将芯片产生的热量均匀传递至冷板表面。冷却液以高流速经过冷板后能够迅速带走热量并均匀散热。
大幅提高数据中心空间利用率。风冷的HGX H100计算平台高度大概为6U(1U=4.445cm)。而采用风冷设计的HGX B200则需要10U高度的风冷设备达到散热需求。相比较而言,使用DLC的GB200计算托盘的高度仅为1U。同样部署8块GPU芯片,HGX H100高度为6U,HGX B200需要10U,而GB200 NVL72只需要2个计算托盘总计高度为2U。空间利用率大幅提升。
图片
冷板式液冷技术:通过冷板将芯片等发热元器件的热量间接传递给封闭在循环管路中的冷却液体,冷却液带走热量,并将其传递到一次侧回路,通过冷却系统进行冷却,最后将热量排出系统。冷板式液冷系统可以分为一次侧(室外)循环和二次侧循环(室内)两部分。其中,二次侧循环主要通过冷却液温度的升降实现热量转移,而一次侧的热量转移主要是通过水温的升降实现。成本方面,一次侧占到液冷成本的30%左右,二次侧占70%左右。
冷却效果:冷板一般使用在平坦表面时换热效果最佳,例如CPU、GPU和存储器模块等,不适用于电源和IC电容器等其他组件,综合来看,冷板液冷可带走机架中设备产生的70-75%的热量,因此需要采用混合冷却方法。
图片
冷板式液冷二次侧(室内侧)核心部件:①液冷板(Liquid Cooling Plate):液冷板是一种通过液体循环来吸收和转移热量的散热设备,广泛应用于高性能计算和数据中心。它们通常安装在服务器或电子设备上,通过液体流动来冷却设备。②快速断开装置(QD):允许快速方便地连接和断开液体管线,且不会产生漏液。③冷却液分配单元(Coolant Distribution Unit,CDU):负责冷却剂的分配、调节和监控。它们确保每个服务器都能获得适量的冷却液,以维持适宜的运行温度。CDU分为L2A,包括:RPU(泵、水箱)、散热片、风扇。以及L2L,包括:RPU和钎焊板式换热器(BPHE)。④机柜内部管线(Manifold):柜内管线包括Rack Manifold(机架管)和Row Manifold(行管),是液冷系统中用于分配冷却液的管道系统。Rack Manifold负责将冷却液分配到机架中的各个服务器。Row Manifold则负责在机架内部分配冷却液到每行的服务器。
图片
冷板式液冷机柜价值量拆分(以GB200 NVL72机柜为例)。GB200 NVL72机柜内部液冷系统的整体价值约为8.4万美元,占机柜成本的2.8%左右(假设机柜液冷总成本300万美元)。分零部件来看,GB200 NVL72机柜包含126颗芯片,其中,Compute Tray包含芯片108颗(72*GPU+36*CPU),对应冷板价值量约3.2万美元;Switch Tray芯片对应冷板价值量约3600美元,合计占比达43%。冷却分配单元(CDU)单价3万美元,占35.8%。快接头价值量占比约10.5%,Manifold约占4.8%。总体来看,液冷板与CDU两项合计占整体液冷成本的78.8%,为液冷方案的核心零部件。
图片
浸没式液冷是一种通过将发热的电子元器件(如 CPU、GPU、内存及硬盘等)全部或部分直接浸没于装有非导电惰性流体介质的机箱中的液冷散热技术。它包含两个循环:一次侧循环利用室外冷却设备(如冷却塔或冷水机组)与热交换单元(如CDU等)进行热交换,排出冷却液热量;二次侧循环中,CDU与液冷箱内的IT设备热交换,传递热量给冷却液。
根据冷却液在循环散热过程中是否发生相变,分为单相浸没式液冷和双相浸没式液冷。①单相浸没式:作为传热介质的二次侧冷却液在热量传递过程中仅发生温度变化,而不存在相态转变,过程中完全依靠物质的显热变化传递热量。②两相浸没式:作为传热介质的二次侧冷却液在热量传递过程中发生相态转变,依靠物质的潜热变化传递热量。
图片
浸没式液冷由于发热元件与冷却液直接接触,散热效率更高,相对于冷板式和喷淋式液冷,噪音更低,能解决高热密度机柜的散热问题。①单相浸没式液冷中,介电冷却液(沸点较高)保持液体状态,电子部件直接浸没在液体中,热量从电子部件传递到液体中。通常使用循环泵将经过加热的冷却液流到热交换器,在热交换器中冷却并循环回到容器中。②相变浸没式液冷是以相变冷却液(沸点较低)作为传热介质,在工作状态下,当冷却液的温度升高到系统压力所对应的沸点时,冷却液发生相变,从液态变化为气态,通过汽化热吸收热量,实现热量的转移。
图片
图片
综合考量初始投资成本、可维护性、PUE效果以及产业成熟度等因素,冷板式和单相浸没式相较其他液冷技术更有优势,是当前业界的主流解决方案,冷板式液冷可以实现从传统风冷模式的平滑过渡,在数据中心领域应用更多。
图片
图片
北美经济衰退预期逐步增强,国际地缘变局冲击全球供应链韧性,企业海外拓展承压;芯片结构性短缺可能制约产能释放与交付节奏;行业竞争加剧触发价格战隐忧,中低端产品毛利率可能跌破盈亏平衡点;原材料成本高企叠加汇率宽幅波动持续侵蚀外向型企业利润空间;技术端则面临大模型迭代周期拉长的风险),影响AI产业化进程;汽车智能化渗透率及工业AI质检等场景落地进度不及预期,或将延缓第二增长曲线兑现。
证券研究报告名称:《AI新纪元:砥砺开疆・智火燎原》
对外发布时间:2025年7月24日
报告发布机构:中信建投证券股份有限公司 
本报告分析师: 
黄文涛 SAC 编号:S1440510120015
SFC 编号:BEO134
阎贵成 SAC 编号:S1440518040002
SFC 编号:BNS315
程似骐 SAC 编号:S1440520070001
SFC 编号:BQR089
崔世峰 SAC 编号:S1440521100004
SFC 编号:BUI663
贺菊颖 SAC 编号:S1440517050001
SFC 编号:ASZ591
黎韬扬 SAC 编号:S1440516090001
刘双锋 SAC 编号:S1440520070002
刘永旭 SAC 编号:S1440520070014
SFC 编号:BVF090
庞佳军 SAC 编号:S1440524110001
陶亦然 SAC 编号:S1440518060002
王在存 SAC编号:S1440521070003
许琳 SAC 编号:S1440522110001
SFC 编号:BVU271
许光坦 SAC 编号:S1440523060002
杨艾莉 SAC 编号:S1440519060002
SFC 编号:BQI330
叶乐 SAC 编号:S1440519030001
SFC 编号:BOT812
应瑛 SAC 编号:S1440521100010
SFC 编号:BWB917
于芳博 SAC 编号:S1440522030001
SFC 编号:BVA286
袁清慧 SAC编号:S1440520030001
SFC编号:BPW879
赵然 SAC 编号:S1440518100009
SFC 编号:BQQ828
朱玥 SAC 编号:S1440521100008
SFC 编号:BTM546
免责声明:本站内容来源于互联网公开信息,仅供学习和参考使用。如涉及版权问题,请联系我们,我们将在核实后第一时间删除相关内容。