【原报告在线阅读和下载】:20260303【MKList.com】通信:超节点与Scale up网络行业:谷歌、AMD、国产超节点持续发力,打破英伟达独大格局 | 四海读报
【迅雷批量下载】:链接:https://pan.xunlei.com/s/VOXJ23RJHhoECPL5FRrVathfA1 提取码:umqb
【夸克批量下载】:链接:https://pan.quark.cn/s/fe42cc605010 提取码:j4Vv

1. 一段话总结
东兴证券2026年超节点与Scale up网络行业报告指出,超节点与Scale up网络是突破算力通信瓶颈的关键基础设施,英伟达凭借NVLink/NVLink Switch技术保持领先(2025年GB200/300 NVL72出货量约2800台),但谷歌、AMD、华为持续发力打破其独大格局:谷歌以OCS光交换机构建光互联超节点,Anthropic 2026年将采购100万颗TPU v7芯片;AMD推动UALink开放标准(成员超100家),Helios机架成NVL72有力竞品;华为通过灵衢协议与集群化方案追赶(Atlas 950算力8 EFLOPS);行业带动PCB背板、高速铜缆等供应链需求,建议关注头部厂商及供应链标的,风险提示技术路径变化与功耗平衡等问题。
2. 思维导图(mindmap脑图)

3. 详细总结
一、行业核心背景:LLM驱动超节点成为算力网络创新方向
1. 核心需求:高带宽与低延迟的刚性要求
大语言模型向万亿参数演进,分布式训练依赖多并行计算方式,对网络性能要求严苛:
| 并行方式 | 带宽要求 | 延迟要求 | 执行场景 |
|---|---|---|---|
| 张量并行(TP) | 数百至数千GB/s级 | 极高 | 机内完成 |
| 专家并行(EP) | 数百至数千GB/s级 | 极高 | 机内完成 |
| 流水线并行(PP) | MB/s至GB/s级 | 较高 | 机间完成 |
| 数据并行(DP) | GB/s级 | 较高 | 机间完成 |
为满足TP/EP需求,Scale up网络(纵向扩张) 成为主流技术路径,其与Scale out网络(横向扩张)核心差异如下:
| 对比维度 | Scale up网络 | Scale out网络 |
|---|---|---|
| 算力规模 | 数十卡至千卡级 | 万卡至十万卡级 |
| 资源利用率 | 80%以上 | 30%-50% |
| 通信延迟 | 百纳秒级 | 微秒级 |
| 内存访问 | 统一内存/全局地址空间 | 独立内存空间 |
| 标准化 | 定制化程度高 | 基于开放标准,相对统一 |
2. 超节点构成与互联方案
-
核心构成:由计算节点、交换节点、Scale up网络互联组成,可将数十至上千张XPU互联为“超级服务器”;
-
互联方案:
- 铜缆互联:代表厂商英伟达,优势是功耗低、成本低、可靠性高,单超节点规模受限(当前主流72GPU);
- 光纤互联:代表厂商华为,优势是突破距离限制,规模可扩大至384+XPU,短板是光模块功耗高、成本高。
二、头部厂商布局:四巨头差异化竞争,打破英伟达独大
1. 英伟达:技术领先,持续迭代超节点规模
(1)核心技术:NVLink与NVLink Switch
- NVLink:采用网状拓扑、差分信号传输等技术,NVLink 5 Switch支持单GPU-GPU带宽1800GB/s,可构建72GPU全互联域(总带宽130TB/s双向);NVLink 6/7将提升至3.6TB/s;
- 迭代路线:2024-2025年推出GH200/NVL72、GB200/NVL72,2026年推VR200/NVL72(总交换容量259.2TB/s),2027年计划推出NVL576(互联GPU达576颗)。
(2)代表产品:GB200 NVL72超节点
- 核心参数:算力180 PFLOPS(TF32),HBM内存13.8TB,Scale up单向带宽64800GB/s,功耗145KW;
- 互联方案:采用铜缆互联,含18个计算托盘(4GPU+2CPU/托盘)、9个交换托盘(2NVSwitch5芯片/托盘),总交换容量129.6TB/s。
2. 华为:开放协议,集群化追赶
(1)核心技术:灵衢(UB)协议
- 协议特点:2.0版本转向开放标准,支持统一互联(IO、内存访问、通信一体化),兼容nd-mesh、Clos等拓扑;
- 灵衢交换机:单设备交换容量19.2TB/s(约为NVSwitch5的3倍),含48个400G QSFP-DD端口。
(2)代表产品:CloudMatrix 384与Atlas 950
- CloudMatrix 384(2025年发布):384颗昇腾910C NPU,算力300 PFLOPS(BF16),Scale up单向带宽134400GB/s(为GB200的2.1倍),功耗600KW;
- Atlas 950(2026Q4发布):8192颗昇腾910DT NPU,算力8 EFLOPS(FP8),内存1152TB,互联带宽16.3PB/s,采用“柜内铜互联+柜间光互联”混合方案。
3. 谷歌:光互联路线,不对称竞争
(1)核心技术:OCS光电路交换机
- 技术优势:无需光电转换,每比特能耗较电交换机低数个数量级,延迟极小,可跨多代光模块复用;
- 核心组件:Palomar OCS含MEMS微镜模块(136个可用反射镜)、波分复用光收发模块、光环形器(减半端口/光纤数量)。
(2)代表产品:TPU v7超节点
- 迭代路线:从TPU v4(4096芯片)到TPU v7(9216芯片),完成技术标准化,2026年Anthropic将采购100万颗TPU v7;
- 核心参数:单芯片算力2307 TFLOPS(BF16),HBM内存192GB,采用4×4×4 Cube+3D Torus+OCS拓扑,支持千亿/万亿参数LLM训练。
4. AMD:开放标准,打造有力竞品
(1)核心技术:UALink协议
- 发展进度:2025年发布1.0,2026年推2.0,成员超100家,成为NVLink有力挑战者,2027年生态有望突破;
- 协议特点:基于标准以太网组件,支持铜缆/光缆,兼容多厂商GPU(AMD MI系列、英特尔Gaudi等)。
(2)代表产品:Helios机架
- 产品定位:双宽机架设计,MI455x系列对标英伟达NVL72,在功耗上具备显著优势;
- 扩展潜力:可扩展至144GPU配置,无需重新设计机架基础设施。
三、产业链机会与投资建议
1. 投资主线
- 头部厂商:谷歌(光互联技术壁垒)、AMD(UALink生态)、华为(国产替代)、英伟达(技术领先);
- 供应链环节:PCB背板、高速铜缆、光模块、供电与液冷系统(超节点功耗密集,液冷需求迫切);
- 关键部件:谷歌OCS核心零部件供应商、UALink标准下的交换机芯片研发商。
2. 市场表现
2023-2024年英伟达股价大幅跑赢,但2025年英伟达累计涨幅38%,显著落后于谷歌、AMD及A股中证算力指数,市场对非英伟达阵营价值重估持续。
4. 关键问题
问题1(技术路线):英伟达、谷歌、AMD、华为四大厂商的超节点核心技术路线有何差异?这种差异如何影响各自的竞争优势?
答案:
- 核心技术路线差异:① 英伟达:封闭专有路线,以NVLink/NVLink Switch为核心,铜缆互联,主打高带宽低延迟(单GPU-GPU带宽达3.6TB/s);② 谷歌:封闭专有路线,以OCS光交换机为核心,光互联架构,主打低功耗与大规模扩展(支持9216芯片集群);③ AMD:开放标准路线,推动UALink协议(成员超100家),兼容多厂商硬件,主打生态协同;④ 华为:半开放路线,灵衢2.0开放,采用集群化方案(多芯片堆叠),主打国产替代与性能追赶。
- 竞争优势影响:① 英伟达:技术成熟+软件生态(CUDA),短期领先但面临开放路线冲击;② 谷歌:光互联技术壁垒高,能耗优势显著,获Anthropic等外部客户认可;③ AMD:开放标准降低客户门槛,有望快速扩大市场份额;④ 华为:适配国内信创需求,集群化方案实现性能赶超,受益于国产替代政策。
问题2(行业逻辑):超节点行业的核心增长驱动因素是什么?Scale up网络与Scale out网络的关系的未来演变趋势是什么?
答案:
- 核心增长驱动因素:① 技术驱动:LLM参数从千亿级向万亿级演进,TP/EP并行对高带宽(千GB/s级)、低延迟(百纳秒级)需求刚性;② 竞争驱动:AI芯片厂商从“芯片性能竞争”延伸至“芯片+Scale up网络”双战场,谷歌、AMD、华为等打破英伟达垄断,推动行业创新;③ 需求驱动:AI训练/推理集群规模扩大,超节点可提升资源利用率(80%+ vs 30-50%),降低TCO。
- 网络关系演变趋势:① 短期互补:Scale up网络满足千卡级集群的低延迟需求,Scale out网络适配万卡级以上大规模扩展,两者针对不同场景协同;② 长期融合:英伟达已探索Scale up与Scale out网络融合,未来有望形成“本地超节点(Scale up)+ 跨区域扩展(Scale out)”的混合架构,兼顾性能与规模。
问题3(投资逻辑):超节点产业链的核心投资机会集中在哪些环节?选择标的时需重点关注哪些关键指标?
答案:
- 核心投资机会:① 头部厂商:技术路线领先或生态优势显著的企业(谷歌、AMD、华为、英伟达);② 供应链环节:受益于超节点量产的硬件供应商,包括PCB背板、高速铜缆、光模块(谷歌OCS配套)、液冷系统(功耗密集型场景刚需);③ 关键部件:OCS核心零部件(MEMS微镜、光环形器)、UALink交换机芯片。
- 重点关注指标:① 技术指标:厂商的互联带宽(GPU-GPU/芯片间)、支持芯片规模、功耗控制(如谷歌OCS功耗仅108W);② 商业指标:出货量(如英伟达2025年GB200/300 NVL72出货2800台)、客户落地(如AMD UALink生态成员数、华为灵衢协议适配厂商);③ 生态指标:开放标准的行业认可度、软件生态完善度(如CUDA对英伟达的支撑)。当前文件内容过长,豆包只阅读了前 7%。















暂无评论内容