scale-up 和 scale-out 相关
- 之前普遍认为:内存语义就是 scale up,消息语义就是 scale out。但也开始有一种讨论,只要带宽够大、时延足够小、能接住 GPU 的 fanout 就是 scale up;否则带宽偏小就是 scale out
此外,业界也开始在让 scale out 也支持内存语义(让 GPU 访问 scale out 中其他卡就像访问内存一样),可能几种实现:
- 类似 910C,让交换机和网卡实行严格的 PFC(Priority Flow Control),强行不允许丢包,用暴力美学硬性兜底。问题是规模大了兜不住,网络拥塞会传播导致整个集群瘫痪
- 在网卡 NIC 上加一层“隐形的”传输层,处理掉网络的脏乱差(拥塞、丢包、乱序),从而向 GPU 呈现出“完美的”类内存接口
- 让 NIC 来负责 QP 连接相关的活,把 GPU 释放出来(避免像 dpsk V3 中 GPU SM 做通信)
- 内存 - 消息语义
- 内存语义网络,定义是通过 Load-Store(LD/ST)指令直接访问数据,核心是要低延迟 否则 CPU 和 GPU 要等;典型的比如 NVLINK、UALINK
- 消息语义网络,定义是只要数据的传输方式是通过打包发送;代表技术是 RDMA,里面有 IB、RoCE、UET(超以太网联盟 UEC 搞出的协议)
- UALINK 和 UEC 都是 AMD, Intel, Broadcom, Meta, Microsoft 这些搞出来的,但是一个想对抗 NVLINK,一个想对抗 IB
- RDMA 和 QP
- 其他名词
- SUE (Scalable Unified Ethernet):是一个 AMD 在推的比 IB 更灵活的新一代以太网技术理念,这个理念已经被 UEC 全盘接收了,i.e. 允许乱序发送 (Spraying) + 乱序重组 (Re-ordering)
- 康威定律:产品是组织架构的投影,i.e. 组织的架构是啥样会影响产品架构是怎样
- 比如 华为 910C,内部文化偏军队能做到令行禁止,采用的也是强制不丢包模式
- 比如 UEC,采用的是路线 2,让网卡自带 “隐形的”传输层;因为没有一个上帝能控制所有环节,i.e. 博通做网卡,思科做交换机,博通不指望思科的交换机不丢包
- 铜有物理极限(Copper Wall),i.e. Skin Effect 的发热和损耗,让高速传输距离很有限
- 无源铜缆 DAC(Direct Attach Cable)224G 甚至只能传 < 1m
- 解决 Copper Wall 的一些方法:机柜内用 AEC(Active Electrical Cable 有源电缆)/ Co-Packaged Copper (共封装铜缆,芯片封装直接接 Flyover 跳线,不经过 PCB,link);机柜外换光,用 CPO
- 光:LPO 和 CPO 在时间节点上,行业的判断也正在逐步收敛: link
- 2026年:800G 仍占主导,1.6T 开始放量,LPO / AEC 持续增长(AEC:Active Electrical Cable 有源电缆)
- 2027年:1.6T LPO 成为主流,CPO 进入小规模测试与验证阶段
- 2028年及以后:CPO 在特定场景(主要是纵向扩展的高密度系统)中开始规模化部署
业界动向
-
NVL72 狂堆网络拓扑 link
- 英伟达狂堆 NVLINK,主要还是想维护 CUDA 生态下,不断扩充 scale-up 规模,i.e. 把一个 SuperPoD 做成一个大 GPU
- 英伟达也在尝试解决 NVLink 对低延迟内存语义和细颗粒度访存的优化,未来极有可能 Scale-UP 和 Scale-Out 网络通过消息语义进行合并
-
反方向上,DeepSeek V3 也确实缩减了 Scale-up 的规模 link
- 一个200B参数、20B激活的MOE意味着100B左右Dense的效果+200B的显存容量需求+20B的显存带宽需求。从半导体的角度,容量比带宽扩展来得容易
-
AWS Trainium 2/3:https://mp.weixin.qq.com/s/q3_5hyYBiVRvy3jJEEKx1g
-
一些数字(预估)
资本开支 25-4500e,26-6000e,27-7500e
用于GPU 25-2000e,26-30000e,27-3500e
GPU数量 25-400w,26-600w,27-700w
光模块 25-1600w,26-2400w,27-3000w
光模块市场 25-250e,26-320e,27-400e
投资 ticker
<aside>
2512 近期美股AI硬件路演反馈与观点更新
[玫瑰]投资人普遍对AI趋势较为看好。相关行业中,光从Scale out到Scale up网络的渗透、在ASIC机柜中的配比提升使其成为成长性最高最确定的行业,是市场目前最喜欢的细分方向。ASIC渗透率提升确定性高,但投资人担心短期缺乏催化。交换机和液冷也受关注,但前者仍被担忧英伟达份额提升、行情已在去年演绎完,后者担忧中国厂商份额提升。
[玫瑰]本季度关注度最高的是光通信板块,其中LITE是市场最喜欢的标的,市场最看好的是光芯片涨价逻辑,并认为涨价会如公司指引的持续到27年,同时看好OCS成长性,担忧点在于光模块东南亚产能扩产节奏、硅光方案下光芯片价值量下滑。交易层面上,目前时间点投资人持有大于买入,考虑到基于明年业绩的估值差异,部分资金进行LITE到COHR的高低切,但长期更看好LITE。我们认为LITE是美股光模块里逻辑最好的标的,光芯片、OCS、CPO等高成长性业务使其能够享受估值溢价,仅从26年业绩测算,我们认为COHR空间更大,长期更看好LITE成长性。
[玫瑰]AI ASIC是我们长期看好的板块。其中谷歌链核心标的AVGO、CLS下半年涨幅较大,而在AVGO业绩后回调幅度均较多。市场担忧点我们已在此前段子中回应,集中路演过程中比较多提到的仍然是联发科竞争,大部分投资人和我们认为博通竞争壁垒高,无需过多担忧。博通长期逻辑优,需要更多考虑的是买点,上周博通最低交易在FY26 30倍以内,投资人和我们均认为是颇具吸引力的估值水平,目前我们仍然认为是较好的配置时机。大陆投资人普遍不喜欢CLS,认为估值较贵,较乐观预期下目前交易在26年27x P/E,我们认为CLS在AI ASIC板块中的稀缺性和高成长性能够解释高估值。
[玫瑰]交换机板块,我们推荐ANET,我们认为市场过度担忧出货模式由软硬件向硬件转变带来的利润率下滑,且仍然是AI交换机核心标的。液冷板块,我们建议关注VRT,市场份额虽面临竞争,但明年是液冷大规模放量第一年,在估值上会有奖励,且ASIC液冷渗透率有望提升。
[玫瑰]我们的板块排序:光通信(短期最具弹性,空间需切换至27年)、ASIC(长期确定性高、空间大、核心标的30%+空间,估值已调整,但短期催化少)、交换机(Scale out以太网渗透、估值已调整)、液冷(26年放量)。个股推荐排序:【AVGO、CLS、LITE、COHR、ANET、VRT】
</aside>
- 卖“光模块”相关的:
- 中际旭创 (300308.SZ):龙头,做 800G/1.6T 成品模块
- 新易盛 (300502.SZ):老二,做 800G/1.6T 成品模块
- 光迅科技 (002281.SZ):全产业链,做模块,也自研一部分光芯片
- AAOI:美股二线,做 400G/800G 成品模块(赌微软订单)
- 天孚通信 (300394.SZ):不做成品模块,卖光模块里面的核心组件,e.g. 无源器件比如透镜、光引擎,比如卖给旭创和新易盛
- 卖“互联芯片”的
- CRDO (Credo):AEC DSP 塞在铜线两头的芯片、Optical DSP 塞在光模块里的芯片(这个领域 MRVL 和 AVGO 更强)
- ALAB (Astera Labs):卖 Retimer,i.e. 贴在服务器主板上的信号放大芯片(铜线传不远,必须每隔一段加一个 Retimer 芯片)
- MRVL (Marvell):Optical DSP 光模块里的核心芯片(第一梯队)、交换机里的核心交换芯片
- AVGO (Broadcom):同上,交换芯片和 DSP 的霸主
- 卖“下一代光互联/计算芯片”的
- LITE (Lumentum):做 激光器 (EML)。虽然是老牌,但它是这些新技术的“光源”提供商(卖灯泡的),供货旭创新易盛
- Coherent (COHR):它既像 Lumentum 一样卖激光器芯片(EML/VCSEL)给别的厂,也像 中际旭创 一样直接卖 800G 成品模块(它是海外大厂里的头牌,但现在被中国厂商挤压很厉害)
- Ayar Labs(未上市):做 Optical I/O (OIO) 芯片,让光直接进封装(Chip-to-Chip)
- Celestial AI(未上市):做 Photonic Fabric,用光互联来连接分离的内存池,缓解 memory wall
- Lightmatter(未上市):做 光计算/光传导 (Passage),侧重 Wafer-Scale Interconnect (晶圆级互联)
- 卖“交换机整机”的:把上面所有的芯片、线、模块组装成一个柜子
- CLS (Celestica):帮 Google/Amazon 造定制的交换机和 AI 服务器,白牌整机/代工
- ANET (Arista Networks):卖交换机整机,但核心技术是主 Arista EOS 操作系统(能保证大规模集群的网络稳定性)但,其他的比如可能用了 Broadcom 的芯片、Coherent/旭创 的光模块、外壳和组装可能找了 CLS 代工
- **CIEN (Ciena):**一方面继续卖整机给电信公司,一方面卖“长距离传输”的可插拔光模块给 Hyperscalers,比如可以直接插在 Arista 的交换机上
- 其他
- **APH (Amphenol)、TEL (TE Connectivity):**卖“物理铜线缆/连接器”的,TEL 汽车业务占比较大
- FN (Fabrinet):帮 Nvidia 等造高精尖的光模块或器件(它是代工厂,不卖自己牌子)
- **VRT(Vertiv):**液冷 & 热管理

硅光:LPO、CPO 到 IOI
https://www.ednchina.com/author/photonwalker/
什么是 LPO:link) link
-
光模块的技术演进路径是:① 传统可拔插式光模块、② LPO(Linear-drive Pluggable Optics)、③ 板载光学 OBO(On Board Optics)或 NPO(Near packaged optics)、④ 共封装光学 CPO(Co-packaged optics) 通过 substracte 中的铜、⑤ OIO(Optical I/O )通过 Silicon Interposer
- 其中①和②:传统可拔插式光模块 和 LPO 都是可插拔的,区别是 LPO 去掉了光模块中的 DSP 芯片。在光模块中,只留下具有高线性度 Driver(驱动芯片)和 TIA(Trans-Impedance Amplifier,跨阻放大器),用于对高速信号进行一定程度的补偿。DSP 的功能让 Switch ASIC 交换芯片代劳
-
而从 LPO → OBO/NPO → CPO → IOI,技术路径演进的核心,是不断缩短电信号传输的路径长度
http://www.iccsz.com/site/cn/News/2024/05/10/20240510041742918588.htm
- 下图中,红色模块是光引擎(包含光收发模块、激光器、探测器等),灰色的是网络交换芯片(ASIC),绿色是PCB铜基板,蓝色是硅基板
- LPO:线性可插拔光学。支持热插拔,光引擎是放在PCB基板上
- OBO:板载光学
- CPO:共封装光学。把光引擎和ASIC放在同一个硅基基板上,形成共封装
- 光I/O(OIO):通过光纤在不同芯片之间传输信号,CPO 是 OIO 的一种集成化实现方式,OIO还可以通过硅光芯片实现
GPU 相关背景
- SIMD vs. SIMT
- 关于 Memory 的层次结构
- CUDA Core 和 Tensor Core 对比
- Tensor Core 的演进
- Tensor Core 的使用
- CUDA 和昇腾 CAAN 对应
Blackwell 系列解读
-
从 H 到 B,双 die 合封,但每个 die 的微架构的变化不大:
-
Blackwell 新增了 Tensor Memory
-
TensorCore 的争议:把 NV SIMT 优雅的抽象破坏了?
-
Blackwell 系列的机架架构:一个 rack 上分 compute tray 和 switch tray
存储
- 存储主要的分类:SRAM、DRAM(HBM / GDDR / LPDDR / 3D DRAM)、Flash(NAND / NOR)
- 3D dram

随着 DRAM 节点从 1X→1Y→1Z→1α→1β→1γ 不断缩⼩,对光刻分辨率的要求越来越⾼。技术上从 “沉浸式光刻” 向 “EUV 光刻” 过渡,曝光次数也从 “双重” 向 “四重” 甚⾄ “EUV 双重” 演变
DRAM 核心结构是 1T1C(1个晶体管 + 1个电容),电容很难微缩,所以在 20nm 往下,不再以多少 nm 数字来命名节点,而是用希腊字母 α, β, γ 等,来代表 Bit Density 的提升(单位晶圆能切出多少 GB)

中国没有先进光刻机,DRAM 只能到 1Z 的节点;芯盟通过做 3D 键合和混合键合,从⽴体堆叠的角度突破。难点:die的翘曲,功耗设计
国内做 3d dram 的:青耘(兆易)+ 长鑫、芯盟 + 新芯(长存背景)、紫光、华邦
- 青耘(兆易创新 GigaDevice 的子公司) + 长鑫存储 → 朱一明系
- 芯盟 + 新芯 XMC → 杨士宁系
- 紫光国芯(Fabless)、华邦电子(IDM)
- 其他:



- 存算一体,一定需要 SRAM 或者 3d DRAM 么?