2026年6月中旬,在夏威夷举行的2026年IEEE超大规模集成电路技术与电路研讨会(VLSI 2026)上,英伟达Research团队带来了一个重磅报告——《基于硅光子学的先进光互联赋能AI计算》。报告系统阐述了AI算力爆发背景下,传统GPU集群互联架构所面临的核心矛盾,以及基于硅光子技术的光互联方案如何突破这些限制。当全球AI算力正从"万卡级"向"十万卡级"甚至"百万卡级"迈进时,互联瓶颈正在替代单芯片算力成为制约AI模型训练规模的最核心约束。
英伟达研究团队在报告中首先抛出了一组令人警醒的数据:当前基于铜缆的NVLink和以太网互联方案在万卡级GPU集群中已经接近其物理极限。在192个GPU的小型集群中,互联带宽尚能满足计算需求的约85%;但当集群规模扩展到8192个GPU时,互联带宽与计算需求的差距扩大到了近三倍——计算能力增长了约40倍,而互联带宽仅增长了约12倍。这一差距随着集群规模的进一步扩大而持续加速,成为AI模型训练效率和扩展性的关键制约因素。
功耗问题是互联架构面临的另一个严峻挑战。在十万卡级集群中,仅用于互联的功耗就占到了集群总功耗的15%~20%。英伟达测算,在100万GPU的超大规模集群中,如果继续使用传统铜缆互联方案,互联功耗将占集群总功耗的30%以上,这不仅意味着巨大的电力成本支出,也带来了散热和运营层面的沉重负担。在AI产业对能源效率的日益关注下,"互联功耗墙"正在成为与"计算功耗墙"同等重要的工程课题。
英伟达还特别指出了距离限制对集群架构设计的约束。铜缆信号的传输距离在高速率下被严格限制——在200Gbps以上的速率下,高质量铜缆的有效传输距离不超过3米。这意味着GPU服务器之间的物理间距必须被压缩在极小的范围内,对数据中心集群的散热设计、布线和维护都造成了巨大挑战。在一些场景中,数据中心不得不为了迁就铜缆的距离限制而牺牲集群布局的优化方案,导致冷却效率下降和运维成本上升。
英伟达提出的硅光子学光互联方案在多个维度上展现出对铜缆的压倒性优势。硅光子技术利用标准CMOS工艺在硅基底上集成光发射器(激光器)和光接收器(光电探测器),实现"电信号→光信号→电信号"的完整传输链路。与传统的铜缆方案相比,硅光子互联在带宽密度方面实现了数量级的提升——单根光纤在理论上可以承载数百个不同波长的光通道,每个通道以数百Gbps的速率传输数据,总带宽达到惊人的Tbps级别。
在功耗方面,硅光子互联同样具有显著优势。英伟达报告中的数据表明,在相同传输速率下,硅光子互联的单位比特能耗仅为铜缆的40%~50%。这意味着在同等互联带宽需求下,采用光互联方案的集群互联功耗将降低约60%。在十万卡集群的场景中,仅互联功耗一项就能节省数百千瓦到数兆瓦的电力,对应的是每年数百万到数千万元的电费节约。在ESG(环境、社会和治理)合规和运营成本双重压力下的数据中心行业,这是极具吸引力的升级方案。
硅光子技术在传输距离方面的优势更为突出。单模光纤的传输距离在合理的光功率预算下可以达到数百米甚至数公里,完全消除了铜缆在数据中心内3米的"隐形围墙"。这使得数据中心的GPU集群不再被强制约束在狭小的物理空间中,工程师可以根据散热、供电和运维的需要灵活设计集群布局,甚至可以在地理上分布的多个数据中心之间实现"逻辑上的单一大集群"。这种架构灵活性的释放,对于未来百万卡级AI算力的部署方案设计具有重要意义。
英伟达硅光子学研究的发布恰逢全球光芯片产业链的产能军备竞赛热潮。2026年第二季度,美国、日本和欧洲的半导体巨头同步加码了磷化铟衬底、晶圆级光芯片制造和硅光异质集成等关键环节的产能投资。英特尔、台积电和GlobalFoundries等晶圆代工厂相继宣布了硅光子平台的量产计划,目标是在2027年前实现硅光子芯片的规模化商业供货。
中国光芯片厂商在这一轮产能扩张中也没有缺席。华为海思、中际旭创和新易盛等国内光模块和光芯片企业在2026年上半年集中释放了扩产计划。华为海思在武汉的光芯片制造基地二期产线于2026年5月正式投产,将磷化铟光芯片的月产能提升了约50%。中际旭创在苏州的硅光模块生产基地也完成了三期扩建,1.6T光模块的年产能提升至200万只以上。这些产能扩张使中国在光芯片产业链的多个环节上正在从"追赶者"向"并跑者"转变。
算力需求驱动的光芯片产业扩张也带来了一些隐忧。磷化铟衬底作为高速光芯片的关键材料,目前全球的供应高度集中在日本(住友电工和JX金属等),产能扩充速度受到衬底生产设备交期的限制。部分光芯片厂商的扩产计划可能因为衬底供应不足而推迟。这一供应链风险与中国AI芯片领域面临的技术挑战类似,光芯片产业同样需要通过材料科学创新和多供应商策略来降低供应集中的风险。
英伟达硅光子学光互联技术的突破,如果能够按照预期路线实现商业化落地,将对AI产业的整体发展格局产生深远影响。最直接的影响是大幅提升超大规模AI模型训练的可行性——当前限制GPT-6或Claude Fable 6等更大规模模型训练的核心瓶颈之一正是GPU集群互联的带宽和效率。光互联方案如果能将集群规模从万卡级提升到十万卡级甚至百万卡级,就为大模型规模的持续增长打开了新的技术空间。
从成本角度看,光互联技术的普及将在降低AI基础设施的互联成本方面发挥作用。虽然硅光子芯片的初期制造成本高于铜缆方案,但规模化量产后,光互联的每比特传输成本有望降至铜缆的50%~70%,同时伴随更高的可靠性和更低的运维成本。对于大规模部署AI基础设施的云服务商和科技巨头来说,互联成本的每降低一个百分点都对应着数千万乃至数亿元的年度成本节约。
从产业格局来看,光互联技术的成熟还将改变AI算力基础设施的供应链结构。传统上,AI算力基础设施的价值高度集中在GPU计算芯片上,互联方案在整体成本中的占比相对较低。但随着光互联技术的复杂性和价值占比提升,互联方案正在从"附属性组件"升级为"战略性技术"。谁掌握了先进光互联技术,谁就拥有了AI算力方案的定义权和话语权。英伟达通过硅光子学研发在互联技术领域抢占先机,正是对这一趋势的主动布局。对于华为、AMD和英特尔等追赶者和替代者来说,光互联能力也将成为算力市场竞争的重要因素。