2026年6月24日,OpenAI与博通(Broadcom)联合发布了首款定制AI推理加速芯片——Jalapeño。这一消息在AI芯片领域引发巨大震动,因为从芯片设计到完成流片,Jalapeño仅用了270天,创下了AI芯片开发速度的历史纪录。相比之下,传统的AI芯片开发周期通常为18-24个月。
Jalapeño芯片的快速开发得益于OpenAI在AI算法领域的深厚积累和博通在芯片设计方面的丰富经验。据了解,OpenAI利用自己的AI模型对芯片架构进行了大量模拟和优化,大幅缩短了传统芯片设计中反复迭代验证的时间。博通则贡献了其在先进封装、高速互联和功耗管理方面的核心技术。
Jalapeño并非通用计算芯片,而是一款专门为AI推理工作负载设计的专用芯片。它优化的核心场景包括:高吞吐量的实时推理服务(如ChatGPT的对话响应)、低成本编码模型执行(如Codex的代码生成)、以及中等规模模型的批量推理处理。与英伟达的通用GPU相比,Jalapeño在推理场景下实现了2-3倍的能效比提升。
Jalapeño芯片的技术架构体现了"专为推理而生"的设计哲学。与传统GPU庞大的通用计算单元不同,Jalapeño采用了一种称为"稀疏计算引擎"的独特架构——针对大模型推理过程中普遍存在的激活稀疏性进行优化,只对非零元素进行计算,从而大幅降低不必要的计算开销。
在内存子系统方面,Jalapeño采用了高带宽内存(HBM3e)与超大容量片上SRAM的组合方案。其片上SRAM容量达到了惊人的256MB,足以容纳主流大模型推理过程中的关键中间状态,显著减少了芯片与外部内存之间的数据搬运次数。据OpenAI公布的数据,这一设计使Jalapeño在运行GPT-5.6级别模型时,内存访问能耗降低了约65%。
在互联架构上,Jalapeño支持新的芯片间通信协议,可以在不依赖外部交换机的情况下实现数百颗芯片的线性扩展。这一能力对于大规模集群部署至关重要——OpenAI计划在其数据中心内部署由超过10万颗Jalapeño芯片组成的推理集群,将推理成本降低至现有方案的40%。
OpenAI自研芯片Jalapeño的发布,核心驱动力是对英伟达GPU依赖的降低。作为全球最大的AI推理服务提供商之一,OpenAI对英伟达GPU的依赖程度极高——据估计,OpenAI每年向英伟达支付的算力费用超过50亿美元,占公司运营成本的很大比重。这种深度依赖使OpenAI在议价能力和供应链稳定性方面处于被动位置。
2025年英伟达B200 GPU良率不及预期导致高端算力紧张的事件,进一步坚定了OpenAI自研芯片的决心。当时,英伟达B200的供应短缺直接影响了OpenAI的模型训练和部署计划,迫使公司不得不推迟部分产品的发布时间。这次教训让OpenAI管理层意识到,在芯片层面实现战略自主是确保公司长期竞争力的必要条件。
但OpenAI并不打算完全抛弃英伟达。据知情人士透露,OpenAI的战略是"混合算力"——在通用训练和需要最高性能的场景继续使用英伟达GPU(如即将发布的Rubin架构),而在大规模推理和在线服务场景使用Jalapeño。这种混合策略既保证了性能竞争力,又降低了单一供应商风险。
Jalapeño的发布进一步加速了AI芯片市场从"英伟达一家独大"到"百花齐放"的格局演变。2026年的AI芯片市场呈现出前所未有的多元化态势:英伟达以Rubin架构坚守高端训练市场,AMD MI400X快速填补中高端缺口,Google TPU v6在云端推理领域持续迭代,而OpenAI Jalapeño、微软MAI芯片和亚马逊Trainium2则构成了云服务巨头自研芯片的第二梯队。
在中国市场,华为昇腾920、寒武纪思元590以及壁仞科技等国产AI芯片也在加速追赶。虽然与国际一流水平仍存在差距,但国产AI芯片在特定场景下的表现已经具备了实际应用价值。特别是华为昇腾系列配合CANN 8.0软件生态,在PyTorch 3.0支持方面取得了关键突破。
AI芯片市场的多元化对AI产业整体是利好消息。竞争推动了芯片性能的快速提升和价格的持续下降——预计到2027年,AI推理的单位成本将降至2025年的30%左右。这对于AI应用的普及和商业化具有重要的基础性意义。
来源:OpenAI官方博客、AnandTech、半导体行业观察、Reuters、The Information
发布时间:2026-06-26