欢迎来到  上海国际先进电子材料产业展览会 AEMS
Token经济时代,芯片企业如何破解算力瓶颈?


Agent与Token经济,正在重塑计算产业模型。GPU取代CPU成为最大芯片品类,存储芯片的容量、带宽翻倍增长,产业界对于超节点高速互联技术的关注逐步超越单卡性能……当堆砌单卡不再是提升集群效率的有效方式,且AI算力正在从云端“大脑”流向终端“末梢”,几乎所有领军的综合性半导体企业都在强调矩阵和生态。


在5月7日举办的2026新紫光集团创新峰会(以下简称“峰会”)上,新紫光集团市场规划中心副主任黄琛发布了“新紫光集团全家桶”,并称其为新紫光集团面向AI时代的全产业链布局。

177846393526035492.jpg

黄琛发布新紫光集团全家桶


所谓全家桶,是包含芯片、ICT、AI三个板块的产品矩阵。其中芯片板块涵盖通信、计算、控制、联接、存储、器件等品类,ICT包含数字基础设施与智能制造,AI包含AI基座(AI工具、基座芯片、端侧AI芯片)和AI应用。


换句话说,新紫光已经构建了包含GPGPU、CPU、3D DRAM、GPU互联技术、光模块、智算交换机、超节点在内,从芯片到AI基础设施的全栈技术矩阵。


在当天下午的媒体采访中,新紫光集团联席总裁陈杰向《中国电子报》等媒体表示:“我们的全家桶没有英伟达那么高、那么大,但它会随着中国半导体产业的进步,做得越来越大。当前我们面临着比国外顶尖水平落后几代的制造工艺,在这样的条件下,要尽可能缩小全家桶中每款芯片与国外的差距。这就需要我们在核心芯片的架构、算法,包括协同、互联互通等方面,建立独特的技术优势。”


在Token经济时代,集群规模扩展难、算力资源效率低,是AI基础设施面临的主要瓶颈。相比单卡性能提升,存储和高速互联技术同样不容忽视,甚至更为关键。


在峰会上,新紫光前沿技术研究院执行院长、OT公司CEO李莺介绍了三维化近存计算创新架构“紫弦”,基于三维堆叠异构集成与“GPGPU+近存PNM”计算模式,该架构实现了30TB/s以上的存储带宽。现场发布信息显示,该架构首创4种功能芯粒集成,实现了3.5D三维化异质异构集成,以及3D堆叠高级封装、2.5D高级封装、MCM封装3种先进封装工艺的灵活结合,在显存带宽和显存容量上超过了HBM4双Die方案,并支持Scale up、Scale out高速集群互联,助力Agent工作负载的流畅运行与Token吞吐率提升。


177846398117334766.png

“紫弦”架构与其他存储方案带宽、容量对比


李莺向记者表示,“紫弦”三维堆叠DRAM方案的最高带宽在30TB以上,而当前最新的HBM4方案,即便使用8颗,带宽也在10TB左右。基于“紫弦”,新紫光开发了近存架构。该架构有三个特点,一是 “靠得近”,比HBM还要靠近GPGPU;二是“连得密”,以“面访存”代替“边访存”,实现带宽、连线几十倍的提升;三是“存得快”,将大幅降低数据通信延迟。


陈杰也表示,数据存储影响了GPGPU超过50%的性能。传统的HBM模式的带宽提升较为有限,比如HBM3E的位宽是1024比特,HBM4预计提升一倍。但“紫弦”采用了面状的存储,带宽较HBM3E可以提升几十倍,从而解决了大算力芯片在“数据搬运”上的性能瓶颈。


而高速互联技术,是另一个破题思路。要发挥计算集群的效能,除了算力、存力,还需要运力,也就是多卡之间的高速互联和联合调度。


如果说“紫弦”解决的是“数据搬运”问题,那新紫光旗下LT和GT公司解决的就是“数据同步”问题。其中,LT公司聚焦南向互联,已经推出了GPU互联技术GT-Link,预计2026年全面商用;GT则专注北向互联。


李莺表示,GT-Link是专门用于超节点GPU互联的技术,未来还可以扩展到CPU之间的互联,将多台机器组成更大带宽、更低延迟、无损运算的超节点,使多颗GPU像一颗GPU一样工作,目前延迟可以低至300纳秒左右。


此外,要充分发挥智能体的潜力,需要云、边、端无感切换的AI体验。李莺指出,以GT-Link降低云端延迟的同时,紫光展锐在峰会发布的N9系列平台,将助力降低从云到端的通信延迟。一方面,N9集成的NPU能够以更短的延迟处理端侧AI负载;另一方面,紫光展锐在5G、6G的技术储备,能够使端侧与云侧的连接更加顺畅。


如果算力和存储是AI的大脑,那互联技术就是神经主干,端侧芯片则是神经末梢。可以预见的是,随着Token规模的指数级提升,产业界将更加注重算力、存力、运力的联动,以及云边端的整合,以适应快速攀升的模型规模与持续演进的AI算法。


“我们必须跟上大模型演进的节奏,在设计算力、联接、存储等芯片时,我们要保持良好的兼容性,提供一个开放的、对外兼容的体系,使大模型能够快速移植到我们的芯片基座上。”陈杰说,“另外,我们认为未来几年里,大模型有可能会收敛到某一种结构,届时我们的芯片设计也必须跟上,所以我们不会一直用通用的产品。针对一个快速收敛的大模型,比如它的核心、计算密集型的算法,我们有可能用一个路径直接实现它。”


责任编辑:赵强

作者:张心怡

来源:中国电子报、电子信息产业网


特别声明:文章转载其他网站内容,出于传递更多信息而非盈利之目的,同时并不代表赞成其观点或证实其描述,内容仅供参考。版权归原作者所有,若有侵权,请联系我们删除。