Token经济时代，芯片企业如何破解算力瓶颈？-新闻中心-上海国际先进电子材料产业展览会（AEMS）-官网

Token经济时代，芯片企业如何破解算力瓶颈？

Agent与Token经济，正在重塑计算产业模型。GPU取代CPU成为最大芯片品类，存储芯片的容量、带宽翻倍增长，产业界对于超节点高速互联技术的关注逐步超越单卡性能……当堆砌单卡不再是提升集群效率的有效方式，且AI算力正在从云端“大脑”流向终端“末梢”，几乎所有领军的综合性半导体企业都在强调矩阵和生态。

在5月7日举办的2026新紫光集团创新峰会（以下简称“峰会”）上，新紫光集团市场规划中心副主任黄琛发布了“新紫光集团全家桶”，并称其为新紫光集团面向AI时代的全产业链布局。

黄琛发布新紫光集团全家桶

所谓全家桶，是包含芯片、ICT、AI三个板块的产品矩阵。其中芯片板块涵盖通信、计算、控制、联接、存储、器件等品类，ICT包含数字基础设施与智能制造，AI包含AI基座（AI工具、基座芯片、端侧AI芯片）和AI应用。

换句话说，新紫光已经构建了包含GPGPU、CPU、3D DRAM、GPU互联技术、光模块、智算交换机、超节点在内，从芯片到AI基础设施的全栈技术矩阵。

在当天下午的媒体采访中，新紫光集团联席总裁陈杰向《中国电子报》等媒体表示：“我们的全家桶没有英伟达那么高、那么大，但它会随着中国半导体产业的进步，做得越来越大。当前我们面临着比国外顶尖水平落后几代的制造工艺，在这样的条件下，要尽可能缩小全家桶中每款芯片与国外的差距。这就需要我们在核心芯片的架构、算法，包括协同、互联互通等方面，建立独特的技术优势。”

在Token经济时代，集群规模扩展难、算力资源效率低，是AI基础设施面临的主要瓶颈。相比单卡性能提升，存储和高速互联技术同样不容忽视，甚至更为关键。

在峰会上，新紫光前沿技术研究院执行院长、OT公司CEO李莺介绍了三维化近存计算创新架构“紫弦”，基于三维堆叠异构集成与“GPGPU+近存PNM”计算模式，该架构实现了30TB/s以上的存储带宽。现场发布信息显示，该架构首创4种功能芯粒集成，实现了3.5D三维化异质异构集成，以及3D堆叠高级封装、2.5D高级封装、MCM封装3种先进封装工艺的灵活结合，在显存带宽和显存容量上超过了HBM4双Die方案，并支持Scale up、Scale out高速集群互联，助力Agent工作负载的流畅运行与Token吞吐率提升。

“紫弦”架构与其他存储方案带宽、容量对比

李莺向记者表示，“紫弦”三维堆叠DRAM方案的最高带宽在30TB以上，而当前最新的HBM4方案，即便使用8颗，带宽也在10TB左右。基于“紫弦”，新紫光开发了近存架构。该架构有三个特点，一是 “靠得近”，比HBM还要靠近GPGPU；二是“连得密”，以“面访存”代替“边访存”，实现带宽、连线几十倍的提升；三是“存得快”，将大幅降低数据通信延迟。

陈杰也表示，数据存储影响了GPGPU超过50%的性能。传统的HBM模式的带宽提升较为有限，比如HBM3E的位宽是1024比特，HBM4预计提升一倍。但“紫弦”采用了面状的存储，带宽较HBM3E可以提升几十倍，从而解决了大算力芯片在“数据搬运”上的性能瓶颈。

而高速互联技术，是另一个破题思路。要发挥计算集群的效能，除了算力、存力，还需要运力，也就是多卡之间的高速互联和联合调度。

如果说“紫弦”解决的是“数据搬运”问题，那新紫光旗下LT和GT公司解决的就是“数据同步”问题。其中，LT公司聚焦南向互联，已经推出了GPU互联技术GT-Link,预计2026年全面商用；GT则专注北向互联。

李莺表示，GT-Link是专门用于超节点GPU互联的技术，未来还可以扩展到CPU之间的互联，将多台机器组成更大带宽、更低延迟、无损运算的超节点，使多颗GPU像一颗GPU一样工作，目前延迟可以低至300纳秒左右。

此外，要充分发挥智能体的潜力，需要云、边、端无感切换的AI体验。李莺指出，以GT-Link降低云端延迟的同时，紫光展锐在峰会发布的N9系列平台，将助力降低从云到端的通信延迟。一方面，N9集成的NPU能够以更短的延迟处理端侧AI负载；另一方面，紫光展锐在5G、6G的技术储备，能够使端侧与云侧的连接更加顺畅。

如果算力和存储是AI的大脑，那互联技术就是神经主干，端侧芯片则是神经末梢。可以预见的是，随着Token规模的指数级提升，产业界将更加注重算力、存力、运力的联动，以及云边端的整合，以适应快速攀升的模型规模与持续演进的AI算法。

“我们必须跟上大模型演进的节奏，在设计算力、联接、存储等芯片时，我们要保持良好的兼容性，提供一个开放的、对外兼容的体系，使大模型能够快速移植到我们的芯片基座上。”陈杰说，“另外，我们认为未来几年里，大模型有可能会收敛到某一种结构，届时我们的芯片设计也必须跟上，所以我们不会一直用通用的产品。针对一个快速收敛的大模型，比如它的核心、计算密集型的算法，我们有可能用一个路径直接实现它。”

责任编辑：赵强

作者：张心怡

来源：中国电子报、电子信息产业网

特别声明：文章转载其他网站内容，出于传递更多信息而非盈利之目的，同时并不代表赞成其观点或证实其描述，内容仅供参考。版权归原作者所有，若有侵权，请联系我们删除。