首页 > 实时讯息 >

华为昇腾384超节点首秀线下,荣膺WAIC 2025“镇馆之宝”

时间: 2025-07-28 17:09:00

在本次WAIC(世界人工智能大会)上,华为首次线下展出了昇腾384超节点,也就是Atlas 900A3 SuperPoD。据悉,该产品凭借其卓越的性能与创新的技术,被评选为本次WAIC 2025的“镇馆之宝”。

昇腾384超节点基于超节点架构,通过总线技术实现了384个NPU之间的大带宽、低时延互联,这一技术突破有效解决了集群内计算、存储等各资源之间的通信瓶颈。同时,通过系统工程的优化,该超节点实现了资源的高效调度,能够像一台计算机一样高效协同工作。

其实,昇腾超节点(CloudMatrix 384)早在今年5月份的鲲鹏昇腾开发者大会上就已推出。它的推出旨在应对由服务器、存储、网络等设备堆叠而成的传统集群,在大规模训练时面临的资源利用率低、故障频发等挑战。

昇腾超节点具备超大带宽、超低时延、超强性能三大优势,涵盖多款训练和推理产品,基于其创新的超节点架构,能够更好地满足模型训练和推理对低时延、大带宽以及长稳可靠的要求。

值得一提的是,华为的昇腾384超节点成功实现了业界最大规模的384卡高速总线互联。以该超节点为基础构建的AI算力集群解决方案CloudMatrix 384,以384颗昇腾芯片为核心,通过全互连拓扑架构实现了芯片间的高效协同。

据官方数据显示,该方案可提供高达300 PFLOPs的密集BF16算力,性能接近英伟达GB200 NVL72系统的两倍。

今天华为中国微博发文称:

昇腾384超节点Atlas 900 SuperPoD被评选为本次WAIC 2025镇馆之宝!

它通过高速互联总线,突破互联瓶颈,让超节点像一台计算机一样工作。相比传统集群,主要有以下3大优势:

①超大带宽:

超节点内任意两个AI处理器之间通信带宽,相较于传统架构提升15倍,超节点内单跳时延降低10倍。

②超低时延:

昇腾超节点支持全局内存统一编址,具备更高效的内存语义通信能力。通过更低时延指令级内存语义通信,可满足大模型训练/推理中的小包通信需求,提升专家网络小包数据传输及离散随机访存通信效率。昇腾384超节点Atlas 900 SuperPoD是业界唯一突破Decode时延15ms的方案,满足实时深度思考下的用户体验需求。

③超强性能:

经过实际测试,在昇腾超节点集群上,LLaMA3等千亿稠密模型训练性能可达传统集群的2.5倍以上。在通信占比更高的Qwen、DeepSeek等多模态、MoE模型上,可以达到3倍以上的提升。

(10217510)