首页新鲜数据中国电子行业-华为云CLOUDMATRIX384:超节点突破与国产算力的自主崛起

中国电子行业-华为云CLOUDMATRIX384:超节点突破与国产算力的自主崛起

时间2025-04-14 22:20:36浏览9

中国电子行业-华为云CLOUDMATRIX384:超节点突破与国产算力的自主崛起

事件
2025 年4 月10 日,以“聚力共创,加速行业智能跃迁”为主题的华为云生态大会2025 在安徽芜湖召开。华为公司常务董事及云计算CEO 张平安在大会上公布了AI 基础设施架构突破性新进展。推出基于新型高速总线架构的CloudMatrix 384 超节点集群——由384 张昇腾芯片组成的超大云服务器,通过全面的架构创新,在算力、互联带宽、内存带宽等方面实现全面领先,并已在芜湖数据中心规模上线。
点评
华为云推出的CloudMatrix 384 超节点集群通过新型高速总线架构实现多项技术突破。该架构采用全对等互联总线和共享以太网技术,将资源互联带宽提升了10 倍以上。同时,单集群集成384 张昇腾芯片,算力密度与内存带宽均实现行业领先,支持超大规模MoE 模型高效推理,极大简化开发复杂度并降低算力成本。
CloudMatrix 384 超节点在规模及推理性能上比肩英伟达NVL72 超节点。此前,英伟达NVL72 系统最大支持72 卡集群,而华为通过“384 卡无收敛组网”技术,将单节点规模扩展至384 卡,成为全球最大的商用AI 算力集群。实际测试中,硅基流动基于CloudMatrix 384 部署DeepSeek-R1 模型,在单用户20TPS 负载下实现1920 tokens/秒 的吞吐量,超越国际主流芯片的1850 tokens/秒,且生成精度在知识问答、代码生成等任务中表现更优。然而值得注意的是,单个NVIDIA HGX H200 系统(8 张H200 芯片)部署DeepSeek-R1 NIM 可达到3872 tokens/秒,虽此比较受限于模型和测试条件的差异,但CloudMatrix 384 凭借384 张芯片规模在处理大规模MoE 架构模型时展现出独特优势。
在资源有限的场景下(如边缘计算),NVIDIA HGX H200 系统的每GPU 性能优势更明显;在数据中心超大规模部署中,CloudMatrix 384 的规模优势更突出。
AI 基础设施是大模型落地的关键支撑。DeepSeek 的高效、低成本MoE 架构虽然为应对大模型推理挑战打开了局面,但其成功部署离不开强大的AI 基础设施技术能力。CloudMatrix 384 通过高带宽、低延迟的架构设计,使MoE模型推理效率大幅提升。CloudMatrix 384 的单节点超大规模特性可容纳更多MoE 并行计算,而无需频繁跨服务器通信,显著降低开发门槛。这种能力为AI 应用从实验室走向商业化提供了高效、低成本的算力底座,成为应对大模型推理挑战的核心驱动力。
CloudMatrix 384 的全栈自主研发特性,为国产AI 崛起注入强心剂。我们认为,在地缘政治波动背景下,其摆脱对海外芯片依赖的能力至关重要。同时,华为云通过昇腾AI 云支持160 余种第三方大模型(如DeepSeek),推动国产生态快速成型。这种“基础设施+模型”的协同模式,不仅验证了软硬一体化的可行性,更预示着中国AI 产业正从“单点突破”转向“系统性领先”,为全球AI 竞争提供自主可控的解决方案。
风险
行业竞争加剧,落地不及预期,宏观经济波动等

本文来源转载:

太阳能行业周报:两部委提出加快推进虚拟电厂发展指导意见 产业链价格基本持平 建筑装饰行业专题研究:“一带一路”系列报告之一:展望一带一路超10万亿基建市场 重视东南亚轨交、港口等需求释放