又是娃为,居然卖得比女大贵三倍
版主: Softfist
#1 又是娃为,居然卖得比女大贵三倍
Huawei's Latest CloudMatrix 384 AI Cluster Puts NVIDIA's AI Dominance In Jeopardy, Especially In Regions Like China
Huawei Starts Delivering Its CloudMatrix 384 AI Clusters To Chinese Customers; Costs Three Times Higher Than NVIDIA’s GB200 NVL72 System
https://wccftech.com/huawei-starts-deli ... customers/
元芳你怎么看?谢谢美国制裁。。。美国收了华为的黑钱吗?
Huawei Starts Delivering Its CloudMatrix 384 AI Clusters To Chinese Customers; Costs Three Times Higher Than NVIDIA’s GB200 NVL72 System
https://wccftech.com/huawei-starts-deli ... customers/
元芳你怎么看?谢谢美国制裁。。。美国收了华为的黑钱吗?
#2 Re: 又是娃为,居然卖得比女大贵三倍
https://wccftech.com/huaweis-ascend-910 ... 2-systems/
Huawei’s Ascend 910C AI Chip Cluster “CloudMatrix” To Outperform NVIDIA’s “Blackwell” GB200 NVL72 Systems; China Catches Up The AI Hardware Gap With The US
Huawei’s Ascend 910C AI Chip Cluster “CloudMatrix” To Outperform NVIDIA’s “Blackwell” GB200 NVL72 Systems; China Catches Up The AI Hardware Gap With The US
#4 Re: 又是娃为,居然卖得比女大贵三倍
新开发成本没法摊薄,外加生产良率只有40%。
三倍价钱算不错的,哪怕十倍都没问题。
只要是钱能解决的都不是大问题。
只要有进步,土鳖补贴得起。
只要占住土鳖国内市场,快速迭代,很快就能反杀女大。
三倍价钱算不错的,哪怕十倍都没问题。
只要是钱能解决的都不是大问题。
只要有进步,土鳖补贴得起。
只要占住土鳖国内市场,快速迭代,很快就能反杀女大。
x1

#5 Re: 又是娃为,居然卖得比女大贵三倍
5毛天天BB。华伪一年的营业额根本不如英伟达1300亿美元。半导体部门海思更是小的可怜,一年营业额也就7-80亿美元,不足英伟达三个星期的销量,除了吹牛能show me the money·
#8 Re: 又是娃为,居然卖得比女大贵三倍
等搞定EUV光刻机再看,美帝举国之力卡脖子不公平。
itspid 写了: 2025年 5月 1日 07:28 5毛天天BB。华伪一年的营业额根本不如英伟达1300亿美元。半导体部门海思更是小的可怜,一年营业额也就7-80亿美元,不足英伟达三个星期的销量,除了吹牛能show me the money·
#10 Re: 又是娃为,居然卖得比女大贵三倍
不如是事实,我蒂为啥要害怕?不然为啥倾国家之力甚至多个国家之力打压一个“小”私营公司?什么逻辑,什么理由?itspid 写了: 2025年 5月 1日 07:28 5毛天天BB。华伪一年的营业额根本不如英伟达1300亿美元。半导体部门海思更是小的可怜,一年营业额也就7-80亿美元,不足英伟达三个星期的销量,除了吹牛能show me the money·
x1

#12 Re: 又是娃为,居然卖得比女大贵三倍
因为制程被卡脖子,没人在意耗电和单片性能,大不了多堆几片,补贴得起。
关键是软件栈的可用性,网络互联和调度性能。
只要占住那么大的土鳖国内市场,软件迭代是很快的。
现在有能力搞AI的也就中美两家,美帝主动放弃中国市场是取死之道。
关键是软件栈的可用性,网络互联和调度性能。
只要占住那么大的土鳖国内市场,软件迭代是很快的。
现在有能力搞AI的也就中美两家,美帝主动放弃中国市场是取死之道。
x1

#13 Re: 又是娃为,居然卖得比女大贵三倍
不是卖得贵三倍, semi analysis 推测CloudMatrix 384 得能耗是 Nvidia's GB200 NVL72 的3.9 倍。redot 写了: 2025年 5月 1日 05:02 Huawei's Latest CloudMatrix 384 AI Cluster Puts NVIDIA's AI Dominance In Jeopardy, Especially In Regions Like China
Huawei Starts Delivering Its CloudMatrix 384 AI Clusters To Chinese Customers; Costs Three Times Higher Than NVIDIA’s GB200 NVL72 System
https://wccftech.com/huawei-starts-deli ... customers/
元芳你怎么看?谢谢美国制裁。。。美国收了华为的黑钱吗?
Huawei's new AI CloudMatrix cluster beats Nvidia's GB200 by brute force, uses 4X the power
概括一下 semi analysis 的分析就是, 虽然performance +2倍, 但是能耗+4 倍。
能耗这一点, semi analysis分析大概率不是不准的。
#14 Re: 又是娃为,居然卖得比女大贵三倍
performance两杯能耗四倍那是很牛逼的事情了
看看女大游戏gpu从3080到5090性能有两杯么
看看女大游戏gpu从3080到5090性能有两杯么
Appleplum 写了: 2025年 5月 1日 09:28 不是卖得贵三倍, semi analysis 推测CloudMatrix 384 得能耗是 Nvidia's GB200 NVL72 的3.9 倍。
Huawei's new AI CloudMatrix cluster beats Nvidia's GB200 by brute force, uses 4X the power
概括一下 semi analysis 的分析就是, 虽然performance +2倍, 但是能耗+4 倍。
能耗这一点, semi analysis分析大概率不是不准的。
#15 Re: 又是娃为,居然卖得比女大贵三倍
Huawei Starts Delivering Its CloudMatrix 384 AI Clusters To Chinese Customers; Costs Three Times Higher Than NVIDIA’s GB200 NVL72 SystemAppleplum 写了: 2025年 5月 1日 09:28 不是卖得贵三倍, semi analysis 推测CloudMatrix 384 得能耗是 Nvidia's GB200 NVL72 的3.9 倍。
Huawei's new AI CloudMatrix cluster beats Nvidia's GB200 by brute force, uses 4X the power
概括一下 semi analysis 的分析就是, 虽然performance +2倍, 但是能耗+4 倍。
能耗这一点, semi analysis分析大概率不是不准的。
#19 Re: 又是娃为,居然卖得比女大贵三倍
CloudMatrix 384 对标的是NVL 72
英伟达缺陷是通信的技术积累只在芯片这一级,靠收购买了几家小公司. 再往上往大规模走, 自身就没有实力了. 现在看点是华为的920, 应该是基于UB Mesh的实现了. 据说是用中芯6nm技术.
英伟达也没有万卡的设计思路, 自身能力已经限制了英伟达系统的扩展能力.
CloudMatrix 384 商用上线,国产算力破局元年。从发布历程来看,CloudMatrix 384 于今年4 月10 日在华为云生态大会上正式发布,在面向AI时代海量算力需求背景下,华为云实现从服务器级到矩阵级的资源供给模式转变。目前,CloudMatrix 384 超节点已在芜湖地区规模部署,并在实际应用中展现出强劲性能。在70 亿参数规模的DeepSeek-R1 模型训练中,相较于H100集群,迭代速度提升1.8 倍,高横向带宽架构有效突破了算例性能与集群线性扩展的瓶颈。同时硅基流动也在同日宣布,基于CloudMatrix 384 超节点、曻腾云服务及高性能推理框架SiliconLLM,完成了DeepSeek-R1 模型的推理上线。
测试效果显示,在用户保持20 TPS 水平下,系统推理吞吐量达到1920 tokens/s,有效比肩H100。同时,经过主流测试集验证及大规模线上盲测,在昇腾算力部署 DeepSeek-R1 的模型精度与 DeepSeek 官方保持一致。而在4 月26 日,CloudMatrix 384 在中国电信粤港澳大湾区(韶关)的商用落地,也标志着华为云在超节点集群领域的重要突破。展望未来,我们认为CloudMatrix 384 在地方算力数据中心的商用突破有望为CSP 厂商认证提供基础,同时华为云超节点加速规模化布局,整体部署增量有望持续释放。
系统级创新的全面升级,CloudMatrix 384 在芯片、架构、软件生态多维提升:
1)芯片方面,CloudMatrix 384 超节点基于384 颗昇腾910C 芯片构建。
910C 作为当前昇腾系列最先进的AI 芯片,集成530 亿晶体管,采用Davinci增强架构,集成64 个AI Core,支持多单位混合精度计算。同时,910C 应用3DFabric 封装技术,实现Die-to-Die 带宽500GB/s,显著提升芯片间互联效率,强化并行处理能力。在能效方面,910C 通过三维堆叠散热设计与液冷冷却方案,实现2.5kW/片的热密度,单颗功耗仅310W,相较上一代下降约40%,进一步强化高密度集群部署能力。
2)架构方面,为满足超大规模集群需求,华为云对系统架构进行了深度优化。
完整超节点由16 个机柜组成,其中12 个为计算机柜,每柜配置32 颗GPU,中央4 个机柜部署Scale-Up 交换设备。系统采用Scale Up 网络通过单层架构实现GPU 全互联,整体网络基于16800 台模块化交换机,搭建扁平化拓扑以降低延迟。为支撑数百颗GPU 的全互联能力,华为云在每颗GPU 上配备7 个400G光收发器,通过堆叠设计实现2800 Gbit/s 的Scale Up 带宽。同时因采用单层扁平化拓扑,交换机端亦部署同样规模的光模块,整体形成5376 个收发器用于Scale Up 网络,额外1536 个用于Scale Out 网络,总共搭配6912 个400G 光收发器,有效保障了功能指标的达成。
3)软件方面,CloudMatrix 384 依托910C 芯片在性能优化与适配效率上实 现了显著提升。系统全面升级至CANN 6.0,并实现对CUDA 生态的代码自动转换并兼容PyTorch 等主流框架,大幅降低开发者的代码迁移成本。同时,系统适配MindSpore 3.0,通过引入动态图优化与自动并行技术,模型训练效率提升30%。
华为云在系统工程设计、光互联、网络架构及软件适配方面持续优化,使CloudMatrix 384 能够在超大规模集群中实现更高效的算力利用,进一步强化在全球AI 基础设施竞争格局中的整体竞争力。
CloudMatrix 384 集群性能全面对标NVL72。CloudMatrix 384 在五倍芯片堆叠配置下,在算力指标上优势明显:BF16 性能达到300 PFLOPS,约为GB200 NVL72 的1.7 倍;HBM 总容量达49.2TB,是GB200 的3.6 倍;总内存带宽达1229 TB/s,为GB200 的2.1 倍;但在功耗上,CloudMatrix 384 总功率上达到559.4kW,是GB200 NVL72 的近四倍功耗,每FLOP 计算功耗也高出 2.3 倍,预计将会带来更多的电力成本。能耗设计上的取舍,换来了在大规模训练及推理场景下显著的性能释放。但考虑到未来硬件和系统架构的持续升级,随着算力性能同步提升,系统能耗问题也有望逐步得到优化与改善。
CloudMatrix 384 正式推出,相关供应链有望迎来新一轮放量。液冷方面,集群密度大幅提升将带来更高的热管理需求,英维克、申菱环境作为华为液冷系统核心供应商,有望受益份额提升;电源方面,384 颗910C 芯片集中部署带动整体功耗上升,泰嘉股份、欧陆通等电源供应链企业预计将获得持续增量;芯片领域,超节点有望在多地超算中心落地部署,将带动中芯国际等核心晶圆代工厂商需求增长;在高速连接器方面,随着超节点规模化落地,相关需求有望快速增长,预计华丰科技等核心供应商有望在需求增长中收益;PCB/CCL 方面,深南电路、南亚新材、生益科技作为华为重点供应商,有望随超节点建设获得新一轮订单需求;同时,在多相控制器领域,杰华特也有望在新一轮高性能AI 集群建 设中实现价值量提升。
英伟达缺陷是通信的技术积累只在芯片这一级,靠收购买了几家小公司. 再往上往大规模走, 自身就没有实力了. 现在看点是华为的920, 应该是基于UB Mesh的实现了. 据说是用中芯6nm技术.
英伟达也没有万卡的设计思路, 自身能力已经限制了英伟达系统的扩展能力.
CloudMatrix 384 商用上线,国产算力破局元年。从发布历程来看,CloudMatrix 384 于今年4 月10 日在华为云生态大会上正式发布,在面向AI时代海量算力需求背景下,华为云实现从服务器级到矩阵级的资源供给模式转变。目前,CloudMatrix 384 超节点已在芜湖地区规模部署,并在实际应用中展现出强劲性能。在70 亿参数规模的DeepSeek-R1 模型训练中,相较于H100集群,迭代速度提升1.8 倍,高横向带宽架构有效突破了算例性能与集群线性扩展的瓶颈。同时硅基流动也在同日宣布,基于CloudMatrix 384 超节点、曻腾云服务及高性能推理框架SiliconLLM,完成了DeepSeek-R1 模型的推理上线。
测试效果显示,在用户保持20 TPS 水平下,系统推理吞吐量达到1920 tokens/s,有效比肩H100。同时,经过主流测试集验证及大规模线上盲测,在昇腾算力部署 DeepSeek-R1 的模型精度与 DeepSeek 官方保持一致。而在4 月26 日,CloudMatrix 384 在中国电信粤港澳大湾区(韶关)的商用落地,也标志着华为云在超节点集群领域的重要突破。展望未来,我们认为CloudMatrix 384 在地方算力数据中心的商用突破有望为CSP 厂商认证提供基础,同时华为云超节点加速规模化布局,整体部署增量有望持续释放。
系统级创新的全面升级,CloudMatrix 384 在芯片、架构、软件生态多维提升:
1)芯片方面,CloudMatrix 384 超节点基于384 颗昇腾910C 芯片构建。
910C 作为当前昇腾系列最先进的AI 芯片,集成530 亿晶体管,采用Davinci增强架构,集成64 个AI Core,支持多单位混合精度计算。同时,910C 应用3DFabric 封装技术,实现Die-to-Die 带宽500GB/s,显著提升芯片间互联效率,强化并行处理能力。在能效方面,910C 通过三维堆叠散热设计与液冷冷却方案,实现2.5kW/片的热密度,单颗功耗仅310W,相较上一代下降约40%,进一步强化高密度集群部署能力。
2)架构方面,为满足超大规模集群需求,华为云对系统架构进行了深度优化。
完整超节点由16 个机柜组成,其中12 个为计算机柜,每柜配置32 颗GPU,中央4 个机柜部署Scale-Up 交换设备。系统采用Scale Up 网络通过单层架构实现GPU 全互联,整体网络基于16800 台模块化交换机,搭建扁平化拓扑以降低延迟。为支撑数百颗GPU 的全互联能力,华为云在每颗GPU 上配备7 个400G光收发器,通过堆叠设计实现2800 Gbit/s 的Scale Up 带宽。同时因采用单层扁平化拓扑,交换机端亦部署同样规模的光模块,整体形成5376 个收发器用于Scale Up 网络,额外1536 个用于Scale Out 网络,总共搭配6912 个400G 光收发器,有效保障了功能指标的达成。
3)软件方面,CloudMatrix 384 依托910C 芯片在性能优化与适配效率上实 现了显著提升。系统全面升级至CANN 6.0,并实现对CUDA 生态的代码自动转换并兼容PyTorch 等主流框架,大幅降低开发者的代码迁移成本。同时,系统适配MindSpore 3.0,通过引入动态图优化与自动并行技术,模型训练效率提升30%。
华为云在系统工程设计、光互联、网络架构及软件适配方面持续优化,使CloudMatrix 384 能够在超大规模集群中实现更高效的算力利用,进一步强化在全球AI 基础设施竞争格局中的整体竞争力。
CloudMatrix 384 集群性能全面对标NVL72。CloudMatrix 384 在五倍芯片堆叠配置下,在算力指标上优势明显:BF16 性能达到300 PFLOPS,约为GB200 NVL72 的1.7 倍;HBM 总容量达49.2TB,是GB200 的3.6 倍;总内存带宽达1229 TB/s,为GB200 的2.1 倍;但在功耗上,CloudMatrix 384 总功率上达到559.4kW,是GB200 NVL72 的近四倍功耗,每FLOP 计算功耗也高出 2.3 倍,预计将会带来更多的电力成本。能耗设计上的取舍,换来了在大规模训练及推理场景下显著的性能释放。但考虑到未来硬件和系统架构的持续升级,随着算力性能同步提升,系统能耗问题也有望逐步得到优化与改善。
CloudMatrix 384 正式推出,相关供应链有望迎来新一轮放量。液冷方面,集群密度大幅提升将带来更高的热管理需求,英维克、申菱环境作为华为液冷系统核心供应商,有望受益份额提升;电源方面,384 颗910C 芯片集中部署带动整体功耗上升,泰嘉股份、欧陆通等电源供应链企业预计将获得持续增量;芯片领域,超节点有望在多地超算中心落地部署,将带动中芯国际等核心晶圆代工厂商需求增长;在高速连接器方面,随着超节点规模化落地,相关需求有望快速增长,预计华丰科技等核心供应商有望在需求增长中收益;PCB/CCL 方面,深南电路、南亚新材、生益科技作为华为重点供应商,有望随超节点建设获得新一轮订单需求;同时,在多相控制器领域,杰华特也有望在新一轮高性能AI 集群建 设中实现价值量提升。
#20 Re: 又是娃为,居然卖得比女大贵三倍
华为能让美国如此紧张,本来就是个令人尊敬的对手。 如果美国不对华为下手,短时间内,可能华为发展更快,但是,是建立在美帝的软硬件基础上。随时有停止的可能。现在自己搞操作系统,光刻机,虽然发展慢,但是长远来讲不会被卡脖子,其实更好。
x1
