完了goog出新一代TPU ,AI性能碾压女大GPU

STEM版,合并数学,物理,化学,科学,工程,机械。不包括生物、医学相关,和计算机相关内容。

版主: verdeliteTheMatrix

GreatCanada楼主
论坛元老
论坛元老
帖子互动: 630
帖子: 37567
注册时间: 2022年 7月 25日 23:54

#1 完了goog出新一代TPU ,AI性能碾压女大GPU

帖子 GreatCanada楼主 »

dfc8622(deng)
知名作家
知名作家
帖子互动: 119
帖子: 930
注册时间: 2023年 8月 3日 16:34

#2 Re: 完了goog出新一代TPU ,AI性能碾压女大GPU

帖子 dfc8622(deng) »

麻痹的,缺乏验证
弃婴千枝
论坛支柱
论坛支柱
帖子互动: 1181
帖子: 12437
注册时间: 2022年 7月 27日 10:51

#3 Re: 完了goog出新一代TPU ,AI性能碾压女大GPU

帖子 弃婴千枝 »

8bit的玩意,相对于80年代的z80,只能用于inference,完全不适用于数值计算,GPU都是32bit的,碾压个鸡巴
GreatCanada楼主
论坛元老
论坛元老
帖子互动: 630
帖子: 37567
注册时间: 2022年 7月 25日 23:54

#4 Re: 完了goog出新一代TPU ,AI性能碾压女大GPU

帖子 GreatCanada楼主 »

弃婴千枝 写了: 2025年 7月 26日 11:24 8bit的玩意,相对于80年代的z80,只能用于inference,完全不适用于数值计算,GPU都是32bit的,碾压个鸡巴
你果然是全方位无死角的民科,光刻机是民科,军事武器是民科,现在又来碰瓷AI芯骗,难怪在菌斑被外星猪耗子喷成狗血
bam
论坛元老
论坛元老
帖子互动: 1035
帖子: 30255
注册时间: 2022年 7月 23日 20:43

#5 Re: 完了goog出新一代TPU ,AI性能碾压女大GPU

帖子 bam »

GreatCanada 写了: 2025年 7月 26日 11:30 你果然是全方位无死角的民科,光刻机是民科,军事武器是民科,现在又来碰瓷AI芯骗,难怪在菌斑被外星猪耗子喷成狗血
属实
头像
hci(海螺子)
论坛支柱
论坛支柱
帖子互动: 475
帖子: 10058
注册时间: 2022年 7月 22日 15:29

#6 Re: 完了goog出新一代TPU ,AI性能碾压女大GPU

帖子 hci(海螺子) »

人家就是想用8bit来训练。
弃婴千枝 写了: 2025年 7月 26日 11:24 8bit的玩意,相对于80年代的z80,只能用于inference,完全不适用于数值计算,GPU都是32bit的,碾压个鸡巴
头像
verdelite(众傻之傻)
论坛元老
论坛元老
帖子互动: 948
帖子: 23124
注册时间: 2022年 7月 21日 23:33

#7 Re: 完了goog出新一代TPU ,AI性能碾压女大GPU

帖子 verdelite(众傻之傻) »

GreatCanada 写了: 2025年 7月 26日 11:30 你果然是全方位无死角的民科,光刻机是民科,军事武器是民科,现在又来碰瓷AI芯骗,难怪在菌斑被外星猪耗子喷成狗血
属实,32bit是overkill。deepseek还有4bit模式。8bit不知道怎么样,我估计一个比较好的trade off是在16和8之间。
没有光子;也没有量子能级,量子跃迁,量子叠加,量子塌缩和量子纠缠。
fantasist
见习点评
见习点评
帖子互动: 183
帖子: 1485
注册时间: 2022年 7月 24日 19:52

#8 Re: 完了goog出新一代TPU ,AI性能碾压女大GPU

帖子 fantasist »

TPU有几个大问题不能说未来没戏,但目前显然是没解决的:
1. vendor lock in。N卡可以在云上租,可以买了自建DC,这个灵活度是只能在狗云内用的TPU没法比的。
2. CUDA生态。TPU估计还没有triton之类各种开发工具的成熟支持,稍微往底层去一点就缺乏业界支持,AI行业现在一日千里,谁有工夫帮TPU踩雷。
3. 架构优化。TPU pod的通信拓扑结构跟N卡不一样。AI infra eng们习惯了在8张N卡的机器组成的cluster上搞底层优化,换成TPU这些可能all reduce怎么高效通信都得推翻重写,何苦呢。
hahan
论坛元老
论坛元老
hahan 的博客
帖子互动: 846
帖子: 18314
注册时间: 2022年 7月 23日 23:48

#9 Re: 完了goog出新一代TPU ,AI性能碾压女大GPU

帖子 hahan »

fantasist 写了: 2025年 7月 26日 18:24 TPU有几个大问题不能说未来没戏,但目前显然是没解决的:
1. vendor lock in。N卡可以在云上租,可以买了自建DC,这个灵活度是只能在狗云内用的TPU没法比的。
2. CUDA生态。TPU估计还没有triton之类各种开发工具的成熟支持,稍微往底层去一点就缺乏业界支持,AI行业现在一日千里,谁有工夫帮TPU踩雷。
3. 架构优化。TPU pod的通信拓扑结构跟N卡不一样。AI infra eng们习惯了在8张N卡的机器组成的cluster上搞底层优化,换成TPU这些可能all reduce怎么高效通信都得推翻重写,何苦呢。
N卡太贵
中厂都玩不起
Tpu如果成本价卖 然后狗再把自己的内部东西拿出来就能解决你说的 2,3 估计还是能抢占市场的
不过狗犯不着损人不利己
现在宣传Tpu就是为抢云生意
急急如丧家之犬
忙忙似漏网之鱼
hahan
论坛元老
论坛元老
hahan 的博客
帖子互动: 846
帖子: 18314
注册时间: 2022年 7月 23日 23:48

#10 Re: 完了goog出新一代TPU ,AI性能碾压女大GPU

帖子 hahan »

我老之前随意看了下cuda几行代码
理解不了这玩意怎么能成为护城河的
新搞一套就是比较繁琐麻烦而已
如果n卡没那么贵
的确没有incentive 去折腾一套新的
但n卡毛利那么高
为啥没人搞
急急如丧家之犬
忙忙似漏网之鱼
magagop
见习点评
见习点评
帖子互动: 139
帖子: 1981
注册时间: 2024年 12月 5日 17:35

#11 Re: 完了goog出新一代TPU ,AI性能碾压女大GPU

帖子 magagop »

verdelite 写了: 2025年 7月 26日 18:09 属实,32bit是overkill。deepseek还有4bit模式。8bit不知道怎么样,我估计一个比较好的trade off是在16和8之间。
最好的應該是FP4和FP8之間,因為大部分參數的指數部分都相同,可以pack,壓縮後平均4bit訓練理論上可以實現。DeepSeek是FP8訓練,Llama是FP16。
magagop
见习点评
见习点评
帖子互动: 139
帖子: 1981
注册时间: 2024年 12月 5日 17:35

#12 Re: 完了goog出新一代TPU ,AI性能碾压女大GPU

帖子 magagop »

fantasist 写了: 2025年 7月 26日 18:24 TPU有几个大问题不能说未来没戏,但目前显然是没解决的:
1. vendor lock in。N卡可以在云上租,可以买了自建DC,这个灵活度是只能在狗云内用的TPU没法比的。
2. CUDA生态。TPU估计还没有triton之类各种开发工具的成熟支持,稍微往底层去一点就缺乏业界支持,AI行业现在一日千里,谁有工夫帮TPU踩雷。
3. 架构优化。TPU pod的通信拓扑结构跟N卡不一样。AI infra eng们习惯了在8张N卡的机器组成的cluster上搞底层优化,换成TPU这些可能all reduce怎么高效通信都得推翻重写,何苦呢。
少了兩樣,一是開放的GPU profiler和PMU counter,否則底層優化無從談起。二是業界領先的Coherent Switch,PCIe Bridge和RDMA網卡,這個只有Nvidia和Avago有,所以兩家股票上天了。
Celsius
论坛精英
论坛精英
帖子互动: 1100
帖子: 7694
注册时间: 2023年 11月 18日 00:55

#13 Re: 完了goog出新一代TPU ,AI性能碾压女大GPU

帖子 Celsius »

还有fp6
好日子还在后头呢!
magagop
见习点评
见习点评
帖子互动: 139
帖子: 1981
注册时间: 2024年 12月 5日 17:35

#14 Re: 完了goog出新一代TPU ,AI性能碾压女大GPU

帖子 magagop »

hahan 写了: 2025年 7月 27日 00:01 N卡太贵
中厂都玩不起
Tpu如果成本价卖 然后狗再把自己的内部东西拿出来就能解决你说的 2,3 估计还是能抢占市场的
不过狗犯不着损人不利己
现在宣传Tpu就是为抢云生意
TPU不可能開放,否則需要大量支持工程師擦屁股,參考20%核心員工,但拉屎擦屁股不能用20%的紙,谷歌員工成本太高,開放TPU也沒有TCO成本優勢。
magagop
见习点评
见习点评
帖子互动: 139
帖子: 1981
注册时间: 2024年 12月 5日 17:35

#15 Re: 完了goog出新一代TPU ,AI性能碾压女大GPU

帖子 magagop »

hahan 写了: 2025年 7月 27日 00:06 我老之前随意看了下cuda几行代码
理解不了这玩意怎么能成为护城河的
新搞一套就是比较繁琐麻烦而已
如果n卡没那么贵
的确没有incentive 去折腾一套新的
但n卡毛利那么高
为啥没人搞
CUDA護城河是因為結果錯一點兒,你就抓瞎了,CUDA不開源,沒有POSIX這種標準,做到100% API兼容非常難,跟Wine做到100%兼容Windows的難度差不多,你覺得Win32 API是不是護城河?然後CUDA不停更新,你需要不停追趕。

N卡其實不貴,如果你比較其他競爭對手的話,芯片面積在那裡,別的廠商做芯片成本最多也就能降低一半,然後性能未知,TCO可能更高,所以客戶不值得切換。
fantasist
见习点评
见习点评
帖子互动: 183
帖子: 1485
注册时间: 2022年 7月 24日 19:52

#16 Re: 完了goog出新一代TPU ,AI性能碾压女大GPU

帖子 fantasist »

magagop 写了: 2025年 7月 27日 00:15 少了兩樣,一是開放的GPU profiler和PMU counter,否則底層優化無從談起。二是業界領先的Coherent Switch,PCIe Bridge和RDMA網卡,這個只有Nvidia和Avago有,所以兩家股票上天了。
TPU不可能没有GPU profiler,不然咋看kernel的运行时间?相信至少狗家内部是有的。你的意思是它不向cloud用户开放吗,严肃用户必须的功能应该不会私藏。
PMU counter是啥?
bradyzhu(Brady)
论坛点评
论坛点评
帖子互动: 176
帖子: 2422
注册时间: 2022年 7月 31日 08:40

#17 Re: 完了goog出新一代TPU ,AI性能碾压女大GPU

帖子 bradyzhu(Brady) »

谷歌的TPU是连他自己都不用垃圾,至少目前是这样。
hahan
论坛元老
论坛元老
hahan 的博客
帖子互动: 846
帖子: 18314
注册时间: 2022年 7月 23日 23:48

#18 Re: 完了goog出新一代TPU ,AI性能碾压女大GPU

帖子 hahan »

bradyzhu 写了: 2025年 7月 27日 00:49 谷歌的TPU是连他自己都不用垃圾,至少目前是这样。
当然用
也用n卡就是
急急如丧家之犬
忙忙似漏网之鱼
magagop
见习点评
见习点评
帖子互动: 139
帖子: 1981
注册时间: 2024年 12月 5日 17:35

#19 Re: 完了goog出新一代TPU ,AI性能碾压女大GPU

帖子 magagop »

fantasist 写了: 2025年 7月 27日 00:28 TPU不可能没有GPU profiler,不然咋看kernel的运行时间?相信至少狗家内部是有的。你的意思是它不向cloud用户开放吗,严肃用户必须的功能应该不会私藏。
PMU counter是啥?
PMU計數器是Profiler的底層實現,可以參考Intel的PMU文檔,相當於跳過Profiler自己看內部,因為Profiler很可能不開源,也有錯誤。
biggestballs
著名点评
著名点评
帖子互动: 398
帖子: 3730
注册时间: 2024年 2月 5日 19:42

#20 Re: 完了goog出新一代TPU ,AI性能碾压女大GPU

帖子 biggestballs »

难道没有人认真看过这篇文章吗,根本没跟女大GPU比过,都是自己跟自己上一代产品比

之前发了个帖给跟快被淘汰的A100比的,笑掉大牙
Devil doesn't need an advocate
回复

回到 “STEM”