完了goog出新一代TPU ，AI性能碾压女大GPU

GreatCanada · 帖子由 **GreatCanada楼主** » 2025年 7月 26日 10:09

https://blog.google/products/google-clo ... inference/

dfc8622 · 帖子由 **dfc8622（deng）** » 2025年 7月 26日 10:16

麻痹的，缺乏验证

弃婴千枝 · 帖子由 **弃婴千枝** » 2025年 7月 26日 11:24

8bit的玩意，相对于80年代的z80，只能用于inference，完全不适用于数值计算，GPU都是32bit的，碾压个鸡巴

GreatCanada · 帖子由 **GreatCanada楼主** » 2025年 7月 26日 11:30

弃婴千枝写了： 2025年 7月 26日 11:24 8bit的玩意，相对于80年代的z80，只能用于inference，完全不适用于数值计算，GPU都是32bit的，碾压个鸡巴

你果然是全方位无死角的民科，光刻机是民科，军事武器是民科，现在又来碰瓷AI芯骗，难怪在菌斑被外星猪耗子喷成狗血

bam · 帖子由 **bam** » 2025年 7月 26日 14:33

GreatCanada 写了： 2025年 7月 26日 11:30 你果然是全方位无死角的民科，光刻机是民科，军事武器是民科，现在又来碰瓷AI芯骗，难怪在菌斑被外星猪耗子喷成狗血

属实

hci

人家就是想用8bit来训练。

弃婴千枝写了： 2025年 7月 26日 11:24 8bit的玩意，相对于80年代的z80，只能用于inference，完全不适用于数值计算，GPU都是32bit的，碾压个鸡巴

verdelite

GreatCanada 写了： 2025年 7月 26日 11:30 你果然是全方位无死角的民科，光刻机是民科，军事武器是民科，现在又来碰瓷AI芯骗，难怪在菌斑被外星猪耗子喷成狗血

属实，32bit是overkill。deepseek还有4bit模式。8bit不知道怎么样，我估计一个比较好的trade off是在16和8之间。

fantasist · 帖子由 **fantasist** » 2025年 7月 26日 18:24

TPU有几个大问题不能说未来没戏，但目前显然是没解决的：
1. vendor lock in。N卡可以在云上租，可以买了自建DC，这个灵活度是只能在狗云内用的TPU没法比的。
2. CUDA生态。TPU估计还没有triton之类各种开发工具的成熟支持，稍微往底层去一点就缺乏业界支持，AI行业现在一日千里，谁有工夫帮TPU踩雷。
3. 架构优化。TPU pod的通信拓扑结构跟N卡不一样。AI infra eng们习惯了在8张N卡的机器组成的cluster上搞底层优化，换成TPU这些可能all reduce怎么高效通信都得推翻重写，何苦呢。

hahan · 帖子由 **hahan** » 2025年 7月 27日 00:01

fantasist 写了： 2025年 7月 26日 18:24 TPU有几个大问题不能说未来没戏，但目前显然是没解决的：
1. vendor lock in。N卡可以在云上租，可以买了自建DC，这个灵活度是只能在狗云内用的TPU没法比的。
2. CUDA生态。TPU估计还没有triton之类各种开发工具的成熟支持，稍微往底层去一点就缺乏业界支持，AI行业现在一日千里，谁有工夫帮TPU踩雷。
3. 架构优化。TPU pod的通信拓扑结构跟N卡不一样。AI infra eng们习惯了在8张N卡的机器组成的cluster上搞底层优化，换成TPU这些可能all reduce怎么高效通信都得推翻重写，何苦呢。

N卡太贵
中厂都玩不起
Tpu如果成本价卖然后狗再把自己的内部东西拿出来就能解决你说的 2,3 估计还是能抢占市场的
不过狗犯不着损人不利己
现在宣传Tpu就是为抢云生意

hahan · 帖子由 **hahan** » 2025年 7月 27日 00:06

我老之前随意看了下cuda几行代码
理解不了这玩意怎么能成为护城河的
新搞一套就是比较繁琐麻烦而已
如果n卡没那么贵
的确没有incentive 去折腾一套新的
但n卡毛利那么高
为啥没人搞

magagop · 帖子由 **magagop** » 2025年 7月 27日 00:11

verdelite 写了： 2025年 7月 26日 18:09 属实，32bit是overkill。deepseek还有4bit模式。8bit不知道怎么样，我估计一个比较好的trade off是在16和8之间。

最好的應該是FP4和FP8之間，因為大部分參數的指數部分都相同，可以pack，壓縮後平均4bit訓練理論上可以實現。DeepSeek是FP8訓練，Llama是FP16。

magagop · 帖子由 **magagop** » 2025年 7月 27日 00:15

fantasist 写了： 2025年 7月 26日 18:24 TPU有几个大问题不能说未来没戏，但目前显然是没解决的：
1. vendor lock in。N卡可以在云上租，可以买了自建DC，这个灵活度是只能在狗云内用的TPU没法比的。
2. CUDA生态。TPU估计还没有triton之类各种开发工具的成熟支持，稍微往底层去一点就缺乏业界支持，AI行业现在一日千里，谁有工夫帮TPU踩雷。
3. 架构优化。TPU pod的通信拓扑结构跟N卡不一样。AI infra eng们习惯了在8张N卡的机器组成的cluster上搞底层优化，换成TPU这些可能all reduce怎么高效通信都得推翻重写，何苦呢。

少了兩樣，一是開放的GPU profiler和PMU counter，否則底層優化無從談起。二是業界領先的Coherent Switch，PCIe Bridge和RDMA網卡，這個只有Nvidia和Avago有，所以兩家股票上天了。

Celsius · 帖子由 **Celsius** » 2025年 7月 27日 00:17

还有fp6

magagop · 帖子由 **magagop** » 2025年 7月 27日 00:19

hahan 写了： 2025年 7月 27日 00:01 N卡太贵
中厂都玩不起
Tpu如果成本价卖然后狗再把自己的内部东西拿出来就能解决你说的 2,3 估计还是能抢占市场的
不过狗犯不着损人不利己
现在宣传Tpu就是为抢云生意

TPU不可能開放，否則需要大量支持工程師擦屁股，參考20％核心員工，但拉屎擦屁股不能用20％的紙，谷歌員工成本太高，開放TPU也沒有TCO成本優勢。

magagop · 帖子由 **magagop** » 2025年 7月 27日 00:27

hahan 写了： 2025年 7月 27日 00:06 我老之前随意看了下cuda几行代码
理解不了这玩意怎么能成为护城河的
新搞一套就是比较繁琐麻烦而已
如果n卡没那么贵
的确没有incentive 去折腾一套新的
但n卡毛利那么高
为啥没人搞

CUDA護城河是因為結果錯一點兒，你就抓瞎了，CUDA不開源，沒有POSIX這種標準，做到100％ API兼容非常難，跟Wine做到100％兼容Windows的難度差不多，你覺得Win32 API是不是護城河？然後CUDA不停更新，你需要不停追趕。

N卡其實不貴，如果你比較其他競爭對手的話，芯片面積在那裡，別的廠商做芯片成本最多也就能降低一半，然後性能未知，TCO可能更高，所以客戶不值得切換。

fantasist · 帖子由 **fantasist** » 2025年 7月 27日 00:28

magagop 写了： 2025年 7月 27日 00:15 少了兩樣，一是開放的GPU profiler和PMU counter，否則底層優化無從談起。二是業界領先的Coherent Switch，PCIe Bridge和RDMA網卡，這個只有Nvidia和Avago有，所以兩家股票上天了。

TPU不可能没有GPU profiler，不然咋看kernel的运行时间？相信至少狗家内部是有的。你的意思是它不向cloud用户开放吗，严肃用户必须的功能应该不会私藏。
PMU counter是啥？

bradyzhu

谷歌的TPU是连他自己都不用垃圾，至少目前是这样。

hahan · 帖子由 **hahan** » 2025年 7月 27日 01:02

bradyzhu 写了： 2025年 7月 27日 00:49 谷歌的TPU是连他自己都不用垃圾，至少目前是这样。

当然用
也用n卡就是

magagop · 帖子由 **magagop** » 2025年 7月 27日 01:18

fantasist 写了： 2025年 7月 27日 00:28 TPU不可能没有GPU profiler，不然咋看kernel的运行时间？相信至少狗家内部是有的。你的意思是它不向cloud用户开放吗，严肃用户必须的功能应该不会私藏。
PMU counter是啥？

PMU計數器是Profiler的底層實現，可以參考Intel的PMU文檔，相當於跳過Profiler自己看內部，因為Profiler很可能不開源，也有錯誤。

biggestballs · 帖子由 **biggestballs** » 2025年 7月 27日 01:30

GreatCanada 写了： 2025年 7月 26日 10:09 https://blog.google/products/google-clo ... inference/

难道没有人认真看过这篇文章吗，根本没跟女大GPU比过，都是自己跟自己上一代产品比

之前发了个帖给跟快被淘汰的A100比的，笑掉大牙

新未名空间

完了goog出新一代TPU ，AI性能碾压女大GPU

#1 完了goog出新一代TPU ，AI性能碾压女大GPU

#2 Re: 完了goog出新一代TPU ，AI性能碾压女大GPU

#3 Re: 完了goog出新一代TPU ，AI性能碾压女大GPU

#4 Re: 完了goog出新一代TPU ，AI性能碾压女大GPU

#5 Re: 完了goog出新一代TPU ，AI性能碾压女大GPU

#6 Re: 完了goog出新一代TPU ，AI性能碾压女大GPU

#7 Re: 完了goog出新一代TPU ，AI性能碾压女大GPU

#8 Re: 完了goog出新一代TPU ，AI性能碾压女大GPU

#9 Re: 完了goog出新一代TPU ，AI性能碾压女大GPU

#10 Re: 完了goog出新一代TPU ，AI性能碾压女大GPU

#11 Re: 完了goog出新一代TPU ，AI性能碾压女大GPU

#12 Re: 完了goog出新一代TPU ，AI性能碾压女大GPU

#13 Re: 完了goog出新一代TPU ，AI性能碾压女大GPU

#14 Re: 完了goog出新一代TPU ，AI性能碾压女大GPU

#15 Re: 完了goog出新一代TPU ，AI性能碾压女大GPU

#16 Re: 完了goog出新一代TPU ，AI性能碾压女大GPU

#17 Re: 完了goog出新一代TPU ，AI性能碾压女大GPU

#18 Re: 完了goog出新一代TPU ，AI性能碾压女大GPU

#19 Re: 完了goog出新一代TPU ，AI性能碾压女大GPU

#20 Re: 完了goog出新一代TPU ，AI性能碾压女大GPU