完了goog出新一代TPU ,AI性能碾压女大GPU
版主: verdelite, TheMatrix
#7 Re: 完了goog出新一代TPU ,AI性能碾压女大GPU
属实,32bit是overkill。deepseek还有4bit模式。8bit不知道怎么样,我估计一个比较好的trade off是在16和8之间。
没有光子;也没有量子能级,量子跃迁,量子叠加,量子塌缩和量子纠缠。
#8 Re: 完了goog出新一代TPU ,AI性能碾压女大GPU
TPU有几个大问题不能说未来没戏,但目前显然是没解决的:
1. vendor lock in。N卡可以在云上租,可以买了自建DC,这个灵活度是只能在狗云内用的TPU没法比的。
2. CUDA生态。TPU估计还没有triton之类各种开发工具的成熟支持,稍微往底层去一点就缺乏业界支持,AI行业现在一日千里,谁有工夫帮TPU踩雷。
3. 架构优化。TPU pod的通信拓扑结构跟N卡不一样。AI infra eng们习惯了在8张N卡的机器组成的cluster上搞底层优化,换成TPU这些可能all reduce怎么高效通信都得推翻重写,何苦呢。
1. vendor lock in。N卡可以在云上租,可以买了自建DC,这个灵活度是只能在狗云内用的TPU没法比的。
2. CUDA生态。TPU估计还没有triton之类各种开发工具的成熟支持,稍微往底层去一点就缺乏业界支持,AI行业现在一日千里,谁有工夫帮TPU踩雷。
3. 架构优化。TPU pod的通信拓扑结构跟N卡不一样。AI infra eng们习惯了在8张N卡的机器组成的cluster上搞底层优化,换成TPU这些可能all reduce怎么高效通信都得推翻重写,何苦呢。
#9 Re: 完了goog出新一代TPU ,AI性能碾压女大GPU
N卡太贵fantasist 写了: 2025年 7月 26日 18:24 TPU有几个大问题不能说未来没戏,但目前显然是没解决的:
1. vendor lock in。N卡可以在云上租,可以买了自建DC,这个灵活度是只能在狗云内用的TPU没法比的。
2. CUDA生态。TPU估计还没有triton之类各种开发工具的成熟支持,稍微往底层去一点就缺乏业界支持,AI行业现在一日千里,谁有工夫帮TPU踩雷。
3. 架构优化。TPU pod的通信拓扑结构跟N卡不一样。AI infra eng们习惯了在8张N卡的机器组成的cluster上搞底层优化,换成TPU这些可能all reduce怎么高效通信都得推翻重写,何苦呢。
中厂都玩不起
Tpu如果成本价卖 然后狗再把自己的内部东西拿出来就能解决你说的 2,3 估计还是能抢占市场的
不过狗犯不着损人不利己
现在宣传Tpu就是为抢云生意
急急如丧家之犬
忙忙似漏网之鱼
忙忙似漏网之鱼
#10 Re: 完了goog出新一代TPU ,AI性能碾压女大GPU
我老之前随意看了下cuda几行代码
理解不了这玩意怎么能成为护城河的
新搞一套就是比较繁琐麻烦而已
如果n卡没那么贵
的确没有incentive 去折腾一套新的
但n卡毛利那么高
为啥没人搞
理解不了这玩意怎么能成为护城河的
新搞一套就是比较繁琐麻烦而已
如果n卡没那么贵
的确没有incentive 去折腾一套新的
但n卡毛利那么高
为啥没人搞
急急如丧家之犬
忙忙似漏网之鱼
忙忙似漏网之鱼
#11 Re: 完了goog出新一代TPU ,AI性能碾压女大GPU
最好的應該是FP4和FP8之間,因為大部分參數的指數部分都相同,可以pack,壓縮後平均4bit訓練理論上可以實現。DeepSeek是FP8訓練,Llama是FP16。verdelite 写了: 2025年 7月 26日 18:09 属实,32bit是overkill。deepseek还有4bit模式。8bit不知道怎么样,我估计一个比较好的trade off是在16和8之间。
#12 Re: 完了goog出新一代TPU ,AI性能碾压女大GPU
少了兩樣,一是開放的GPU profiler和PMU counter,否則底層優化無從談起。二是業界領先的Coherent Switch,PCIe Bridge和RDMA網卡,這個只有Nvidia和Avago有,所以兩家股票上天了。fantasist 写了: 2025年 7月 26日 18:24 TPU有几个大问题不能说未来没戏,但目前显然是没解决的:
1. vendor lock in。N卡可以在云上租,可以买了自建DC,这个灵活度是只能在狗云内用的TPU没法比的。
2. CUDA生态。TPU估计还没有triton之类各种开发工具的成熟支持,稍微往底层去一点就缺乏业界支持,AI行业现在一日千里,谁有工夫帮TPU踩雷。
3. 架构优化。TPU pod的通信拓扑结构跟N卡不一样。AI infra eng们习惯了在8张N卡的机器组成的cluster上搞底层优化,换成TPU这些可能all reduce怎么高效通信都得推翻重写,何苦呢。
#14 Re: 完了goog出新一代TPU ,AI性能碾压女大GPU
TPU不可能開放,否則需要大量支持工程師擦屁股,參考20%核心員工,但拉屎擦屁股不能用20%的紙,谷歌員工成本太高,開放TPU也沒有TCO成本優勢。hahan 写了: 2025年 7月 27日 00:01 N卡太贵
中厂都玩不起
Tpu如果成本价卖 然后狗再把自己的内部东西拿出来就能解决你说的 2,3 估计还是能抢占市场的
不过狗犯不着损人不利己
现在宣传Tpu就是为抢云生意
#15 Re: 完了goog出新一代TPU ,AI性能碾压女大GPU
CUDA護城河是因為結果錯一點兒,你就抓瞎了,CUDA不開源,沒有POSIX這種標準,做到100% API兼容非常難,跟Wine做到100%兼容Windows的難度差不多,你覺得Win32 API是不是護城河?然後CUDA不停更新,你需要不停追趕。hahan 写了: 2025年 7月 27日 00:06 我老之前随意看了下cuda几行代码
理解不了这玩意怎么能成为护城河的
新搞一套就是比较繁琐麻烦而已
如果n卡没那么贵
的确没有incentive 去折腾一套新的
但n卡毛利那么高
为啥没人搞
N卡其實不貴,如果你比較其他競爭對手的話,芯片面積在那裡,別的廠商做芯片成本最多也就能降低一半,然後性能未知,TCO可能更高,所以客戶不值得切換。
#16 Re: 完了goog出新一代TPU ,AI性能碾压女大GPU
TPU不可能没有GPU profiler,不然咋看kernel的运行时间?相信至少狗家内部是有的。你的意思是它不向cloud用户开放吗,严肃用户必须的功能应该不会私藏。magagop 写了: 2025年 7月 27日 00:15 少了兩樣,一是開放的GPU profiler和PMU counter,否則底層優化無從談起。二是業界領先的Coherent Switch,PCIe Bridge和RDMA網卡,這個只有Nvidia和Avago有,所以兩家股票上天了。
PMU counter是啥?
#19 Re: 完了goog出新一代TPU ,AI性能碾压女大GPU
PMU計數器是Profiler的底層實現,可以參考Intel的PMU文檔,相當於跳過Profiler自己看內部,因為Profiler很可能不開源,也有錯誤。fantasist 写了: 2025年 7月 27日 00:28 TPU不可能没有GPU profiler,不然咋看kernel的运行时间?相信至少狗家内部是有的。你的意思是它不向cloud用户开放吗,严肃用户必须的功能应该不会私藏。
PMU counter是啥?
#20 Re: 完了goog出新一代TPU ,AI性能碾压女大GPU
难道没有人认真看过这篇文章吗,根本没跟女大GPU比过,都是自己跟自己上一代产品比
之前发了个帖给跟快被淘汰的A100比的,笑掉大牙
Devil doesn't need an advocate