对GenAI现状感兴趣的推荐一点资料

牛河梁

magagop 写了： 2025年 6月 23日 01:14 你知道短浮點數計算現在還沒有IEEE標準嗎？你知道這意味什麼嗎？紅綠藍廠的浮點數計算結果就是不一樣的，沒有誰對誰錯，但是普通用戶就傻眼了。

你想太多了。你就没训练过Ai模型。一开口就露馅。

Ai训练不在乎你所谓这些误差。甚至根本不在乎你的所谓万卡集群出现计算差错。

训练重要的是能收敛。只要能收敛。你说这些都不是个事。

牛河梁

fantasist 写了： 2025年 6月 23日 02:09 跟他们说这些没什么用，真搞过ai的不用说也懂。
别说浮点精度了，计算图稍微差一点，矩阵相乘顺序不一样，结果就有误差。一个几十层的神经网络，误差累积起来很可观。所以amd华为之类做的训练卡虽然便宜，没什么人愿意去趟雷，因为数值都无法跟n卡对齐。家是自己养了一大批硬件到infra到算法的牛人，才把TPU搞成实际可用的状态。

你也是键盘Ai。就算没训练过模型，屁股想想就知道，“精度”要真那么重要，为什么用短浮点不用双精度。就不怕你说的累积误差。别说几十层，迭代个10000次“误差”得有多大。

magagop · 帖子由 **magagop** » 2025年 6月 23日 03:02

牛河梁写了： 2025年 6月 23日 02:14 你想太多了。你就没训练过Ai模型。一开口就露馅。

Ai训练不在乎你所谓这些误差。甚至根本不在乎你的所谓万卡集群出现计算差错。

训练重要的是能收敛。只要能收敛。你说这些都不是个事。

你做過訓練嗎？訓練不在乎誤差？有NaN還能收斂嗎？遇到同樣PyTorch代碼在不同GPU或者不同固件不同驅動上不同地方NaN知道怎麼debug嗎？普通人不懂不要瞎BB

magagop · 帖子由 **magagop** » 2025年 6月 23日 03:07

牛河梁写了： 2025年 6月 23日 02:16 你也是键盘Ai。就算没训练过模型，屁股想想就知道，“精度”要真那么重要，为什么用短浮点不用双精度。就不怕你说的累积误差。别说几十层，迭代个10000次“误差”得有多大。

這又是意淫，浮點數越短越容易NaN，BLAS稍微改變就NaN了，然後混合精度沒有標準，NaN的地方都不一樣，你改哪裡？另外BLAS各種優化算法，時不時就來個bug，焦頭爛額。

牛河梁

magagop 写了： 2025年 6月 23日 03:02 你做過訓練嗎？訓練不在乎誤差？有NaN還能收斂嗎？遇到同樣PyTorch代碼在不同GPU或者不同固件不同驅動上不同地方NaN知道怎麼debug嗎？普通人不懂不要瞎BB

老牛当然训练过Ai。你要是没训过少说两句。

WideAnimals · 帖子由 **WideAnimals** » 2025年 6月 23日 19:17

倾向老牛说的。硬件计算精度在训练中的影响不是没有，但是和数据质量，收敛快慢相比影响较小。Magagop所说的精度对backpropagation造成的underflow可以用loss scaling等成熟的方法来弥补。另外现在出来新的训练方法可以只用4 bits(google Q-GaLore), 对硬件的要求更低。

hahan · 帖子由 **hahan** » 2025年 6月 23日 19:38

fantasist 写了： 2025年 6月 23日 00:09 我相信你纯软件写的东西能计算，但慢呀，训一轮要几天谁等的起。nvidia在硬件上就对这些有优化加速，配合cuda生态，构成了软硬结合的护城河。

就是硬件的针对性优化
为啥别的厂不行
狗家tpu？

牛河梁

WideAnimals 写了： 2025年 6月 23日 19:17 倾向老牛说的。硬件计算精度在训练中的影响不是没有，但是和数据质量，收敛快慢相比影响较小。Magagop所说的精度对backpropagation造成的underflow可以用loss scaling等成熟的方法来弥补。另外现在出来新的训练方法可以只用4 bits(google Q-GaLore), 对硬件的要求更低。

如果随机出错。

这不是个问题。

如果稳定出错，

厂商活该破产。

fantasist · 帖子由 **fantasist楼主** » 2025年 6月 23日 20:57

hahan 写了： 2025年 6月 23日 19:38 就是硬件的针对性优化
为啥别的厂不行
狗家tpu？

需要从软件到硬件的整体优化。就算出一款硬件号称attention计算快了5倍，说不定pytorch都不支持，谁会去用呢。

bihai · 帖子由 **bihai** » 2025年 6月 24日 01:19

magagop 写了： 2025年 6月 23日 00:08 看你的回答就知道你也不懂，軟件用戶總覺得芯片很簡單，誰都能做，其實一個小破問題，就需要很長時間解決。

什么问题？乘法器？乘加器？乘法累加器？以前DSP里面就是乘法然后累加，累加的时候可以不用全加器，只用半加器。反正下一次接着用。矩阵乘法也有优化减少乘法次数。好在没有除法。除法我也写过，循环减法。做了一个wafer的芯片。

这种verilog没有AI参与吗？AI不会吗？周期比较长，设计后要半年才能看到结果吧。

新未名空间

对GenAI现状感兴趣的推荐一点资料

#41 Re: 对GenAI现状感兴趣的推荐一点资料

#42 Re: 对GenAI现状感兴趣的推荐一点资料

#43 Re: 对GenAI现状感兴趣的推荐一点资料

#44 Re: 对GenAI现状感兴趣的推荐一点资料

#45 Re: 对GenAI现状感兴趣的推荐一点资料

#46 Re: 对GenAI现状感兴趣的推荐一点资料

#47 Re: 对GenAI现状感兴趣的推荐一点资料

#48 Re: 对GenAI现状感兴趣的推荐一点资料

#49 Re: 对GenAI现状感兴趣的推荐一点资料

#50 Re: 对GenAI现状感兴趣的推荐一点资料