分页: 3 / 3

#41 Re: 对GenAI现状感兴趣的推荐一点资料

发表于 : 2025年 6月 23日 02:14
牛河梁
magagop 写了: 2025年 6月 23日 01:14 你知道短浮點數計算現在還沒有IEEE標準嗎?你知道這意味什麼嗎?紅綠藍廠的浮點數計算結果就是不一樣的,沒有誰對誰錯,但是普通用戶就傻眼了。
你想太多了。你就没训练过Ai模型。一开口就露馅。

Ai训练不在乎你所谓这些误差。甚至根本不在乎你的所谓万卡集群出现计算差错。

训练重要的是能收敛。只要能收敛。你说这些都不是个事。

#42 Re: 对GenAI现状感兴趣的推荐一点资料

发表于 : 2025年 6月 23日 02:16
牛河梁
fantasist 写了: 2025年 6月 23日 02:09 跟他们说这些没什么用,真搞过ai的不用说也懂。
别说浮点精度了,计算图稍微差一点,矩阵相乘顺序不一样,结果就有误差。一个几十层的神经网络,误差累积起来很可观。所以amd华为之类做的训练卡虽然便宜,没什么人愿意去趟雷,因为数值都无法跟n卡对齐。🐶家是自己养了一大批硬件到infra到算法的牛人,才把TPU搞成实际可用的状态。
你也是键盘Ai。就算没训练过模型,屁股想想就知道,“精度”要真那么重要,为什么用短浮点不用双精度。就不怕你说的累积误差。别说几十层,迭代个10000次“误差”得有多大。

#43 Re: 对GenAI现状感兴趣的推荐一点资料

发表于 : 2025年 6月 23日 03:02
magagop
牛河梁 写了: 2025年 6月 23日 02:14 你想太多了。你就没训练过Ai模型。一开口就露馅。

Ai训练不在乎你所谓这些误差。甚至根本不在乎你的所谓万卡集群出现计算差错。

训练重要的是能收敛。只要能收敛。你说这些都不是个事。
你做過訓練嗎?訓練不在乎誤差?有NaN還能收斂嗎?遇到同樣PyTorch代碼在不同GPU或者不同固件不同驅動上不同地方NaN知道怎麼debug嗎?普通人不懂不要瞎BB

#44 Re: 对GenAI现状感兴趣的推荐一点资料

发表于 : 2025年 6月 23日 03:07
magagop
牛河梁 写了: 2025年 6月 23日 02:16 你也是键盘Ai。就算没训练过模型,屁股想想就知道,“精度”要真那么重要,为什么用短浮点不用双精度。就不怕你说的累积误差。别说几十层,迭代个10000次“误差”得有多大。
這又是意淫,浮點數越短越容易NaN,BLAS稍微改變就NaN了,然後混合精度沒有標準,NaN的地方都不一樣,你改哪裡?另外BLAS各種優化算法,時不時就來個bug,焦頭爛額。

#45 Re: 对GenAI现状感兴趣的推荐一点资料

发表于 : 2025年 6月 23日 09:52
牛河梁
magagop 写了: 2025年 6月 23日 03:02 你做過訓練嗎?訓練不在乎誤差?有NaN還能收斂嗎?遇到同樣PyTorch代碼在不同GPU或者不同固件不同驅動上不同地方NaN知道怎麼debug嗎?普通人不懂不要瞎BB
老牛当然训练过Ai。你要是没训过少说两句。

#46 Re: 对GenAI现状感兴趣的推荐一点资料

发表于 : 2025年 6月 23日 19:17
WideAnimals
倾向老牛说的。硬件计算精度在训练中的影响不是没有,但是和数据质量,收敛快慢相比影响较小。Magagop所说的精度对backpropagation造成的underflow可以用loss scaling等成熟的方法来弥补。另外现在出来新的训练方法可以只用4 bits(google Q-GaLore), 对硬件的要求更低。

#47 Re: 对GenAI现状感兴趣的推荐一点资料

发表于 : 2025年 6月 23日 19:38
hahan
fantasist 写了: 2025年 6月 23日 00:09 我相信你纯软件写的东西能计算,但慢呀,训一轮要几天谁等的起。nvidia在硬件上就对这些有优化加速,配合cuda生态,构成了软硬结合的护城河。
就是硬件的针对性优化
为啥别的厂不行
狗家tpu?

#48 Re: 对GenAI现状感兴趣的推荐一点资料

发表于 : 2025年 6月 23日 19:40
牛河梁
WideAnimals 写了: 2025年 6月 23日 19:17 倾向老牛说的。硬件计算精度在训练中的影响不是没有,但是和数据质量,收敛快慢相比影响较小。Magagop所说的精度对backpropagation造成的underflow可以用loss scaling等成熟的方法来弥补。另外现在出来新的训练方法可以只用4 bits(google Q-GaLore), 对硬件的要求更低。
如果随机出错。

这不是个问题。

如果稳定出错,

厂商活该破产。

#49 Re: 对GenAI现状感兴趣的推荐一点资料

发表于 : 2025年 6月 23日 20:57
fantasist
hahan 写了: 2025年 6月 23日 19:38 就是硬件的针对性优化
为啥别的厂不行
狗家tpu?
需要从软件到硬件的整体优化。就算出一款硬件号称attention计算快了5倍,说不定pytorch都不支持,谁会去用呢。

#50 Re: 对GenAI现状感兴趣的推荐一点资料

发表于 : 2025年 6月 24日 01:19
bihai
magagop 写了: 2025年 6月 23日 00:08 看你的回答就知道你也不懂,軟件用戶總覺得芯片很簡單,誰都能做,其實一個小破問題,就需要很長時間解決。
什么问题?乘法器?乘加器?乘法累加器?以前DSP里面就是乘法然后累加,累加的时候可以不用全加器,只用半加器。反正下一次接着用。矩阵乘法也有优化减少乘法次数。好在没有除法。除法我也写过,循环减法。做了一个wafer的芯片。

这种verilog没有AI参与吗?AI不会吗?周期比较长,设计后要半年才能看到结果吧。