你想太多了。你就没训练过Ai模型。一开口就露馅。magagop 写了: 2025年 6月 23日 01:14 你知道短浮點數計算現在還沒有IEEE標準嗎?你知道這意味什麼嗎?紅綠藍廠的浮點數計算結果就是不一樣的,沒有誰對誰錯,但是普通用戶就傻眼了。
Ai训练不在乎你所谓这些误差。甚至根本不在乎你的所谓万卡集群出现计算差错。
训练重要的是能收敛。只要能收敛。你说这些都不是个事。
版主: hci
你想太多了。你就没训练过Ai模型。一开口就露馅。magagop 写了: 2025年 6月 23日 01:14 你知道短浮點數計算現在還沒有IEEE標準嗎?你知道這意味什麼嗎?紅綠藍廠的浮點數計算結果就是不一樣的,沒有誰對誰錯,但是普通用戶就傻眼了。
你也是键盘Ai。就算没训练过模型,屁股想想就知道,“精度”要真那么重要,为什么用短浮点不用双精度。就不怕你说的累积误差。别说几十层,迭代个10000次“误差”得有多大。fantasist 写了: 2025年 6月 23日 02:09 跟他们说这些没什么用,真搞过ai的不用说也懂。
别说浮点精度了,计算图稍微差一点,矩阵相乘顺序不一样,结果就有误差。一个几十层的神经网络,误差累积起来很可观。所以amd华为之类做的训练卡虽然便宜,没什么人愿意去趟雷,因为数值都无法跟n卡对齐。家是自己养了一大批硬件到infra到算法的牛人,才把TPU搞成实际可用的状态。
你做過訓練嗎?訓練不在乎誤差?有NaN還能收斂嗎?遇到同樣PyTorch代碼在不同GPU或者不同固件不同驅動上不同地方NaN知道怎麼debug嗎?普通人不懂不要瞎BB牛河梁 写了: 2025年 6月 23日 02:14 你想太多了。你就没训练过Ai模型。一开口就露馅。
Ai训练不在乎你所谓这些误差。甚至根本不在乎你的所谓万卡集群出现计算差错。
训练重要的是能收敛。只要能收敛。你说这些都不是个事。
這又是意淫,浮點數越短越容易NaN,BLAS稍微改變就NaN了,然後混合精度沒有標準,NaN的地方都不一樣,你改哪裡?另外BLAS各種優化算法,時不時就來個bug,焦頭爛額。牛河梁 写了: 2025年 6月 23日 02:16 你也是键盘Ai。就算没训练过模型,屁股想想就知道,“精度”要真那么重要,为什么用短浮点不用双精度。就不怕你说的累积误差。别说几十层,迭代个10000次“误差”得有多大。
如果随机出错。WideAnimals 写了: 2025年 6月 23日 19:17 倾向老牛说的。硬件计算精度在训练中的影响不是没有,但是和数据质量,收敛快慢相比影响较小。Magagop所说的精度对backpropagation造成的underflow可以用loss scaling等成熟的方法来弥补。另外现在出来新的训练方法可以只用4 bits(google Q-GaLore), 对硬件的要求更低。
什么问题?乘法器?乘加器?乘法累加器?以前DSP里面就是乘法然后累加,累加的时候可以不用全加器,只用半加器。反正下一次接着用。矩阵乘法也有优化减少乘法次数。好在没有除法。除法我也写过,循环减法。做了一个wafer的芯片。