对GenAI现状感兴趣的推荐一点资料

版主: hci

头像
牛河梁(别问我是谁)
论坛元老
论坛元老
2023年度十大优秀网友
2024年度优秀版主
牛河梁 的博客
帖子互动: 1421
帖子: 25942
注册时间: 2022年 11月 17日 21:21
联系:

#41 Re: 对GenAI现状感兴趣的推荐一点资料

帖子 牛河梁(别问我是谁) »

magagop 写了: 2025年 6月 23日 01:14 你知道短浮點數計算現在還沒有IEEE標準嗎?你知道這意味什麼嗎?紅綠藍廠的浮點數計算結果就是不一樣的,沒有誰對誰錯,但是普通用戶就傻眼了。
你想太多了。你就没训练过Ai模型。一开口就露馅。

Ai训练不在乎你所谓这些误差。甚至根本不在乎你的所谓万卡集群出现计算差错。

训练重要的是能收敛。只要能收敛。你说这些都不是个事。

标签/Tags:
头像
牛河梁(别问我是谁)
论坛元老
论坛元老
2023年度十大优秀网友
2024年度优秀版主
牛河梁 的博客
帖子互动: 1421
帖子: 25942
注册时间: 2022年 11月 17日 21:21
联系:

#42 Re: 对GenAI现状感兴趣的推荐一点资料

帖子 牛河梁(别问我是谁) »

fantasist 写了: 2025年 6月 23日 02:09 跟他们说这些没什么用,真搞过ai的不用说也懂。
别说浮点精度了,计算图稍微差一点,矩阵相乘顺序不一样,结果就有误差。一个几十层的神经网络,误差累积起来很可观。所以amd华为之类做的训练卡虽然便宜,没什么人愿意去趟雷,因为数值都无法跟n卡对齐。🐶家是自己养了一大批硬件到infra到算法的牛人,才把TPU搞成实际可用的状态。
你也是键盘Ai。就算没训练过模型,屁股想想就知道,“精度”要真那么重要,为什么用短浮点不用双精度。就不怕你说的累积误差。别说几十层,迭代个10000次“误差”得有多大。
magagop
见习点评
见习点评
帖子互动: 94
帖子: 1474
注册时间: 2024年 12月 5日 17:35

#43 Re: 对GenAI现状感兴趣的推荐一点资料

帖子 magagop »

牛河梁 写了: 2025年 6月 23日 02:14 你想太多了。你就没训练过Ai模型。一开口就露馅。

Ai训练不在乎你所谓这些误差。甚至根本不在乎你的所谓万卡集群出现计算差错。

训练重要的是能收敛。只要能收敛。你说这些都不是个事。
你做過訓練嗎?訓練不在乎誤差?有NaN還能收斂嗎?遇到同樣PyTorch代碼在不同GPU或者不同固件不同驅動上不同地方NaN知道怎麼debug嗎?普通人不懂不要瞎BB
magagop
见习点评
见习点评
帖子互动: 94
帖子: 1474
注册时间: 2024年 12月 5日 17:35

#44 Re: 对GenAI现状感兴趣的推荐一点资料

帖子 magagop »

牛河梁 写了: 2025年 6月 23日 02:16 你也是键盘Ai。就算没训练过模型,屁股想想就知道,“精度”要真那么重要,为什么用短浮点不用双精度。就不怕你说的累积误差。别说几十层,迭代个10000次“误差”得有多大。
這又是意淫,浮點數越短越容易NaN,BLAS稍微改變就NaN了,然後混合精度沒有標準,NaN的地方都不一樣,你改哪裡?另外BLAS各種優化算法,時不時就來個bug,焦頭爛額。
头像
牛河梁(别问我是谁)
论坛元老
论坛元老
2023年度十大优秀网友
2024年度优秀版主
牛河梁 的博客
帖子互动: 1421
帖子: 25942
注册时间: 2022年 11月 17日 21:21
联系:

#45 Re: 对GenAI现状感兴趣的推荐一点资料

帖子 牛河梁(别问我是谁) »

magagop 写了: 2025年 6月 23日 03:02 你做過訓練嗎?訓練不在乎誤差?有NaN還能收斂嗎?遇到同樣PyTorch代碼在不同GPU或者不同固件不同驅動上不同地方NaN知道怎麼debug嗎?普通人不懂不要瞎BB
老牛当然训练过Ai。你要是没训过少说两句。
WideAnimals
著名写手
著名写手
帖子互动: 63
帖子: 219
注册时间: 2023年 11月 11日 21:12

#46 Re: 对GenAI现状感兴趣的推荐一点资料

帖子 WideAnimals »

倾向老牛说的。硬件计算精度在训练中的影响不是没有,但是和数据质量,收敛快慢相比影响较小。Magagop所说的精度对backpropagation造成的underflow可以用loss scaling等成熟的方法来弥补。另外现在出来新的训练方法可以只用4 bits(google Q-GaLore), 对硬件的要求更低。
hahan
论坛元老
论坛元老
hahan 的博客
帖子互动: 796
帖子: 17512
注册时间: 2022年 7月 23日 23:48

#47 Re: 对GenAI现状感兴趣的推荐一点资料

帖子 hahan »

fantasist 写了: 2025年 6月 23日 00:09 我相信你纯软件写的东西能计算,但慢呀,训一轮要几天谁等的起。nvidia在硬件上就对这些有优化加速,配合cuda生态,构成了软硬结合的护城河。
就是硬件的针对性优化
为啥别的厂不行
狗家tpu?
急急如丧家之犬
忙忙似漏网之鱼
头像
牛河梁(别问我是谁)
论坛元老
论坛元老
2023年度十大优秀网友
2024年度优秀版主
牛河梁 的博客
帖子互动: 1421
帖子: 25942
注册时间: 2022年 11月 17日 21:21
联系:

#48 Re: 对GenAI现状感兴趣的推荐一点资料

帖子 牛河梁(别问我是谁) »

WideAnimals 写了: 2025年 6月 23日 19:17 倾向老牛说的。硬件计算精度在训练中的影响不是没有,但是和数据质量,收敛快慢相比影响较小。Magagop所说的精度对backpropagation造成的underflow可以用loss scaling等成熟的方法来弥补。另外现在出来新的训练方法可以只用4 bits(google Q-GaLore), 对硬件的要求更低。
如果随机出错。

这不是个问题。

如果稳定出错,

厂商活该破产。
fantasist楼主
见习点评
见习点评
帖子互动: 158
帖子: 1348
注册时间: 2022年 7月 24日 19:52

#49 Re: 对GenAI现状感兴趣的推荐一点资料

帖子 fantasist楼主 »

hahan 写了: 2025年 6月 23日 19:38 就是硬件的针对性优化
为啥别的厂不行
狗家tpu?
需要从软件到硬件的整体优化。就算出一款硬件号称attention计算快了5倍,说不定pytorch都不支持,谁会去用呢。
bihai
见习点评
见习点评
帖子互动: 58
帖子: 1458
注册时间: 2022年 7月 24日 20:58

#50 Re: 对GenAI现状感兴趣的推荐一点资料

帖子 bihai »

magagop 写了: 2025年 6月 23日 00:08 看你的回答就知道你也不懂,軟件用戶總覺得芯片很簡單,誰都能做,其實一個小破問題,就需要很長時間解決。
什么问题?乘法器?乘加器?乘法累加器?以前DSP里面就是乘法然后累加,累加的时候可以不用全加器,只用半加器。反正下一次接着用。矩阵乘法也有优化减少乘法次数。好在没有除法。除法我也写过,循环减法。做了一个wafer的芯片。

这种verilog没有AI参与吗?AI不会吗?周期比较长,设计后要半年才能看到结果吧。
回复

回到 “葵花宝典(Programming)”