对应老买买提的军事天地,观点交锋比较激烈,反驳不留情面,请作好心理准备。因为此版帖子太多,所以新帖不出现在首页新帖列表,防止首页新帖刷屏太快。
版主: Softfist
-
magagop
- 论坛点评

- 帖子互动: 217
- 帖子: 3095
- 注册时间: 2024年 12月 5日 17:35
帖子
由 magagop »
Caravel 写了: 2025年 2月 26日 14:46
牛逼拉,来出来转两圈,你是openai还是Meta?
我是苦逼底層做芯片的,沒有大包裹,專門死磕ISA。
x1
-
Caravel
- 论坛元老

Caravel 的博客
- 帖子互动: 679
- 帖子: 27059
- 注册时间: 2022年 7月 24日 17:21
帖子
由 Caravel »
huangchong 写了: 2025年 2月 26日 14:40
长期看,神经网络大块运算fp8 甚至fp4是趋势。
fp8相对于fp16,加速不是光两倍,因为需要从内存搬运和需要缓存的数据字节数本身也很重要。特别是缓存和寄存器。你存fp16就能比存fp32多缓存一倍的数据,白白的缓存就大了一倍。缓存很贵的,寄存器就更贵了。
fp16训练的,从fp8到fp4能不损失性能么?
-
Caravel
- 论坛元老

Caravel 的博客
- 帖子互动: 679
- 帖子: 27059
- 注册时间: 2022年 7月 24日 17:21
帖子
由 Caravel »
magagop 写了: 2025年 2月 26日 14:48
我是苦逼底層做芯片的,沒有大包裹,專門死磕ISA。
你看看你这种态度,
现在好不容易有机会得瑟一下
还要摆架子
x1
-
liufanghe
- 论坛点评

- 帖子互动: 231
- 帖子: 2577
- 注册时间: 2022年 9月 18日 22:37
帖子
由 liufanghe »
美帝没啥希望了,
现在砍NIH,折腾FDA
到时生药要是也只会做PPT
真只能到火星给共产党挖矿了
“Information is power. But like all power, there are those who want to keep it for themselves.” ― Aaron Swartz
在新水木看到的有哲理的回答
月收入 1 万是个什么样的水平?拿的人能接受,看的人说 “活不下去” 的水平。
可怜的美华。上半辈子折腾美国签证,下半辈子折腾中国签证。
-
magagop
- 论坛点评

- 帖子互动: 217
- 帖子: 3095
- 注册时间: 2024年 12月 5日 17:35
帖子
由 magagop »
Caravel 写了: 2025年 2月 26日 14:49
你看看你这种态度,
现在好不容易有机会得瑟一下
还要摆架子
因為看不慣你們外行人瞎吹牛。
-
magagop
- 论坛点评

- 帖子互动: 217
- 帖子: 3095
- 注册时间: 2024年 12月 5日 17:35
帖子
由 magagop »
Caravel 写了: 2025年 2月 26日 14:48
fp16训练的,从fp8到fp4能不损失性能么?
FP4將是頂峰,用數量和速度彌補精度。
-
Caravel
- 论坛元老

Caravel 的博客
- 帖子互动: 679
- 帖子: 27059
- 注册时间: 2022年 7月 24日 17:21
帖子
由 Caravel »
magagop 写了: 2025年 2月 26日 14:57
FP4將是頂峰,用數量和速度彌補精度。
你一个大模型输出的都是错的,快有什么用,我情愿等fp16输出对的
-
drifter
- 论坛精英

- 帖子互动: 457
- 帖子: 7454
- 注册时间: 2022年 9月 1日 04:17
帖子
由 drifter »
做硬件的看见居然在软件优化一下性能提升这么大 肯定很郁闷
x1
-
Mountainlion
- 论坛元老

- 帖子互动: 2080
- 帖子: 25233
- 注册时间: 2022年 12月 31日 16:11
帖子
由 Mountainlion »
这个东西只是让d800快一点,离H100还差不少,有什么好吹的?
共产党就是赤裸裸黑手党
-
jiml
- 自助冻结

- 帖子互动: 483
- 帖子: 4300
- 注册时间: 2023年 2月 22日 22:50
帖子
由 jiml »
huangchong 写了: 2025年 2月 26日 14:40
长期看,神经网络大块运算fp8 甚至fp4是趋势。
fp8相对于fp16,加速不是光两倍
错了,小学生常犯的错误
16的平方,8的平方,差几倍?四倍
fp8相对于fp16,算力加速四倍
-
jiml
- 自助冻结

- 帖子互动: 483
- 帖子: 4300
- 注册时间: 2023年 2月 22日 22:50
帖子
由 jiml »
magagop 写了: 2025年 2月 26日 14:46
這才是正確答案,我覺得沒必要給這些硬件盲科普掃盲。FP8非常關鍵,FP4將會是頂峰,這就是結論,Rubin和RubinNext很可怕,跟不上就會掉隊。
你和他们一样的,不懂硬件
-
magagop
- 论坛点评

- 帖子互动: 217
- 帖子: 3095
- 注册时间: 2024年 12月 5日 17:35
帖子
由 magagop »
jiml 写了: 2025年 2月 26日 15:59
你和他们一样的,不懂硬件
我就是做這玩意的,你是做芯片的麼?
-
jiml
- 自助冻结

- 帖子互动: 483
- 帖子: 4300
- 注册时间: 2023年 2月 22日 22:50
帖子
由 jiml »
magagop 写了: 2025年 2月 26日 16:06
我就是做這玩意的,你是做芯片的麼?
为何犯小学生错误,16平方是8平方的两倍?
-
magagop
- 论坛点评

- 帖子互动: 217
- 帖子: 3095
- 注册时间: 2024年 12月 5日 17:35
帖子
由 magagop »
jiml 写了: 2025年 2月 26日 16:09
为何犯小学生错误,16平方是8平方的两倍?
因為GPU運算的瓶頸不是計算單元,而是存儲器帶寬,或者HBM3和GDDR7的帶寬,把model weights搬運進SM的時間是計算的100倍以上,你說的根本可以忽略。
-
newIdRobot(新器人)
- 论坛支柱

- 帖子互动: 394
- 帖子: 12782
- 注册时间: 2022年 7月 21日 21:29
帖子
由 newIdRobot(新器人) »
magagop 写了: 2025年 2月 26日 14:48
我是苦逼底層做芯片的,沒有大包裹,專門死磕ISA。
你在programming时不是说你是nvda的么?这2年泼天的富贵你没吃到?
-
newIdRobot(新器人)
- 论坛支柱

- 帖子互动: 394
- 帖子: 12782
- 注册时间: 2022年 7月 21日 21:29
帖子
由 newIdRobot(新器人) »
big5 写了: 2025年 2月 26日 08:25
这个是什么汇编?
为啥跟我几十年前学的C语言那么像?
内联汇编。
-
magagop
- 论坛点评

- 帖子互动: 217
- 帖子: 3095
- 注册时间: 2024年 12月 5日 17:35
帖子
由 magagop »
newIdRobot 写了: 2025年 2月 26日 16:36
你在programming时不是说你是nvda的么?这2年泼天的富贵你没吃到?
我說我買NVDA股票,女大員工需要買自己公司股票麼?用用你的推理能力仔細想想?
-
forer(wooden)
- 正式写手

- 帖子互动: 19
- 帖子: 179
- 注册时间: 2023年 9月 4日 00:41
帖子
由 forer(wooden) »
Caravel 写了: 2025年 2月 26日 15:12
你一个大模型输出的都是错的,快有什么用,我情愿等fp16输出对的
fp16可以分割成几个fp8, 或是fp4 。这都不是问题。
-
Caravel
- 论坛元老

Caravel 的博客
- 帖子互动: 679
- 帖子: 27059
- 注册时间: 2022年 7月 24日 17:21
帖子
由 Caravel »
forer 写了: 2025年 2月 26日 17:12
fp16可以分割成几个fp8, 或是fp4 。这都不是问题。
废话,要得就是减少精度,不然他们怎么省内存
-
forer(wooden)
- 正式写手

- 帖子互动: 19
- 帖子: 179
- 注册时间: 2023年 9月 4日 00:41
帖子
由 forer(wooden) »
mlforlife 写了: 2025年 2月 25日 23:16
好样的,让所有质疑闭嘴。
让美帝这帮草包三哥马内鸡看看,真正硬核的东西是什么样子,没有PPT,没有stand up, 就是刻苦的工作,就是智慧的光芒。
300行代码拍你脸上,自己领悟去吧。
吹的再牛,无非就是开源了某款nvda芯片内部寄存器配置方案,无论开不开源都需要nvda芯片才能跑,真正硬核的在芯片里。
