(转载)deepseek还有一个重要发现

STEM版,合并数学,物理,化学,科学,工程,机械。不包括生物、医学相关,和计算机相关内容。

版主: verdeliteTheMatrix

回复
Caravel楼主
论坛元老
论坛元老
Caravel 的博客
帖子互动: 633
帖子: 26128
注册时间: 2022年 7月 24日 17:21

#1 (转载)deepseek还有一个重要发现

帖子 Caravel楼主 »

此帖转自 Caravel 在 军事天地(Military) 的帖子:deepseek还有一个重要发现

就是不仅R1很厉害

只要用R1蒸馏一个小的8b,32b的小的开源model,小model在特定问题就能达到80%,90%的performance。

这些小model可以部署在PC上面,甚至手机上,不需要非常昂贵的gpu。

"DeepSeek-R1-Distill-Qwen-1.5B outperforms GPT-4o and Claude-3.5-Sonnet on math benchmarks with 28.9% on AIME and 83.9% on MATH"

People have gotten this 1.5B model running on phones. The slightly bigger models like 8B or even 32B can probably run on existing data center server hardware, which has a huge impact on AI Infrastructure investment planning - you don't need Nvidia chips or anything fancy to run these small models.

标签/Tags:
头像
mmking(上水)
论坛支柱
论坛支柱
帖子互动: 1395
帖子: 10315
注册时间: 2023年 1月 25日 05:10

#2 Re: (转载)deepseek还有一个重要发现

帖子 mmking(上水) »

卖女大,买卖塔,骨骼,味软

裁裁裁,凡是中国开始白菜的东西都不能碰

如果你家被人烧杀抢掠了,你把这个故事告诉你子孙就是仇恨教育,那么跟随施暴者一起贴这个标签的xx和施暴者一样可恶

凡所有相,皆是虚妄

图片

头像
(ヅ)
论坛支柱
论坛支柱
帖子互动: 546
帖子: 11801
注册时间: 2022年 8月 21日 14:20

#3 Re: (转载)deepseek还有一个重要发现

帖子 (ヅ) »

Caravel 写了: 2025年 1月 24日 14:12 此帖转自 Caravel 在 军事天地(Military) 的帖子:deepseek还有一个重要发现

就是不仅R1很厉害

只要用R1蒸馏一个小的8b,32b的小的开源model,小model在特定问题就能达到80%,90%的performance。

这些小model可以部署在PC上面,甚至手机上,不需要非常昂贵的gpu。

"DeepSeek-R1-Distill-Qwen-1.5B outperforms GPT-4o and Claude-3.5-Sonnet on math benchmarks with 28.9% on AIME and 83.9% on MATH"

People have gotten this 1.5B model running on phones. The slightly bigger models like 8B or even 32B can probably run on existing data center server hardware, which has a huge impact on AI Infrastructure investment planning - you don't need Nvidia chips or anything fancy to run these small models.
我整了个32b在本地,只能用cpu跑那叫一个慢

问个问题几分钟才磨磨蹭蹭说完
Caravel楼主
论坛元老
论坛元老
Caravel 的博客
帖子互动: 633
帖子: 26128
注册时间: 2022年 7月 24日 17:21

#4 Re: (转载)deepseek还有一个重要发现

帖子 Caravel楼主 »

(ヅ) 写了: 2025年 1月 24日 16:03 我整了个32b在本地,只能用cpu跑那叫一个慢

问个问题几分钟才磨磨蹭蹭说完
32b太大了,换个小点的试试看
头像
(ヅ)
论坛支柱
论坛支柱
帖子互动: 546
帖子: 11801
注册时间: 2022年 8月 21日 14:20

#5 Re: (转载)deepseek还有一个重要发现

帖子 (ヅ) »

Caravel 写了: 2025年 1月 24日 16:04 32b太大了,换个小点的试试看
官方也没说给个建议多大显存用多大模型

32已经算小了,有个600多b的没敢试
sporky
见习点评
见习点评
帖子互动: 141
帖子: 1279
注册时间: 2023年 9月 19日 18:58

#6 Re: (转载)deepseek还有一个重要发现

帖子 sporky »

16gb的显卡可以跑8b的
Caravel楼主
论坛元老
论坛元老
Caravel 的博客
帖子互动: 633
帖子: 26128
注册时间: 2022年 7月 24日 17:21

#7 Re: (转载)deepseek还有一个重要发现

帖子 Caravel楼主 »

(ヅ) 写了: 2025年 1月 24日 16:26 官方也没说给个建议多大显存用多大模型

32已经算小了,有个600多b的没敢试
你有多大的内存?600b装不下吧
头像
(ヅ)
论坛支柱
论坛支柱
帖子互动: 546
帖子: 11801
注册时间: 2022年 8月 21日 14:20

#8 Re: (转载)deepseek还有一个重要发现

帖子 (ヅ) »

Caravel 写了: 2025年 1月 24日 16:29 你有多大的内存?600b装不下吧
我有自知之明,根本没试

64GB RAM/6GB vRAM
ILoveBainiu
职业作家
职业作家
帖子互动: 30
帖子: 729
注册时间: 2022年 12月 24日 00:10

#9 Re: (转载)deepseek还有一个重要发现

帖子 ILoveBainiu »

这是副产品
宽衣,通商,唐诗,宋词,秦刚,秦城
此生不悔入华夏,来世还做小昂萨
头像
huangchong(净坛使者)
论坛元老
论坛元老
2023-24年度优秀版主
帖子互动: 3931
帖子: 59706
注册时间: 2022年 7月 22日 01:22

#10 Re: (转载)deepseek还有一个重要发现

帖子 huangchong(净坛使者) »

(ヅ) 写了: 2025年 1月 24日 16:03 我整了个32b在本地,只能用cpu跑那叫一个慢

问个问题几分钟才磨磨蹭蹭说完
why not use the 7B?
头像
(ヅ)
论坛支柱
论坛支柱
帖子互动: 546
帖子: 11801
注册时间: 2022年 8月 21日 14:20

#11 Re: (转载)deepseek还有一个重要发现

帖子 (ヅ) »

huangchong 写了: 2025年 1月 25日 09:59 why not use the 7B?
第一次试大模型,也不知道该哪个,随手选的
头像
huangchong(净坛使者)
论坛元老
论坛元老
2023-24年度优秀版主
帖子互动: 3931
帖子: 59706
注册时间: 2022年 7月 22日 01:22

#12 Re: (转载)deepseek还有一个重要发现

帖子 huangchong(净坛使者) »

(ヅ) 写了: 2025年 1月 25日 10:17 第一次试大模型,也不知道该哪个,随手选的



这个地方有个表,大致是说算GPU内存需求的话,有模型自己的大小(quantized的模型估计就是下载大小),加上k/v缓存,加上一点点overhead
https://smcleod.net/2024/12/bringing-k/ ... to-ollama/



我试了一个32B Q3_K_S, GGUF格式的模型,下载14G,全在显卡里跑的时候用17G显存
另一个7B Q4_K_M的模型下载4.4G,跑的时候7G
头像
(ヅ)
论坛支柱
论坛支柱
帖子互动: 546
帖子: 11801
注册时间: 2022年 8月 21日 14:20

#13 Re: (转载)deepseek还有一个重要发现

帖子 (ヅ) »

huangchong 写了: 2025年 1月 25日 10:30


这个地方有个表,大致是说算GPU内存需求的话,有模型自己的大小(quantized的模型估计就是下载大小),加上k/v缓存,加上一点点overhead
https://smcleod.net/2024/12/bringing-k/ ... to-ollama/



我试了一个32B Q3_K_S, GGUF格式的模型,下载14G,全在显卡里跑的时候用17G显存
另一个7B Q4_K_M的模型下载4.4G,跑的时候7G
果然膨胀了,我去整个14b的试试看能不能在显存里面跑
头像
huangchong(净坛使者)
论坛元老
论坛元老
2023-24年度优秀版主
帖子互动: 3931
帖子: 59706
注册时间: 2022年 7月 22日 01:22

#14 Re: (转载)deepseek还有一个重要发现

帖子 huangchong(净坛使者) »

(ヅ) 写了: 2025年 1月 25日 10:34 果然膨胀了,我去整个14b的试试看能不能在显存里面跑
花钱买了显卡,就要把它塞满才快乐
头像
DIYer
论坛点评
论坛点评
帖子互动: 220
帖子: 3268
注册时间: 2023年 11月 7日 13:48

#15 Re: (转载)deepseek还有一个重要发现

帖子 DIYer »

如果大显存很有用的话,那按摩店的方向对了,显存大,带宽高
头像
huangchong(净坛使者)
论坛元老
论坛元老
2023-24年度优秀版主
帖子互动: 3931
帖子: 59706
注册时间: 2022年 7月 22日 01:22

#16 Re: (转载)deepseek还有一个重要发现

帖子 huangchong(净坛使者) »

DIYer 写了: 2025年 1月 25日 13:24 如果大显存很有用的话,那按摩店的方向对了,显存大,带宽高
可能nvidia也是故意限制游戏卡的显存大小,逼那些ai公司去买贵得多的计算卡
头像
DIYer
论坛点评
论坛点评
帖子互动: 220
帖子: 3268
注册时间: 2023年 11月 7日 13:48

#17 Re: (转载)deepseek还有一个重要发现

帖子 DIYer »

huangchong 写了: 2025年 1月 25日 13:33 可能nvidia也是故意限制游戏卡的显存大小,逼那些ai公司去买贵得多的计算卡
可是女大最高端的也没有按摩店的显存大
回复

回到 “STEM”