不吹不黑 deepseek发现了distill的新方法。ai的model可以在各个复杂的模型上提纯,需要的计算量减小

对应老买买提的军事天地,观点交锋比较激烈。因为此版帖子太多,所以新帖不出现在首页新帖列表,防止首页新帖刷屏太快。

版主: Softfist

回复
dealfinder10楼主
论坛精英
论坛精英
帖子互动: 722
帖子: 6387
注册时间: 2023年 10月 6日 14:56

#1 不吹不黑 deepseek发现了distill的新方法。ai的model可以在各个复杂的模型上提纯,需要的计算量减小

帖子 dealfinder10楼主 »

开源的model上说的很清楚,不用瞎猜。自己去下载一个deepseek的模型就完了。自己的计算机上可以跑7b的模型,更大的需要内存太大了,太费劲了。

distill这种办法有可能是 大规模推广的一个重要步骤,可以大幅度减少硬件的投入。至于超越 还差得远

没有任何难度。目测meta一个星期内可以开源源代码。

谷歌的马工应该在一个星期内可以实现。

大幅利好apple 可以直接用在apple silicon上。看看苹果大涨了吧

https://ollama.com/library/deepseek-r1


Distilled models
DeepSeek team has demonstrated that the reasoning patterns of larger models can be distilled into smaller models, resulting in better performance compared to the reasoning patterns discovered through RL on small models.

Below are the models created via fine-tuning against several dense models widely used in the research community using reasoning data generated by DeepSeek-R1. The evaluation results demonstrate that the distilled smaller dense models perform exceptionally well on benchmarks.
上次由 dealfinder10 在 2025年 1月 27日 10:04 修改。
dealfinder10楼主
论坛精英
论坛精英
帖子互动: 722
帖子: 6387
注册时间: 2023年 10月 6日 14:56

#2 Re: 不吹不黑 deepseek发现了distill的新方法。ai的model可以在各个复杂的模型上提纯,需要的计算量减小

帖子 dealfinder10楼主 »

没有任何难度。目测meta一个星期内可以开源源代码。

谷歌的马工应该在一个星期内可以实现。

大幅利好apple 可以直接用在apple silicon上。看看苹果大涨了吧
Li4(李四)
知名人士
知名人士
帖子互动: 1
帖子: 60
注册时间: 2024年 7月 16日 12:22

#3 Re: 不吹不黑 deepseek发现了distill的新方法。ai的model可以在各个复杂的模型上提纯,需要的计算量减小

帖子 Li4(李四) »

估计复制很容易。但是想靠这个赚钱很难了。 只是大家一起卷, 最终还是卷不过中国模型的成本
dealfinder10楼主
论坛精英
论坛精英
帖子互动: 722
帖子: 6387
注册时间: 2023年 10月 6日 14:56

#4 Re: 不吹不黑 deepseek发现了distill的新方法。ai的model可以在各个复杂的模型上提纯,需要的计算量减小

帖子 dealfinder10楼主 »

卷个鸟啊。google卷的如何啊。

这个是要看脑子的。
netflix(nf)
论坛元老
论坛元老
帖子互动: 847
帖子: 20852
注册时间: 2022年 8月 2日 04:48

#5 Re: 不吹不黑 deepseek发现了distill的新方法。ai的model可以在各个复杂的模型上提纯,需要的计算量减小

帖子 netflix(nf) »

dealfinder10 写了: 2025年 1月 27日 10:01 没有任何难度。目测meta一个星期内可以开源源代码。

谷歌的马工应该在一个星期内可以实现。

大幅利好apple 可以直接用在apple silicon上。看看苹果大涨了吧
没有鸟用,我早指出了,只要是能打价格战的,美国公司doomed。苹果不管搞啥,也不可能比华为更好更便宜
dealfinder10楼主
论坛精英
论坛精英
帖子互动: 722
帖子: 6387
注册时间: 2023年 10月 6日 14:56

#6 Re: 不吹不黑 deepseek发现了distill的新方法。ai的model可以在各个复杂的模型上提纯,需要的计算量减小

帖子 dealfinder10楼主 »

现在总体是 这些model的价值会归零。成为utility

价格战?不一定鹿死谁手。华为也是万能。有人用华为的电动车吗?
netflix(nf)
论坛元老
论坛元老
帖子互动: 847
帖子: 20852
注册时间: 2022年 8月 2日 04:48

#7 Re: 不吹不黑 deepseek发现了distill的新方法。ai的model可以在各个复杂的模型上提纯,需要的计算量减小

帖子 netflix(nf) »

dealfinder10 写了: 2025年 1月 27日 10:11 现在总体是 这些model的价值会归零。成为utility

价格战?不一定鹿死谁手。华为也是万能。有人用华为的电动车吗?
华为电动车一个月销量几万辆
labi
论坛元老
论坛元老
帖子互动: 425
帖子: 16442
注册时间: 2022年 8月 3日 11:08

#8 Re: 不吹不黑 deepseek发现了distill的新方法。ai的model可以在各个复杂的模型上提纯,需要的计算量减小

帖子 labi »

netflix 写了: 2025年 1月 27日 10:05 没有鸟用,我早指出了,只要是能打价格战的,美国公司doomed。苹果不管搞啥,也不可能比华为更好更便宜
华为手机性价比不如苹果了吧
netflix(nf)
论坛元老
论坛元老
帖子互动: 847
帖子: 20852
注册时间: 2022年 8月 2日 04:48

#9 Re: 不吹不黑 deepseek发现了distill的新方法。ai的model可以在各个复杂的模型上提纯,需要的计算量减小

帖子 netflix(nf) »

labi 写了: 2025年 1月 27日 10:13 华为手机性价比不如苹果了吧
现在价格一般般了,在被制裁以前,更好的性能价格只有苹果的一半,被制裁前华为就有10倍放大了
dealfinder10楼主
论坛精英
论坛精英
帖子互动: 722
帖子: 6387
注册时间: 2023年 10月 6日 14:56

#10 Re: 不吹不黑 deepseek发现了distill的新方法。ai的model可以在各个复杂的模型上提纯,需要的计算量减小

帖子 dealfinder10楼主 »

netflix 写了: 2025年 1月 27日 10:12 华为电动车一个月销量几万辆
根本没人跟华为玩,好不好。华为的狼性根本没人跟。那天就给抢过去了。
flyingbeast
著名点评
著名点评
帖子互动: 133
帖子: 4774
注册时间: 2022年 8月 1日 13:30

#11 Re: 不吹不黑 deepseek发现了distill的新方法。ai的model可以在各个复杂的模型上提纯,需要的计算量减小

帖子 flyingbeast »

扯屁,苹果silicon unified memory架构吃现成红利
华为有啥?
netflix 写了: 2025年 1月 27日 10:05 没有鸟用,我早指出了,只要是能打价格战的,美国公司doomed。苹果不管搞啥,也不可能比华为更好更便宜
头像
swjtuer
论坛元老
论坛元老
帖子互动: 1007
帖子: 33485
注册时间: 2022年 7月 21日 22:32

#12 Re: 不吹不黑 deepseek发现了distill的新方法。ai的model可以在各个复杂的模型上提纯,需要的计算量减小

帖子 swjtuer »

Li4 写了: 2025年 1月 27日 10:02 估计复制很容易。但是想靠这个赚钱很难了。 只是大家一起卷, 最终还是卷不过中国模型的成本
跟电动车一样,进不了美国市场没卵用,只是跟资本赚钱提供了新思路
netflix(nf)
论坛元老
论坛元老
帖子互动: 847
帖子: 20852
注册时间: 2022年 8月 2日 04:48

#13 Re: 不吹不黑 deepseek发现了distill的新方法。ai的model可以在各个复杂的模型上提纯,需要的计算量减小

帖子 netflix(nf) »

swjtuer 写了: 2025年 1月 27日 10:16 跟电动车一样,进不了美国市场没卵用,只是跟资本赚钱提供了新思路
美国只有3亿人的市场,而中国有80亿人的市场,你说谁先嗝屁
头像
swjtuer
论坛元老
论坛元老
帖子互动: 1007
帖子: 33485
注册时间: 2022年 7月 21日 22:32

#14 Re: 不吹不黑 deepseek发现了distill的新方法。ai的model可以在各个复杂的模型上提纯,需要的计算量减小

帖子 swjtuer »

netflix 写了: 2025年 1月 27日 10:05 没有鸟用,我早指出了,只要是能打价格战的,美国公司doomed。苹果不管搞啥,也不可能比华为更好更便宜
没鸟用,美国很快会让DS下架,保护市场,跟电动车一样

想在美国捞钱很难了
dealfinder10楼主
论坛精英
论坛精英
帖子互动: 722
帖子: 6387
注册时间: 2023年 10月 6日 14:56

#15 Re: 不吹不黑 deepseek发现了distill的新方法。ai的model可以在各个复杂的模型上提纯,需要的计算量减小

帖子 dealfinder10楼主 »

电动车现在的要求太高。电网要好,充电桩要多,不能太冷不能太热。

爱迪生发明电灯泡,需要其他人建电网才能大规模推广,否则比煤油灯差远了。
头像
swjtuer
论坛元老
论坛元老
帖子互动: 1007
帖子: 33485
注册时间: 2022年 7月 21日 22:32

#17 Re: 不吹不黑 deepseek发现了distill的新方法。ai的model可以在各个复杂的模型上提纯,需要的计算量减小

帖子 swjtuer »

netflix 写了: 2025年 1月 27日 10:17 美国只有3亿人的市场,而中国有80亿人的市场,你说谁先嗝屁
腾讯阿里百度都赚不到美国的钱
dealfinder10楼主
论坛精英
论坛精英
帖子互动: 722
帖子: 6387
注册时间: 2023年 10月 6日 14:56

#18 Re: 不吹不黑 deepseek发现了distill的新方法。ai的model可以在各个复杂的模型上提纯,需要的计算量减小

帖子 dealfinder10楼主 »

中国开放防火墙,这几个公司可能会倒闭 你信不信?
netflix(nf)
论坛元老
论坛元老
帖子互动: 847
帖子: 20852
注册时间: 2022年 8月 2日 04:48

#19 Re: 不吹不黑 deepseek发现了distill的新方法。ai的model可以在各个复杂的模型上提纯,需要的计算量减小

帖子 netflix(nf) »

swjtuer 写了: 2025年 1月 27日 10:18 没鸟用,美国很快会让DS下架,保护市场,跟电动车一样

想在美国捞钱很难了
不用在美国捞钱,美国只有3亿人,但是美国以外的市场美国公司就没戏了
bigballz
知名作家
知名作家
帖子互动: 51
帖子: 791
注册时间: 2024年 6月 7日 18:19

#20 Re: 不吹不黑 deepseek发现了distill的新方法。ai的model可以在各个复杂的模型上提纯,需要的计算量减小

帖子 bigballz »

swjtuer 写了: 2025年 1月 27日 10:18 没鸟用,美国很快会让DS下架,保护市场,跟电动车一样

想在美国捞钱很难了
开源怎么下架?
windy(文帝)
著名点评
著名点评
帖子互动: 761
帖子: 4193
注册时间: 2023年 2月 7日 18:53

#21 Re: 不吹不黑 deepseek发现了distill的新方法。ai的model可以在各个复杂的模型上提纯,需要的计算量减小

帖子 windy(文帝) »

distill也不是他们发明的吧,已经用了挺久的了.你去ollama上看看,能下载的模型多如牛毛,好多模型都是distill过的.
回复

回到 “军事天地(Military)”