分页: 1 / 1

#1 不吹不黑 deepseek发现了distill的新方法。ai的model可以在各个复杂的模型上提纯,需要的计算量减小

发表于 : 2025年 1月 27日 09:58
dealfinder10
开源的model上说的很清楚,不用瞎猜。自己去下载一个deepseek的模型就完了。自己的计算机上可以跑7b的模型,更大的需要内存太大了,太费劲了。

distill这种办法有可能是 大规模推广的一个重要步骤,可以大幅度减少硬件的投入。至于超越 还差得远

没有任何难度。目测meta一个星期内可以开源源代码。

谷歌的马工应该在一个星期内可以实现。

大幅利好apple 可以直接用在apple silicon上。看看苹果大涨了吧

https://ollama.com/library/deepseek-r1


Distilled models
DeepSeek team has demonstrated that the reasoning patterns of larger models can be distilled into smaller models, resulting in better performance compared to the reasoning patterns discovered through RL on small models.

Below are the models created via fine-tuning against several dense models widely used in the research community using reasoning data generated by DeepSeek-R1. The evaluation results demonstrate that the distilled smaller dense models perform exceptionally well on benchmarks.

#2 Re: 不吹不黑 deepseek发现了distill的新方法。ai的model可以在各个复杂的模型上提纯,需要的计算量减小

发表于 : 2025年 1月 27日 10:01
dealfinder10
没有任何难度。目测meta一个星期内可以开源源代码。

谷歌的马工应该在一个星期内可以实现。

大幅利好apple 可以直接用在apple silicon上。看看苹果大涨了吧

#3 Re: 不吹不黑 deepseek发现了distill的新方法。ai的model可以在各个复杂的模型上提纯,需要的计算量减小

发表于 : 2025年 1月 27日 10:02
Li4
估计复制很容易。但是想靠这个赚钱很难了。 只是大家一起卷, 最终还是卷不过中国模型的成本

#4 Re: 不吹不黑 deepseek发现了distill的新方法。ai的model可以在各个复杂的模型上提纯,需要的计算量减小

发表于 : 2025年 1月 27日 10:03
dealfinder10
卷个鸟啊。google卷的如何啊。

这个是要看脑子的。

#5 Re: 不吹不黑 deepseek发现了distill的新方法。ai的model可以在各个复杂的模型上提纯,需要的计算量减小

发表于 : 2025年 1月 27日 10:05
netflix
dealfinder10 写了: 2025年 1月 27日 10:01 没有任何难度。目测meta一个星期内可以开源源代码。

谷歌的马工应该在一个星期内可以实现。

大幅利好apple 可以直接用在apple silicon上。看看苹果大涨了吧
没有鸟用,我早指出了,只要是能打价格战的,美国公司doomed。苹果不管搞啥,也不可能比华为更好更便宜

#6 Re: 不吹不黑 deepseek发现了distill的新方法。ai的model可以在各个复杂的模型上提纯,需要的计算量减小

发表于 : 2025年 1月 27日 10:11
dealfinder10
现在总体是 这些model的价值会归零。成为utility

价格战?不一定鹿死谁手。华为也是万能。有人用华为的电动车吗?

#7 Re: 不吹不黑 deepseek发现了distill的新方法。ai的model可以在各个复杂的模型上提纯,需要的计算量减小

发表于 : 2025年 1月 27日 10:12
netflix
dealfinder10 写了: 2025年 1月 27日 10:11 现在总体是 这些model的价值会归零。成为utility

价格战?不一定鹿死谁手。华为也是万能。有人用华为的电动车吗?
华为电动车一个月销量几万辆

#8 Re: 不吹不黑 deepseek发现了distill的新方法。ai的model可以在各个复杂的模型上提纯,需要的计算量减小

发表于 : 2025年 1月 27日 10:13
labi
netflix 写了: 2025年 1月 27日 10:05 没有鸟用,我早指出了,只要是能打价格战的,美国公司doomed。苹果不管搞啥,也不可能比华为更好更便宜
华为手机性价比不如苹果了吧

#9 Re: 不吹不黑 deepseek发现了distill的新方法。ai的model可以在各个复杂的模型上提纯,需要的计算量减小

发表于 : 2025年 1月 27日 10:14
netflix
labi 写了: 2025年 1月 27日 10:13 华为手机性价比不如苹果了吧
现在价格一般般了,在被制裁以前,更好的性能价格只有苹果的一半,被制裁前华为就有10倍放大了

#10 Re: 不吹不黑 deepseek发现了distill的新方法。ai的model可以在各个复杂的模型上提纯,需要的计算量减小

发表于 : 2025年 1月 27日 10:14
dealfinder10
netflix 写了: 2025年 1月 27日 10:12 华为电动车一个月销量几万辆
根本没人跟华为玩,好不好。华为的狼性根本没人跟。那天就给抢过去了。

#11 Re: 不吹不黑 deepseek发现了distill的新方法。ai的model可以在各个复杂的模型上提纯,需要的计算量减小

发表于 : 2025年 1月 27日 10:15
flyingbeast
扯屁,苹果silicon unified memory架构吃现成红利
华为有啥?
netflix 写了: 2025年 1月 27日 10:05 没有鸟用,我早指出了,只要是能打价格战的,美国公司doomed。苹果不管搞啥,也不可能比华为更好更便宜

#12 Re: 不吹不黑 deepseek发现了distill的新方法。ai的model可以在各个复杂的模型上提纯,需要的计算量减小

发表于 : 2025年 1月 27日 10:16
swjtuer
Li4 写了: 2025年 1月 27日 10:02 估计复制很容易。但是想靠这个赚钱很难了。 只是大家一起卷, 最终还是卷不过中国模型的成本
跟电动车一样,进不了美国市场没卵用,只是跟资本赚钱提供了新思路

#13 Re: 不吹不黑 deepseek发现了distill的新方法。ai的model可以在各个复杂的模型上提纯,需要的计算量减小

发表于 : 2025年 1月 27日 10:17
netflix
swjtuer 写了: 2025年 1月 27日 10:16 跟电动车一样,进不了美国市场没卵用,只是跟资本赚钱提供了新思路
美国只有3亿人的市场,而中国有80亿人的市场,你说谁先嗝屁

#14 Re: 不吹不黑 deepseek发现了distill的新方法。ai的model可以在各个复杂的模型上提纯,需要的计算量减小

发表于 : 2025年 1月 27日 10:18
swjtuer
netflix 写了: 2025年 1月 27日 10:05 没有鸟用,我早指出了,只要是能打价格战的,美国公司doomed。苹果不管搞啥,也不可能比华为更好更便宜
没鸟用,美国很快会让DS下架,保护市场,跟电动车一样

想在美国捞钱很难了

#15 Re: 不吹不黑 deepseek发现了distill的新方法。ai的model可以在各个复杂的模型上提纯,需要的计算量减小

发表于 : 2025年 1月 27日 10:18
dealfinder10
电动车现在的要求太高。电网要好,充电桩要多,不能太冷不能太热。

爱迪生发明电灯泡,需要其他人建电网才能大规模推广,否则比煤油灯差远了。

#17 Re: 不吹不黑 deepseek发现了distill的新方法。ai的model可以在各个复杂的模型上提纯,需要的计算量减小

发表于 : 2025年 1月 27日 10:19
swjtuer
netflix 写了: 2025年 1月 27日 10:17 美国只有3亿人的市场,而中国有80亿人的市场,你说谁先嗝屁
腾讯阿里百度都赚不到美国的钱

#18 Re: 不吹不黑 deepseek发现了distill的新方法。ai的model可以在各个复杂的模型上提纯,需要的计算量减小

发表于 : 2025年 1月 27日 10:20
dealfinder10
中国开放防火墙,这几个公司可能会倒闭 你信不信?

#19 Re: 不吹不黑 deepseek发现了distill的新方法。ai的model可以在各个复杂的模型上提纯,需要的计算量减小

发表于 : 2025年 1月 27日 10:20
netflix
swjtuer 写了: 2025年 1月 27日 10:18 没鸟用,美国很快会让DS下架,保护市场,跟电动车一样

想在美国捞钱很难了
不用在美国捞钱,美国只有3亿人,但是美国以外的市场美国公司就没戏了

#20 Re: 不吹不黑 deepseek发现了distill的新方法。ai的model可以在各个复杂的模型上提纯,需要的计算量减小

发表于 : 2025年 1月 27日 10:24
bigballz
swjtuer 写了: 2025年 1月 27日 10:18 没鸟用,美国很快会让DS下架,保护市场,跟电动车一样

想在美国捞钱很难了
开源怎么下架?

#21 Re: 不吹不黑 deepseek发现了distill的新方法。ai的model可以在各个复杂的模型上提纯,需要的计算量减小

发表于 : 2025年 1月 27日 10:40
windy
distill也不是他们发明的吧,已经用了挺久的了.你去ollama上看看,能下载的模型多如牛毛,好多模型都是distill过的.