不吹不黑 deepseek发现了distill的新方法。ai的model可以在各个复杂的模型上提纯,需要的计算量减小
版主: Softfist
#1 不吹不黑 deepseek发现了distill的新方法。ai的model可以在各个复杂的模型上提纯,需要的计算量减小
开源的model上说的很清楚,不用瞎猜。自己去下载一个deepseek的模型就完了。自己的计算机上可以跑7b的模型,更大的需要内存太大了,太费劲了。
distill这种办法有可能是 大规模推广的一个重要步骤,可以大幅度减少硬件的投入。至于超越 还差得远
没有任何难度。目测meta一个星期内可以开源源代码。
谷歌的马工应该在一个星期内可以实现。
大幅利好apple 可以直接用在apple silicon上。看看苹果大涨了吧
https://ollama.com/library/deepseek-r1
Distilled models
DeepSeek team has demonstrated that the reasoning patterns of larger models can be distilled into smaller models, resulting in better performance compared to the reasoning patterns discovered through RL on small models.
Below are the models created via fine-tuning against several dense models widely used in the research community using reasoning data generated by DeepSeek-R1. The evaluation results demonstrate that the distilled smaller dense models perform exceptionally well on benchmarks.
distill这种办法有可能是 大规模推广的一个重要步骤,可以大幅度减少硬件的投入。至于超越 还差得远
没有任何难度。目测meta一个星期内可以开源源代码。
谷歌的马工应该在一个星期内可以实现。
大幅利好apple 可以直接用在apple silicon上。看看苹果大涨了吧
https://ollama.com/library/deepseek-r1
Distilled models
DeepSeek team has demonstrated that the reasoning patterns of larger models can be distilled into smaller models, resulting in better performance compared to the reasoning patterns discovered through RL on small models.
Below are the models created via fine-tuning against several dense models widely used in the research community using reasoning data generated by DeepSeek-R1. The evaluation results demonstrate that the distilled smaller dense models perform exceptionally well on benchmarks.
上次由 dealfinder10 在 2025年 1月 27日 10:04 修改。
#2 Re: 不吹不黑 deepseek发现了distill的新方法。ai的model可以在各个复杂的模型上提纯,需要的计算量减小
没有任何难度。目测meta一个星期内可以开源源代码。
谷歌的马工应该在一个星期内可以实现。
大幅利好apple 可以直接用在apple silicon上。看看苹果大涨了吧
谷歌的马工应该在一个星期内可以实现。
大幅利好apple 可以直接用在apple silicon上。看看苹果大涨了吧
#3 Re: 不吹不黑 deepseek发现了distill的新方法。ai的model可以在各个复杂的模型上提纯,需要的计算量减小
估计复制很容易。但是想靠这个赚钱很难了。 只是大家一起卷, 最终还是卷不过中国模型的成本
#5 Re: 不吹不黑 deepseek发现了distill的新方法。ai的model可以在各个复杂的模型上提纯,需要的计算量减小
没有鸟用,我早指出了,只要是能打价格战的,美国公司doomed。苹果不管搞啥,也不可能比华为更好更便宜dealfinder10 写了: 2025年 1月 27日 10:01 没有任何难度。目测meta一个星期内可以开源源代码。
谷歌的马工应该在一个星期内可以实现。
大幅利好apple 可以直接用在apple silicon上。看看苹果大涨了吧
#6 Re: 不吹不黑 deepseek发现了distill的新方法。ai的model可以在各个复杂的模型上提纯,需要的计算量减小
现在总体是 这些model的价值会归零。成为utility
价格战?不一定鹿死谁手。华为也是万能。有人用华为的电动车吗?
价格战?不一定鹿死谁手。华为也是万能。有人用华为的电动车吗?
#9 Re: 不吹不黑 deepseek发现了distill的新方法。ai的model可以在各个复杂的模型上提纯,需要的计算量减小
现在价格一般般了,在被制裁以前,更好的性能价格只有苹果的一半,被制裁前华为就有10倍放大了
#10 Re: 不吹不黑 deepseek发现了distill的新方法。ai的model可以在各个复杂的模型上提纯,需要的计算量减小
根本没人跟华为玩,好不好。华为的狼性根本没人跟。那天就给抢过去了。
#11 Re: 不吹不黑 deepseek发现了distill的新方法。ai的model可以在各个复杂的模型上提纯,需要的计算量减小
扯屁,苹果silicon unified memory架构吃现成红利
华为有啥?
华为有啥?
#14 Re: 不吹不黑 deepseek发现了distill的新方法。ai的model可以在各个复杂的模型上提纯,需要的计算量减小
没鸟用,美国很快会让DS下架,保护市场,跟电动车一样
想在美国捞钱很难了
#15 Re: 不吹不黑 deepseek发现了distill的新方法。ai的model可以在各个复杂的模型上提纯,需要的计算量减小
电动车现在的要求太高。电网要好,充电桩要多,不能太冷不能太热。
爱迪生发明电灯泡,需要其他人建电网才能大规模推广,否则比煤油灯差远了。
爱迪生发明电灯泡,需要其他人建电网才能大规模推广,否则比煤油灯差远了。
#19 Re: 不吹不黑 deepseek发现了distill的新方法。ai的model可以在各个复杂的模型上提纯,需要的计算量减小
不用在美国捞钱,美国只有3亿人,但是美国以外的市场美国公司就没戏了
#21 Re: 不吹不黑 deepseek发现了distill的新方法。ai的model可以在各个复杂的模型上提纯,需要的计算量减小
distill也不是他们发明的吧,已经用了挺久的了.你去ollama上看看,能下载的模型多如牛毛,好多模型都是distill过的.