我们还是太善良了

bhold · 帖子由 **bhold楼主** » 2025年 1月 30日 08:07

低估了国内走捷径的无所不用
DS 蒸馏了OpenAI-o1
所以模型训练收敛块属于作弊行为
怪不得在文章在训练上含糊其辞

所以DS的真实成本应该是
OpenAI 的成本 + DS 的成本

当年某东方培训GRE考试
玉米糊派老师们进考场考试
把题目记出来再培训学生
用真题库培训学生当然时间短效果好
美国没把培训学校怎么样
倒让习主席一刀喀嚓了
就说苍天饶过谁 LOL

真是 Deep Sick

bhold · 帖子由 **bhold楼主** » 2025年 1月 30日 08:08

才发现图有人发过了
发过就发过吧那就再看一遍 LOL

maxthon · 帖子由 **maxthon** » 2025年 1月 30日 09:27

其实蒸馏技术高也是一个技术活，DS没有它吹得那么厉害，但是还是有点核心东西的。
这对初创企业和码农是好事，否则大企业建立起GPU算力壁垒，直接就垄断了。

Bluesky · 帖子由 **Bluesky** » 2025年 1月 30日 11:03

蒸馏，这词形象。要是全世界就是一个地球村该多好。有人釀米酒，有人来蒸馏提纯。最后大家一起喝茅台。。。

marclee · 帖子由 **marclee** » 2025年 1月 30日 11:07

很多人连这件事中的最简单的几个概念“开源”，“蒸馏”，“低成本AI”都是啥意思意味着啥都没搞清楚，就人云亦云。
不止这个贴，本版很多贴。

开源的意思都没搞清楚的ID大把人在。
说到Deep seek到底怎么玩的全靠想当然，可叹。

因此还如此偏执固执不奇怪，市场给答案！

牛河梁

maxthon 写了： 2025年 1月 30日 09:27 其实蒸馏技术高也是一个技术活，DS没有它吹得那么厉害，但是还是有点核心东西的。
这对初创企业和码农是好事，否则大企业建立起GPU算力壁垒，直接就垄断了。

铁丝也蒸馏。蒸馏就是个工具。没有问题。问题还在于基础模型。不然仍然是站在（今天的）巨人（也许是明天的侏儒）的肩膀上。

cboe · 帖子由 **cboe（CBOE）** » 2025年 1月 30日 11:11

你能蒸馏一个deepseek，肯定有人给你投钱。

股版也有大牛给你投给你拉赞助。。。。

DollarMore

---------------------

搞数值计算的，都知道算法收敛的关键是初值。

谢谢 open AI 提供了初值可行解供大家参考使用。。

pathdream

干死了 openai 世界就进步了

牛河梁

DollarMore 写了： 2025年 1月 30日 11:15 ---------------------

搞数值计算的，都知道算法收敛的关键是初值。

谢谢 open AI 提供了初值可行解供大家参考使用。。

拟合/ML里Overfit也是问题。

总体而言，模型越大越好。简单暴力。

蒸馏/小模型总有这样那样的问题。不然Elon也不用升级HW3了。

robot2022 · 帖子由 **robot2022（R）** » 2025年 1月 30日 11:19

不是图里这么简单粗暴吧

牛河梁

robot2022 写了： 2025年 1月 30日 11:19 不是图里这么简单粗暴吧

老牛觉得更像是找了一只熊（卖它），然后对照着旁边的熊猫（ChatGPT）把熊涂（蒸馏）成熊猫的样子。

shale · 帖子由 **shale** » 2025年 1月 30日 11:36

DeepSeek好像只公布了一部分代码
它前期训练到底用的什么硬件也讳莫如深

bigballz · 帖子由 **bigballz** » 2025年 1月 30日 11:48

bhold 写了： 2025年 1月 30日 08:07 低估了国内走捷径的无所不用
DS 蒸馏了OpenAI-o1
所以模型训练收敛块属于作弊行为
怪不得在文章在训练上含糊其辞

所以DS的真实成本应该是
OpenAI 的成本 + DS 的成本

当年某东方培训GRE考试
玉米糊派老师们进考场考试
把题目记出来再培训学生
用真题库培训学生当然时间短效果好
美国没把培训学校怎么样
倒让习主席一刀喀嚓了
就说苍天饶过谁 LOL

真是 Deep Sick

首先你丫对ai 理解基本出于文盲水平

open ai。own 参数。但打data 对不起都是网上现成的我也没叫办税

deepseek 没用丫参数那抄个几把

再次

麻痹的 deepseek 开源啊又没赚你丫一毛钱

大家一起进步一起玩

傻逼还觉得每月收200的close ai 太善良?

newstart · 帖子由 **newstart** » 2025年 1月 30日 11:48

openAI的数据合法么？
交钱了么

牛河梁

shale 写了： 2025年 1月 30日 11:36 DeepSeek好像只公布了一部分代码
它前期训练到底用的什么硬件也讳莫如深

老牛没去看源代码。不过从看到的感觉训练代码量不多。大多数都是调已有的库。除非DS重写了底层的库。否则可能也就改了10来行代码的样子。

不过需要强调的是。不是说10来行就不牛逼。这些评估函数（老牛老了不知道该如何称呼命名）改一点点对最终结果的优劣影响都极大。当然，副作用就是Overfit。

做题交作业刷分很有用。靠这个搞不出AGI。

SOD · 帖子由 **SOD** » 2025年 1月 30日 12:11

牛河梁写了： 2025年 1月 30日 11:48 老牛没去看源代码。不过从看到的感觉训练代码量不多。大多数都是调已有的库。除非DS重写了底层的库。否则可能也就改了10来行代码的样子。

不过需要强调的是。不是说10来行就不牛逼。这些评估函数（老牛老了不知道该如何称呼命名）改一点点对最终结果的优劣影响都极大。当然，副作用就是Overfit。

做题交作业刷分很有用。靠这个搞不出AGI。

还调库呢，连cuda都不用

你自称搞AI的，自然明白什么意思

bigballz · 帖子由 **bigballz** » 2025年 1月 30日 12:12

牛河梁写了： 2025年 1月 30日 11:48 老牛没去看源代码。不过从看到的感觉训练代码量不多。大多数都是调已有的库。除非DS重写了底层的库。否则可能也就改了10来行代码的样子。

不过需要强调的是。不是说10来行就不牛逼。这些评估函数（老牛老了不知道该如何称呼命名）改一点点对最终结果的优劣影响都极大。当然，副作用就是Overfit。

做题交作业刷分很有用。靠这个搞不出AGI。

overfitting 了还有reinforce learning 纠正

ferrygao · 帖子由 **ferrygao** » 2025年 1月 30日 12:13

Newman: In Trump’s economic vision, everybody’s on their own

牛河梁

SOD 写了： 2025年 1月 30日 12:11 还调库呢，连cuda都不用

你自称搞AI的，自然明白什么意思

老牛只是路过看两眼。老牛不搞这些（所谓的）AI。懂的自然都懂老牛什么意思。

新未名空间

我们还是太善良了

#1 我们还是太善良了

#2 Re: 我们还是太善良了

#3 Re: 我们还是太善良了

#4 Re: 我们还是太善良了

#5 Re: 我们还是太善良了

#6 Re: 我们还是太善良了

#7 Re: 我们还是太善良了

#8 Re: 我们还是太善良了

#9 Re: 我们还是太善良了

#10 Re: 我们还是太善良了

#11 Re: 我们还是太善良了

#12 Re: 我们还是太善良了

#13 Re: 我们还是太善良了

#14 Re: 我们还是太善良了

#15 Re: 我们还是太善良了

#16 Re: 我们还是太善良了

#17 Re: 我们还是太善良了

#18 Re: 我们还是太善良了

#19 Re: 我们还是太善良了

#20 Re: 我们还是太善良了