分页: 1 / 1
#1 我们还是太善良了
发表于 : 2025年 1月 30日 08:07
由 bhold
低估了国内走捷径的无所不用
DS 蒸馏了OpenAI-o1
所以模型训练收敛块 属于作弊行为
怪不得在文章在训练上含糊其辞
所以DS的真实成本应该是
OpenAI 的成本 + DS 的成本
当年某东方培训GRE考试
玉米糊派老师们进考场考试
把题目记出来 再培训学生
用真题库培训学生当然时间短效果好
美国没把培训学校怎么样
倒让习主席一刀喀嚓了
就说苍天饶过谁 LOL
真是 Deep Sick

#2 Re: 我们还是太善良了
发表于 : 2025年 1月 30日 08:08
由 bhold
才发现图有人发过了
发过就发过吧 那就再看一遍 LOL
#3 Re: 我们还是太善良了
发表于 : 2025年 1月 30日 09:27
由 maxthon
其实蒸馏技术高也是一个技术活,DS没有它吹得那么厉害,但是还是有点核心东西的。
这对初创企业和码农是好事,否则大企业建立起GPU算力壁垒,直接就垄断了。
#4 Re: 我们还是太善良了
发表于 : 2025年 1月 30日 11:03
由 Bluesky
蒸馏,这词形象。要是全世界就是一个地球村该多好。有人釀米酒,有人来蒸馏提纯。最后大家一起喝茅台。。。
#5 Re: 我们还是太善良了
发表于 : 2025年 1月 30日 11:07
由 marclee
很多人连这件事中的最简单的几个概念“开源”,“蒸馏”,“低成本AI”都是啥意思意味着啥都没搞清楚,就人云亦云。
不止这个贴,本版很多贴。
开源的意思都没搞清楚的ID大把人在。
说到Deep seek到底怎么玩的全靠想当然,可叹。
因此还如此偏执固执不奇怪,市场给答案!
#6 Re: 我们还是太善良了
发表于 : 2025年 1月 30日 11:10
由 牛河梁
maxthon 写了: 2025年 1月 30日 09:27
其实蒸馏技术高也是一个技术活,DS没有它吹得那么厉害,但是还是有点核心东西的。
这对初创企业和码农是好事,否则大企业建立起GPU算力壁垒,直接就垄断了。
铁丝也蒸馏。蒸馏就是个工具。没有问题。问题还在于基础模型。不然仍然是站在(今天的)巨人(也许是明天的侏儒)的肩膀上。
#7 Re: 我们还是太善良了
发表于 : 2025年 1月 30日 11:11
由 cboe
你能蒸馏一个deepseek,肯定有人给你投钱。
股版也有大牛给你投给你拉赞助。。。。
#8 Re: 我们还是太善良了
发表于 : 2025年 1月 30日 11:15
由 DollarMore
---------------------
搞数值计算的,都知道 算法收敛的关键 是初值。
谢谢 open AI 提供了初值可行解 供大家参考使用。。
#9 Re: 我们还是太善良了
发表于 : 2025年 1月 30日 11:15
由 pathdream
干死了 openai 世界就进步了
#10 Re: 我们还是太善良了
发表于 : 2025年 1月 30日 11:18
由 牛河梁
DollarMore 写了: 2025年 1月 30日 11:15
---------------------
搞数值计算的,都知道 算法收敛的关键 是初值。
谢谢 open AI 提供了初值可行解 供大家参考使用。。
拟合/ML里Overfit也是问题。
总体而言,模型越大越好。简单暴力。
蒸馏/小模型总有这样那样的问题。不然Elon也不用升级HW3了。
#11 Re: 我们还是太善良了
发表于 : 2025年 1月 30日 11:19
由 robot2022
不是图里这么简单粗暴吧
#12 Re: 我们还是太善良了
发表于 : 2025年 1月 30日 11:24
由 牛河梁
老牛觉得更像是找了一只熊(卖它),然后对照着旁边的熊猫(ChatGPT)把熊涂(蒸馏)成熊猫的样子。
#13 Re: 我们还是太善良了
发表于 : 2025年 1月 30日 11:36
由 shale
DeepSeek好像只公布了一部分代码
它前期训练到底用的什么硬件也讳莫如深
#14 Re: 我们还是太善良了
发表于 : 2025年 1月 30日 11:48
由 bigballz
bhold 写了: 2025年 1月 30日 08:07
低估了国内走捷径的无所不用
DS 蒸馏了OpenAI-o1
所以模型训练收敛块 属于作弊行为
怪不得在文章在训练上含糊其辞
所以DS的真实成本应该是
OpenAI 的成本 + DS 的成本
当年某东方培训GRE考试
玉米糊派老师们进考场考试
把题目记出来 再培训学生
用真题库培训学生当然时间短效果好
美国没把培训学校怎么样
倒让习主席一刀喀嚓了
就说苍天饶过谁 LOL
真是 Deep Sick
首先你丫对ai 理解基本出于文盲水平
open ai。own 参数。但打data 对不起 都是网上现成的我 也没叫办税
deepseek 没用丫参数 那抄个几把
再次
麻痹的 deepseek 开源啊 又没赚你丫一毛钱
大家一起进步一起玩
傻逼 还觉得每月收200的close ai 太善良?
#15 Re: 我们还是太善良了
发表于 : 2025年 1月 30日 11:48
由 newstart
openAI的数据合法么?
交钱了么
#16 Re: 我们还是太善良了
发表于 : 2025年 1月 30日 11:48
由 牛河梁
shale 写了: 2025年 1月 30日 11:36
DeepSeek好像只公布了一部分代码
它前期训练到底用的什么硬件也讳莫如深
老牛没去看源代码。不过从看到的感觉训练代码量不多。大多数都是调已有的库。除非DS重写了底层的库。否则可能也就改了10来行代码的样子。
不过需要强调的是。不是说10来行就不牛逼。这些评估函数(老牛老了不知道该如何称呼命名)改一点点对最终结果的优劣影响都极大。当然,副作用就是Overfit。
做题交作业刷分很有用。靠这个搞不出AGI。
#17 Re: 我们还是太善良了
发表于 : 2025年 1月 30日 12:11
由 SOD
牛河梁 写了: 2025年 1月 30日 11:48
老牛没去看源代码。不过从看到的感觉训练代码量不多。大多数都是调已有的库。除非DS重写了底层的库。否则可能也就改了10来行代码的样子。
不过需要强调的是。不是说10来行就不牛逼。这些评估函数(老牛老了不知道该如何称呼命名)改一点点对最终结果的优劣影响都极大。当然,副作用就是Overfit。
做题交作业刷分很有用。靠这个搞不出AGI。
还调库呢,连cuda都不用
你自称搞AI的,自然明白什么意思
#18 Re: 我们还是太善良了
发表于 : 2025年 1月 30日 12:12
由 bigballz
牛河梁 写了: 2025年 1月 30日 11:48
老牛没去看源代码。不过从看到的感觉训练代码量不多。大多数都是调已有的库。除非DS重写了底层的库。否则可能也就改了10来行代码的样子。
不过需要强调的是。不是说10来行就不牛逼。这些评估函数(老牛老了不知道该如何称呼命名)改一点点对最终结果的优劣影响都极大。当然,副作用就是Overfit。
做题交作业刷分很有用。靠这个搞不出AGI。
overfitting 了还有reinforce learning 纠正
#19 Re: 我们还是太善良了
发表于 : 2025年 1月 30日 12:13
由 ferrygao
Newman: In Trump’s economic vision, everybody’s on their own
#20 Re: 我们还是太善良了
发表于 : 2025年 1月 30日 12:27
由 牛河梁
SOD 写了: 2025年 1月 30日 12:11
还调库呢,连cuda都不用
你自称搞AI的,自然明白什么意思
老牛只是路过看两眼。老牛不搞这些(所谓的)AI。懂的自然都懂老牛什么意思。