新未名空间

低估了国内走捷径的无所不用
DS 蒸馏了OpenAI-o1
所以模型训练收敛块属于作弊行为
怪不得在文章在训练上含糊其辞

所以DS的真实成本应该是
OpenAI 的成本 + DS 的成本

当年某东方培训GRE考试
玉米糊派老师们进考场考试
把题目记出来再培训学生
用真题库培训学生当然时间短效果好
美国没把培训学校怎么样
倒让习主席一刀喀嚓了
就说苍天饶过谁 LOL

真是 Deep Sick

才发现图有人发过了
发过就发过吧那就再看一遍 LOL

其实蒸馏技术高也是一个技术活，DS没有它吹得那么厉害，但是还是有点核心东西的。
这对初创企业和码农是好事，否则大企业建立起GPU算力壁垒，直接就垄断了。

蒸馏，这词形象。要是全世界就是一个地球村该多好。有人釀米酒，有人来蒸馏提纯。最后大家一起喝茅台。。。

很多人连这件事中的最简单的几个概念“开源”，“蒸馏”，“低成本AI”都是啥意思意味着啥都没搞清楚，就人云亦云。
不止这个贴，本版很多贴。

开源的意思都没搞清楚的ID大把人在。
说到Deep seek到底怎么玩的全靠想当然，可叹。

因此还如此偏执固执不奇怪，市场给答案！

maxthon 写了： 2025年 1月 30日 09:27 其实蒸馏技术高也是一个技术活，DS没有它吹得那么厉害，但是还是有点核心东西的。
这对初创企业和码农是好事，否则大企业建立起GPU算力壁垒，直接就垄断了。

铁丝也蒸馏。蒸馏就是个工具。没有问题。问题还在于基础模型。不然仍然是站在（今天的）巨人（也许是明天的侏儒）的肩膀上。

你能蒸馏一个deepseek，肯定有人给你投钱。

股版也有大牛给你投给你拉赞助。。。。

---------------------

搞数值计算的，都知道算法收敛的关键是初值。

谢谢 open AI 提供了初值可行解供大家参考使用。。

干死了 openai 世界就进步了

DollarMore 写了： 2025年 1月 30日 11:15 ---------------------

搞数值计算的，都知道算法收敛的关键是初值。

谢谢 open AI 提供了初值可行解供大家参考使用。。

拟合/ML里Overfit也是问题。

总体而言，模型越大越好。简单暴力。

蒸馏/小模型总有这样那样的问题。不然Elon也不用升级HW3了。

不是图里这么简单粗暴吧

robot2022 写了： 2025年 1月 30日 11:19 不是图里这么简单粗暴吧

老牛觉得更像是找了一只熊（卖它），然后对照着旁边的熊猫（ChatGPT）把熊涂（蒸馏）成熊猫的样子。

DeepSeek好像只公布了一部分代码
它前期训练到底用的什么硬件也讳莫如深

bhold 写了： 2025年 1月 30日 08:07 低估了国内走捷径的无所不用
DS 蒸馏了OpenAI-o1
所以模型训练收敛块属于作弊行为
怪不得在文章在训练上含糊其辞

所以DS的真实成本应该是
OpenAI 的成本 + DS 的成本

当年某东方培训GRE考试
玉米糊派老师们进考场考试
把题目记出来再培训学生
用真题库培训学生当然时间短效果好
美国没把培训学校怎么样
倒让习主席一刀喀嚓了
就说苍天饶过谁 LOL

真是 Deep Sick

首先你丫对ai 理解基本出于文盲水平

open ai。own 参数。但打data 对不起都是网上现成的我也没叫办税

deepseek 没用丫参数那抄个几把

再次

麻痹的 deepseek 开源啊又没赚你丫一毛钱

大家一起进步一起玩

傻逼还觉得每月收200的close ai 太善良?

openAI的数据合法么？
交钱了么

shale 写了： 2025年 1月 30日 11:36 DeepSeek好像只公布了一部分代码
它前期训练到底用的什么硬件也讳莫如深

老牛没去看源代码。不过从看到的感觉训练代码量不多。大多数都是调已有的库。除非DS重写了底层的库。否则可能也就改了10来行代码的样子。

不过需要强调的是。不是说10来行就不牛逼。这些评估函数（老牛老了不知道该如何称呼命名）改一点点对最终结果的优劣影响都极大。当然，副作用就是Overfit。

做题交作业刷分很有用。靠这个搞不出AGI。

牛河梁写了： 2025年 1月 30日 11:48 老牛没去看源代码。不过从看到的感觉训练代码量不多。大多数都是调已有的库。除非DS重写了底层的库。否则可能也就改了10来行代码的样子。

不过需要强调的是。不是说10来行就不牛逼。这些评估函数（老牛老了不知道该如何称呼命名）改一点点对最终结果的优劣影响都极大。当然，副作用就是Overfit。

做题交作业刷分很有用。靠这个搞不出AGI。

还调库呢，连cuda都不用

你自称搞AI的，自然明白什么意思

牛河梁写了： 2025年 1月 30日 11:48 老牛没去看源代码。不过从看到的感觉训练代码量不多。大多数都是调已有的库。除非DS重写了底层的库。否则可能也就改了10来行代码的样子。

不过需要强调的是。不是说10来行就不牛逼。这些评估函数（老牛老了不知道该如何称呼命名）改一点点对最终结果的优劣影响都极大。当然，副作用就是Overfit。

做题交作业刷分很有用。靠这个搞不出AGI。

overfitting 了还有reinforce learning 纠正

Newman: In Trump’s economic vision, everybody’s on their own

SOD 写了： 2025年 1月 30日 12:11 还调库呢，连cuda都不用

你自称搞AI的，自然明白什么意思

老牛只是路过看两眼。老牛不搞这些（所谓的）AI。懂的自然都懂老牛什么意思。

新未名空间

我们还是太善良了

#1 我们还是太善良了

#2 Re: 我们还是太善良了

#3 Re: 我们还是太善良了

#4 Re: 我们还是太善良了

#5 Re: 我们还是太善良了

#6 Re: 我们还是太善良了

#7 Re: 我们还是太善良了

#8 Re: 我们还是太善良了

#9 Re: 我们还是太善良了

#10 Re: 我们还是太善良了

#11 Re: 我们还是太善良了

#12 Re: 我们还是太善良了

#13 Re: 我们还是太善良了

#14 Re: 我们还是太善良了

#15 Re: 我们还是太善良了

#16 Re: 我们还是太善良了

#17 Re: 我们还是太善良了

#18 Re: 我们还是太善良了

#19 Re: 我们还是太善良了

#20 Re: 我们还是太善良了