#21 Re: DeepSeek 训练成本低的真相
发表于 : 2025年 1月 29日 13:47
问题的核心不是“openai的算法,即使用同样蒸馏后的数据,能否达到目前的水平”,而是DeepSeek的算法如果不用别的大语言模型的数据,训练达到现有的水平需要的成本到底是多少。
问题的核心不是“openai的算法,即使用同样蒸馏后的数据,能否达到目前的水平”,而是DeepSeek的算法如果不用别的大语言模型的数据,训练达到现有的水平需要的成本到底是多少。
问题核心是潘多拉盒子已经打开了 大家都可以根据ds的数据再加工ShuiNi 写了: 2025年 1月 29日 13:47 问题的核心不是“openai的算法,即使用同样蒸馏后的数据,能否达到目前的水平”,而是DeepSeek的算法如果不用别的大语言模型的数据,训练达到现有的水平需要的成本到底是多少。
ShuiNi 写了: 2025年 1月 29日 13:47 问题的核心不是“openai的算法,即使用同样蒸馏后的数据,能否达到目前的水平”,而是DeepSeek的算法如果不用别的大语言模型的数据,训练达到现有的水平需要的成本到底是多少。
小startup 以ds为基础 针对各种具体场景训练 基础不需要多少更新 具体场景从0开始 数据少 成本低
原来是这样啊?那么你也可以搜罗chatGPT的成品数据,接近chatGPD,也发布一个,比如:ShuiniGPT,让大家开开眼,你也顺便赚许多银子多好?ShuiNi 写了: 2025年 1月 29日 12:40 就是精馏(distillation)其他大语言模型,尤其是ChatGPT的数据,掺一些原始数据,然后达到 ChatGPT 的水平,说自己训练成本低。
这相当于直接拿别人炼好的 99.99% 的纯金,和低品位金矿1:1混合之后去炼金,这样的炼金成本当然比从品位 0.0001% 的低品位金矿里炼黄金的成本要低得多。
MIT license 想干嘛都可以 除非法官干预
据说合法,,,ShuiNi 写了: 2025年 1月 29日 12:40 就是精馏(distillation)其他大语言模型,尤其是ChatGPT的数据,掺一些原始数据,然后达到 ChatGPT 的水平,说自己训练成本低。
这相当于直接拿别人炼好的 99.99% 的纯金,和低品位金矿1:1混合之后去炼金,这样的炼金成本当然比从品位 0.0001% 的低品位金矿里炼黄金的成本要低得多。
互相连着的网遍布是,,能彻底掐了?难吧,会影响自己的 服务吧?
就好比电脑bootstrap或者BIOS 这些基础不用从零开始 而且也不需要太多更新
bigballz 写了: 2025年 1月 29日 12:46 你丫对ai 理解基本属于文盲级别
纯粹扯尼玛几把蛋
chatgpt 有几把自己的数据吗?
The same OpenAI who allegedly stole content from publications is accusing another AI company of stealing content?![]()
有点像统计上的meta analysis,只不过是对model来做的。按道理不应该效果超过最好的model,除非用了什么新的信息让DS的model能根据不同情况改变权重来选最合适的模型。justChat 写了: 2025年 1月 29日 16:36 看了一圈,这个网站知道蒸馏什么意思的,两只手能数过来。
10年的老文章了,又不难。版上那么多数学家。
https://arxiv.org/pdf/1503.02531
舒适这些小三偏偏爱望文生义 加自己脑补justChat 写了: 2025年 1月 29日 16:36 看了一圈,这个网站知道蒸馏什么意思的,两只手能数过来。
10年的老文章了,又不难。版上那么多数学家。
https://arxiv.org/pdf/1503.02531
Hilfiger 写了: 2025年 1月 29日 17:17 有点像统计上的meta analysis,只不过是对model来做的。按道理不应该效果超过最好的model,除非用了什么新的信息让DS的model能根据不同情况改变权重来选最合适的模型。
好奇那chatGPT就没收集个人数据?当然chatGPT这类app也只是对客观已经存在的信息进行收集处理,然后显示给客户。至于将来会出现什么高新科技的产品,估计也只能一问三不知,让它设计一个最新高能粒子物理试验,估计也只是呵呵Smartguy 写了: 2025年 1月 29日 12:47 1 月 29 日消息,DeepSeek 应用已从意大利的 Google Play 和苹果 App Store 中下架。
虽然确切原因未知,但猜测可能与意大利隐私监管机构 Garante 此前对 DeepSeek 提出的数据隐私问题有关。
据路透社此前报道,当地时间 1 月 28 日,意大利隐私监管机构 Garante 表示,正要求中国人工智能公司 DeepSeek 提供关于个人数据使用问题的解释。
Garante 称,希望能了解 DeepSeek“收集了哪些个人数据、从哪些来源收集、用于什么目的、基于什么法律依据,以及是否存储在中国”。
Garante 在一份声明中称,DeepSeek 及其关联公司有 20 天时间作出答复。