#21 Re: (转载)迄今最好的介绍deepseek所谓“蒸馏”,以及可能超越OpenAI的地方
发表于 : 2025年 2月 1日 14:10
要大胆想象,何须25万,光25个问题就可以了

要大胆想象,何须25万,光25个问题就可以了
公开能得到的数据已经是天量了, 那也要去获取吧?DS怎么去获取?难道他们早就把这些数据下载到他们自己的数据中心了?saibaster 写了: 2025年 2月 1日 13:58 公开能得到的数据已经是天量了。
我自己的训练都能搞到整个wikipedia 和 twitter的
很多卖数据的公司也就是给你做些数据清洗和标注而已。
OpenAI 训练的数据很多也是自己到处扒下来的。
但 Google 和 OpenAI 自己就在局里,怎么可能卖数据。