openAI这类大模型每天都会用爬虫收集数据吗?

STEM版,合并数学,物理,化学,科学,工程,机械。不包括生物、医学相关,和计算机相关内容。

版主: verdeliteTheMatrix

回复
川小小(大大是我的好哥们)楼主
职业作家
职业作家
帖子互动: 92
帖子: 683
注册时间: 2025年 1月 25日 18:39

#1 openAI这类大模型每天都会用爬虫收集数据吗?

帖子 川小小(大大是我的好哥们)楼主 »

是不是类似搜索引擎,每天都要收集最新数据不断训练?
Caravel
论坛元老
论坛元老
Caravel 的博客
帖子互动: 635
帖子: 26206
注册时间: 2022年 7月 24日 17:21

#2 Re: openAI这类大模型每天都会用爬虫收集数据吗?

帖子 Caravel »

有人专门干这个,比如有个开源的 common crawer,肯定也有收费的。
川小小(大大是我的好哥们)楼主
职业作家
职业作家
帖子互动: 92
帖子: 683
注册时间: 2025年 1月 25日 18:39

#3 Re: openAI这类大模型每天都会用爬虫收集数据吗?

帖子 川小小(大大是我的好哥们)楼主 »

Caravel 写了: 2025年 3月 17日 12:04 有人专门干这个,比如有个开源的 common crawer,肯定也有收费的。
那各家使用的数据集都差不多?
Caravel
论坛元老
论坛元老
Caravel 的博客
帖子互动: 635
帖子: 26206
注册时间: 2022年 7月 24日 17:21

#4 Re: openAI这类大模型每天都会用爬虫收集数据吗?

帖子 Caravel »

川小小 写了: 2025年 3月 17日 12:13 那各家使用的数据集都差不多?
肯定也有自己的数据
Gaige
职业作家
职业作家
帖子互动: 17
帖子: 507
注册时间: 2024年 10月 11日 18:52

#5 Re: openAI这类大模型每天都会用爬虫收集数据吗?

帖子 Gaige »

sam altman在reddit有9%股份,openai从reddit搞数据有优势
红烛歌楼
见习点评
见习点评
帖子互动: 90
帖子: 2024
注册时间: 2024年 9月 18日 21:29

#6 Re: openAI这类大模型每天都会用爬虫收集数据吗?

帖子 红烛歌楼 »

所以你每天说话的语音被偷走用于训练,网络上发的文字更是如此。所以你最好隔绝于世,这样就不会怕了
此网站Yesterday 写了: ↑
(得了癌症)复发也可以治,治愈本来就不应该是目标。
得了癌症治疗的目标本来就是不应该治愈,那是啥?还复发也可以治?什么鬼?别说复发,就说第一次被诊断出xxCa.,多少人当场崩溃?还复发可以治?我几个亲戚都是复发了人完了,怎么不治了?推诿回家等S呢?
回复

回到 “STEM”