现在看来硅谷的大模型主要靠算力scale up

版主: hci

回复
Caravel楼主
论坛元老
论坛元老
Caravel 的博客
帖子互动: 728
帖子: 28252
注册时间: 2022年 7月 24日 17:21

#1 现在看来硅谷的大模型主要靠算力scale up

帖子 Caravel楼主 »

卡足够多的情况下,大模型其实比小模型好train
这个不难理解,十个参数fit一条曲线肯定比三个好容易

国内卡不够的情况下 只能训练相对较小的模型
但是小模型要获得相同的效果难度是更高的
所以国内有很多算法架构层次的创新

硅谷的大模型喜欢用相对简单的架构,上面堆算力,这种玩法对大公司有利,有利于赢者通吃。只有那几个巨头有足够的融资能力。一个证明就是在人才可以自由流动的条件下,硅谷的中型公司完全没有能力训练base model. 而国内小的多的公司都可以。

blackwell
见习会员
帖子互动: 0
帖子: 2
注册时间: 2025年 11月 17日 21:28

#2 Re: 现在看来硅谷的大模型主要靠算力scale up

帖子 blackwell »

没那么简单, 还是需要数据集准备,训练方法的不断改进才行

hahan
论坛元老
论坛元老
hahan 的博客
帖子互动: 1008
帖子: 19647
注册时间: 2022年 7月 23日 23:48

#3 Re: 现在看来硅谷的大模型主要靠算力scale up

帖子 hahan »

时间重要

急急如丧家之犬
忙忙似漏网之鱼
Caravel楼主
论坛元老
论坛元老
Caravel 的博客
帖子互动: 728
帖子: 28252
注册时间: 2022年 7月 24日 17:21

#4 Re: 现在看来硅谷的大模型主要靠算力scale up

帖子 Caravel楼主 »

blackwell 写了: 昨天 20:58

没那么简单, 还是需要数据集准备,训练方法的不断改进才行

为啥硅谷中型公司都train不了,cursor这样的

回复

回到 “葵花宝典(Programming)”