分页: 1 / 1

#1 现在看来硅谷的大模型主要靠算力scale up

发表于 : 2025年 11月 20日 20:51
Caravel

卡足够多的情况下,大模型其实比小模型好train
这个不难理解,十个参数fit一条曲线肯定比三个好容易

国内卡不够的情况下 只能训练相对较小的模型
但是小模型要获得相同的效果难度是更高的
所以国内有很多算法架构层次的创新

硅谷的大模型喜欢用相对简单的架构,上面堆算力,这种玩法对大公司有利,有利于赢者通吃。只有那几个巨头有足够的融资能力。一个证明就是在人才可以自由流动的条件下,硅谷的中型公司完全没有能力训练base model. 而国内小的多的公司都可以。


#2 Re: 现在看来硅谷的大模型主要靠算力scale up

发表于 : 2025年 11月 20日 20:58
blackwell

没那么简单, 还是需要数据集准备,训练方法的不断改进才行


#3 Re: 现在看来硅谷的大模型主要靠算力scale up

发表于 : 2025年 11月 20日 21:02
hahan

时间重要


#4 Re: 现在看来硅谷的大模型主要靠算力scale up

发表于 : 2025年 11月 20日 22:44
Caravel
blackwell 写了: 昨天 20:58

没那么简单, 还是需要数据集准备,训练方法的不断改进才行

为啥硅谷中型公司都train不了,cursor这样的