分页: 1 / 1
#1 现在看来硅谷的大模型主要靠算力scale up
发表于 : 2025年 11月 20日 20:51
由 Caravel
卡足够多的情况下,大模型其实比小模型好train
这个不难理解,十个参数fit一条曲线肯定比三个好容易
国内卡不够的情况下 只能训练相对较小的模型
但是小模型要获得相同的效果难度是更高的
所以国内有很多算法架构层次的创新
硅谷的大模型喜欢用相对简单的架构,上面堆算力,这种玩法对大公司有利,有利于赢者通吃。只有那几个巨头有足够的融资能力。一个证明就是在人才可以自由流动的条件下,硅谷的中型公司完全没有能力训练base model. 而国内小的多的公司都可以。
#2 Re: 现在看来硅谷的大模型主要靠算力scale up
发表于 : 2025年 11月 20日 20:58
由 blackwell
没那么简单, 还是需要数据集准备,训练方法的不断改进才行
#3 Re: 现在看来硅谷的大模型主要靠算力scale up
发表于 : 2025年 11月 20日 21:02
由 hahan
#4 Re: 现在看来硅谷的大模型主要靠算力scale up
发表于 : 2025年 11月 20日 22:44
由 Caravel
blackwell 写了: 昨天 20:58
没那么简单, 还是需要数据集准备,训练方法的不断改进才行
为啥硅谷中型公司都train不了,cursor这样的