新未名空间

卡足够多的情况下，大模型其实比小模型好train
这个不难理解，十个参数fit一条曲线肯定比三个好容易

国内卡不够的情况下只能训练相对较小的模型
但是小模型要获得相同的效果难度是更高的
所以国内有很多算法架构层次的创新

硅谷的大模型喜欢用相对简单的架构，上面堆算力，这种玩法对大公司有利，有利于赢者通吃。只有那几个巨头有足够的融资能力。一个证明就是在人才可以自由流动的条件下，硅谷的中型公司完全没有能力训练base model. 而国内小的多的公司都可以。

没那么简单，还是需要数据集准备，训练方法的不断改进才行

时间重要

blackwell 写了：昨天 20:58
没那么简单，还是需要数据集准备，训练方法的不断改进才行

为啥硅谷中型公司都train不了，cursor这样的

现在看来硅谷的大模型主要靠算力scale up