卡足够多的情况下,大模型其实比小模型好train
这个不难理解,十个参数fit一条曲线肯定比三个好容易
国内卡不够的情况下 只能训练相对较小的模型
但是小模型要获得相同的效果难度是更高的
所以国内有很多算法架构层次的创新
硅谷的大模型喜欢用相对简单的架构,上面堆算力,这种玩法对大公司有利,有利于赢者通吃。只有那几个巨头有足够的融资能力。一个证明就是在人才可以自由流动的条件下,硅谷的中型公司完全没有能力训练base model. 而国内小的多的公司都可以。
版主: hci

卡足够多的情况下,大模型其实比小模型好train
这个不难理解,十个参数fit一条曲线肯定比三个好容易
国内卡不够的情况下 只能训练相对较小的模型
但是小模型要获得相同的效果难度是更高的
所以国内有很多算法架构层次的创新
硅谷的大模型喜欢用相对简单的架构,上面堆算力,这种玩法对大公司有利,有利于赢者通吃。只有那几个巨头有足够的融资能力。一个证明就是在人才可以自由流动的条件下,硅谷的中型公司完全没有能力训练base model. 而国内小的多的公司都可以。
