#1 AI模型的bootstrap
发表于 : 2025年 2月 17日 21:31
电脑语言有一个bootstrap的过程,第一个C语言是怎么写出来的?那时只有汇编,所以它只能用汇编写出来。这叫bootstrap。有了第一个版本的C语言,第二个版本的C语言就不用汇编写了,直接用第一个版本的C语言写。和汇编写的一样好,甚至更好。然后是第三个版本C语言,第四个版本C语言,...,之后还有其他语言的出现。
AI模型也有bootstrap。第一个版本是OpenAI的ChatGPT 3.5。这是开天辟地,它的功绩谁也否认不了。第二个版本是ChatGPT 4.0,不过这个好像是完全的从头训练,当时OpenAI好像并没有找到bootstrap的方法。
第一个找到AI模型bootstrap的方法的,是DeepSeek。在ChatGPT 4.0基础上,蒸馏高质量训练数据,得到了DeepSeek v3。相当于不用汇编写程序而用C写程序了。
然后就会有各种各样方向上的bootstrap。
比如,在基础模型上想办法训练reasoning。现在的方法就是准备高质量的chain of thought数据。所谓post training,都是在基础模型上的bootstrap。
再比如,AlphaGeometry2,也是有一个基础模型,之后再准备高质量的平面几何数据,做post training,就得到平面几何方向上的专业模型。
可以想象,模型的bootstrap也是一层一层的,不一定都在最开始的基础模型上训练。模型的训练会像一个树一样生长。
AI模型也有bootstrap。第一个版本是OpenAI的ChatGPT 3.5。这是开天辟地,它的功绩谁也否认不了。第二个版本是ChatGPT 4.0,不过这个好像是完全的从头训练,当时OpenAI好像并没有找到bootstrap的方法。
第一个找到AI模型bootstrap的方法的,是DeepSeek。在ChatGPT 4.0基础上,蒸馏高质量训练数据,得到了DeepSeek v3。相当于不用汇编写程序而用C写程序了。
然后就会有各种各样方向上的bootstrap。
比如,在基础模型上想办法训练reasoning。现在的方法就是准备高质量的chain of thought数据。所谓post training,都是在基础模型上的bootstrap。
再比如,AlphaGeometry2,也是有一个基础模型,之后再准备高质量的平面几何数据,做post training,就得到平面几何方向上的专业模型。
可以想象,模型的bootstrap也是一层一层的,不一定都在最开始的基础模型上训练。模型的训练会像一个树一样生长。