#1 混合专家模型应该是对的
发表于 : 2025年 2月 6日 16:00
据说deepseek里面有256个专家
每次只用激活一部分,deepseek参数和活跃参数的比是18,在已经公开的数据里面遥遥领先。
这个思路很好,大脑应该也是这样
以前看过一本书,讲有个患者,医生扫描他的大脑,发现他主管语言那一部分坏掉了,但是他说话没有问题,医生猜测大脑里面另外一块被重新训练成语言模块。
等大脑里面可用的地方都用完了,人就学不进去东西了。
每次只用激活一部分,deepseek参数和活跃参数的比是18,在已经公开的数据里面遥遥领先。
这个思路很好,大脑应该也是这样
以前看过一本书,讲有个患者,医生扫描他的大脑,发现他主管语言那一部分坏掉了,但是他说话没有问题,医生猜测大脑里面另外一块被重新训练成语言模块。
等大脑里面可用的地方都用完了,人就学不进去东西了。