据说deepseek里面有256个专家
每次只用激活一部分,deepseek参数和活跃参数的比是18,在已经公开的数据里面遥遥领先。
这个思路很好,大脑应该也是这样
以前看过一本书,讲有个患者,医生扫描他的大脑,发现他主管语言那一部分坏掉了,但是他说话没有问题,医生猜测大脑里面另外一块被重新训练成语言模块。
等大脑里面可用的地方都用完了,人就学不进去东西了。
混合专家模型应该是对的
版主: verdelite, TheMatrix
-
- 论坛元老
Caravel 的博客 - 帖子互动: 569
- 帖子: 24799
- 注册时间: 2022年 7月 24日 17:21
#2 Re: 混合专家模型应该是对的
有个案例,一个人几乎都没有大脑了,还功能一切正常。哈哈。
Caravel 写了: 2025年 2月 6日 16:00 据说deepseek里面有256个专家
每次只用激活一部分,deepseek参数和活跃参数的比是18,在已经公开的数据里面遥遥领先。
这个思路很好,大脑应该也是这样
以前看过一本书,讲有个患者,医生扫描他的大脑,发现他主管语言那一部分坏掉了,但是他说话没有问题,医生猜测大脑里面另外一块被重新训练成语言模块。
等大脑里面可用的地方都用完了,人就学不进去东西了。
-
- 论坛元老
Caravel 的博客 - 帖子互动: 569
- 帖子: 24799
- 注册时间: 2022年 7月 24日 17:21