混合专家模型应该是对的

STEM版,合并数学,物理,化学,科学,工程,机械。不包括生物、医学相关,和计算机相关内容。

版主: verdeliteTheMatrix

回复
Caravel楼主
论坛元老
论坛元老
Caravel 的博客
帖子互动: 569
帖子: 24799
注册时间: 2022年 7月 24日 17:21

#1 混合专家模型应该是对的

帖子 Caravel楼主 »

据说deepseek里面有256个专家

每次只用激活一部分,deepseek参数和活跃参数的比是18,在已经公开的数据里面遥遥领先。

这个思路很好,大脑应该也是这样

以前看过一本书,讲有个患者,医生扫描他的大脑,发现他主管语言那一部分坏掉了,但是他说话没有问题,医生猜测大脑里面另外一块被重新训练成语言模块。

等大脑里面可用的地方都用完了,人就学不进去东西了。

标签/Tags:
头像
hci(海螺子)
论坛支柱
论坛支柱
帖子互动: 470
帖子: 9945
注册时间: 2022年 7月 22日 15:29

#2 Re: 混合专家模型应该是对的

帖子 hci(海螺子) »

有个案例,一个人几乎都没有大脑了,还功能一切正常。哈哈。
Caravel 写了: 2025年 2月 6日 16:00 据说deepseek里面有256个专家

每次只用激活一部分,deepseek参数和活跃参数的比是18,在已经公开的数据里面遥遥领先。

这个思路很好,大脑应该也是这样

以前看过一本书,讲有个患者,医生扫描他的大脑,发现他主管语言那一部分坏掉了,但是他说话没有问题,医生猜测大脑里面另外一块被重新训练成语言模块。

等大脑里面可用的地方都用完了,人就学不进去东西了。
Caravel楼主
论坛元老
论坛元老
Caravel 的博客
帖子互动: 569
帖子: 24799
注册时间: 2022年 7月 24日 17:21

#3 Re: 混合专家模型应该是对的

帖子 Caravel楼主 »

hci 写了: 2025年 2月 6日 16:08 有个案例,一个人几乎都没有大脑了,还功能一切正常。哈哈。
看看还能不能学数学
回复

回到 “STEM”