动态图解mixture of expert架构
版主: verdelite, TheMatrix
-
- 论坛元老
Caravel 的博客 - 帖子互动: 579
- 帖子: 25110
- 注册时间: 2022年 7月 24日 17:21
#2 Re: 动态图解mixture of expert架构
decoder block有两部分。每个部分都是resnet (白色的加号左边有一个shortcut,这就是resnet)。上面那部分是self-attention,两种方法是一样的。不一样的是下面那个denoising module。Self-attention出来的东西是一堆hidden states的加权求和,是非常noisy的,需要降噪。方法是先project到一个超高维空间,然后用一个linear layer把其中部分维度清零,然后再project回对应hidden state维度空间。你们在图里面看不出来这个过程,图里面画的就是一个三层神经网络。MoE相当于不同的expert用了不同的降噪方法。
-
- 论坛元老
Caravel 的博客 - 帖子互动: 579
- 帖子: 25110
- 注册时间: 2022年 7月 24日 17:21
#3 Re: 动态图解mixture of expert架构
就是把蓝色框框里面的dense model换成一堆小一点的dense网络,每次只通过一其中一部分吧wdong 写了: 2025年 2月 25日 14:42 decoder block有两部分。每个部分都是resnet (白色的加号左边有一个shortcut,这就是resnet)。上面那部分是self-attention,两种方法是一样的。不一样的是下面那个denoising module。Self-attention出来的东西是一堆hidden states的加权求和,是非常noisy的,需要降噪。方法是先project到一个超高维空间,然后用一个linear layer把其中部分维度清零,然后再project回对应hidden state维度空间。你们在图里面看不出来这个过程,图里面画的就是一个三层神经网络。MoE相当于不同的expert用了不同的降噪方法。