动态图解mixture of expert架构

STEM版,合并数学,物理,化学,科学,工程,机械。不包括生物、医学相关,和计算机相关内容。

版主: verdeliteTheMatrix

回复
Caravel楼主
论坛元老
论坛元老
Caravel 的博客
帖子互动: 579
帖子: 25110
注册时间: 2022年 7月 24日 17:21

#1 动态图解mixture of expert架构

帖子 Caravel楼主 »

x1 图片

标签/Tags:
wdong(万事休)
见习作家
见习作家
帖子互动: 92
帖子: 410
注册时间: 2023年 11月 13日 15:13

#2 Re: 动态图解mixture of expert架构

帖子 wdong(万事休) »

decoder block有两部分。每个部分都是resnet (白色的加号左边有一个shortcut,这就是resnet)。上面那部分是self-attention,两种方法是一样的。不一样的是下面那个denoising module。Self-attention出来的东西是一堆hidden states的加权求和,是非常noisy的,需要降噪。方法是先project到一个超高维空间,然后用一个linear layer把其中部分维度清零,然后再project回对应hidden state维度空间。你们在图里面看不出来这个过程,图里面画的就是一个三层神经网络。MoE相当于不同的expert用了不同的降噪方法。
Caravel楼主
论坛元老
论坛元老
Caravel 的博客
帖子互动: 579
帖子: 25110
注册时间: 2022年 7月 24日 17:21

#3 Re: 动态图解mixture of expert架构

帖子 Caravel楼主 »

wdong 写了: 2025年 2月 25日 14:42 decoder block有两部分。每个部分都是resnet (白色的加号左边有一个shortcut,这就是resnet)。上面那部分是self-attention,两种方法是一样的。不一样的是下面那个denoising module。Self-attention出来的东西是一堆hidden states的加权求和,是非常noisy的,需要降噪。方法是先project到一个超高维空间,然后用一个linear layer把其中部分维度清零,然后再project回对应hidden state维度空间。你们在图里面看不出来这个过程,图里面画的就是一个三层神经网络。MoE相当于不同的expert用了不同的降噪方法。
就是把蓝色框框里面的dense model换成一堆小一点的dense网络,每次只通过一其中一部分吧
wdong(万事休)
见习作家
见习作家
帖子互动: 92
帖子: 410
注册时间: 2023年 11月 13日 15:13

#4 Re: 动态图解mixture of expert架构

帖子 wdong(万事休) »

Caravel 写了: 2025年 2月 25日 15:36 就是把蓝色框框里面的dense model换成一堆小一点的dense网络,每次只通过一其中一部分吧
正是
回复

回到 “STEM”