博客
分类
标签
归档
友链
关于
Dark Mode
博客
分类
标签
归档
友链
关于
Dark Mode
Mens et Manus
Mixtral MoE源码笔记
Cheat Sheet MLP: down(act(gate(x)) * up(x)) # 两个path矩阵乘,再过最后一个线性层 [B, L, D] -> [B, L, D] 每个token都取topk个专家和权重 [B, L, D] -> [B, L, topk, D] 每个专家会处理x个token x的个数可能不同 sorted_tokens, 让属于同一个专家...
2024-05-10
Read More