抱歉,您的浏览器无法访问本站

本页面需要浏览器支持(启用)JavaScript


了解详情 >

Mixtral MoE源码笔记

Cheat Sheet MLP: down(act(gate(x)) * up(x)) # 两个path矩阵乘,再过最后一个线性层 [B, L, D] -> [B, L, D] 每个token都取topk个专家和权重 [B, L, D] -> [B, L, topk, D] 每个专家会处理x个token x的个数可能不同 sorted_tokens, 让属于同一个专家...