Tag: machine leanring - 66Ring's Blog

- 博客
- 分类
- 标签
- 归档
- 友链
- 关于
- Dark Mode

Mixtral MoE源码笔记

Mixtral MoE源码笔记 transformers/src/transformers/models/mixtral/modeling_mixtral.py 注意是mixtral不是mistral 和llama基本相同, 主要区别只在与MLP: 混合专家中的MLP有num_experts个mlp, 而llama只有一个mlp。核心代码在于MixtralSparseMoeBlock。 1...

2024-05-10