博客
分类
标签
归档
友链
关于
Dark Mode
博客
分类
标签
归档
友链
关于
Dark Mode
Mens et Manus
首页
帮助
示例
社区
档归
源码
DeepSeek-V2架构
DeepSeek-V2架构 简单的说MLA + MoE 参数嵌入更快: 利用类似lora的技术1234567891011self.q_a_proj = nn.Linear( self.hidden_size, config.q_lora_rank, bias=config.attention_bias)self.q_a_layernorm = DeepseekV2RMSNorm(co...
2024-05-08
Read More