抱歉,您的浏览器无法访问本站

本页面需要浏览器支持(启用)JavaScript


了解详情 >

从残差连接到Manifold-Constrained Hyper-Connections(mHc)

从残差连接到mHc标准残差 原始信息的直接传递 传统残差连接形如下,F表示Layer的fwd, wi表示fwd需要的权重。 $$x_{i+1} = x_i + F(x_i, w_i)$$ 当多层layer堆叠时可以整理出公式: $$x_{1} = x_0 + F(x_0, w_0) \x_{2} = x_1 + F(x_1, w_1) \ = x_0 + F(x_0, w_0) ...

GRPO Cheat Sheet

grpo cheat sheet https://huggingface.co/docs/trl/main/grpo_trainer GRPO(Group Relative Policy Optimization)的4个步骤: 其中1,2阶段相当于准备阶段, 3,4阶段相当真正的训练阶段 生成补完(Generating completions) AKA推理生成, 不带梯度 同一个输入...

Deep GEMM解读

Deep GEMM解读terms _ss, _rs表示A/B矩阵的位置 math warp 用于计算的warp data warp 用于传输数据的warp st/ld store, load, 写回, 读出 barrier 同步信号 fence 防止乱序, 指令屏障 components wgmma 更大粒度的mma, warpgroup-level, 单次...

CogVideoX模型walk through

CogVideoX模型walk through shape flow transformers hidden_states.shape = (batch_size, num_frames, channels, height, width) hidden_states.patch_embed(encoder_hidden_states, hidden_states) encoder_hidd...

MoE基本实现

MoE基本实现in short topk expert选择 linear(dim, num expert)赋权 topk at dim -1 permute: 让同一个expert的token揍在一起, 方便做一组mlp(grouped gemm) 技巧: topk_ids.view(num_token, topk).view(-1).argsort()会根据topk排序, 相同exp...

DeepSeek-V3架构

DeepSeek-V3架构MTP(Multi Token Prediction)TODO: RL 强化学习 对于数学, code等有明确答案的,直接使用规则做reward 对于自由形式没有明确答案的任务,使用reward model提供反馈 如果是写作等没有明确结果的,使用reward model打分 奖励会分成多步基于,而不只是检查最终结果 GRPO vs PPO TODO ...

为什么MLA需要解耦一部分RoPE

为什么MLA需要解耦一部分RoPE 未拆分出head维度时, 从dim的视角看都是低秩投影 MHA = [d] = [d] x [g*d_kv], g=1 GQA = [d] = [d] x [gd_kv], g=X, gd_kv=d 而MLA是低秩投影后的工作 abs GQA本质也是一种低秩投影,只不过是简单的线性变化(拆分,复制) MLA使用更贴合学习的方式做低秩投影,提升模型性能,...

Flash attention变长batching API使用

Flash attention变长batching API使用主要记录flash_attn.flash_attn_varlen_func这个接口的使用, 精髓在于理解函数签名和输入形状: 函数签名需要每个seq的offset, 输入形状需要(bs, seqlen)平坦化后的(total_num, nhead, headdim) 1from flash_attn import flash_at...

Label Words are Anchors An Information Flow Perspective for Understanding In-Context Learning深度解析

深入理解Label Words are Anchors: An Information Flow Perspective for Understanding In-Context Learningabs 只测试了GPT模型 探究了ICL(in context learning)如何学习上下文的机制 提出”Information Flow with Labels as Anchors”假说...

DeepSeek-V2架构

DeepSeek-V2架构 简单的说MLA + MoE 参数嵌入更快: 利用类似lora的技术1234567891011self.q_a_proj = nn.Linear( self.hidden_size, config.q_lora_rank, bias=config.attention_bias)self.q_a_layernorm = DeepseekV2RMSNorm(co...