抱歉,您的浏览器无法访问本站

本页面需要浏览器支持(启用)JavaScript


了解详情 >

Roofline Model and Flash Attention

Roofline Model and Flash Attention 计算强度: Flops/Byte => 反映每个字节的传输会产生多少计算 roofline model: 纵轴: 算力, 单位Flop/s 横轴: 计算强度I, 单位Flop/Byte 斜率: 内存带宽, 单位Byte/s 算力的上限决定了roofline model的屋顶 带宽的上限决定了roofline mode...

Tensor core MMA指令教程

Tensor core MMA指令教程 参考 https://zhuanlan.zhihu.com/p/1892346599864238276 以mma.m8n8k4为例 A warp executing mma.m8n8k4 with .f16 floating point type will compute 4 MMA operations of shape .m8n8k4. 一个...

简易解释器

简易解释器 Let’s Build A Simple Interpreter. Terms 词法分析, Tokenize, lexer 字符串匹配, 映射成约定好的原语(string -> [Token]) {type: xxx, value: xxx, ....} 语法分析, parser 词法分析 正则表达式 [type: reg, …], 便利匹配即可 语法...

Deep GEMM解读

Deep GEMM解读terms _ss, _rs表示A/B矩阵的位置 math warp 用于计算的warp data warp 用于传输数据的warp st/ld store, load, 写回, 读出 barrier 同步信号 fence 防止乱序, 指令屏障 components wgmma 更大粒度的mma, warpgroup-level, 单次...

简单三步vllm

简单三步vllm1234567891011def generate(model, input, max_new_tokens, kvcache): next_input = input generated_ids = [] for i in range(max_new_tokens): # Stage 1: 构造输入 outputs = mode...

HPC Profile

算子性能预估 算力 FLOP/s 拼尽全力每秒完成的浮点运算次数 带宽 byte/s 拼尽全力每秒完成的内存交换量 计算强度Arithmetic Intensity(计算访存比) FLOP/byte 平均读入数据能用上多少运算 理解角度 把BW用满能发挥出的算力 “一次IO”的计算强度(强度一定有个”计量时间”, byte size就是这里的时间) roofline mode...

CogVideoX模型walk through

CogVideoX模型walk through shape flow transformers hidden_states.shape = (batch_size, num_frames, channels, height, width) hidden_states.patch_embed(encoder_hidden_states, hidden_states) encoder_hidd...

SGLang速览

SGLang速览Usage1234567891011121314151617181920212223242526from sglang import function, system, user, assistant, gen, set_default_backend, Runtime@functiondef multi_turn_question(s, question_1, questi...

MoE基本实现

MoE基本实现in short topk expert选择 linear(dim, num expert)赋权 topk at dim -1 permute: 让同一个expert的token揍在一起, 方便做一组mlp(grouped gemm) 技巧: topk_ids.view(num_token, topk).view(-1).argsort()会根据topk排序, 相同exp...

DeepSeek-V3架构

DeepSeek-V3架构MTP(Multi Token Prediction)TODO: RL 强化学习 对于数学, code等有明确答案的,直接使用规则做reward 对于自由形式没有明确答案的任务,使用reward model提供反馈 如果是写作等没有明确结果的,使用reward model打分 奖励会分成多步基于,而不只是检查最终结果 GRPO vs PPO TODO ...