Tag: llm - 66Ring's Blog

sglang diffusion走读

sglang diffusion走读Cheat sheet generate _send_to_scheduler_and_wait_for_response -> event_loop scheduler::recv_reqs, self.worker.execute_forward -> pipeline.forward build_pipeline model maybe ...

2025-11-10

Roofline Model and Flash Attention

Roofline Model and Flash Attention 计算强度: Flops/Byte => 反映每个字节的传输会产生多少计算 roofline model: 纵轴: 算力, 单位Flop/s 横轴: 计算强度I, 单位Flop/Byte 斜率: 内存带宽, 单位Byte/s 算力的上限决定了roofline model的屋顶带宽的上限决定了roofline mode...

2025-08-06

简单三步vllm

简单三步vllm1234567891011def generate(model, input, max_new_tokens, kvcache): next_input = input generated_ids = [] for i in range(max_new_tokens): # Stage 1: 构造输入 outputs = mode...

2025-03-12

SGLang速览Usage1234567891011121314151617181920212223242526from sglang import function, system, user, assistant, gen, set_default_backend, Runtime@functiondef multi_turn_question(s, question_1, questi...

2025-01-28

Flash attention变长batching API使用

Flash attention变长batching API使用主要记录flash_attn.flash_attn_varlen_func这个接口的使用, 精髓在于理解函数签名和输入形状: 函数签名需要每个seq的offset, 输入形状需要(bs, seqlen)平坦化后的(total_num, nhead, headdim) 1from flash_attn import flash_at...

2024-05-31

自动并行insight, 关于alpa和unity的思考

自动并行insight: 关于alpa和unity的思考Alpa和Unity都是OSDI22上关于大模型自动并行的文章。居然戏剧性的同时入选，工作量当然是一个重要因素, 不过这个偶遇也给了我一些思考，浅浅记录一下。下一期会开”斯坦福自动并行三剑客源码解析: MetaFlow, TASO, FlexFlow(Unity)”。首先会先简述一下Unity和Alpa的思路。会先说Unity再说Al...

2023-10-01