博客
分类
标签
归档
友链
关于
Dark Mode
博客
分类
标签
归档
友链
关于
Dark Mode
Mens et Manus
首页
帮助
示例
社区
档归
源码
Flash attention变长batching API使用
Flash attention变长batching API使用主要记录flash_attn.flash_attn_varlen_func这个接口的使用, 精髓在于理解函数签名和输入形状: 函数签名需要每个seq的offset, 输入形状需要(bs, seqlen)平坦化后的(total_num, nhead, headdim) 1from flash_attn import flash_at...
2024-05-31
Read More
自动并行insight, 关于alpa和unity的思考
自动并行insight: 关于alpa和unity的思考Alpa和Unity都是OSDI22上关于大模型自动并行的文章。居然戏剧性的同时入选,工作量当然是一个重要因素, 不过这个偶遇也给了我一些思考,浅浅记录一下。下一期会开”斯坦福自动并行三剑客源码解析: MetaFlow, TASO, FlexFlow(Unity)”。 首先会先简述一下Unity和Alpa的思路。会先说Unity再说Al...
2023-10-01
Read More