抱歉,您的浏览器无法访问本站

本页面需要浏览器支持(启用)JavaScript


了解详情 >

Flash attention变长batching API使用

Flash attention变长batching API使用主要记录flash_attn.flash_attn_varlen_func这个接口的使用, 精髓在于理解函数签名和输入形状: 函数签名需要每个seq的offset, 输入形状需要(bs, seqlen)平坦化后的(total_num, nhead, headdim) 1from flash_attn import flash_at...

自动并行insight, 关于alpa和unity的思考

自动并行insight: 关于alpa和unity的思考Alpa和Unity都是OSDI22上关于大模型自动并行的文章。居然戏剧性的同时入选,工作量当然是一个重要因素, 不过这个偶遇也给了我一些思考,浅浅记录一下。下一期会开”斯坦福自动并行三剑客源码解析: MetaFlow, TASO, FlexFlow(Unity)”。 首先会先简述一下Unity和Alpa的思路。会先说Unity再说Al...