FlashAttention笔记

请设置文章作者

发布于：Aug 19, 2023

FlashAttention 1

main idea
- IO感知, 即感知GPU的层级关系
- 手动算子融合, 实现CUDA算子
局限和Future
- 需要手写CUDA做融合, 希望可以用高级语言写在编程成CUDA
- IO感知的思路可以扩展到非Attention的场景
- 多GPU的IO感知也可以做优化
实现
- 尽可能少设计HBM读写
  1. 计算softmax时不需要访问整个输入
    - 重新设计attn的计算, 让输入可以分块多次地计算: tiling
  2. 反向时不存储大量中间结果
    - 保存前向时softmax normalization factor以快速重算, 而不是传统方法的需要读取中间数据: recomputation
- 具体实现: tiling, recomputation. ref
  1. tiling: 分块加载分块计算。Q, K, V分块加载到SRAM, 分块单独计算
    - softmax公式转换, 关键在于如何通过局部值在最后换算出全局值
      1. 分母直接用最新标量值, 分子部分要将指数位更新成全局值, e.g. $(\sum e^{x_i^{(2)} - m(x^{(2)})}) * e^{m(x^{(2)} - m(x_{new}))}$
        
        in short 相乘等于指数位相加 从而替换上新值
  2. recomputation: 不存储方向传播需要的中间值
    - 通过存储softmax normalization statistics (m,l)和输出O就可以重计算S和P
  3. kernel融合

$$
softmax(x) = \frac{[f(x^{(1)}) \cdot e^{m(x^{(1)}) - m(x)} , f(x^{(2)}) \cdot e^{m(x^{(2)}) - m(x)}]}{\sum{[l^{new1}, l^{new2} ] }}
$$

PS: block具体大小应随GPU变化

ref

machine learning

machine learning system

大模型的长序列优化survey

大模型的长序列优化为什么长序列是必要的? prompt engineering 会话, 书籍, 视频不忘记之前说的话, 不分心 idea prompt hashing! 允许精度损...

简单三步看清Megatron-LM的实现, Megatron源码解析

Megatron TEP 小白帮小白, 从我一个小白的视角记录我想要知道的东西, 希望能”模式匹配”帮助下一个小白 Megatron源码解析(overview版) 所谓简单三步就是: 数据并行,...