Roofline Model and Flash Attention

请设置文章作者

发布于：Aug 6, 2025

矩阵乘法的计算强度

mm的flop数F = 2xMxNxK, 传输数B = 2(bf16)x(MxK + NxK)

平均计算强度I = F/B = (MxN)/(MxK + NxK), 计算强度随着M和N的增大而增大, 理论上就可以打满算力

设序列长度S, 维度数D, batch数B

A100的算力(bf16)FLOP/S = 312TFlops, 带宽为2TB/s, 计算强度拐点 = 312/2 = 156

Flash attention的计算强度I = F/B = (4xBxS^2xD)/(8(bf16)xBxSxD) = S/2

所以当S > 312时, Flash Attention就会打满A100的算力, 进入compute bound

hpc

machine learnring

llm

Cutlass In Short

Cutlass通俗理解核心目的核心目标: 消除矩阵乘法中对A, B矩阵的重复读取核心: 内积变外积 -> 每个数据只会读第一次, 避免对A/B矩阵的重复读取最内层外积, 可复用的...

Tensor core MMA指令教程

Tensor core MMA指令教程参考 https://zhuanlan.zhihu.com/p/1892346599864238276 以mma.m8n8k4为例 A warp ex...