66Ring's Blog

从残差连接到Manifold-Constrained Hyper-Connections(mHc)

从残差连接到mHc标准残差原始信息的直接传递传统残差连接形如下，F表示Layer的fwd, wi表示fwd需要的权重。 $$x_{i+1} = x_i + F(x_i, w_i)$$ 当多层layer堆叠时可以整理出公式： $$x_{1} = x_0 + F(x_0, w_0) \x_{2} = x_1 + F(x_1, w_1) \ = x_0 + F(x_0, w_0) ...

2026-01-03

docker context usage

Docker context用例把一个远程机器的docker映射到本地docker。这样一来, 本地docker ps就相当于在远程机器docker ps 12345docker context create some-context-label --docker "host=ssh://user@remote_server_ip"docker context use some-contex...

2025-12-26

cutlass cute compose语义级理解

cutlass cute compose语义级理解layout是一个映射, 可以将逻辑(m, n)映射到物理的index: layout(m, n) -> idx。当两个layout复合时, 该idx除了有”物理idx”的还有外, 还有一层”逻辑crd”的语义。如A o B = A(B(i)) i传入到B, 先转变为B视角的逻辑crd crd经过B映射后得到一个新的idx’ 该idx...

2025-12-21

welford算法求方差

welford算法求方差 cc https://zhuanlan.zhihu.com/p/408474710 基础方法 $D(x) = \frac{\sum(x_i - mean)^2}{n}$ 需要两次遍历1. 第一次遍历获取mean, 2. 第二次遍历计算方差数学变换优化数学等价转换的一次遍历可以推导出$D(x) = E(x^2) - E(x)^2$, 只需要用x和x方做一...

2025-12-03

c++20模板元编程

c++20模板元编程tips 主模板 + 偏特化 AKA 定义默认行为类型擦除奇异递归模板表达式标签派发静态面向”对象” 静态多态: 奇异递归鸭子类型: e.g. golang中的interface 混入(mixin): 静态检查类型擦除, 没有多态的通用处理(但有相同的interface) 变参模板 ...运算符表示解包, 在什么后面就是对什么的解包 tem...

2025-12-01

cutlass tiled copy的本质

Cutlass Tiled Copy Copy is all you need. make_tiled_copy语义理解。核心在于: tiler和layout_tv。先说结论: 用atom去对tv layout进行分tile。用tiler去对目标tensor进行分tile。最后将这两个layout组合得到新的tv layout，表示tile-wise的访问tv, v的layout能够保证满...

2025-11-28

CUDA占用优化

CUDA占用优化二次吸收: https://medium.com/@manisharadwad/unlocking-gpu-potential-understanding-and-optimizing-cuda-occupancy-2f43ee01ad7e 优化问题, 由于分配的粒度问题(一个block一个block分配资源, 固定会有n_thread * reg, n_thread的整...

2025-11-26

python异步编程cheat sheet

python异步编程本质: (1)创建协程后后台执行, 还是(2)创建协程后”等待”执行。两者抽象出了asyncio的语法糖 async def async_func()可以快速定义异步方便 await async_func()会等待函数执行完成才继续下面的函数实际上await是主动挂起协程, 但还是在事件循环中运行 task = asyncio.create_task(async_...

2025-11-26

Torch Compile解析

Torch Compile解析二次加工 from: https://mp.weixin.qq.com/s?__biz=MzYyNTg1OTA5MQ==&mid=2247484015&idx=1&sn=1606439595d5049076c4c7664f4811bc&chksm=f0208d13c7570405a915b78ab21b3a2d3a0c54db1...

2025-11-25

sglang diffusion走读

sglang diffusion走读Cheat sheet generate _send_to_scheduler_and_wait_for_response -> event_loop scheduler::recv_reqs, self.worker.execute_forward -> pipeline.forward build_pipeline model maybe ...

2025-11-10