Tag: system - 66Ring's Blog

Intel AVX

Intel AVX Intel® Intrinsics Guide is all you need. SSE: Streaming SIMD Extensions AVX: Advanced Vector Extensions flow(类似于GPU编程) 创建SIMD寄存器加载数据到SIMD寄存器使用SIMD指令将SIMD寄存器中的数据存回内存 Terms 命名格式 ...

2024-11-04

手把手实现Ring Attention

手把手实现Ring Attention 官方ring attention是jax实现的，这里用pytorch实现一个ring attention的学习版本。 source code 是ring attention是attention机制的分布式版本。分布式的持有QKV分块从而降低单机的显存消耗。主要流程: 数据并行模拟: 不想折腾DDP, 使用一些技巧来模拟 p2p通信给ring at...

2024-03-01

如何将梯度下降算法变成分布式的梯度下降算法

如何将梯度下降算法变成分布式的梯度下降算法 Scaling Distributed Machine Learning with the Parameter Server scheduler 通知所有worker加载数据, LoadData() 通知worker启动并分批处理小批量的数据, WorkerIteration(t) worker LoadData 读取对应块的数据从ser...

2023-05-09

宏内核, 微内核, 多内核

宏内核架构 linux 整个单分两层：内核与应用。 CPU负责提供权限模式，高权限就是内核模式。所有内核功能实现在一起：文件系统, 内存管理, 设备驱动, 进程调度等。拥有最高权限结构性缺陷：安全性可靠性模块间没有很强的隔离，单点错误如频繁更新的驱动，他的bug就可能影响到其他模块实时性支持不足系统太复杂，无法做出最坏分析过于庞大阻碍创新 2800行代码微...

2022-05-21

Abstract看到云服务这种”单一”功能的属性，unikernel应运而生。不同于传统虚拟机，unikernel为这样云环境做性能、运营、安全、开销等方面的优化。其核心思想就是既然云服务器的使用者仅需要单一的功能，那我们就提供一个功能比较单一的、编译时功能确定的、更轻量更安全的操作系统和配套设施(library)。lib就相当于现在(2021)我们说的”系统生态/软件”，用户可以根据lib...

2021-09-18

Intel AVX

手把手实现Ring Attention

如何将梯度下降算法变成分布式的梯度下降算法

宏内核, 微内核, 多内核

外核架构Exokernel和Unikernel