抱歉,您的浏览器无法访问本站

本页面需要浏览器支持(启用)JavaScript


了解详情 >

CUDA编程小记

CUDA编程小记这个教程的小记/速查 核函数(kernel)kernel的定义和启动形如,使用__global__修饰的函数就是kernel,由host端启动,在device端运行。如果使用__host__就是就是host端代码,cuda编译器不会编译到gpu上。使用__device__修饰就是设备端代码,只能在设备上运行 1234__global__ void cuda_kernel(.....

llama2.c体验

llama2.c体验 Have you ever wanted to inference a baby Llama 2 model in pure C? No? Well, now you can! 为什么要体验llama2.c? 因为我现在在做一些大模型相关的东西, 但是设备资源又不是十分充足, 想要先通过一个很小很小的llama来验证跑通再迁移到实验环境。偶然发现llama2.c的环境...

聊天应用的系统设计

聊天应用的系统设计 ref https://www.youtube.com/watch?v=xyLO8ZAk2KE&ab_channel=ByteMonk https://medium.com/@m.romaniiuk/system-design-chat-application-1d6fbf21b372 https://bytebytego.com/courses/system-d...

leveldb读写操作笔记

leveldb读写操作笔记 https://leveldb-handbook.readthedocs.io/zh/latest/rwopt.html 整体架构 存内数据结构 MemTable 一种有序的存内结构(跳表) 写入先写入memtable, 当内容达到阈值后将其转换成immutable memtable Immutable MemTable 只读的memtable, 可以用来后...

自动并行insight, 关于alpa和unity的思考

自动并行insight: 关于alpa和unity的思考Alpa和Unity都是OSDI22上关于大模型自动并行的文章。居然戏剧性的同时入选,工作量当然是一个重要因素, 不过这个偶遇也给了我一些思考,浅浅记录一下。下一期会开”斯坦福自动并行三剑客源码解析: MetaFlow, TASO, FlexFlow(Unity)”。 首先会先简述一下Unity和Alpa的思路。会先说Unity再说Al...

N卡单显卡直通保姆级教程

N卡单显卡直通 总结只要能用vfio把显卡隔离出来就算成功了, 剩下都是调试问题 安装一个启用UEFI的windows虚拟机 在安装准备时勾选”安装前手动配置”, (Customize configuration before install) 在Overview栏, Firmware(固件)项中选择UEFI, 没有UEFI选项的arch用户可以安装ovmf包后再尝试 启动vn...

LSM tree笔记

LSM tree笔记 数据结构: 一个内存中的有序结构: level 0 排序树(MemTable) 一个外存中的append only结构: level 1+n 每个level内可以有多个SSTable, SSTable内有序 一个level多个SSTable是一种Tiered compaction的设计, 有多次merge的设计 内存中排序好的数据顺序写入磁盘 每个level...

NixOS

NixOS 被Linux依赖折磨的朋友应该考虑一下NixOS 圣经 安装直接看官方的installation manual summary即可 如, uefi用户直接 1234567891011121314parted /dev/vda -- mklabel gptparted /dev/vda -- mkpart primary 512MB 100%parted /dev/vda -- ...

大模型的长序列优化survey

大模型的长序列优化为什么长序列是必要的? prompt engineering 会话, 书籍, 视频 不忘记之前说的话, 不分心 idea prompt hashing! 允许精度损失, 浮点数类似的精度设计 如果一个token表示的不是一个token, 而是一个区域? 再加一个encode向量数据库 相关图, k邻近 多模态有没有可能就是将其他各种信息都embading进去...

FlashAttention笔记

FlashAttention 1 main idea IO感知, 即感知GPU的层级关系 手动算子融合, 实现CUDA算子 局限和Future 需要手写CUDA做融合, 希望可以用高级语言写在编程成CUDA IO感知的思路可以扩展到非Attention的场景 多GPU的IO感知也可以做优化 实现 尽可能少设计HBM读写 计算softmax时不需要访问整个输入 重新设计attn的计算,...