跳转至

MLSys 菜狗自学笔记

MLSys 自学笔记,每篇尽量带可运行代码,知乎同步更新。

[Why write this?]

知乎/Github 好资源很多,但感觉没有特别系统性 + 满足个人逻辑闭环的 + code demo 足够的,所以想自己推一遍,每个 topic 从基础出发,补足细节,配上手写的可运行代码 / 遇到过的面试题。

计划覆盖 pre-training、post-training、inference、算子与异构计算。

qwq 其实 25 年就想写了,一直在拖,上班了继续慢慢更新中(

笔记列表

每篇笔记有 repo 内的 md 版本和对应的知乎 link;相关 code 有可下载的 ipynb,也有可以直接运行的 Google Colab 版本。

Topic 笔记 知乎 code link code简介
模型基础 01-Transformer 详解 link ipynbcolab mini Llama
训练策略 01-分布式训练(0) - 背景知识(通信原语 & NCCL & 单卡计算流) link ipynbcolab 通信原语 + DDP demo
训练方法 01-预训练 Pretrain link ipynbcolab mini pretrain
02-监督微调 SFT TBD ipynbcolab mini lora SFT
RL coming soon
推理优化 coming soon
算子 01-算子手写(1) - CUDA 入门 op link ipynbcolab 一些基础CUDA算子

[About Me]

暂时偏 DL Compiler (算子) 方向。Master NG 菜狗

  • Intern:ByteDance CN @ AML 科学计算 → NVIDIA CN @ cuTile → NVIDIA US @ XLA
  • Fulltime:ByteDance US @ AI Search, ML infra - 训练支持

更新历史

  • 05/03/2026: 训练方法 → 02-SFT [link],网页版和知乎同步发布
  • 05/02/2026: 训练方法 → 01-Pretrain [link],网页版和知乎同步发布
  • 04/25/2026: 新开 GitHub repo,帖子迁移到网页版了!🎉🎉
  • 04/20/2025: 训练策略 → 01-分布式训练(0)-背景知识(通信原语/NCCL/单卡计算流) [link],发布在知乎
  • 04/06/2025: 算子 → 01-常见CUDA手写实现 [link],发布在知乎
  • 03/06/2025: 模型结构 → 01-Transformer详解 [link],发布在知乎