从零基础到面试通关 —— 24节课 + 190道面试题 + 哆啦A梦图解,彻底搞懂大语言模型
快速开始 • 课程目录 • 面试宝典 • 学习路线图 • 漫画图解 • 多格式输出
用 24 节课 + 190 道面试八股文 + 15 张哆啦A梦漫画图解,把一个完全零基础的小白,带到能在面试中自信讲述"我从零训练了一个大语言模型"的水平。
MiniMind 是一个仅需 3 块钱、2 小时就能从零训练出 64M 参数 GPT 的开源项目,在 GitHub 上获得了 45k+ Star。本仓库是 MiniMind 的系统化学习教程 + 面试备战手册,专为以下人群设计:
- 零基础小白 —— 不懂 Python、不懂深度学习也能看懂,配有哆啦A梦漫画图解
- 求职面试者 —— 190+ 道面试八股文 + STAR 面试稿 + 简历撰写指南
- 想动手实践 —— 每节课都有可运行的 PyTorch 实验代码
| 特色 | 说明 |
|---|---|
| 190+ 面试题 | 覆盖 Transformer 深度拷问、训练全流程、推理优化、工程实践、MiniMind 专属追问 |
| STAR 面试稿 | 30秒/1分钟/3分钟自我介绍 + 7 个技术难点 STAR 应对 + 12 轮模拟面试 |
| 简历撰写指南 | 4 种详略版本 + 4 个岗位方向调整 + 6 组普通/优化写法对比 |
| 哆啦A梦漫画 | 15 张原创漫画,用生动形象的方式解释核心概念 |
| 源码深度解析 | 7 门核心课程增加源码逐行解读 + 动手实验 + 面试考点 |
| 多格式输出 | Markdown / HTML / PDF 三种格式,随时随地学习 |
你现在在这里
↓
Phase 1 Phase 2 Phase 3 Phase 4 Phase 5
零基础入门 模型核心组件 训练全流程 高级特性 & 面试 求职冲刺
============ ============== ============ ================ ============
L01 什么是LLM → L05 Tokenizer分词器 → L11 数据处理流水线 → L17 DPO偏好优化 → L23 简历撰写指南
| | | | |
L02 Transformer全景 → L06 词嵌入Embedding → L12 预训练Pretrain → L18 PPO/GRPO强化学习 → L24 STAR面试法
| | | |
L03 PyTorch快速上手 → L07 RMSNorm归一化 → L13 监督微调SFT → L19 MoE混合专家
| | | |
L04 MiniMind环境搭建 → L08 RoPE位置编码 → L14 LoRA高效微调 → L20 推理优化
| | |
L09 注意力机制&GQA → L15 知识蒸馏KD → L21 部署与应用
| | |
L10 FFN前馈网络&SwiGLU → L16 完整模型组装 → L22 面试通关指南
↓
190+ 面试八股文
↓
写进简历,拿下Offer!
| 路径 | 时长 | 适合人群 | 达成目标 |
|---|---|---|---|
| 快速通关 | 3 天 | 有深度学习基础 | 面试能讲清项目,刷完核心面试题 |
| 系统学习 | 7 天 | 有 Python 基础 | 深入理解每个模块,完成所有动手实验 |
| 从零开始 | 14 天 | 完全零基础 | 手撕代码 + 面试通关 + 简历完善 |
| 天数 | 学习内容 | 重点 |
|---|---|---|
| Day 1 | L01-L04(入门)+ L09(Attention)+ L12(预训练) | 理解整体架构和训练流程 |
| Day 2 | L13(SFT)+ L17(DPO)+ L14(LoRA)+ 面试题 06-08 | 掌握训练全链路和核心面试题 |
| Day 3 | L23(简历)+ L24(STAR 面试稿)+ 面试题 10 | 简历撰写 + 面试模拟 |
| 天数 | 学习内容 |
|---|---|
| Day 1 | L01-L04:基础概念 + 环境搭建 |
| Day 2 | L05-L07:Tokenizer + Embedding + RMSNorm |
| Day 3 | L08-L10:RoPE + Attention/GQA + FFN/SwiGLU |
| Day 4 | L11-L13:数据处理 + 预训练 + SFT |
| Day 5 | L14-L16:LoRA + 知识蒸馏 + 模型组装 |
| Day 6 | L17-L22:DPO/PPO + MoE + 推理优化 + 部署 |
| Day 7 | L23-L24 + 面试题 06-10:简历 + STAR 面试 + 全部八股文 |
从"大语言模型是什么"开始,到亲手跑通 MiniMind
| 课程 | 主题 | 格言 | 预计时长 |
|---|---|---|---|
| L01 | 什么是大语言模型 | "大道至简,从文字接龙说起" | 30min |
| L02 | Transformer 全景图 | "注意力就是一切" | 45min |
| L03 | PyTorch 快速上手 | "工欲善其事,必先利其器" | 60min |
| L04 | MiniMind 项目导览与环境搭建 | "千里之行,始于配环境" | 30min |
逐个拆解 Transformer 的每一个"零件",对应 MiniMind 源码,配有哆啦A梦漫画图解
| 课程 | 主题 | 格言 | 预计时长 | 漫画 |
|---|---|---|---|---|
| L05 | Tokenizer 分词器 | "模型的第一本字典" | 45min | 图解 |
| L06 | 词嵌入 Embedding | "把文字变成数字的魔法" | 30min | 图解 |
| L07 | RMSNorm 归一化 | "训练稳定的守护者" | 40min | 图解 |
| L08 | RoPE 旋转位置编码 | "让模型知道谁先谁后" | 50min | 图解 |
| L09 | 注意力机制 & GQA | "每个词都在关注其他词" | 60min | 图解 |
| L10 | 前馈网络 FFN & SwiGLU | "知识的仓库,智慧的门控" | 40min | 图解 |
从数据到模型训练的完整链路,亲手训出属于你的 LLM
| 课程 | 主题 | 格言 | 预计时长 | 漫画 |
|---|---|---|---|---|
| L11 | 数据处理流水线 | "数据是模型的食粮" | 45min | |
| L12 | 预训练 Pretrain | "让模型学会词语接龙" | 60min | 图解 |
| L13 | 有监督微调 SFT | "从百科全书到对话助手" | 50min | 图解 |
| L14 | LoRA 参数高效微调 | "四两拨千斤的微调艺术" | 50min | 图解 |
| L15 | 知识蒸馏 KD | "青出于蓝而胜于蓝" | 40min | |
| L16 | Transformer Block → 完整模型 | "乐高积木拼出飞机" | 60min |
强化学习、MoE、部署优化,以及最终的面试通关指南
| 课程 | 主题 | 格言 | 预计时长 | 漫画 |
|---|---|---|---|---|
| L17 | DPO 直接偏好优化 | "教模型分辨好与坏" | 50min | 图解 |
| L18 | PPO / GRPO 强化学习 | "在试错中持续进化" | 60min | |
| L19 | MoE 混合专家模型 | "术业有专攻" | 50min | 图解 |
| L20 | 推理优化 KV-Cache & YaRN | "又快又好地生成" | 45min | 图解 |
| L21 | 模型部署与应用 | "从实验室走向生产" | 45min | |
| L22 | 面试通关指南 | "把项目写进简历,拿下Offer" | 90min |
简历撰写 + STAR 面试法,直接用于求职
| 课程 | 主题 | 内容 | 预计时长 |
|---|---|---|---|
| L23 | MiniMind 项目简历撰写 | 4 种详略模板 + 6 组对比 + 4 岗位调整 + 避坑指南 | 60min |
| L24 | STAR 面试法完整稿 | 自我介绍模板 + 7 场景 STAR 应对 + 12 轮模拟面试 | 90min |
共 190+ 道面试题,覆盖 MiniMind 项目的每一个技术细节
| 专题 | 内容 | 题量 |
|---|---|---|
| 项目介绍话术 | 30秒/1分钟/3分钟版本的项目介绍模板 | 3 套 |
| 模型架构面试题 | Transformer、GQA、RoPE、RMSNorm... | 28 题 |
| 训练流程面试题 | Pretrain、SFT、LoRA、DPO、PPO... | 30+ 题 |
| 优化与部署面试题 | KV-Cache、MoE、量化、推理加速... | 20+ 题 |
| 综合追问与深挖题 | 面试官最喜欢追问的高难度问题 | 15+ 题 |
| 专题 | 内容 | 题量 | 特色 |
|---|---|---|---|
| Transformer 深度拷问 | Self-Attention、RoPE、RMSNorm、SwiGLU... | 30 题 | 每题含数学推导 |
| 训练全流程面试 | Pretrain→SFT→LoRA→DPO→PPO→GRPO→MoE | 50 题 | PO 统一框架 |
| 推理优化与部署 | KV Cache、Flash Attention、量化、vLLM... | 30 题 | 显存精确计算 |
| 工程实践面试 | AMP、梯度累积、DDP、checkpoint... | 30 题 | 含代码实现 |
| MiniMind 项目专属 | 针对 MiniMind 的全方位项目追问 | 50 题 | 含 STAR 示例 |
| 面试场景 | 推荐阅读 |
|---|---|
| 自我介绍 | 01-项目介绍话术 → L24-STAR面试稿 |
| 简历撰写 | L23-简历撰写指南 |
| 架构原理 | 02-模型架构 → 06-Transformer深度拷问 |
| 训练流程 | 03-训练流程 → 07-训练全流程50题 |
| 推理部署 | 04-优化部署 → 08-推理优化30题 |
| 工程实践 | 09-工程实践30题 |
| 项目深挖 | 05-综合追问 → 10-MiniMind专属50题 |
| 手撕代码 | 10-Q46~Q48(Self-Attention / RoPE / LoRA 手写) |
15 张原创漫画,让复杂概念变得生动有趣
# 1. 克隆本学习仓库
git clone https://github.com/bcefghj/learn-minimind.git
cd learn-minimind
# 2. 克隆 MiniMind 原项目(学习时需要对照源码)
git clone https://github.com/jingyaogong/minimind.git
cd minimind && pip install -r requirements.txt
# 3. 从第一课开始
# 打开 docs/L01-什么是大语言模型.md 开始学习!pip install markdown pygments
python scripts/build_html.py
# 打开 dist/html/index.html 查看pip install markdown weasyprint
python scripts/build_pdf.py
# 查看 dist/pdf/ 目录learn-minimind/
│
├── README.md ← 你在这里
│
├── docs/ ← 24 节课程(核心内容)
│ ├── L01-什么是大语言模型.md
│ ├── ...
│ ├── L22-面试通关指南.md
│ ├── L23-简历撰写指南.md ← 新增:简历撰写
│ └── L24-STAR面试法完整稿.md ← 新增:STAR 面试
│
├── interview/ ← 面试宝典(10 篇,190+ 题)
│ ├── 01-项目介绍话术.md
│ ├── ...
│ ├── 05-综合追问与深挖题.md
│ ├── 06-Transformer深度拷问30题.md ← 新增
│ ├── 07-训练全流程面试50题.md ← 新增
│ ├── 08-推理优化与部署面试30题.md ← 新增
│ ├── 09-工程实践面试30题.md ← 新增
│ └── 10-MiniMind项目专属面试50题.md ← 新增
│
├── assets/comics/ ← 哆啦A梦风格漫画(15 张)
│ ├── 01-llm-overview.png
│ ├── ...
│ └── 15-training-pipeline.png
│
├── scripts/ ← 工具脚本
│ ├── build_html.py ← Markdown → HTML
│ └── build_pdf.py ← Markdown → PDF
│
├── dist/ ← 生成的多格式输出
│ ├── html/ ← HTML 版本
│ └── pdf/ ← PDF 版本
│
├── web/ ← 交互式学习网站(Next.js)
│ ├── src/components/
│ └── package.json
│
└── LICENSE ← MIT
本项目包含一个基于 Next.js + Framer Motion 的交互式学习网站,包含:
- 代码打字机动画 — Transformer Block 源码逐字打出 + 语法高亮
- Token 数据流动画 — 直观看到输入→Tokenizer→Embedding→Transformer→输出的全过程
- 学习路径卡片 — 24 节课滚动入场动画
- 模型架构交互图 — 可展开/折叠的 Transformer Block 可视化
- 模拟面试动画 — 面试官提问、你来回答的对话循环
cd web && npm install && npm run dev # http://localhost:3000| 路径 | 说明 |
|---|---|
/ |
首页:动画 + 学习路径卡片(点击卡片进入讲义) |
/learn |
24 节课目录 |
/lesson/L01 … /lesson/L24 |
单课全文 |
/interview |
面试宝典目录 |
/interview/01 … /interview/10 |
面试文档 |
| 指标 | 数值 |
|---|---|
| 参数量 | 64M(GPT-3 的 1/2700) |
| 训练成本 | ≈ ¥3(单卡 3090) |
| 训练时间 | ≈ 2 小时 |
| GitHub Stars | 45k+ |
| 核心架构 | Decoder-Only Transformer(对齐 Qwen3) |
| 关键技术 | GQA(8Q/4KV)、RoPE(theta=1e6)、RMSNorm、SwiGLU |
| 训练全链路 | Tokenizer → Pretrain → SFT → LoRA → DPO → PPO/GRPO → MoE → Tool Call → 蒸馏 |
- MiniMind 原项目 — GitHub 45k+ Stars
- MiniMind Wiki — 官方学习文档
- MiniMind 在线体验 — ModelScope Demo
- MiniMind-in-Depth — 源码深度解读(880 stars)
- breakdown-minimind — 交互式 Notebook 拆解(148 stars)
- MLNLP-World/minimind-notes — 社区详细中文注释版(128 stars)
- joyehuang/minimind-notes — 原理与实践指南(86 stars)
- tomatoyuan/minimind-learn — 从零复现实践(230 stars)
- 小林coding 530+ AI面试题 — 9 大方向全覆盖
- Transformer 面试题灵魂 20 问
- 大模型面试 100 问
| 格式 | 说明 | 生成方式 |
|---|---|---|
| Markdown | GitHub 直接阅读(主格式) | 直接访问 docs/ 和 interview/ |
| HTML | 带样式的网页版,支持首页导航 | python scripts/build_html.py |
| 可打印的 PDF 版本 | python scripts/build_pdf.py |
|
| Web | 交互式学习网站 | cd web && npm run dev |
MIT
大道至简 —— 从零开始,一步一步,你也能训练自己的大语言模型。
Star 这个仓库,开始你的 LLM 学习之旅吧!














