AI 通识 IV · 从零开始创造自己的大模型 · 课程详情

03 · 16 周课表

每周做什么

严格沿 nano-gpt 路线：环境 → tokenizer → embedding → attention → 训练 → fine-tune → 评估 → 发布。

节奏说明：前 5 周搭基础和理解 nano-gpt 项目；W6-12 是核心——训出第一个模型再 fine-tune；W13-16 是评估优化 + 发布。每周都有可运行代码作为产出。

W1 环境搭建 + Python 复习概念

关键内容装好 Python / PyTorch / Jupyter；复习几个会用到的语法（dict / 列表推导 / 类）；跑通 Hello World。

本周产出一个能跑的开发环境 + 一份「我会用到的 Python 速查卡」。

W2 nano-gpt 项目导读概念

关键内容一窥 GPT 内部——把 Karpathy 的 nano-gpt 整个项目过一遍，知道有哪些文件、各做什么。

本周产出一张「nano-gpt 项目结构图」+ 你最好奇的 3 个文件。

W3 Tokenizer：把字变成数字概念

关键内容为什么不能直接用字符？什么是 BPE？看 GPT-2 的 tokenizer 怎么切"我爱北京天安门"。

本周产出自己写一个超简 tokenizer + 用它编码 5 个句子。

W4 Embedding：让相似的字相近概念

关键内容为什么需要 embedding？维度的含义。可视化看 word2vec 的"国王 - 男 + 女 = 女王"。

本周产出用一个预训练 embedding 做一次"找最相近词"实验。

W5 跟 Karpathy 写 Attention 概念

关键内容跟 Karpathy 视频一行行写 self-attention——为什么是 Q/K/V？为什么要 scale？

本周产出一个能跑的 mini self-attention 模块（< 30 行）。

W6 搭出完整 Transformer 块项目

关键内容把 attention + MLP + LayerNorm + Residual 拼出一个 Transformer block。在玩具数据上跑通。

本周产出一个 Transformer block 代码 + 在 toy 数据上的训练 loss 曲线。

W7 小项目 1 · 上半场：在《红楼梦》上预训练项目

关键内容用《红楼梦》文本作为训练数据，开始预训练一个超小模型（6 层 Transformer）。

本周产出训练脚本 + 第一次 loss 下降曲线。

W8 小项目 1 · 下半场：让模型说话项目

关键内容生成第一段文字——它说得像不像《红楼梦》？为什么有些字总是错？

本周产出10 段模型生成 + 你的"它学到了什么"分析。

W9 诊断模型：各种奇怪输出的原因概念

关键内容模型为什么循环？为什么乱码？为什么有时候很惊艳？理解 temperature / top-k / top-p。

本周产出同一个 prompt 用 5 种解码策略生成 + 对比表。

W10 准备 Fine-tune 数据项目

关键内容选你的 Fine-tune 方向——让模型说什么话？写小红书文案？模仿某个作家？答数学题？准备 100-300 条数据。

本周产出一份 Fine-tune 数据集（自己构造或筛选）。

W11 Fine-tune · 上半场项目

关键内容在你的预训练模型基础上 fine-tune。观察 loss 下降 + 中间检查点的输出变化。

本周产出Fine-tune 后的模型 v1 + 训练日志。

W12 Fine-tune · 下半场 + 调优项目

关键内容调超参（学习率 / batch size / epochs），看哪个组合让模型更像你想要的。

本周产出一份「我调超参的实验表」+ 最优模型 v2。

W13 评估：你的模型有多好概念

关键内容怎么定量评估生成模型？人工评估 + 自动评估（perplexity + 简单指标）。

本周产出一份评估报告——你的模型在 20 个测试样本上的表现。

W14 优化与对比学期项目

关键内容改一个东西（模型尺寸 / 数据量 / 训练时长）看 metric 变化——做一次小实验。

本周产出一张「我做的对照实验」结果对比图。

W15 发布 · 部署 · 写技术博客学期项目

关键内容把模型部署到 Hugging Face Spaces 或本地网页 demo；写一篇 2000 字技术博客复盘整个学期。

本周产出可访问的 demo URL + 一篇技术博客 + 开源 GitHub 仓库。

W16 路演答辩 · Demo Day 学期项目

关键内容正式 demo——15 分钟向家长 / 嘉宾 / 同伴讲技术决策 + 现场让人试用模型 + Q&A。

本周产出Demo Day pitch + 一份"如果再做一次我会改什么"反思。

04 · 学期产出

一学期后孩子手里有什么

一个真的可以放进 Github / 简历 / 申请文书的技术作品。

主作品

"我训出来的"语言模型

一个完整训练 + Fine-tune 完成的小语言模型，部署在 Hugging Face Spaces 或本地 demo，可以让别人访问试用。

代码产出

开源 GitHub 仓库

完整训练代码 + 数据 + 文档——一个孩子可以用 16 年大学申请的真实技术作品。

写作产出

技术博客 + 实验报告

一篇 2000 字技术博客 + 一份调超参实验对比报告——能放进申请文书的真实技术写作。

答辩产出

Demo Day 视频

15 分钟正式技术答辩录像——孩子第一次面对真观众讲清楚一个技术决策。

05 · 教学法

这门课怎么上

严格"读经典"路线：这门课不自创内容——我们就跟 Andrej Karpathy 这位世界级研究员的 nano-gpt 教学项目走，他怎么讲我们怎么讲，多加的只是中文翻译和孩子能感受的例子。这是"读经典"教学法在 AI 时代的体现。

每周必有可运行代码：16 周每周的产出都不只是"理解了"，而是"能跑通"——一段 Python 代码、一个 loss 曲线、一份训练日志。这种实证训练，是为高中孩子做学术 / 科研准备最有效的方式。

真发布 + 真技术写作：W15 强制要部署 demo 给别人用 + 写一篇技术博客。"真出去"是这门课的硬要求——只有把作品晒出去，孩子才会认真。

详细教学法见教学法六步循环 · 训练范式见 Pretrain × Posttrain × Harness × Delivery。

AI 通识 IV · 从零开始创造自己的大模型

这门课要解决什么

这门课为这样的孩子设计

8-12 年级有志学 CS / AI 的学生

这门课不适合