AI 通识课 · 创新层 · 第 IV 阶

AI 通识 IV · 从零开始创造自己的大模型

沿着 Karpathy 的 nano-gpt 路线,一学期亲手训练一个自己的语言模型——从 Tokenizer 开始,跑通预训练、Fine-tune、评估、发布。学期末孩子真的有"我训出来的 GPT"。

时长:16 周 · 每周 1 次 · 共 32 课时 年级:推荐 8-12 年级(初二以上) 班型:6-8 人小班 · 1 主讲 + 1 技术助教 前置:能写基本 Python(变量 / 循环 / 函数)+ 上完 AI 通识 III 或同等理解
01 · 课程定位

这门课要解决什么

这是 AI 通识四层的最深一阶——动手到引擎盖底下。

学期末,孩子手里有一个真的"我训出来的"小语言模型——预训练 + Fine-tune + 评估全部跑通,可以让别人用。这是别家初高中 AI 课基本做不到的事。
关键设计:严格沿着 Karpathy 的 nano-gpt 路线——这是真正世界级研究员 Andrej Karpathy 写的教学项目,从 Tokenizer 到训练循环每行代码都讲清楚。我们的教学只做两件事:用中文翻译 + 把抽象概念落到孩子能感受的例子。
02 · 适合谁

这门课为这样的孩子设计

✓ 适合

8-12 年级有志学 CS / AI 的学生

  • 能写基本 Python,不怕看代码
  • 上过 AI 通识 III 或对原理有扎实理解
  • 愿意为一个项目熬 16 周,享受"调通"的快乐
  • 想准备科创竞赛 / 申请 CS 专业 / 写技术博客
× 不推荐

这门课不适合

  • 从未写过代码的孩子(先补 Python 基础再来)
  • 没上过 AI 通识 III 或不理解原理的(直接做容易迷失)
  • 想要"低代码 / 可视化"路径的(这门课全程代码)
03 · 16 周课表

每周做什么

严格沿 nano-gpt 路线:环境 → tokenizer → embedding → attention → 训练 → fine-tune → 评估 → 发布。

节奏说明:前 5 周搭基础和理解 nano-gpt 项目;W6-12 是核心——训出第一个模型再 fine-tune;W13-16 是评估优化 + 发布。每周都有可运行代码作为产出。
W1 环境搭建 + Python 复习 概念
关键内容装好 Python / PyTorch / Jupyter;复习几个会用到的语法(dict / 列表推导 / 类);跑通 Hello World。
本周产出一个能跑的开发环境 + 一份「我会用到的 Python 速查卡」。
W2 nano-gpt 项目导读 概念
关键内容一窥 GPT 内部——把 Karpathy 的 nano-gpt 整个项目过一遍,知道有哪些文件、各做什么。
本周产出一张「nano-gpt 项目结构图」+ 你最好奇的 3 个文件。
W3 Tokenizer:把字变成数字 概念
关键内容为什么不能直接用字符?什么是 BPE?看 GPT-2 的 tokenizer 怎么切"我爱北京天安门"。
本周产出自己写一个超简 tokenizer + 用它编码 5 个句子。
W4 Embedding:让相似的字相近 概念
关键内容为什么需要 embedding?维度的含义。可视化看 word2vec 的"国王 - 男 + 女 = 女王"。
本周产出用一个预训练 embedding 做一次"找最相近词"实验。
W5 跟 Karpathy 写 Attention 概念
关键内容跟 Karpathy 视频一行行写 self-attention——为什么是 Q/K/V?为什么要 scale?
本周产出一个能跑的 mini self-attention 模块(< 30 行)。
W6 搭出完整 Transformer 块 项目
关键内容把 attention + MLP + LayerNorm + Residual 拼出一个 Transformer block。在玩具数据上跑通。
本周产出一个 Transformer block 代码 + 在 toy 数据上的训练 loss 曲线。
W7 小项目 1 · 上半场:在《红楼梦》上预训练 项目
关键内容用《红楼梦》文本作为训练数据,开始预训练一个超小模型(6 层 Transformer)。
本周产出训练脚本 + 第一次 loss 下降曲线。
W8 小项目 1 · 下半场:让模型说话 项目
关键内容生成第一段文字——它说得像不像《红楼梦》?为什么有些字总是错?
本周产出10 段模型生成 + 你的"它学到了什么"分析。
W9 诊断模型:各种奇怪输出的原因 概念
关键内容模型为什么循环?为什么乱码?为什么有时候很惊艳?理解 temperature / top-k / top-p。
本周产出同一个 prompt 用 5 种解码策略生成 + 对比表。
W10 准备 Fine-tune 数据 项目
关键内容选你的 Fine-tune 方向——让模型说什么话?写小红书文案?模仿某个作家?答数学题?准备 100-300 条数据。
本周产出一份 Fine-tune 数据集(自己构造或筛选)。
W11 Fine-tune · 上半场 项目
关键内容在你的预训练模型基础上 fine-tune。观察 loss 下降 + 中间检查点的输出变化。
本周产出Fine-tune 后的模型 v1 + 训练日志。
W12 Fine-tune · 下半场 + 调优 项目
关键内容调超参(学习率 / batch size / epochs),看哪个组合让模型更像你想要的。
本周产出一份「我调超参的实验表」+ 最优模型 v2。
W13 评估:你的模型有多好 概念
关键内容怎么定量评估生成模型?人工评估 + 自动评估(perplexity + 简单指标)。
本周产出一份评估报告——你的模型在 20 个测试样本上的表现。
W14 优化与对比 学期项目
关键内容改一个东西(模型尺寸 / 数据量 / 训练时长)看 metric 变化——做一次小实验。
本周产出一张「我做的对照实验」结果对比图。
W15 发布 · 部署 · 写技术博客 学期项目
关键内容把模型部署到 Hugging Face Spaces 或本地网页 demo;写一篇 2000 字技术博客复盘整个学期。
本周产出可访问的 demo URL + 一篇技术博客 + 开源 GitHub 仓库。
W16 路演答辩 · Demo Day 学期项目
关键内容正式 demo——15 分钟向家长 / 嘉宾 / 同伴讲技术决策 + 现场让人试用模型 + Q&A。
本周产出Demo Day pitch + 一份"如果再做一次我会改什么"反思。
04 · 学期产出

一学期后孩子手里有什么

一个真的可以放进 Github / 简历 / 申请文书的技术作品。

主作品

"我训出来的"语言模型

一个完整训练 + Fine-tune 完成的小语言模型,部署在 Hugging Face Spaces 或本地 demo,可以让别人访问试用。

代码产出

开源 GitHub 仓库

完整训练代码 + 数据 + 文档——一个孩子可以用 16 年大学申请的真实技术作品。

写作产出

技术博客 + 实验报告

一篇 2000 字技术博客 + 一份调超参实验对比报告——能放进申请文书的真实技术写作。

答辩产出

Demo Day 视频

15 分钟正式技术答辩录像——孩子第一次面对真观众讲清楚一个技术决策。

05 · 教学法

这门课怎么上

严格"读经典"路线:这门课不自创内容——我们就跟 Andrej Karpathy 这位世界级研究员的 nano-gpt 教学项目走,他怎么讲我们怎么讲,多加的只是中文翻译和孩子能感受的例子。这是"读经典"教学法在 AI 时代的体现。

每周必有可运行代码:16 周每周的产出都不只是"理解了",而是"能跑通"——一段 Python 代码、一个 loss 曲线、一份训练日志。这种实证训练,是为高中孩子做学术 / 科研准备最有效的方式。

真发布 + 真技术写作:W15 强制要部署 demo 给别人用 + 写一篇技术博客。"真出去"是这门课的硬要求——只有把作品晒出去,孩子才会认真。

详细教学法见 教学法六步循环 · 训练范式见 Pretrain × Posttrain × Harness × Delivery