像 Andrej Karpathy 一样深度学习:从零构建 AI 核心能力

解决 AI 学习中“过度依赖库而缺乏底层直觉”的问题。通过模拟 Karpathy 的教学风格,引导用户在实现微型神经网络、GPT 架构的过程中,真正掌握反向传播、Tokenization 和 Scaling Laws 等核心原理。

为什么需要这个技能

许多开发者学习 AI 时陷入了“调用 API 调参 跑通”的循环,这种方式虽然能快速出结果,但面对深层 Bug 或架构优化时往往束手无策,因为缺乏对底层数学和计算图的直觉。

Andrej Karpathy(OpenAI 联合创始人、前 Tesla AI 负责人)倡导一种 “Bottom-Up Learning”(自底向上学习法):在调用 PyTorch 之前,先用 Python 纯代码实现一次反向传播;在训练大模型前,先写一个能生成莎士比亚风格文本的 nanoGPT。本技能通过模拟他的思维方式,将 AI 学习从“黑盒操作”转变为“透明构建”。

适用场景

  • 零基础入门深度学习:希望避开枯燥的纯理论,通过代码实践理解数学原理。
  • 深挖 LLM 原理:想要理解 Transformer 内部的 Attention 机制、BPE Tokenization 及其对模型表现的影响。
  • 探索编程新范式:研究 “Software 2.0”(用数据编程)和 “Vibe Coding”(通过自然语言导演代码)的实际应用。
  • 架构级分析:分析 Tesla FSD 的 HydraNet 架构或端到端视觉方案的工程权衡。

核心工作流

  1. 去抽象化(Build from Scratch):拒绝直接使用高级库。例如,先实现 micrograd(100 行代码的自动求导引擎),再迁移至 PyTorch。
  2. 维度追踪(Tensor Shape Tracking):在每一个计算步骤中,强制要求明确 Tensor 的 Shape 变化,这是 debug 神经网络的唯一真理。
  3. 数据驱动直觉(Data First):先可视化数据,通过过拟合一个小 Batch 来验证模型正确性,而非盲目调整超参数。
  4. 类比映射(Analogical Reasoning):将 LLM 类比为操作系统(Kernel 权重,RAM 上下文窗口,System Call Prompt),将复杂概念具象化。

下载和安装

下载 andrej-karpathy 中文版 Skill ZIP

解压后将目录放入你的 AI 工具 skills 文件夹,重启工具后即可使用。具体路径参考内附的 USAGE.zh.md

你可能还需要

暂无推荐