用分层内存系统降低 AI 编程的 Token 消耗

解决 AI 代理在处理大项目时频繁全量读取文件的痛点:通过分层级的上下文文件(HAM),让 AI 根据当前工作目录仅加载必要的“速查表”,显著降低输入 Token 成本。

为什么需要这个技能

在使用 Claude Code 等 AI 编程代理时,如果项目规模较大,AI 往往需要在每次对话中重新读取大量文件以维持上下文,这不仅导致响应速度变慢,还会迅速消耗大量的 Token 额度。

传统的单文件 CLAUDE.md 容易变得臃肿且低效。分层内存系统(Hierarchical Agent Memory, HAM)将内存拆分为:根目录全局上下文 子目录局部上下文 隐藏内存层(决策与模式)。这种结构让 AI 能够像人类开发者一样,只在进入特定模块时才加载该模块的“知识快照”,从而在维持精准度的同时大幅削减成本。

适用场景

  • 项目目录结构复杂(超过 3 个主要目录),AI 经常重复扫描相同文件。
  • 追求极致的 Token 成本控制,希望量化 AI 会话的开销。
  • 需要在 AI 代理中建立结构化的架构决策记录(ADR)和可复用的模式库。
  • 在启动新项目时,希望从第一天起就建立规范的 AI 协作内存。

核心工作流

1. 初始化内存结构

运行 go ham 指令,系统将自动检测项目平台并生成如下结构:

  • CLAUDE.md (根目录):存放全局上下文(约 200 tokens)。
  • .memory/:存放决策记录 (decisions.md)、可复用模式 (patterns.md) 及待确认项 (inbox.md)。
  • src/*/CLAUDE.md:各子目录的局部上下文(每个约 250 tokens)。

2. 上下文路由

在根目录的 CLAUDE.md 中定义路由映射,引导 AI 精确加载:

## Context Routing
→ api: src/api/CLAUDE.md
→ components: src/components/CLAUDE.md
→ lib: src/lib/CLAUDE.md

AI 读取根目录后,会根据当前任务立即加载对应的子上下文,无需盲目猜测。

3. 监控与审计

通过 ham dashboard 启动 Web 仪表盘(localhost:7777),可视化分析:

  • Token 节省量:对比使用 HAM 前后的 Token 消耗差异。
  • 上下文健康度:检查是否有缺失或过期的 CLAUDE.md 文件。
  • 路由合规性:分析 AI 遵循路由映射的频率。

常用命令

触发命令 功能描述
go ham 初始化 HAM 结构,自动生成分层上下文文件
ham savings 输出 Token 节省额度及成本降低报告
ham dashboard 启动交互式 Web 数据看板
ham audit 对内存文件进行健康检查
ham route 更新根目录中的上下文路由映射

下载和安装

下载 hierarchical-agent-memory 中文版 Skill ZIP

解压后将目录放入你的 AI 工具 skills 文件夹,重启工具后即可使用。具体路径参考内附的 USAGE.zh.md

你可能还需要

暂无推荐