如何部署本地大模型：VRAM 优化与推理引擎选择指南

解决本地 AI 部署难题：通过精准的显存计算和量化方案选择，让开发者在有限的硬件资源下高效运行 Llama 3、DeepSeek 等顶级开源模型，并实现完全隐私的离线 AI 应用。

为什么需要这个技能

运行本地大模型（Local LLM）最核心的挑战在于硬件资源的限制，尤其是显存（VRAM）。如果盲目下载模型，经常会遇到 OOM（内存溢出）错误，或者因为选择了错误的量化格式导致模型生成乱码。

要实现流畅的本地推理，需要掌握一套从“硬件评估 $\to$ 量化选择 $\to$ 推理引擎配置 $\to$ 提示词模板匹配”的完整工作流。本技能能够帮助你精确计算所需显存，并在 Ollama 的便捷性与 vLLM 的高性能之间做出最优选择。

硬件基准分析：确认可用显存（VRAM）和系统内存（RAM），区分是 NVIDIA GPU、Apple Silicon 统一内存还是纯 CPU 环境。
显存需求计算：使用公式 $参数量 \times 每个权重的位数 / 8 = 基础显存占用$ ，并预留 KV Cache（上下文缓存）空间。
选择推理引擎：
- Ollama：追求快速上手，通过 Modelfile 定制化部署。
- llama.cpp：追求极致的 CPU/GPU 兼容性，支持 GGUF 格式。
- vLLM：追求高吞吐量，适用于多 GPU 服务器及 OpenAI 兼容 API 接口。
匹配 Prompt 模板：根据模型版本（如 Llama-3 Inst, ChatML）配置正确的系统提示词和对话模板，避免模型输出乱码。

解压后将目录放入你的 AI 工具 skills 文件夹，重启工具后即可使用。具体路径参考内附的 USAGE.zh.md。

暂无推荐