Appearance
Ollama、LM Studio 和 llama.cpp 是三种本地模型后端,让你在不联网的情况下运行 Claude Code。配置只需设置本地服务地址和 MODEL,无需 API Key。本地模型的工具调用能力取决于模型本身,建议优先选择支持 tool use 的模型。
Free Claude Code 接入 Ollama 和 LM Studio:本地模型零成本跑 Claude Code
为什么选本地模型
- 零成本:没有 API 调用费用
- 隐私:代码和对话不离开本机
- 离线:不需要网络连接
本地模型的劣势是工具调用(tool use)准确率和响应质量不如云端大模型。建议先用云端模型跑通工作流,再尝试本地模型。
Ollama
安装和启动
bash
# 安装 Ollama(macOS / Linux)
curl -fsSL https://ollama.com/install.sh | sh
# 拉取模型
ollama pull llama3.1
# 启动服务
ollama serveWindows 用户:从 ollama.com 下载安装包,安装后 Ollama 服务会自动运行。
配置 Free Claude Code
dotenv
OLLAMA_BASE_URL="http://localhost:11434"
MODEL="ollama/llama3.1"OLLAMA_BASE_URL是 Ollama 服务根地址,不要加/v1后缀MODEL中的模型名要和ollama list显示的一致,如ollama/llama3.1:8b
验证
bash
# 检查 Ollama 是否运行
curl http://localhost:11434/api/tags
# 返回已安装的模型列表
# 启动 Claude Code
ANTHROPIC_AUTH_TOKEN="freecc" ANTHROPIC_BASE_URL="http://localhost:8082" claudeLM Studio
安装和配置
- 从 lmstudio.ai 下载安装 LM Studio
- 在 LM Studio 中加载一个模型(推荐支持 tool use 的模型)
- 启动本地服务器(默认端口 1234)
配置 Free Claude Code
dotenv
LM_STUDIO_BASE_URL="http://localhost:1234/v1"
MODEL="lmstudio/你的模型名"LM_STUDIO_BASE_URL需要包含/v1后缀- 模型名用 LM Studio 界面中显示的标识符
llama.cpp
安装和启动
llama.cpp 提供 llama-server 命令,支持 Anthropic Messages 格式的 /v1/messages 端点。
bash
# 启动 llama-server
llama-server -m 你的模型.gguf --ctx-size 8192 --port 8080配置 Free Claude Code
dotenv
LLAMACPP_BASE_URL="http://localhost:8080/v1"
MODEL="llamacpp/你的模型名"注意事项
--ctx-size至少设 8192,Claude Code 的 prompt 较长,上下文太小会报 HTTP 400- llama.cpp 需要支持 Anthropic Messages 协议的版本(较新版本)
本地模型的工具调用问题
Claude Code 重度依赖工具调用(读文件、写文件、执行命令等)。本地模型的工具调用能力参差不齐:
| 能力 | 云端大模型 | 本地小模型(7B-13B) |
|---|---|---|
| 简单工具调用 | 准确 | 大部分能用 |
| 多工具并行 | 稳定 | 可能丢失部分工具 |
| 工具参数格式 | 准确 | 可能有格式错误 |
| 流式工具调用 | 稳定 | 可能有 SSE 格式问题 |
如果工具调用频繁失败,先尝试换一个更大的本地模型(如 70B),或切换到云端 Provider。
常见问题
Q: 本地模型加载太慢怎么办? A: 使用量化版本(GGUF Q4_K_M 或 Q5_K_M),在质量和速度之间取平衡。Ollama 默认使用量化版本。
Q: llama.cpp 报 HTTP 400 是什么原因? A: 通常是上下文大小不足。增加 --ctx-size 参数,确保模型和服务器版本支持请求的特性。
Q: Ollama 和 LM Studio 哪个好? A: Ollama 更轻量,适合命令行用户;LM Studio 有 GUI,适合非技术用户。功能上没有本质区别,都支持 OpenAI 兼容 API。
Q: 本地模型能不能用 thinking 模式? A: Ollama 支持 thinking(在 provider_catalog 中标记了 thinking 能力)。LM Studio 和 llama.cpp 取决于具体模型是否支持。