Ollama、LM Studio 和 llama.cpp 是三种本地模型后端，让你在不联网的情况下运行 Claude Code。配置只需设置本地服务地址和 MODEL，无需 API Key。本地模型的工具调用能力取决于模型本身，建议优先选择支持 tool use 的模型。

Free Claude Code 接入 Ollama 和 LM Studio：本地模型零成本跑 Claude Code

为什么选本地模型

零成本：没有 API 调用费用
隐私：代码和对话不离开本机
离线：不需要网络连接

本地模型的劣势是工具调用（tool use）准确率和响应质量不如云端大模型。建议先用云端模型跑通工作流，再尝试本地模型。

Ollama

安装和启动

bash

# 安装 Ollama（macOS / Linux）
curl -fsSL https://ollama.com/install.sh | sh

# 拉取模型
ollama pull llama3.1

# 启动服务
ollama serve

Windows 用户：从 ollama.com 下载安装包，安装后 Ollama 服务会自动运行。

配置 Free Claude Code

dotenv

OLLAMA_BASE_URL="http://localhost:11434"
MODEL="ollama/llama3.1"

OLLAMA_BASE_URL 是 Ollama 服务根地址，不要加 /v1 后缀
MODEL 中的模型名要和 ollama list 显示的一致，如 ollama/llama3.1:8b

验证

bash

# 检查 Ollama 是否运行
curl http://localhost:11434/api/tags
# 返回已安装的模型列表

# 启动 Claude Code
ANTHROPIC_AUTH_TOKEN="freecc" ANTHROPIC_BASE_URL="http://localhost:8082" claude

LM Studio

安装和配置

从 lmstudio.ai 下载安装 LM Studio
在 LM Studio 中加载一个模型（推荐支持 tool use 的模型）
启动本地服务器（默认端口 1234）

配置 Free Claude Code

dotenv

LM_STUDIO_BASE_URL="http://localhost:1234/v1"
MODEL="lmstudio/你的模型名"

LM_STUDIO_BASE_URL 需要包含 /v1 后缀
模型名用 LM Studio 界面中显示的标识符

llama.cpp

安装和启动

llama.cpp 提供 llama-server 命令，支持 Anthropic Messages 格式的 /v1/messages 端点。

bash

# 启动 llama-server
llama-server -m 你的模型.gguf --ctx-size 8192 --port 8080

配置 Free Claude Code

dotenv

LLAMACPP_BASE_URL="http://localhost:8080/v1"
MODEL="llamacpp/你的模型名"

注意事项

--ctx-size 至少设 8192，Claude Code 的 prompt 较长，上下文太小会报 HTTP 400
llama.cpp 需要支持 Anthropic Messages 协议的版本（较新版本）

本地模型的工具调用问题

Claude Code 重度依赖工具调用（读文件、写文件、执行命令等）。本地模型的工具调用能力参差不齐：

能力	云端大模型	本地小模型（7B-13B）
简单工具调用	准确	大部分能用
多工具并行	稳定	可能丢失部分工具
工具参数格式	准确	可能有格式错误
流式工具调用	稳定	可能有 SSE 格式问题

如果工具调用频繁失败，先尝试换一个更大的本地模型（如 70B），或切换到云端 Provider。

常见问题

Q: 本地模型加载太慢怎么办？ A: 使用量化版本（GGUF Q4_K_M 或 Q5_K_M），在质量和速度之间取平衡。Ollama 默认使用量化版本。

Q: llama.cpp 报 HTTP 400 是什么原因？ A: 通常是上下文大小不足。增加 --ctx-size 参数，确保模型和服务器版本支持请求的特性。

Q: Ollama 和 LM Studio 哪个好？ A: Ollama 更轻量，适合命令行用户；LM Studio 有 GUI，适合非技术用户。功能上没有本质区别，都支持 OpenAI 兼容 API。

Q: 本地模型能不能用 thinking 模式？ A: Ollama 支持 thinking（在 provider_catalog 中标记了 thinking 能力）。LM Studio 和 llama.cpp 取决于具体模型是否支持。

Free Claude Code 接入 Ollama 和 LM Studio：本地模型零成本跑 Claude Code ​

为什么选本地模型 ​

Ollama ​

安装和启动 ​

配置 Free Claude Code ​

验证 ​

LM Studio ​

安装和配置 ​

配置 Free Claude Code ​

llama.cpp ​

安装和启动 ​

配置 Free Claude Code ​

注意事项 ​

本地模型的工具调用问题 ​

常见问题 ​

Free Claude Code 接入 Ollama 和 LM Studio：本地模型零成本跑 Claude Code

为什么选本地模型

Ollama

安装和启动

配置 Free Claude Code

验证

LM Studio

安装和配置

配置 Free Claude Code

llama.cpp

安装和启动

配置 Free Claude Code

注意事项

本地模型的工具调用问题

常见问题