Skip to content

Ollama、LM Studio 和 llama.cpp 是三种本地模型后端,让你在不联网的情况下运行 Claude Code。配置只需设置本地服务地址和 MODEL,无需 API Key。本地模型的工具调用能力取决于模型本身,建议优先选择支持 tool use 的模型。

Free Claude Code 接入 Ollama 和 LM Studio:本地模型零成本跑 Claude Code

为什么选本地模型

  • 零成本:没有 API 调用费用
  • 隐私:代码和对话不离开本机
  • 离线:不需要网络连接

本地模型的劣势是工具调用(tool use)准确率和响应质量不如云端大模型。建议先用云端模型跑通工作流,再尝试本地模型。


Ollama

安装和启动

bash
# 安装 Ollama(macOS / Linux)
curl -fsSL https://ollama.com/install.sh | sh

# 拉取模型
ollama pull llama3.1

# 启动服务
ollama serve

Windows 用户:从 ollama.com 下载安装包,安装后 Ollama 服务会自动运行。

配置 Free Claude Code

dotenv
OLLAMA_BASE_URL="http://localhost:11434"
MODEL="ollama/llama3.1"
  • OLLAMA_BASE_URL 是 Ollama 服务根地址,不要加 /v1 后缀
  • MODEL 中的模型名要和 ollama list 显示的一致,如 ollama/llama3.1:8b

验证

bash
# 检查 Ollama 是否运行
curl http://localhost:11434/api/tags
# 返回已安装的模型列表

# 启动 Claude Code
ANTHROPIC_AUTH_TOKEN="freecc" ANTHROPIC_BASE_URL="http://localhost:8082" claude

LM Studio

安装和配置

  1. lmstudio.ai 下载安装 LM Studio
  2. 在 LM Studio 中加载一个模型(推荐支持 tool use 的模型)
  3. 启动本地服务器(默认端口 1234)

配置 Free Claude Code

dotenv
LM_STUDIO_BASE_URL="http://localhost:1234/v1"
MODEL="lmstudio/你的模型名"
  • LM_STUDIO_BASE_URL 需要包含 /v1 后缀
  • 模型名用 LM Studio 界面中显示的标识符

llama.cpp

安装和启动

llama.cpp 提供 llama-server 命令,支持 Anthropic Messages 格式的 /v1/messages 端点。

bash
# 启动 llama-server
llama-server -m 你的模型.gguf --ctx-size 8192 --port 8080

配置 Free Claude Code

dotenv
LLAMACPP_BASE_URL="http://localhost:8080/v1"
MODEL="llamacpp/你的模型名"

注意事项

  • --ctx-size 至少设 8192,Claude Code 的 prompt 较长,上下文太小会报 HTTP 400
  • llama.cpp 需要支持 Anthropic Messages 协议的版本(较新版本)

本地模型的工具调用问题

Claude Code 重度依赖工具调用(读文件、写文件、执行命令等)。本地模型的工具调用能力参差不齐:

能力云端大模型本地小模型(7B-13B)
简单工具调用准确大部分能用
多工具并行稳定可能丢失部分工具
工具参数格式准确可能有格式错误
流式工具调用稳定可能有 SSE 格式问题

如果工具调用频繁失败,先尝试换一个更大的本地模型(如 70B),或切换到云端 Provider。

常见问题

Q: 本地模型加载太慢怎么办? A: 使用量化版本(GGUF Q4_K_M 或 Q5_K_M),在质量和速度之间取平衡。Ollama 默认使用量化版本。

Q: llama.cpp 报 HTTP 400 是什么原因? A: 通常是上下文大小不足。增加 --ctx-size 参数,确保模型和服务器版本支持请求的特性。

Q: Ollama 和 LM Studio 哪个好? A: Ollama 更轻量,适合命令行用户;LM Studio 有 GUI,适合非技术用户。功能上没有本质区别,都支持 OpenAI 兼容 API。

Q: 本地模型能不能用 thinking 模式? A: Ollama 支持 thinking(在 provider_catalog 中标记了 thinking 能力)。LM Studio 和 llama.cpp 取决于具体模型是否支持。