Appearance
ds4 是一个本地 Metal 后端服务,运行 DeepSeek V4 Flash 模型,提供 OpenAI 兼容 API。OpenClaw 通过 openai-completions provider 接入,支持工具调用和推理控制(DeepSeek 风格 thinking)。关键配置:baseUrl 设为 http://127.0.0.1:18000/v1,模型 id deepseek-v4-flash。agent 使用时 --ctx 至少 32768,否则可能报 500 prompt exceeds context。localService 支持按需启动。
OpenClaw ds4 本地 DeepSeek V4 Flash 配置指南
ds4 使用本地 Metal 后端提供 DeepSeek V4 Flash 模型,并暴露 OpenAI 兼容的 /v1 API。OpenClaw 通过 openai-completions provider 家族连接 ds4。ds4 不是 OpenClaw 内置的 provider 插件,需要在 models.providers.ds4 下配置,然后选择 ds4/deepseek-v4-flash。
- Provider id:
ds4 - Plugin: 无
- API: OpenAI 兼容 Chat Completions (
openai-completions) - 建议 base URL:
http://127.0.0.1:18000/v1 - Model id:
deepseek-v4-flash - 工具调用: 支持 OpenAI 格式的
tools和tool_calls - 推理: DeepSeek 风格
thinking和reasoning_effort
环境要求
- macOS 且支持 Metal。
- 已克隆 ds4 仓库,包含
ds4-server和 DeepSeek V4 Flash GGUF 文件。 - 有足够内存支持选择的上下文长度。更大的
--ctx值会在服务器启动时分配更多 KV 内存。
注意
OpenClaw agent turn 包含工具 schema 和工作区上下文。较小的上下文(如 --ctx 4096)可以通过直接 curl 测试,但完整的 agent 运行会因 500 prompt exceeds context 失败。agent 和工具调用至少要使用 --ctx 32768。只有当内存充足且希望使用 ds4 Think Max 时才设 --ctx 393216。
快速开始
启动 ds4-server
将
<DS4_DIR>替换为你的 ds4 仓库路径。bash<DS4_DIR>/ds4-server \ --model <DS4_DIR>/ds4flash.gguf \ --host 127.0.0.1 \ --port 18000 \ --ctx 32768 \ --tokens 128验证 OpenAI 兼容端点
bashcurl http://127.0.0.1:18000/v1/models响应中应包含
deepseek-v4-flash。添加 OpenClaw provider 配置
添加下方的完整配置,然后运行一次模型检查:
bashopenclaw infer model run \ --local \ --model ds4/deepseek-v4-flash \ --thinking off \ --prompt "Reply with exactly: openclaw-ds4-ok" \ --json
完整配置
当 ds4 已在 127.0.0.1:18000 运行时使用此配置。
json5
{
agents: {
defaults: {
model: { primary: "ds4/deepseek-v4-flash" },
models: {
"ds4/deepseek-v4-flash": {
alias: "DS4 local",
},
},
},
},
models: {
mode: "merge",
providers: {
ds4: {
baseUrl: "http://127.0.0.1:18000/v1",
apiKey: "ds4-local",
api: "openai-completions",
timeoutSeconds: 300,
models: [
{
id: "deepseek-v4-flash",
name: "DeepSeek V4 Flash (ds4)",
reasoning: true,
input: ["text"],
cost: { input: 0, output: 0, cacheRead: 0, cacheWrite: 0 },
contextWindow: 32768,
maxTokens: 128,
compat: {
supportsUsageInStreaming: true,
supportsReasoningEffort: true,
maxTokensField: "max_tokens",
supportsStrictMode: false,
thinkingFormat: "deepseek",
supportedReasoningEfforts: ["low", "medium", "high", "xhigh"],
},
},
],
},
},
},
}确保 contextWindow 与 ds4-server --ctx 值一致。maxTokens 应与 --tokens 一致,除非你有意让 OpenClaw 请求少于服务器默认的输出。
按需启动
OpenClaw 可以在选中 ds4/... 模型后自动启动 ds4。同一条 provider 配置中添加 localService:
json5
{
models: {
providers: {
ds4: {
baseUrl: "http://127.0.0.1:18000/v1",
apiKey: "ds4-local",
api: "openai-completions",
timeoutSeconds: 300,
localService: {
command: "<DS4_DIR>/ds4-server",
args: [
"--model",
"<DS4_DIR>/ds4flash.gguf",
"--host",
"127.0.0.1",
"--port",
"18000",
"--ctx",
"32768",
"--tokens",
"128",
],
cwd: "<DS4_DIR>",
healthUrl: "http://127.0.0.1:18000/v1/models",
readyTimeoutMs: 300000,
idleStopMs: 0,
},
models: [
{
id: "deepseek-v4-flash",
name: "DeepSeek V4 Flash (ds4)",
reasoning: true,
input: ["text"],
cost: { input: 0, output: 0, cacheRead: 0, cacheWrite: 0 },
contextWindow: 32768,
maxTokens: 128,
compat: {
supportsUsageInStreaming: true,
supportsReasoningEffort: true,
maxTokensField: "max_tokens",
supportsStrictMode: false,
thinkingFormat: "deepseek",
supportedReasoningEfforts: ["low", "medium", "high", "xhigh"],
},
},
],
},
},
},
}command 必须是绝对可执行路径。不支持 shell lookup 和 ~ 展开。详见 本地模型服务 各字段说明。
Think Max
ds4 仅在同时满足以下两个条件时启用 Think Max:
ds4-server以--ctx 393216或更高值启动。- 请求中使用
reasoning_effort: "max"或 ds4 等效 effort 字段。
如果使用大上下文,需要同时更新服务器参数和 OpenClaw 模型元数据:
json5
{
contextWindow: 393216,
maxTokens: 384000,
compat: {
supportsUsageInStreaming: true,
supportsReasoningEffort: true,
maxTokensField: "max_tokens",
supportsStrictMode: false,
thinkingFormat: "deepseek",
supportedReasoningEfforts: ["low", "medium", "high", "xhigh", "max"],
},
}测试
先从直接 HTTP 检查开始:
bash
curl http://127.0.0.1:18000/v1/chat/completions \
-H 'content-type: application/json' \
-d '{"model":"deepseek-v4-flash","messages":[{"role":"user","content":"Reply with exactly: ds4-ok"}],"max_tokens":16,"stream":false,"thinking":{"type":"disabled"}}'然后测试 OpenClaw 模型路由:
bash
openclaw infer model run \
--local \
--model ds4/deepseek-v4-flash \
--thinking off \
--prompt "Reply with exactly: openclaw-ds4-ok" \
--json对于完整的 agent 和工具调用冒烟测试,使用至少 32768 的上下文:
bash
openclaw agent \
--local \
--session-id ds4-tool-smoke \
--model ds4/deepseek-v4-flash \
--thinking off \
--message "Use the shell command pwd once, then reply exactly: tool-ok <output>" \
--json \
--timeout 240预期结果:
executionTrace.winnerProvider为ds4executionTrace.winnerModel为deepseek-v4-flashtoolSummary.calls至少为1finalAssistantVisibleText以tool-ok开头
故障排除
curl /v1/models 无法连接
ds4 未启动或未监听 baseUrl 中的主机和端口。启动 ds4-server 后重试:
bash
curl http://127.0.0.1:18000/v1/models500 prompt exceeds context
配置的 --ctx 太小,无法容纳 OpenClaw 的 turn。增大 ds4-server --ctx,并同步更新 models.providers.ds4.models[].contextWindow。包含工具的完整 agent turn 需要的上下文远大于单条消息的 curl 请求。
Think Max 未激活
ds4 仅在 --ctx 至少为 393216 且请求指明 reasoning_effort: "max" 时使用 Think Max。更小的上下文会回退到 high 推理。
首次请求很慢
ds4 有冷 Metal 驻留和模型预热阶段。如果 OpenClaw 按需启动服务器,将 localService.readyTimeoutMs 设为 300000。
相关文档
- 本地模型服务 — 按需启动本地模型服务器。
- 本地模型 — 选择和使用本地模型后端。
- 模型 provider — 配置 provider 引用、认证和故障转移。
- DeepSeek — 原生 DeepSeek provider 行为和推理控制。
常见问题
ds4-server 启动后 curl 报连接拒绝怎么排查?
确认 ds4-server 正在运行且监听 127.0.0.1:18000。检查 --host 参数是否设为 127.0.0.1,端口是否被占用。也可以尝试 curl http://127.0.0.1:18000/v1/models 验证。
context 超限报错 500 怎么解决?
增大 ds4-server 的 --ctx 参数(建议至少 32768),然后在 OpenClaw 配置中同步更新 contextWindow。完整的 agent 调用含工具 schema 时,上下文需求比单纯 curl 大得多。
Think Max 功能不生效,怎么办?
Think Max 需要 ds4-server 以 --ctx 393216 或更高启动,且请求中必须携带 reasoning_effort: "max"。如果满足条件仍不生效,检查服务器日志确认是否实际启用了大上下文。