ds4 是一个本地 Metal 后端服务，运行 DeepSeek V4 Flash 模型，提供 OpenAI 兼容 API。OpenClaw 通过 openai-completions provider 接入，支持工具调用和推理控制（DeepSeek 风格 thinking）。关键配置：baseUrl 设为 http://127.0.0.1:18000/v1，模型 id deepseek-v4-flash。agent 使用时 --ctx 至少 32768，否则可能报 500 prompt exceeds context。localService 支持按需启动。

OpenClaw ds4 本地 DeepSeek V4 Flash 配置指南

ds4 使用本地 Metal 后端提供 DeepSeek V4 Flash 模型，并暴露 OpenAI 兼容的 /v1 API。OpenClaw 通过 openai-completions provider 家族连接 ds4。ds4 不是 OpenClaw 内置的 provider 插件，需要在 models.providers.ds4 下配置，然后选择 ds4/deepseek-v4-flash。

Provider id: ds4
Plugin: 无
API: OpenAI 兼容 Chat Completions (openai-completions)
建议 base URL: http://127.0.0.1:18000/v1
Model id: deepseek-v4-flash
工具调用: 支持 OpenAI 格式的 tools 和 tool_calls
推理: DeepSeek 风格 thinking 和 reasoning_effort

环境要求

macOS 且支持 Metal。
已克隆 ds4 仓库，包含 ds4-server 和 DeepSeek V4 Flash GGUF 文件。
有足够内存支持选择的上下文长度。更大的 --ctx 值会在服务器启动时分配更多 KV 内存。

::: warning 注意 OpenClaw agent turn 包含工具 schema 和工作区上下文。较小的上下文（如 --ctx 4096）可以通过直接 curl 测试，但完整的 agent 运行会因 500 prompt exceeds context 失败。agent 和工具调用至少要使用 --ctx 32768。只有当内存充足且希望使用 ds4 Think Max 时才设 --ctx 393216。 :::

快速开始

启动 ds4-server

将 <DS4_DIR> 替换为你的 ds4 仓库路径。

<DS4_DIR>/ds4-server \
  --model <DS4_DIR>/ds4flash.gguf \
  --host 127.0.0.1 \
  --port 18000 \
  --ctx 32768 \
  --tokens 128

验证 OpenAI 兼容端点
```
curl http://127.0.0.1:18000/v1/models
```
响应中应包含 deepseek-v4-flash。

添加 OpenClaw provider 配置

添加下方的完整配置，然后运行一次模型检查：

openclaw infer model run \
  --local \
  --model ds4/deepseek-v4-flash \
  --thinking off \
  --prompt "Reply with exactly: openclaw-ds4-ok" \
  --json

完整配置

当 ds4 已在 127.0.0.1:18000 运行时使用此配置。

{
  agents: {
    defaults: {
      model: { primary: "ds4/deepseek-v4-flash" },
      models: {
        "ds4/deepseek-v4-flash": {
          alias: "DS4 local",
        },
      },
    },
  },
  models: {
    mode: "merge",
    providers: {
      ds4: {
        baseUrl: "http://127.0.0.1:18000/v1",
        apiKey: "ds4-local",
        api: "openai-completions",
        timeoutSeconds: 300,
        models: [
          {
            id: "deepseek-v4-flash",
            name: "DeepSeek V4 Flash (ds4)",
            reasoning: true,
            input: ["text"],
            cost: { input: 0, output: 0, cacheRead: 0, cacheWrite: 0 },
            contextWindow: 32768,
            maxTokens: 128,
            compat: {
              supportsUsageInStreaming: true,
              supportsReasoningEffort: true,
              maxTokensField: "max_tokens",
              supportsStrictMode: false,
              thinkingFormat: "deepseek",
              supportedReasoningEfforts: ["low", "medium", "high", "xhigh"],
            },
          },
        ],
      },
    },
  },
}

确保 contextWindow 与 ds4-server --ctx 值一致。maxTokens 应与 --tokens 一致，除非你有意让 OpenClaw 请求少于服务器默认的输出。

按需启动

OpenClaw 可以在选中 ds4/... 模型后自动启动 ds4。同一条 provider 配置中添加 localService：

{
  models: {
    providers: {
      ds4: {
        baseUrl: "http://127.0.0.1:18000/v1",
        apiKey: "ds4-local",
        api: "openai-completions",
        timeoutSeconds: 300,
        localService: {
          command: "<DS4_DIR>/ds4-server",
          args: [
            "--model",
            "<DS4_DIR>/ds4flash.gguf",
            "--host",
            "127.0.0.1",
            "--port",
            "18000",
            "--ctx",
            "32768",
            "--tokens",
            "128",
          ],
          cwd: "<DS4_DIR>",
          healthUrl: "http://127.0.0.1:18000/v1/models",
          readyTimeoutMs: 300000,
          idleStopMs: 0,
        },
        models: [
          {
            id: "deepseek-v4-flash",
            name: "DeepSeek V4 Flash (ds4)",
            reasoning: true,
            input: ["text"],
            cost: { input: 0, output: 0, cacheRead: 0, cacheWrite: 0 },
            contextWindow: 32768,
            maxTokens: 128,
            compat: {
              supportsUsageInStreaming: true,
              supportsReasoningEffort: true,
              maxTokensField: "max_tokens",
              supportsStrictMode: false,
              thinkingFormat: "deepseek",
              supportedReasoningEfforts: ["low", "medium", "high", "xhigh"],
            },
          },
        ],
      },
    },
  },
}

command 必须是绝对可执行路径。不支持 shell lookup 和 ~ 展开。详见本地模型服务各字段说明。

Think Max

ds4 仅在同时满足以下两个条件时启用 Think Max：

ds4-server 以 --ctx 393216 或更高值启动。
请求中使用 reasoning_effort: "max" 或 ds4 等效 effort 字段。

如果使用大上下文，需要同时更新服务器参数和 OpenClaw 模型元数据：

{
  contextWindow: 393216,
  maxTokens: 384000,
  compat: {
    supportsUsageInStreaming: true,
    supportsReasoningEffort: true,
    maxTokensField: "max_tokens",
    supportsStrictMode: false,
    thinkingFormat: "deepseek",
    supportedReasoningEfforts: ["low", "medium", "high", "xhigh", "max"],
  },
}

测试

先从直接 HTTP 检查开始：

curl http://127.0.0.1:18000/v1/chat/completions \
  -H 'content-type: application/json' \
  -d '{"model":"deepseek-v4-flash","messages":[{"role":"user","content":"Reply with exactly: ds4-ok"}],"max_tokens":16,"stream":false,"thinking":{"type":"disabled"&#125;&#125;'

然后测试 OpenClaw 模型路由：

openclaw infer model run \
  --local \
  --model ds4/deepseek-v4-flash \
  --thinking off \
  --prompt "Reply with exactly: openclaw-ds4-ok" \
  --json

对于完整的 agent 和工具调用冒烟测试，使用至少 32768 的上下文：

openclaw agent \
  --local \
  --session-id ds4-tool-smoke \
  --model ds4/deepseek-v4-flash \
  --thinking off \
  --message "Use the shell command pwd once, then reply exactly: tool-ok <output>" \
  --json \
  --timeout 240

预期结果：

executionTrace.winnerProvider 为 ds4
executionTrace.winnerModel 为 deepseek-v4-flash
toolSummary.calls 至少为 1
finalAssistantVisibleText 以 tool-ok 开头

故障排除

:::details curl /v1/models 无法连接 ds4 未启动或未监听 baseUrl 中的主机和端口。启动 ds4-server 后重试：

curl http://127.0.0.1:18000/v1/models

:::

:::details 500 prompt exceeds context 配置的 --ctx 太小，无法容纳 OpenClaw 的 turn。增大 ds4-server --ctx，并同步更新 models.providers.ds4.models[].contextWindow。包含工具的完整 agent turn 需要的上下文远大于单条消息的 curl 请求。 :::

:::details Think Max 未激活 ds4 仅在 --ctx 至少为 393216 且请求指明 reasoning_effort: "max" 时使用 Think Max。更小的上下文会回退到 high 推理。 :::

:::details 首次请求很慢 ds4 有冷 Metal 驻留和模型预热阶段。如果 OpenClaw 按需启动服务器，将 localService.readyTimeoutMs 设为 300000。 :::

常见问题

ds4-server 启动后 curl 报连接拒绝怎么排查？

确认 ds4-server 正在运行且监听 127.0.0.1:18000。检查 --host 参数是否设为 127.0.0.1，端口是否被占用。也可以尝试 curl http://127.0.0.1:18000/v1/models 验证。

context 超限报错 500 怎么解决？

增大 ds4-server 的 --ctx 参数（建议至少 32768），然后在 OpenClaw 配置中同步更新 contextWindow。完整的 agent 调用含工具 schema 时，上下文需求比单纯 curl 大得多。

Think Max 功能不生效，怎么办？

Think Max 需要 ds4-server 以 --ctx 393216 或更高启动，且请求中必须携带 reasoning_effort: "max"。如果满足条件仍不生效，检查服务器日志确认是否实际启用了大上下文。

OpenClaw ds4 本地 DeepSeek V4 Flash 配置指南 #

环境要求 #

快速开始 #

完整配置 #

按需启动 #

Think Max #

测试 #

故障排除 #

相关文档 #

常见问题 #

ds4-server 启动后 curl 报连接拒绝怎么排查？ #

context 超限报错 500 怎么解决？ #

Think Max 功能不生效，怎么办？ #