Skip to content

Everything Claude Code Healthcare Eval Harness Skill 是专为医疗软件开发场景设计的自动化患者安全评估体系。它通过五大测试门槛(CDSS 准确性、PHI 泄漏、数据完整性、临床工作流、集成合规),对 EMR/EHR/CDSS 应用的每次部署、代码变更或 CI/CD 流程进行严格把关。只要关键项(如 CDSS 准确性)有一项未达标,系统即自动阻断上线,确保患者安全“零容忍”。Skill 支持多主流测试框架,适配多种开发和部署流程,是医疗 AI 项目不可或缺的安全保障组件。

Everything Claude Code Healthcare Eval Harness:患者安全评估 Harness,CDSS 准确性测试失败则阻断部署

在医疗软件开发中,患者安全和合规性是不可妥协的底线。Everything Claude Code Healthcare Eval Harness Skill 正是为此而生——它为 EMR/EHR、CDSS 及相关医疗应用的每次上线、核心逻辑变更或数据库结构调整,提供一套自动化、强制执行的安全评估流程。相比传统的人工测试或“只测部分场景”,Eval Harness Skill 能做到——只要有一项关键安全门槛未达标,部署即被自动阻断,绝不让隐患进入生产环境。

本指南将详细讲解该 Skill 的适用场景、激活条件、全流程操作步骤、输出示例,以及与常见 Agent、其他 Skill 的协作模式,帮助你在实际项目中系统性用好这套患者安全评估体系。

1. 解决了什么问题?不用它时的隐患

在没有 Eval Harness Skill 的传统流程下,医疗软件部署往往依赖开发者手动跑测试,或者只在大版本上线前做一次全量回归。常见问题包括:

  • CDSS(临床决策支持系统)规则变更后未充分验证,导致用药交互、剂量校验等关键逻辑出错
  • PHI(受保护健康信息)泄漏风险未能被及时发现,比如 API 错误返回、URL 参数暴露等
  • 数据库结构调整后,临床数据完整性和审计追踪未被全覆盖测试
  • CI/CD 流程中测试门槛设置不严,部分失败依然允许上线
  • 人工复核遗漏,或测试覆盖率不达标

这些隐患一旦进入生产环境,轻则引发合规风险,重则直接威胁患者安全、造成医疗事故。

Healthcare Eval Harness Skill 通过自动化、强制性的五大测试门槛,将上述风险降到最低,尤其对需要通过 CI/CD 自动化部署 的医疗项目尤为关键。

2. 触发条件:何时自动激活

该 Skill 适用于以下关键场景:

  • 每次 EMR/EHR/CDSS 应用部署前(生产、预发布、灰度等环境)
  • 临床决策支持逻辑有变更(如药物交互、剂量校验、临床评分算法等)
  • 涉及患者数据的数据库结构或权限调整
  • 认证、访问控制、PHI 处理相关代码有改动
  • CI/CD 流水线配置变更,或合并冲突后需要安全复核
  • 与外部系统(如 HL7、FHIR、检验系统)集成接口升级

Skill 可与 Verification Loop 等自动化 Hook 体系协作,确保每次触发都覆盖所有安全门槛。

3. 操作流程:Step by Step 实战指南

步骤 1:集成 Skill 到项目/流水线

  • .claude/skills.yml 或对应配置文件中添加 healthcare-eval-harness
  • 确认测试用例已按五大门槛分类(详见下表)

步骤 2:本地/CI 跑关键测试(CRITICAL GATE)

三大 CRITICAL 门槛,全部 100% 通过,否则立即阻断部署:

测试类别目录示例说明
CDSS 准确性tests/cdss用药交互、剂量校验、临床评分、无假阴性等
PHI 泄漏tests/security/phiAPI 错误、日志、URL、未授权访问等
数据完整性tests/data-integrity锁定病历、审计追踪、级联删除、并发编辑等

命令行示例(以 Jest 为例,Vitest/Pytest/PHPUnit 可适配):

bash
npx jest --testPathPattern='tests/cdss' --bail --ci --coverage && \
npx jest --testPathPattern='tests/security/phi' --bail --ci && \
npx jest --testPathPattern='tests/data-integrity' --bail --ci
  • --bail:遇到第一个失败立即终止(防止漏检)
  • --coverage:强制覆盖率门槛,防止“假通过”

步骤 3:跑高优先级测试(HIGH GATE)

两大 HIGH 门槛,要求 95%+ 通过,低于阈值自动警告:

测试类别目录示例说明
临床工作流tests/clinical病历全流程、模板渲染、药品搜索、红旗提醒等
集成合规tests/integrationHL7/FHIR 消息解析、检验结果映射、异常处理等

自动统计通过率,低于 95% 给出警告但允许人工复核后上线:

bash
tmp_json=$(mktemp)
npx jest --testPathPattern='tests/clinical' --ci --json --outputFile="$tmp_json" || true
total=$(jq '.numTotalTests // 0' "$tmp_json")
passed=$(jq '.numPassedTests // 0' "$tmp_json")
if [ "$total" -eq 0 ]; then
  echo "No clinical tests found" >&2
  exit 1
fi
rate=$(echo "scale=2; $passed * 100 / $total" | bc)
echo "Clinical pass rate: ${rate}% ($passed/$total)"

步骤 4:CI/CD 流水线集成(GitHub Actions 示例)

将 Skill 推荐的安全门槛直接写入流水线配置,关键项失败自动阻断:

yaml
jobs:
  safety-gate:
    runs-on: ubuntu-latest
    steps:
      - uses: actions/checkout@v4
      - uses: actions/setup-node@v4
        with:
          node-version: '20'
      - run: npm ci

      # CRITICAL 门槛
      - name: CDSS Accuracy
        run: npx jest --testPathPattern='tests/cdss' --bail --ci --coverage --coverageThreshold='{"global":{"branches":80,"functions":80,"lines":80}}'

      - name: PHI Exposure Check
        run: npx jest --testPathPattern='tests/security/phi' --bail --ci

      - name: Data Integrity
        run: npx jest --testPathPattern='tests/data-integrity' --bail --ci

      # HIGH 门槛
      - name: Clinical Workflows
        run: |
          TMP_JSON=$(mktemp)
          npx jest --testPathPattern='tests/clinical' --ci --json --outputFile="$TMP_JSON" || true
          TOTAL=$(jq '.numTotalTests // 0' "$TMP_JSON")
          PASSED=$(jq '.numPassedTests // 0' "$TMP_JSON")
          if [ "$TOTAL" -eq 0 ]; then
            echo "::error::No clinical tests found"; exit 1
          fi
          RATE=$(echo "scale=2; $PASSED * 100 / $TOTAL" | bc)
          echo "Pass rate: ${RATE}% ($PASSED/$TOTAL)"
          if (( $(echo "$RATE < 95" | bc -l) )); then
            echo "::warning::Clinical pass rate ${RATE}% below 95%"
          fi

步骤 5:输出与预期结果

本地/CI 评估报告示例:

## Healthcare Eval: 2026-03-27 [commit abc1234]

### Patient Safety: PASS

| Category         | Tests | Pass | Fail | Status     |
|------------------|-------|------|------|------------|
| CDSS Accuracy    | 39    | 39   | 0    | PASS       |
| PHI Exposure     | 8     | 8    | 0    | PASS       |
| Data Integrity   | 12    | 12   | 0    | PASS       |
| Clinical Workflow| 22    | 21   | 1    | 95.5% PASS |
| Integration      | 6     | 6    | 0    | PASS       |

### Coverage: 84% (target: 80%+)
### Verdict: SAFE TO DEPLOY

HIGH 门槛通过率 JSON 输出:

json
{ "passed": 21, "total": 22, "rate": 95.45 }

4. 常见配套 Agent 与 Skill 协作关系

  • Healthcare Reviewer Agent 配合:自动审查临床逻辑、PHI 合规、数据安全,发现问题后建议补充测试用例。
  • Verification Loop Skill 协作:在每次合并、部署、回归时自动触发全量安全评估。
  • Eval Harness Skill 组合:支持更细粒度的评估分组和自定义门槛。
  • Safety Guard Skill 联动:阻止危险操作在评估未通过时被执行。
  • 支持 [多语言测试框架]:Jest、Vitest、pytest、PHPUnit 等,门槛和分类框架无关。

5. 常见问题与注意事项

FAQ

Q: Skill 是否只能用于 Node.js/Jest? A: 不是。Skill 的测试门槛和分类与测试框架无关,支持 Vitest、pytest、PHPUnit 等主流框架,只需适配命令和覆盖率统计。

Q: 如果 HIGH 门槛低于 95%,会阻断部署吗? A: 不会。HIGH 门槛低于 95% 时系统会自动警告,但允许人工复核后上线。CRITICAL 门槛只要有一项失败则强制阻断。

Q: 如何防止开发者跳过关键测试? A: Skill 强制使用 --bail 和覆盖率门槛,且推荐与 Safety Guard Skill 联动,确保关键测试未全通过时无法上线。


通过集成 Everything Claude Code Healthcare Eval Harness Skill,你可以为医疗软件项目构建一道自动化、零容忍的患者安全防线。无论是本地开发还是 CI/CD 自动化部署,都能确保每次上线都经得起临床安全与合规考验。如需进一步了解整个 Claude Code Agent/Skill/Hooks 体系,推荐阅读 Everything Claude Code 完全指南