Appearance
Everything Claude Code Healthcare Eval Harness Skill 是专为医疗软件开发场景设计的自动化患者安全评估体系。它通过五大测试门槛(CDSS 准确性、PHI 泄漏、数据完整性、临床工作流、集成合规),对 EMR/EHR/CDSS 应用的每次部署、代码变更或 CI/CD 流程进行严格把关。只要关键项(如 CDSS 准确性)有一项未达标,系统即自动阻断上线,确保患者安全“零容忍”。Skill 支持多主流测试框架,适配多种开发和部署流程,是医疗 AI 项目不可或缺的安全保障组件。
Everything Claude Code Healthcare Eval Harness:患者安全评估 Harness,CDSS 准确性测试失败则阻断部署
在医疗软件开发中,患者安全和合规性是不可妥协的底线。Everything Claude Code Healthcare Eval Harness Skill 正是为此而生——它为 EMR/EHR、CDSS 及相关医疗应用的每次上线、核心逻辑变更或数据库结构调整,提供一套自动化、强制执行的安全评估流程。相比传统的人工测试或“只测部分场景”,Eval Harness Skill 能做到——只要有一项关键安全门槛未达标,部署即被自动阻断,绝不让隐患进入生产环境。
本指南将详细讲解该 Skill 的适用场景、激活条件、全流程操作步骤、输出示例,以及与常见 Agent、其他 Skill 的协作模式,帮助你在实际项目中系统性用好这套患者安全评估体系。
1. 解决了什么问题?不用它时的隐患
在没有 Eval Harness Skill 的传统流程下,医疗软件部署往往依赖开发者手动跑测试,或者只在大版本上线前做一次全量回归。常见问题包括:
- CDSS(临床决策支持系统)规则变更后未充分验证,导致用药交互、剂量校验等关键逻辑出错
- PHI(受保护健康信息)泄漏风险未能被及时发现,比如 API 错误返回、URL 参数暴露等
- 数据库结构调整后,临床数据完整性和审计追踪未被全覆盖测试
- CI/CD 流程中测试门槛设置不严,部分失败依然允许上线
- 人工复核遗漏,或测试覆盖率不达标
这些隐患一旦进入生产环境,轻则引发合规风险,重则直接威胁患者安全、造成医疗事故。
Healthcare Eval Harness Skill 通过自动化、强制性的五大测试门槛,将上述风险降到最低,尤其对需要通过 CI/CD 自动化部署 的医疗项目尤为关键。
2. 触发条件:何时自动激活
该 Skill 适用于以下关键场景:
- 每次 EMR/EHR/CDSS 应用部署前(生产、预发布、灰度等环境)
- 临床决策支持逻辑有变更(如药物交互、剂量校验、临床评分算法等)
- 涉及患者数据的数据库结构或权限调整
- 认证、访问控制、PHI 处理相关代码有改动
- CI/CD 流水线配置变更,或合并冲突后需要安全复核
- 与外部系统(如 HL7、FHIR、检验系统)集成接口升级
Skill 可与 Verification Loop 等自动化 Hook 体系协作,确保每次触发都覆盖所有安全门槛。
3. 操作流程:Step by Step 实战指南
步骤 1:集成 Skill 到项目/流水线
- 在
.claude/skills.yml或对应配置文件中添加healthcare-eval-harness - 确认测试用例已按五大门槛分类(详见下表)
步骤 2:本地/CI 跑关键测试(CRITICAL GATE)
三大 CRITICAL 门槛,全部 100% 通过,否则立即阻断部署:
| 测试类别 | 目录示例 | 说明 |
|---|---|---|
| CDSS 准确性 | tests/cdss | 用药交互、剂量校验、临床评分、无假阴性等 |
| PHI 泄漏 | tests/security/phi | API 错误、日志、URL、未授权访问等 |
| 数据完整性 | tests/data-integrity | 锁定病历、审计追踪、级联删除、并发编辑等 |
命令行示例(以 Jest 为例,Vitest/Pytest/PHPUnit 可适配):
bash
npx jest --testPathPattern='tests/cdss' --bail --ci --coverage && \
npx jest --testPathPattern='tests/security/phi' --bail --ci && \
npx jest --testPathPattern='tests/data-integrity' --bail --ci--bail:遇到第一个失败立即终止(防止漏检)--coverage:强制覆盖率门槛,防止“假通过”
步骤 3:跑高优先级测试(HIGH GATE)
两大 HIGH 门槛,要求 95%+ 通过,低于阈值自动警告:
| 测试类别 | 目录示例 | 说明 |
|---|---|---|
| 临床工作流 | tests/clinical | 病历全流程、模板渲染、药品搜索、红旗提醒等 |
| 集成合规 | tests/integration | HL7/FHIR 消息解析、检验结果映射、异常处理等 |
自动统计通过率,低于 95% 给出警告但允许人工复核后上线:
bash
tmp_json=$(mktemp)
npx jest --testPathPattern='tests/clinical' --ci --json --outputFile="$tmp_json" || true
total=$(jq '.numTotalTests // 0' "$tmp_json")
passed=$(jq '.numPassedTests // 0' "$tmp_json")
if [ "$total" -eq 0 ]; then
echo "No clinical tests found" >&2
exit 1
fi
rate=$(echo "scale=2; $passed * 100 / $total" | bc)
echo "Clinical pass rate: ${rate}% ($passed/$total)"步骤 4:CI/CD 流水线集成(GitHub Actions 示例)
将 Skill 推荐的安全门槛直接写入流水线配置,关键项失败自动阻断:
yaml
jobs:
safety-gate:
runs-on: ubuntu-latest
steps:
- uses: actions/checkout@v4
- uses: actions/setup-node@v4
with:
node-version: '20'
- run: npm ci
# CRITICAL 门槛
- name: CDSS Accuracy
run: npx jest --testPathPattern='tests/cdss' --bail --ci --coverage --coverageThreshold='{"global":{"branches":80,"functions":80,"lines":80}}'
- name: PHI Exposure Check
run: npx jest --testPathPattern='tests/security/phi' --bail --ci
- name: Data Integrity
run: npx jest --testPathPattern='tests/data-integrity' --bail --ci
# HIGH 门槛
- name: Clinical Workflows
run: |
TMP_JSON=$(mktemp)
npx jest --testPathPattern='tests/clinical' --ci --json --outputFile="$TMP_JSON" || true
TOTAL=$(jq '.numTotalTests // 0' "$TMP_JSON")
PASSED=$(jq '.numPassedTests // 0' "$TMP_JSON")
if [ "$TOTAL" -eq 0 ]; then
echo "::error::No clinical tests found"; exit 1
fi
RATE=$(echo "scale=2; $PASSED * 100 / $TOTAL" | bc)
echo "Pass rate: ${RATE}% ($PASSED/$TOTAL)"
if (( $(echo "$RATE < 95" | bc -l) )); then
echo "::warning::Clinical pass rate ${RATE}% below 95%"
fi步骤 5:输出与预期结果
本地/CI 评估报告示例:
## Healthcare Eval: 2026-03-27 [commit abc1234]
### Patient Safety: PASS
| Category | Tests | Pass | Fail | Status |
|------------------|-------|------|------|------------|
| CDSS Accuracy | 39 | 39 | 0 | PASS |
| PHI Exposure | 8 | 8 | 0 | PASS |
| Data Integrity | 12 | 12 | 0 | PASS |
| Clinical Workflow| 22 | 21 | 1 | 95.5% PASS |
| Integration | 6 | 6 | 0 | PASS |
### Coverage: 84% (target: 80%+)
### Verdict: SAFE TO DEPLOYHIGH 门槛通过率 JSON 输出:
json
{ "passed": 21, "total": 22, "rate": 95.45 }4. 常见配套 Agent 与 Skill 协作关系
- 与 Healthcare Reviewer Agent 配合:自动审查临床逻辑、PHI 合规、数据安全,发现问题后建议补充测试用例。
- 与 Verification Loop Skill 协作:在每次合并、部署、回归时自动触发全量安全评估。
- 与 Eval Harness Skill 组合:支持更细粒度的评估分组和自定义门槛。
- 与 Safety Guard Skill 联动:阻止危险操作在评估未通过时被执行。
- 支持 [多语言测试框架]:Jest、Vitest、pytest、PHPUnit 等,门槛和分类框架无关。
5. 常见问题与注意事项
FAQ
Q: Skill 是否只能用于 Node.js/Jest? A: 不是。Skill 的测试门槛和分类与测试框架无关,支持 Vitest、pytest、PHPUnit 等主流框架,只需适配命令和覆盖率统计。
Q: 如果 HIGH 门槛低于 95%,会阻断部署吗? A: 不会。HIGH 门槛低于 95% 时系统会自动警告,但允许人工复核后上线。CRITICAL 门槛只要有一项失败则强制阻断。
Q: 如何防止开发者跳过关键测试? A: Skill 强制使用 --bail 和覆盖率门槛,且推荐与 Safety Guard Skill 联动,确保关键测试未全通过时无法上线。
通过集成 Everything Claude Code Healthcare Eval Harness Skill,你可以为医疗软件项目构建一道自动化、零容忍的患者安全防线。无论是本地开发还是 CI/CD 自动化部署,都能确保每次上线都经得起临床安全与合规考验。如需进一步了解整个 Claude Code Agent/Skill/Hooks 体系,推荐阅读 Everything Claude Code 完全指南。